FREE DESIGN BOX

누구나 디자인을 쉽고 빠르게 할 수 있도록, 다양한 자료를 제공하는 공간입니다 :D

DESIGN BOX 각종 디자인

데이터바우처지원사업 광학문자인식(OCR) 기술 개념 원리 한계 총정리

문가든 2024. 5. 30. 15:23
728x90
반응형

 

데이터바우처지원사업에 지원할 때 개발하려는 서비스에 사용되었던 기술 'OCR 광학문자인식'입니다!

 


새롭게 발급받은 카드를 모바일에 등록할 때, 카드를 비추면 자동으로 번호가 입력되거나 출국, 입국할 때 여권을 판독기에 올리면 인적사항을 인식해서 자동으로 게이트가 열렸던 경험이 있으시죠?

 

 

 


이처럼 이미지 속 문자를 컴퓨터가 인식할 수 있도록
디지털 문자로 변환시켜주는 기술을 광학문자인식, OCR이라고 합니다.

 

 


OCR
은 컴퓨터가 학습한 대량의 데이터를 통해 이미지에서 문자를 인식하는 규칙과 패턴을 스스로 만들어내는 원리인데요,
자동으로 문자를 검출하고, 검출된 영역에서 문자를 정확히 인식한 뒤, 사전 학습모델에 기반하여 패턴과 유형을 분류합니다.

 

 


이 과정을 조금 더 자세히 설명해드리겠습니다. 먼저, 문자 영역을 컴퓨터가 쉽게 인식할 수 있도록 이미지를 보정하는 전처리를 진행합니다.
컴퓨터는 이미지 색깔 분석을 통해 비슷한 밝기를 가진 픽셀들을 덩어리로 인식하기때문에 / 색깔 차이를 분명하게 해서 인식률을 높여야합니다.이 전처리 과정에서는 컬러 이미지를 회색조로 변환하고, 필셀 값을 0 1로 분류하고 밝기와 명암 대비를 키우는 등의 기술이 요구됩니다.

 

 


전처리 과정이 끝나면 이미지 속 문자를 정확하게 식별해서 배경과 분리하는데요, 문자 영역의 회전 각도를 구한 뒤 수평형태로 만듦으로써 정확하게 문자를 인식하고 단어로 분할합니다.

 

 


이렇게 검출된 문자의 여러 특징을 분석해서 어떤 문자인지 알아내고 기계가 읽을 수 있는 데이터로 변환합니다. 이는 컴퓨터가 학습한 대량의 데이터를 반영한 딥러닝 알고리즘으로 어떤 문자인지 알아내는 과정인데요,

이 알고리즘은 특정 글씨체와같이 정해진 규격이 있다면 학습이 수월하지만, 필기체와 같이 불규칙할 경우 학습이 어려울 수도 있습니다.

 

 


마지막으로 출력된 문자의 내용적인 부분을 살펴서 부자연스러운 오류를 해결하여 정확도를 향상시키는 후처리가 진행됩니다.
문맥을 기반으로 수정하기 위한 의미 분석, 어휘 교정, 형식 조정, 데이터 검증 같은 기술을 통해 문자의 신뢰성과 사용성을 높일 수 있습니다.

 

 


이런 OCR에는 한계도 존재합니다. 첫째로, 아날로그 자료를 디지털화할 때는 자료의 보존상태나 특성에 따라 많은 비용이 발생합니다.

 

 


그래서 루이스 폰 안은 사람들이 어떤 서비스에 접속할 때 스캐닝된 고문서를 보여주고 보여지는 문자를 입력하도록 유도하는 방법을 고안했는데요, 실제로 하루에 1억개 이상의 단어가 입력되고 있으며, 1년에 약 250만권에 해당하는 분량의 문자가 디지털화 된다고 합니다.

 

 


두번째 한계는 이미지를 인식하는 것만으로는 문맥 파악이 불가능하다는 것입니다.
그래서 아래 예시를 보면, 우리는 같은 문장이라도 커플과 솔로 입장에서 각각 다른 의미로 말하는지 파악할 수 있지만, OCR만으로는 파악이 어렵습니다.

그래서 이러한 한계를 보완하고자 OCR 모델을 적용하기 전에 문맥을 학습시키기도 하는데요, 최근에는 문맥을 이해해서 문자를 유추하는 인공지능을 도입한 OCR 기술이 다수 등장하고 있습니다.

728x90
반응형