2021 Abstract

Title1-3. KIM WooJeong 인공지능 기반 한자 자형 인식 프로그램 개발과 데이터베이스 구축 : 단국대 한문교육연구소의 사례를 중심으로, Development of a Chinese character recognition program and establishment of a database based on AI -Focusing on the case 2021-10-06 00:59
Writer Level 10

인공지능 기반 한자 자형 인식 프로그램 개발과 데이터베이스 구축 : 단국대 한문교육연구소의 사례를 중심으로 

Development of a Chinese character recognition program and establishment of a database based on AI -Focusing on the case of Institute for Han-Character Education Research in Dankook University,  

基于人工知能開發漢字字形識別軟件與字料庫-韓國檀國大學漢文敎育硏究所實例爲主  


  • KIM WooJeong(金愚政, DanKook university, South Korea)

이 글은 인공지능 기반 OCR 기술을 활용한 한국의 역대 고전문헌 수록 한자 자형 데이터베이스 사업 현황과 향후 과제를 소개하기 위한 것이다.  

단국대 한문교육연구소에서는 한국학중앙연구원의 지원으로 <한국문집총간>, <조선왕조실록>, <일성록>, <日記廳謄錄> 등 574종의 고문헌에 수록된 3억 자의 한자를 인공지능 기반 OCR 기술을 활용하여 자동으로 인식하는 프로그램을 개발하고, 이를 데이터베이스로 구축하는 과제를 진행중이다. 

한국고전번역원 데이터베이스에 저장된 문집 이미지파일을 면(페이지) 단위로 크롤링(crawling)하여 이미지를 확보한 후, Mask R-CNN 모델을 이용해 글자위치를 추론하도록 학습시켰으며, 글자 단위로 분할된 bounding box를 생성한 후 바르게 분할되었는지 수작업으로 검토‧조정한 후, 한국고전번역원 데이터베이스의 XML 파일에 매칭하는 동시에, 유니코드 등록자와도 매칭되도록 하였다. 

그 뒤 ‘Inception-Resnet-V2’ 모델을 이용해 특징이 다른 자형들을 나누고(classification) 유사한 자형들을 묶어낸(clustering) 후 재차 일치 여부를 검수한 후 데이터베이스에 업로드하는 방식으로 진행되었다. 

200만 자를 학습데이터로 투입한 결과, 필사본 74%, 목판본 93%, 활자본 94%의 분할 정확도를 보였으며, 현재 자형 인식 정확도를 90% 수준으로 높이기 위해 900만 자의 학습데이터를 추가 투입하여 그 결과를 분석중이다. 

사업이 순조롭게 종료될 경우, 대표자형 선정, 사용빈도 조사, 共起 관계 파악, 시기별 지역별 한자 사용 양상 조사, 고문헌 연구 등은 물론 폰트 개발, 한자인식 앱 개발, 기계번역용 코퍼스 정제 등 다양한 방면에서 활용될 수 있으리라 기대한다.