한국말 더 잘 알아듣는 AI 나온다

한국어의 특성을 반영한 언어 모델이 개발됐다.

[헤럴드경제=이정아 기자] 한국어를 더 잘 알아듣는 인공지능(AI) 기술이 국내 연구진에 의해 개발됐다.

한국전자통신연구원(ETRI)은 한국어의 의미를 최소 단위까지 고려하는 자연어 처리 모델 ‘코버트(KorBERT)’를 11일 온라인(aiopen.aihub.or.kr)에 공개했다.

코버트는 한국어를 인식하는 데 최적화된 언어 모델이다.

이 모델은 구글의 언어표현 방법을 기반으로 더 많은 한국어 데이터를 넣어 만든 형태와 교착어 특성까지 반영해 만든 버전이다.

그동안 개발자들은 언어를 활용한 AI 서비스를 만들기 위해서 구글의 다국어 언어 모델인 ‘버트’(BERT)를 사용했다. 버트는 문장 내 어절을 한 글자씩 나눈 뒤, 앞뒤로 자주 만나는 글자끼리 단어로 인식한다.

구글은 40여만 건의 위키백과 문서 데이터를 사용해 한국어 언어 모델도 개발했다.

그러나 약 512개 이상의 한국어 단어가 들어간 문서를 한 번에 처리하지 못하는 한계가 있었다.

이에 ETRI 연구진은 구글의 버트에 지난 10년간의 신문기사와 백과사전 정보를 더해 45억개의 형태소를 학습시켰다.

그러나 단순히 입력한 데이터 양만을 늘리는 방법으로 언어 모델을 고도화하는데는 한계가 컸다. 한글은 다른 언어와 달리 어근에 조사가 붙는 교착어이기 때문이다.

ETRI 정보통신전시관에서 연구진들의 가상 엑소브레인 기술을 시연하는 모습 [출처 ETRI]

[출처 ETRI]

연구진은 기술 고도화를 위해 문자에 나타난 어절을 숫자로 표현해 학습에 따라 단어가 나타날 확률 분포를 분석했다. 그 결과 한국어의 의미 최소 단위인 형태소까지 고려한 언어 모델을 개발했다.

성능 확인 결과 구글이 배포한 한국어 모델보다 4.5% 가량 우수했다. 특히 검색 결과에서 사용자가 원하는 답이 들어있는 단락을 중요도 순으로 전하는 단락 순위화(Passage Ranking) 기준에서는 점수가 7.4% 높았다.

코버트는 지난 3월 한컴오피스 지식검색 베타버전에 탑재됐다. 하반기에는 코버트를 적용한 법령분야 질의응답 API 응용 프로그래밍 인터페이스가 추가 공개될 예정이다.

개발된 언어모델은 대표적인 딥러닝 프레임워크인 ‘파이토치’(PyTorch)와 ‘텐서플로우’(Tensorflow) 환경에서 모두 사용이 가능하다.

ETRI 김현기 박사는 “이 모델을 활용해 한국어 분석, 지식추론, 질의 응답 등의 다양한 한국어 딥러닝 소프트웨어 기술이 고도화될 것으로 기대된다”고 말했다.

한편 이번 연구는 과학기술정보통신부와 정보통신기획평가원(IITP)이 추진하고 있는 ‘엑소브레인’(Exo-brain) 사업의 일환이다.

dsun@heraldcorp.com