과학기술
“오픈AI·구글 넘는다” KAIST ‘초대형 언어모델’ 개발
뉴스종합| 2024-06-20 13:10
모아이(MoAI) 멀티모달 대형언어모델 성능 모식도 [KAIST 제공]

멀티모달 대형 언어모델이란 텍스트뿐만 아니라 이미지 데이터 유형까지 처리할 수 있는 초대형 언어모델을 말한다. 해외 대형 기업의 풍부한 컴퓨팅 자원의 지원으로부터 인간의 뇌에 있는 신경망의 개수와 유사한 수준초대형모델들이 만들어지고 있으나 학계에서는 이런 개발이 쉽지 않았다. 국내 연구진이 오픈AI의 GPT-4V와 구글의 제미나이-프로(Gemini-Pro)를 뛰어넘는 토종 멀티모달 대형언어모델을 개발했다.

KAIST는 노용만(사진) 전기및전자공학부 교수 연구팀이 오픈AI의 GPT-4V 등 기업에서 비공개하고 있는 상업 모델인 초대형 언어모델의 시각 성능을 뛰어넘는 공개형 멀티모달 대형 언어모델을 개발해 출시했다고 20일 밝혔다.

연구팀은 단순히 모델의 크기를 키우거나 고품질의 시각적 지시 조정 데이터셋을 만들지 않고 멀티모달 대형언어모델의 시각 성능을 획기적으로 높인 콜라보(CoLLaVO)와 모아이(MoAI), 2가지 기술을 연속적으로 개발했다.

콜라보는 현존하는 공개형 멀티모달 대형언어모델이 비공개형 모델의 성능에 비해 현저하게 낮은 이유를 일차적으로 물체 수준에 대한 이미지 이해 능력이 현저하게 떨어진다는 것을 먼저 검증했다.

해당 능력을 효율적으로 증가시켜 시각-언어 태스크에 대한 성능을 향상 하기 위해 연구팀은 이미지 내의 정보를 배경과 물체 단위로 분할하고 각 배경 및 물체에 대한 정보를 멀티모달 대형언어모델에 입력으로 직접 넣어주는 새로운 방법 ‘크레용 프롬프트’라는 시각적 프롬프트를 새롭게 제안했다.

또한 시각적 지시 조정 단계에서 크레용 프롬프트로 학습한 정보를 잃어버리지 않기 위해 연구팀은 물체 수준 이미지 이해 능력과 시각-언어 태스크 처리 능력을 서로 다른 파라미터로 학습해 서로 간의 정보를 잃지 않게 만드는 획기적인 학습 전략인 ‘듀얼 큐로라’를 제안했다. 이를 통해 콜라보는 이미지 내에서 배경 및 물체를 구분하는 능력이 뛰어나 일차원적인 시각 구분 능력이 크게 향상됐다.

모아이는 인간이 사물을 판단할 때 물체의 존재, 상태, 물체 간의 상호작용, 배경에 대한 이해, 텍스트에 대한 이해 등으로부터 상황을 판단하는 인지과학적인 요소에 영감을 받아서 만들어졌다.

노 교수는 “연구팀에서 개발한 공개형 멀티모달 대형언어모델이 허깅페이스 일간 화제의 논문에 추천됐고, 모든 모델을 공개형으로 출시했기 때문에 이 연구모델이 멀티모달 대형언어모델 발전에 기여할 것”이라고 말했다.

콜라보는 자연어 처리(NLP) 분야 국제 학회인 ‘인공지능언어학회(ACL Findings) 2024’에서 5월 16일 승인을 받았다. 모아이는 컴퓨터 비전 국제 학회인 ‘유럽 컴퓨터 비전 학회(ECCV) 2024’ 승인을 앞두고 있다.

구본혁 기자

nbgkoo@heraldcorp.com

랭킹뉴스