[헤럴드경제=박혜림 기자] “자세히 보니 손가락이 6개…왜 이래?”
오픈AI사의 챗GPT가 쏘아 올린 인공지능(AI)의 관심이 다양한 분야로 확산되며 이미지 생성 AI기술력이 덩달아 주목받고 있다. 실제보다 더 실제 같은 이미지를 구현해내는 만큼 일각에서는 범죄 활용 가능성까지 제기되는 상황. 하지만 일견 완벽해 보이는 ‘AI 이미지’도 아직 사람의 ‘손가락’은 완벽히 구현하지 못해 그 이유에 관심이 쏠린다.
27일 업계에 따르면 최근 온라인 커뮤니티 등을 중심으로 ‘소름 돋는 80년대 홍콩 사진’이란 제목의 게시글이 관심을 모았다.
해당 게시글에는 1980~1990년대로 추정되는 홍콩 사람들의 생활모습을 포착한 사진이 여러 장 담겨 있다. 언뜻 보기엔 사람이 촬영한 것으로 보이는 이 사진은 자세히 들여다보면 깜짝 놀랄 만한 비밀이 숨겨져 있다. 사진에 등장하는 모든 인물의 손가락이 비정상적인 모양인 것. 아예 뭉개져 있거나 손가락 개수가 5개보다 많거나 적은 식이다.
해당 이미지는 스테빌리티사가 개발한 ‘스테이블 디퓨전’이라는 생성 AI 프로그램으로 만든 것이다. 스테이블 디퓨전은 문장을 이미지로 구현해주는 프로그램으로, 오픈AI사의 ‘DALLE2(달리2)’, 미드저니(Mid Journey)연구소의 ‘미드저니’, 구글 ‘딥 드림 제네레이터(Deep Dream Generator)’ 등이 유사한 프로그램이다.
이 이미지 생성 AI 프로그램들은 향상된 AI기술력을 바탕으로 최근 들어 사용자의 요구를 비교적 잘 반영한 결과물을 도출하고 있지만 유난히 ‘손가락’ 앞에선 약한 모습을 보인다. 기자가 실제 달리2를 활용해 서울 강남거리를 걷는 한국 여성의 이미지를 구현한 결과, 비교적 정확한 이목구비를 구현해낸 얼굴과 달리 손가락은 아예 흐릿하게 표현된 경우가 많았다.
전문가들에 따르면 생성 AI가 손가락 표현에 약한 이유는 ‘손가락이 해부학적으로 연결되는 방식을 AI가 제대로 이해하지 못하기 때문’이다. 손가락을 각각의 관절과 근육이 맞물려 형성된 신체라고 인식하기보다는 하나의 덩어리로 보고 있다는 것이다.
챗GPT도 ‘AI가 왜 사람의 손가락을 제대로 구현하지 못하느냐’는 질문에 “사람의 손가락은 매우 정교하고 복잡한 모양을 가지고 있어 사실적으로 렌더링하는 것이 매우 어렵다”면서 “피부, 손톱, 주름, 상호 작용하는 방식 등 미묘함을 포착하려면 수준 높은 모델링 및 렌더링기술이 필요하다”고 답했다.
AI가 사람의 신체를 표현할 때 중요도에 따라 묘사의 방식이 다르기 때문이란 얘기도 나온다. 스테빌리티사는 한 외신과 인터뷰에서 “AI 데이터세트 내에서 사람의 이미지는 손보다 얼굴이 더 중요하게 인식된다”며 그러한 경향이 이미지 구현에 반영된다고 설명했다.