“15초면 음성 모방 뚝딱”…오픈AI 신기술 공개
2024-03-30 08:53


챗GPT 개발사 오픈AI가 모방 음성 생성 도구 ‘보이스 엔진’을 공개했다. [로이터]

[헤럴드경제=박혜원 기자] 챗GPT 개발사 오픈AI가 15초 분량의 음성 샘플만으로도 모방 음성을 생성하는 인공지능(AI) 도구 ‘보이스 엔진(Voice Engine)’을 공개했다.

오픈AI는 29일(현지시간) 자사 블로그에 ‘인조(Synthetic) 음성의 도전과 기회 탐색하기’라는 제목으로 보이스 엔진의 사전 실험 결과를 공개했다. 15초 분량의 음성 샘플만 있으면 화자의 목소리와 비슷한 음성을 만들 수 있는 기술이다.

오픈AI에 따르면 2022년 말 처음 개발된 보이스 엔진은 생성형 AI 챗봇 ‘챗GPT’의 음성인식·읽어주기 기능과 텍스트-음성 변환 응용 프로그램 인터페이스(API)에 쓰이는 음성 기능 강화에 사용됐다. 지난해 말부터는 신뢰할 만한 소규모 그룹과 비공개 테스트를 통해 잠재적인 활용 가능성을 검토했다.

오픈AI는 보이스 엔진 기술을 교육, 의료 분야 등에 활용할 수 있다고 밝혔다. 어린이 교육을 위한 음성 해설 콘텐츠나 실시간 개인 맞춤형 응답 생성 기능, 동영상과 팟캐스트 등 콘텐츠를 여러 연어로 번역해 전 세계에 서비스하는 사례 등이다. 이밖에 언어 기능에 영향을 주는 질환을 앓는 환자 대상 치료 애플리케이션, 장애인용 소통 기기에 지원된 사례도 있다.

다만 오픈AI는 보이스 엔진이 범죄에 악용될 가능성을 고려해 정식 출시는 하지 않기로 했다. 오픈AI는 “인조 음성 기능의 오용 가능성 때문에 더 광범위한 출시에 대해서는 조심스럽게 접근하고 있다”며 “현재로서는 이 기술을 미리 보여주기(preview)만 하되 널리 출시하지는 않기로 했다”고 밝혔다.

이어 “사람의 목소리를 닮은 음성을 생성하는 것은 심각한 위험을 야기하며, 선거가 있는 해에는 특히 더 그렇다는 것을 인지하고 있다”며 “우리는 미국과 해외의 정부, 미디어, 엔터테인먼트, 교육, 시민사회 등 다양한 분야와 협력해 그들의 피드백을 반영하기 위해 노력하고 있다”고 설명했다.

또 “현재 보이스 엔진을 테스트 중인 파트너들은 당사자의 동의나 법적 권리 없이 개인이나 단체를 사칭하는 것을 금지하는 사용 정책에 동의했다”며 “보이스 엔진에서 생성된 모든 음성의 출처를 추적하기 위한 워터마킹 등 일련의 안전 조치를 구현했다”고 말했다.

아울러 오픈AI는 은행 계좌나 기타 민감한 정보에 접근 권한을 주는 보안 조치에 음성 기반 인증 방식을 폐지할 것을 권고했다. 오픈AI는 “궁극적으로 우리가 이 기술을 널리 배포하든 그렇지 않든, 전 세계의 사람들이 이 기술이 어디로 향하고 있는지 이해하는 것은 중요하다”며 “우리는 정책 입안자와 연구자, 개발자 등과 함께 인조 음성의 도전과 기회에 대한 대화를 계속 이어 나가기를 기대한다”고 덧붙였다.



klee@heraldcorp.com



랭킹뉴스


COPYRIGHT ⓒ HERALD CORPORATION. All Rights Reserved.