사용자의 톤과 말투 학습해 합성하는 마이AI보이스
한국어로 녹음해도 5개 국어로 변환 가능
[서울=뉴스핌] 조수빈 기자 = 금요일 퇴근을 앞두고 힘이 빠진 목소리를 인공지능(AI)에 학습시켰더니 실제로 평소보다 차분한 기자의 목소리가 컴퓨터에서 흘러나왔다.
직접 녹음을 하고 음성을 확인하며 비슷한 분위기의 목소리를 학습시킨다. KT의 AI보이스 스튜디오 화면 갈무리. [서울=뉴스핌] 조수빈 기자 2023.06.09 beans@newspim.com |
KT의 인공지능(AI)보이스의 차별점인 '감정 더빙'이다. 톤과 목소리 크기 등을 통해 사용자의 감정을 분석해 목소리를 합성해낸다. AI보이스 제작은 간단하다. 원하는 스크립트를 선택하고 주어진 30개의 문장을 읽고 난 후 친절함, 다정함, 귀여움 등 분위기를 선택하면 AI가 녹음된 감정에 맞는 목소리를 합성해 출력하는 방식이다.
30여개의 문장을 다 읽는데 걸린 시간은 10여분. 보이스를 올려놓고 하루가 지나니 'AI 조수빈'이 읽는 스크립트를 체험할 수 있었다. 감정 구현뿐 아니라 외국어 지원도 된다. 한국어만 녹음해도 영어, 중국어, 일본어, 스페인어로 말하는 내 목소리를 들을 수 있다. 직접 써보니 전혀 할 줄 모르는 스페인어는 제법 수준급으로 들린다.
30문장은 최소 단위로, 더 많은 문장을 녹음할수록 더 자연스러운 문장 합성이 가능해진다. 한층 더 정확한 평가를 위해 밀리의 서재에 공개된 '돈과 나의 일' 오디오북을 통해 김대훈 MBC 아나운서의 AI보이스를 들어봤다. AI보이스는 평소 아나운서가 구사하는 톤, 발음, 음역대와 매우 유사해 이질감이 없었다.
최근 공개된 밀리의 서재의 아나운서 AI보이스 오디오북에도 KT의 기술이 들어갔다. 김대호 MBC 아나운서의 묵직하고 진중한 음성으로 '돈과 나의 일'을 들으니 신뢰도가 더 높아지는 기분이 들었다.
실제로 KT는 정보, 에세이, 자기계발 면에서 아나운서의 목소리에 대한 선호도가 높다고 설명했다. KT의 AI보이스는 이렇게 사용자들이 친숙한 일명 셀럽들의 보이스를 활용해 인공지능에 대한 사용자의 거부감을 낮추고 있다.
AI보이스는 현재 오디오북, 도슨트, 유튜브 시장을 중심으로 진출 중이다. 가장 큰 이유는 '효율성'이다. 시간과 비용 측면 모두 AI보이스가 월등하다.
오디오북 하나 당 재생시간은 보통 4시간을 초과한다. 성우가 이 완독본을 직접 녹음하기 위해서는 최소 일주일의 시간이 걸린다. 성우는 30문장 정도의 녹음으로 자신의 AI보이스를 제작할 수 있고, 이후 작업은 텍스트를 입력하여 AI 음성 합성으로 작업한다.
또한 사람이 직접 녹음하게 되면 실수, 오류 등으로 피로도가 누적돼 동일한 질의 작업에 한계가 생긴다는 점도 극복한다. 일주일에는 4권 정도의 책을 제작할 수 있을 정도로 시간과 비용이 단축됐다. 성우나 제작 페이지에 따라 차이는 있겠지만 3분의 1에서 5분의 1 정도로 시간과 비용이 단축되는 추세다.
녹음을 끝내고 나면 언어와 성별, 분위기를 지정해 학습을 고도화한다. KT의 AI보이스 스튜디오 화면 갈무리. [서울=뉴스핌] 조수빈 기자 2023.06.09 beans@newspim.com |
◆유튜버도 주목하는 시장...더빙까지 넘본다
AI보이스의 활용 가능성은 무궁무진하다. 지금까지는 해외에 파견된 장병의 가족을 위해 장병들의 AI 목소리로 자녀들에게 동화책을 읽어주는 서비스, 2022 카타르 월드컵 공식 응원가 '더 뜨겁게, 한국'의 고(故) 유상철 감독 목소리 복원 등이 눈길을 끌었다.
권진조 KT AI보이스 기획 운영 PM은 "최근에는 해외 진출을 준비하는 유튜버의 문의가 늘었다. 내 목소리로 직접 다국어 서비스를 제공한다는 측면에서 경쟁력이 있다고 보는 듯 하다"고 설명했다. 방송인이자 유튜버인 파비앙 역시 KT '마이AI보이스'를 사용해 보는 콘텐츠 영상을 올리기도 했다.
자막보다 더빙이 활성화된 해외 콘텐츠 시장도 노려볼 만하다. 노진우 KT AI플랫폼사업 팀장은 "기존에는 배우와 비슷한 톤과 목소리의 성우를 섭외해야 한다는 어려움이 있었지만 AI보이스를 활용하면 배우의 목소리를 학습한 AI가 더빙을 대신할 수 있다"고 설명헀다.
한편 목소리라는 고유한 데이터를 사용하기 때문에 악용될 수 있다는 우려도 있다. KT는 타인의 음성을 마음대로 가져다 쓸 수 있다는 부작용을 막기 위해서 주어진 스크립트를 '실시간'으로 읽는 방식을 선택했다. 용도별로 다양화된 스크립트를 고객이 실시간으로 읽어야 하며, 타인의 녹음 파일을 확보해서 학습시킬 순 없다. 이용약관, 운영정책에도 사용자 본인의 목소리만 사용할 것을 명시했다.
노 팀장은 "AI가 더 이상 인간을 따라하는 불쾌하거나 딱딱한 서비스가 아니라 다양한 곳에서 활용될 수 있는 가능성이라고 본다"며 "시장이 성장하면서 KT의 보이스스튜디오가 대한민국을 대표하는 오디오 콘텐츠 플랫폼으로 자리잡을 수 있게 하겠다"고 말했다.
beans@newspim.com