AI 목소리 빌려 콘텐츠 제작
관련 산업 성장세 보인다
전 세계적으로 세대간의 사고 및 소비 풍속 등이 뚜렷히 나타나고 있다. 1990년대 등장한 X세대에 이어 현재의 2030세대인 MZ세대까지, 이들의 특성과 개성을 구분 짓는 '세대 담론' 역시 우리 사회에서 이슈로 등장했다. 이에 뉴스핌은 MZ 이후 세대인 '알파 세대'(2010년 이후 출생)의 특성을 짚어보고 향후 우리 사회가 나아갈 방향을 제시해 보고자 한다.
[서울=뉴스핌] 이성화 기자, 방보경 인턴기자 =
채린: 어, 뭐야. 얘는 3년 전 내 친구잖아. 카톡해야지. 하이, 나 기억나?
우주: 기억나 ㅋㅋㅋ 너 예전에 나랑 결혼하기로 했었잖아 ㅋㅋㅋ
채린: 아직도 그걸 기억하냐?
아동용 만화나 드라마의 대본이 아니다. 초등학생이 영상에 입힌 음성을 받아쓴 것이다. 이 음성은 동영상 플랫폼 '틱톡'이나 유튜브에서 알파 세대에게 유행하는 콘텐츠 '버실'이다. '버전 실시간'이라는 의미를 가진 해당 콘텐츠는 특정한 상황을 만들어놓고 가상 인물들이 대화하는 상황극이다.
[포스트MZ 'α세대'] 글싣는 순서
1. α세대 그들은 누구인가?
2. 소비활동은 가상세계에서
3. 스트레스는 학교서 푼다
4. 그들만의 문화 '온라인 무덤'
5. 영상부터 음성까지…AI 활용 능숙
6. "돈도 중요" 10대부터 재테크
7. 전통적 직업관은 가라
8. 집단 탈피…이젠 개인 교육
이런 음원은 어느 영상에나 쓸 수 있다. 캐릭터들이 직접 나와서 상황극을 하는 영상에서도 쓰지만, 무작정 슬라임을 만지는 영상에도 넣곤 한다. 슬라임 영상은 시각적 자극을 주지만 소리는 없다. 그 공백을 메우려 음원을 넣는 것이다.
[서울=뉴스핌] 방보경 인턴기자 = 슬라임을 만지는 '버전 실시간' 영상으로, 10대들 사이에서 인기를 끌고 있다. [사진=틱톡 캡처] 2022.09.29 hello@newspim.com |
◆ 알파 세대, 인공지능 더빙으로 콘텐츠 만든다
핵심은 틱톡 유저들이 올리는 상황극 음원이 대부분 인공지능 더빙으로 만들어졌다는 점이다. 인공지능 더빙이란, 사용자가 입력한 텍스트를 인공지능이 읽어주는 서비스다. 유저들은 이를 직접 만들기도 하지만 대부분 다른 사람이 만든 음원을 다운로드해 쓰곤 한다.
30일 업계에 따르면 인공지능 더빙 열풍은 2020년 말부터 시작돼 최근까지 계속되고 있다. 타입캐스트 음성을 입힌 영상 중 가장 인기가 많은 건 조회수 22만이 훌쩍 넘는다. 알파 세대는 틱톡 유저들이라면 타입캐스트는 전부 다 알 거라고 입을 모은다.
알파 세대는 인공지능 더빙 콘텐츠를 적극적으로 즐긴다. 상황극에 이입해서 "채린이 말고 하은이도 주인공 해주세요", "카밀라 힘내" 하며 좋아하는 캐릭터를 응원하기도 한다. 11살 동생과 함께 타입캐스트를 즐겨본다는 신지윤(13) 양은 "둘째가 타입캐스트 상황극을 볼 때는 집안이 시끄러울 정도"라고 말했다.
음원을 다운받기보다는 직접 제작하는 유저들도 상당수다. 올해 7월부터 타입캐스트 영상을 제작하고 있는 우지윤(12) 양은 "타입캐스트를 보다가 나도 이런 걸 만들어서 틱톡에 올리고 싶다는 생각이 들어 시작하게 됐다"고 밝혔다.
[서울=뉴스핌] 방보경 인턴기자 = 타입캐스트 스토리에서 선택할 수 있는 캐릭터 목록. 현재 타입캐스트에서는 약 160명 이상의 인공지능 성우들이 활동하고 있다. [사진=타입캐스트 스토리 캡처] 2022.09.29 hello@newspim.com |
기자 역시 알파세대가 애용하는 어플 '타입캐스트 스토리'에 가입해 인물들을 골라 직접 음성을 들어봤다. 한국인 여성 기자 2명은 목소리가 조금씩 달랐다. 강수정 기자는 방송 기자들에게서 많이 들을 수 있는 중저음의 목소리인 반면, 다보나 기자는 그보다는 조금 더 높은 톤이어서 김현정 앵커와 가까웠다.
인기 캐릭터인 레베카, 지영, 유라, 민지 등의 음성도 미묘하게 달랐다. 자신이 느끼는 감정과 원하는 상황에 따라 캐릭터를 골라서 쓸 수 있다는 점이 몰입감을 높인 듯했다. 주기적으로 타입캐스트 영상을 올리는 김모(16) 양은 "톤과 감정이 있는 캐릭터들을 이용해 편집하다 보면 진짜 사람 같다"고 설명했다.
◆ 10대 겨냥한 인공지능 음성 사업, 성장세 보인다
10대들은 인공지능 보이스를 이용해 자기 생각을 표현하는 일에 익숙하다. 실제로 네오사피엔스 측 관계자는 "초등학생 대부분이 타입캐스트를 알고 있을 것"이라며 "(해당 연령대 이용자는) 몇십 만명 정도 된다"고 강조했다.
연구자들도 알파 세대가 스마트 기기의 음성으로 소통한다는 데 동의한다. LG경영연구소의 '포스트 팬데믹 시대의 신세대'는 알파 세대가 단순히 AI에 익숙해지는 것뿐 아니라 정서적 관계도 형성한다고 진단했다. '기분이 별로네. 알렉사, 기분 좋은 음악 부탁해'라거나, '시리야, 나한테 사랑한다고 말해줄래?' 하고 인공지능으로부터 위로를 얻는다는 것이다.
기업들도 알파 세대를 겨냥한 인공지능 음성 사업을 발전시키고 있다. 네이버클로바의 '클로바 스피커 똑똑사전'이 대표적으로, 질문의 의도와 맥락을 이해해 꼬리에 꼬리를 무는 대화를 할 수 있다. '태양계에서 가장 큰 행성은 뭐야?'라는 질문에 이어, 주어를 밝히지 않고 '그럼 지구보다 얼마나 커?'라고 물어도 답변해주는 식이다.
네이버클로바는 현재 똑똑사전에 있는 4개 주제 외에 아이들의 관심사를 고려해 주제를 추가할 예정이며, 스피커에 대한 고도화도 진행 중이다. 네오사피엔스 역시 타입캐스트에서 발전한 콘텐츠 서비스나 가상 캐릭터 지식재산권(IP)을 활용한 사업을 구상하고 있다.
◆ 인공지능 음성 서비스 앞으로의 전망은?
인공지능 음성 서비스는 앞으로 더욱더 성장할 것으로 보인다. 글로벌 시장조사기관 마켓앤마켓(MarketsandMarket)은 2021년 약 83억 달러로 예측된 음성인식 시장 규모가 연평균 21.6% 성장해 2026년에 220억 달러까지 증가할 것으로 내다봤다.
인공지능 음성 시장은 계속해서 커지고 있다. 지난 2일 네이버는 인공지능 더빙 서비스 '클로바더빙'의 가입자가 100만명을 돌파했다고 밝혔다. 2020년 2월 처음 서비스를 선보인 지 2년 6개월 만이다.
검색 솔루션 서비스를 제공하던 코난테크놀로지는 E2E 음성인식 기술을 통해 음성구현에 몰두하고 있다. [사진=코난테크놀로지] |
인공지능 소프트웨어 사업을 기반으로 음성 서비스를 제공하는 기업도 있다. 코난테크놀로지는 기존에 검색 솔루션 서비스를 주로 제공했으나 2017년부터는 텍스트, 동영상, 음성 관련 AI 기술을 자체 개발하고 있다.
코난테크놀로지 관계자는 "데이터나 발음 사전이 충분하지 않으면 대본을 입력했을 때 부자연스럽거나 합성할 때 에러가 날 수 있다"며 "검색과 텍스트 분야 노하우를 통해 품질 높은 음성합성 서비스를 제공하고 있다"고 말했다.
최근 기업들은 인공지능이 사람 같은 목소리를 낼 수 있게끔 집중하고 있다. 장준혁 한양대학교 융합전자공학부 교수는 "음성합성 같은 경우 인공지능 음성 서비스의 최고 단계"라며 "최신 기술 성능이 공표되지 않아서 그렇지, (기술은) 우리 생각보다 더 빨리 발전하고 있다"고 했다.
장 교수는 "3년 전에는 인공지능 스피커가 각광받았으나, 거실이라는 특정 공간에서만 사용할 수 있어 한계가 있었다"며 "지금 인공지능 음성 시장은 자동차, 네이버 클로바 등 실제적인 서비스가 가능한 플랫폼으로 발전하고 있다"고 덧붙였다.
hello@newspim.com