아마존, 애플, 마이크로소프트, 바이두 등
'신경망' 기술 이용해 방언, 억양 문제 해결 나서
[뉴스핌= 이홍규 기자] 글로벌 정보기술(IT) 기업들이 음성 데이터 수집에 열을 올리고 있다. 이벤트를 열어 사투리를 녹음하는 것은 물론, 아파트까지 만들어 사람들의 일상 속 음성 데이터를 수집하고 있다.
스마트 홈 비서 시장이 본격 개막한 가운데 정확성을 높여 경쟁력을 확보하겠다는 계획이다.
◆ '신경망' 기술 쥐고 '목소리' 사냥 나선 기업들
지난 12일 자 블룸버그통신에 따르면 아마존, 애플, 마이크로소프트, 바이두는 전 세계적으로 음성 데이터 수집에 나섰다. 마이크로소프트는 전세계 여러 도시에 아파트를 만들었다. 가정에서 사용하는 지원자들의 언어와 목소리를 기록하기 위해서다. 아마존은 인공지능 서비스 '알렉사'가 음성으로 얻은 사용자들의 명령을 매 시간 디지털 창고로 전송한다. 바이두는 중국에서 사용되는 각종 방언들을 수집하고 있다.
기업들은 이렇게 수집한 데이터로 컴퓨터가 이를 분석·이해하고 사용자들의 명령과 물음에 응답할 수 있도록 가르킨다. AI 기술을 이용해서다.
![]() |
<사진=블룸버그통신> |
홈 비서 시스템의 핵심 기술인 음성인식은 그동안 꾸준히 개발되고 발전해왔다. 하지만 정확성 결여로 대중화 시대를 열기에는 불충분했다. 무엇보다 언어에 대한 다양한 데이터가 부족했고, 소음이나 방언 등을 식별할 수 있는 기술이 부재했다. 하지만 인공지능과 기계학습이 등장하면서 얘기가 달라졌다.
인공지능의 신경망은 광범위한 데이터를 요구한다. 신경망을 이용한 음성 인식 엔진을 이용하면 할수록 여러 음성과 언어들을 이해할 수 있다. 과거에는 기업들이 공공 기관을 통해 제한적으로 데이터를 수집했지만 이제는 자체 서비스와 제품들을 통해 수집한다. 애플의 시리(Siri)가 대표적이다.
◆ 바이두, 중국 방언 수집 위해 설날 때 마케팅 벌여
인공지능 기술을 등에 업은 기업들은 이제 주요 해결 과제였던 방언과 억양 문제를 해결하는데 주력하고 있다.
예를 들면 바이두는 올해 초 중국 설날 기간 전국 각지에서 사용되는 방언을 수집하기 위한 마케팅 캠페인을 벌였다. 바이두는 2주만에 1000시간 이상 분량의 음성을 녹음하는데 성공했다. 고향 방언에 자부심을 갖고 있던 많은 지원자들이 나서 캠페인에 참여했다. 쓰촨성의 한 고등학교에서는 학생들이 캠페인을 위해 1000개 넘는 고대시를 읽기도 했다.
바이두의 아담 코츠 인공지능 연구소 소장은 "95%의 정확성으로도 충분치 않다. 우리의 목표는 오차율을 1%로 낮추는 것"이라고 말했다.
![]() |
<사진=블룸버그통신> |
마이크로소프트는 소음 속에서 보다 정확하게 음성을 인식하기 위해 비디오 게임기 '엑스박스(Xbox)'용 어플리케이션을 출시했다. '보이스 스튜디오'라고 불리는 이 앱은 엑스박스 사용자들이 영화를 시청하거나 게임을 즐길 때 나누는 대화를 수집하기 위해 만들어졌다. 회사는 사용자에게 포인트를 지급하거나, 아바타 용 디지털 의류 등을 무료로 지급하면서 사용자들의 참여를 유도했다.
이 같은 계획은 브라질에서 성공을 거둬 윈도우OS 용 개인 비서 소프트웨어인 '코타나'의 브라질식 포루투갈어 버젼을 출시하는 데 도움을 줬다.
또 마이크로소프트는 특정 상황에서도 적용할 수있는 음성 인식 시스템을 개발하고 있다. 그동안 회사는 공항의 기내 방송에도 여행자들의 질문에 응답할 수 있는 인식 기술을 개발해왔다. 현재 이 기술은 맥도날드 드라이브 스루 자동 주문시스템에 사용되고 있다.
문에서 나는 삐걱거리는 소리나, 아이들의 소음을 무시할 수 있도록 설계됐다. 아마존 역시 알렉사가 도로 소음이나, 문을 여는 소리를 구분할 수 있도록 기술을 개발 중이다.
◆ 구글 '적으면 더 많게(less-is-more)' 가설 적용
구글의 접근법은 좀 다르다. 구글은 음성 인식 기술에 '적으면 더 많게(less-is-more)' 가설을 적용한다. 이는 어른들이 제 2언어를 배울 때 아이들보다 더 힘든 이유를 설명하는 가설이다. 다른 기업들보다 단편적인 방법을 이용하는 것이다.
예를 들면 데이터를 설정할 때, 구글은 수십만개의 2~5초 길이의 음성 마디(snippets)를 함께 묶는다. 구글의 프랑수아즈 뷰파이스 연구원은 "이 과정은 계산 능력이 덜 필요하기 때문에 보다 쉽게 테스트하고 조정할 수 있다"고 말했다.
전문가들은 기업들이 현재와 같은 방법과 기술을 이용하면 조만간 몇 년 이내에 인간이 기술과 자연스럽게 대화를 나눌 수 있을 것이라고 확신한다.
하지만 일부 전문가들은 보다 많은 시행착오가 필요하다고 전망하기도 한다. 신경망 기술은 여전히 정복되지 않은 분야기 때문이다.
마이크로소프트의 쉐동 황 음성인식 수석 연구원과 구글의 뷰파이스 연구원은 "시리와 알렉사가 진정한 이야기꾼(conversationalists)이 되는 시대가 언제 도래할지는 결코 알수 없다"고 입을 모았다.
[뉴스핌 Newspim] 이홍규 기자 (bernard0202@newspim.com)