스마트폰 대중화로 도래한 '영상의 시대'
진정한 영상 시대 위해 기술적 난제 해결해야
스마트폰이 야기한 '영상시대'
바야흐로 '영상의 시대'다. 경쟁력 있는 영상 이미지 센서를 생산하고 있는 소니(Sony)가 다시 부활하고 있다. 인텔에 17조원에 인수된 모빌아이도 자율주행 자동차용 카메라 기술 회사다.
영상이 이처럼 뜨고 있는 것은 사물을 분별하고 인식하는 수단으로 영상만한 게 없기 때문이다. 예를 들어 현재 스마트폰에 채택되고 있는 인식 기술로는 RFID(Radio Frequency Identification), 홍채 인식, 지문 인식, 음성인식, 안면 영상 인식기술 등이 가능하다. 이 가운데 어떤 기술이 가장 효과적일까.
RFID의 경우 대상에 RFID 태그 칩(Tag chip)을 몸에 붙이거나 심어야 한다. 하지만 사람에게 RFID 태그 칩을 심는 것은 거부감이 크다. 홍채 인식, 지문인식 기능은 인체 정보가 누출된다는 부담이 있다. 이 또한 개인의 깊은 정보를 포함하고 있어 거부감이 크다.
하지만 안면 영상 인식은 그렇지 않다. 우리는 태어나면서 얼굴을 노출한다. 얼굴 노출에 대한 거부감이 그래서 거의 없다. 우리는 태어나면서부터 '영상 인식'을 통해 성숙한다. 다시 말해 아기는 엄마와 눈을 맞추고 서로 얼굴을 보면서 소통한다. 이처럼 우리 얼굴은 태어나면서 인식 기술의 가장 기초가 된다.
음성은 변조가 가능하고 정보가 제한적이지만 얼굴은 다양한 감정과 의사표현이 가능하다. 그러니 영상이 가장 많은 입체 정보를 제공할 수 있다. 카메라 이미지 센서의 기능만 충분하다면 가장 완벽한 생체 인식 수단인 셈이다.
영상 시대, 해결해야 할 과제들
최근 애플의 아이폰 X가 새로 소개됐다. 애플 기술자들은 아이폰 3D 안면인식 기술을 구현하는 핵심 부품을 '로미오'와 '줄리엣'이라 부른다. 로미오 모듈은 사용자 얼굴에 3만개의 레이저 점을 쏘아 독특한 특징들을 도면화하고 줄리엣 모듈은 이 패턴을 읽는 적외선 카메라를 포함한다. 애플은 아이폰X 공개 행사에서 페이스 ID 기능을 소개하면서 사용자가 아닌 닮은 사람이 페이스 ID로 잠금을 해제할 확률은 100만분의 1이며 기존 지문인식보다 보안성이 더 뛰어나다고 설명했다.
물론 아직 갈 길은 많이 남았다. 의문점도 많다.
쌍둥이 얼굴 차이를 인식할 수 있는가. 어릴 때 얼굴과 나이들어 주름이 진 얼굴을 동일하게 인식할 수 있나. 화장한 얼굴과 민낯의 차이를 알 수 있을까. 성형 전후의 차이도 알까. 얼굴에서 드러나는 감정의 차이도 인식할 수 있나. 웃는 얼굴과 화난 얼굴을 다른 사람으로 착각하진 않을까. 부모, 형제의 닮은 얼굴도 찾을 수 있을까. 더 나아가 어두운 사진과 밝은 사진, 조명의 차이, 얼짱 각도의 차이도 인식해야 한다.
스마트 폰에 얼굴 영상을 이용한 인식 기술을 실현하기 위해선 기술적인 면에서도 많은 진전이 있어야 한다. 스마트폰 내의 인공지능 프로세서를 동작하기 위해 전력 소모가 적은 프로세서와 인공지능 알고리즘을 개발해야 한다. 인공지능 딥러닝 알고리즘 자체도 판단의 정확성을 높이면서도 동시에 메모리를 적게 사용하고 전력 소모를 줄여, 배터리 소모도 줄여야 한다. 얼굴인식으로 10여분 만에 스마트폰 배터리가 모두 소모될 수도 있다.
인공지능 딥 러닝 학습을 위해선 많은 사진이 필요하다. 아기는 매일 매일 수많은 영상 이미지를 뇌에 담으면서 엄마와 아빠를 알아 낸다. 반면 스마트폰에 엄마 아빠를 인식하기 위해 수백 만장의 사진을 스마트폰에 저장할 수는 없지 않나. 필요하다며 극소 크기의 거의 무한대의 용량의 메모리를 스마트폰에 넣어야 한다.
또한 학습을 위해 하루 종일 사진만 찍을 순 없지 않나. 스마트폰 자체가 스마트폰 사용자가 인식하지 못하고 하루 종일 사진을 찍어야 한다. 인공지능 얼굴 인식을 위해 메모리 가격이 100만원을 넘을 순 없지 않나.
일반적으로 우리가 사람을 확인하는데는 세 가지 절차가 필요하다. 입양된 사람이 부모를 찾을 때, 헤어진 이산 가족을 찾을 때 이런 절차를 거친다. 먼저 서로 얼굴을 본다. 음성으로 상대방을 확인한다. 몇 가지 과거 기억을 되살린다. 그리고 잃어 버린 가족인 지를 확인하고 얼굴을 부여잡고 눈물 흘린다. 이처럼 인식 기술도 영상 인식 기술을 바탕으로 하고 다양한 기술이 융합된다.
영상 과제 해결하면 삼성이 애플 넘는다
영상만큼 정확하고 확실한 데이터는 없다. 또한 인공지능이 영상 데이터 처리에 가장 적합하다. 눈은 우리 인체에서 가장 발달한 센서다. '백문이 불여일견'이라는 속담이 맞다. 미래 스마트폰의 기능과 모습도 인간을 닮아간다. 그러나 이처럼 인간을 닮은 스마트폰을 개발하기 위해 기술 발전의 과제는 여전히 남아 있다. 이걸 먼저 확보하면 삼성이 애플을 넘어설 수 있다.
[김정호 카이스트 전기 및 전자공학과 교수]