네이버 개발자, 딥러닝 활용한 자사 이미지 검색 서비스 사례 공유
"이미지 분석과 텍스트 마이닝 종합적으로 활용"
[뉴스핌=이수경 기자] 네이버가 자사 이미지 검색 서비스에 지도학습과 자율학습 등 다양한 딥러닝 기술과 전통적인 언어 처리 기술을 활용하고 있다.
25일 네이버는 강남 코엑스에서 개발자 컨퍼런스 '데뷰 2016'를 열고 딥러닝을 활용한 이미지 검색 개선 사례를 공유했다.
각각 이미지 검색 개선과 인물 이미지∙동영상 검색 개선을 담당하는 조근희 네이버 개발자, 김시연 개발자가 발표자로 나서며 '포토요약'과 '이미지 타임라인'에 대해 설명했다.
네이버 개발자 컨퍼런스 '데뷰 2016' <사진=이수경 기자> |
포토요약은 식당, 미용실, 명소에 관한 리뷰와 사진을 분석해 주제별로 사진을 구성해서 보여주는 서비스다. 서비스별로 서로 다른 클러스터(군집화) 랭킹을 적용한 것이 특징이다. 식당 섹션에서는 메뉴(음식) 사진을, 미용실에서는 시술 사진, 명소에서는 네이버가 자체적으로 보유한 DB 사진과 유사도가 높은 이미지를 먼저 보여준다.
이미지 타임라인은 모바일에서 유명인의 고화질 현장 이미지를 시간 순서에 따라 이벤트별로 묶어서 보여준다. 생방송, 콘서트, 공항 출국 등 스케줄에 따라 관련 이미지가 생성되는 점을 고려했다. 형태소 분석을 통해 문장에서 '누가', '언제', 어디서'라는 메타 데이터를 추출한다. 문서 제목과 본문, 조사의 위치를 파악해 사진과 관련해 중요한 명사구를 파악하는 것이 핵심이다.
조 개발자는 "텍스트 질의어로 이미지를 찾을 때 가장 중요한 것은 이미지에 대한 묘사가 잘된 문서"라며 "이미지와 관련된 텍스트를 잘 추출하고 텍스트에 직접 언급되지 않은 묘사를 직접 생성하는 것도 중요한 요소 중 하나"라고 말했다.
사실 유추 과정에서 여전히 단어(텍스트)가 중요하다는 점에서 텍스트 마이닝 기법은 이미지 검색 품질 개선에 크게 기여하고 있다. 텍스트 마이닝은 비정형 텍스트 데이터에서 의미 있는 정보를 찾아내는 기술이다. 이미지 분석은 정확도 개선을 위해 보조적으로 활용된다.
김 개발자는 "타임라인에서 이벤트는 같아도 문서의 작성 목적이 다를 경우 성능 저하의 문제가 발생했다"며 "사진 속 인물의 옷차림이나 헤어스타일과 같은 시각적 요소(Visual Feature)는 텍스트 마이닝으로도 발견하지 못한 아웃라이어(패턴에서 벗어나는 것) 제거에 사용할 수 있다"고 말했다.
마지막으로 조 개발자는 이미지 타임라인에서 두 번째로 중요한 요소인 시각적 요약(Visual Summary)에 대해 설명했다. 시각적 요약은 이벤트 하나당 연관되는 500~600장의 사진을 20~30장으로 추리기 위해 랭킹 시스템을 적용한 것이 특징이다.
그는 "이미지 자체 품질 등 다양성을 최대한 반영한 랭킹 시스템을 운영하고 있으며 시각적 요소를 비교하는 방식으로 중복 이미지는 제거한다"며 "그 결과 메타 데이터에서 추출한 단어를 검색했을 때 이미지 타임라인이 검색 결과에 우선 노출될 수 있는 것"이라고 설명했다.
[뉴스핌 Newspim] 이수경 기자 (sophie@newspim.com)