국립국어원, 인공지능 학습용 한국어 자료 13종 18억 어절 공개

기사입력 : 2020년08월25일 08:51

최종수정 : 2020년08월25일 08:51

인공지능 스피커 등 대화형 서비스 증가 추세 반영

[서울=뉴스핌] 이현경 기자 = 국립국어원(원장 소강춘)은 인공지능의 한국어 처리 능력 향상에 필수적인 한국어 학습 자료 13종 18억 어절 분량을 국립국어원 '모두의 말뭉치' 홈페이지에 공개한다고 25일 밝혔다.

국립국어원에서 이번에 공개한 자료는 한국어 분야의 빅데이터라고 할 수 있다. 이를 전문 분야에서는 '말뭉치'라고 한다. 챗봇이나 인공지능 비서가 한국어를 자연스럽게 알아듣고 분석해 말할 수 있으려면 반드시 다양한 한국어 말뭉치로 학습을 해야 하기 때문에 한국어 인공지능 기술의 성능 향상이 좋은 한국어 말뭉치 확보에 달려 있다.

[서울=뉴스핌] 이현경 기자 = '모두의 말뭉치' 홈페이지 [사진=국립국어원] 2020.08.25 89hklee@newspim.com

이에 국립국어원은 2018년부터 인공지능 산업계와 관련 연구 기관 등에서 공공재로 활용할 수 있는 대규모 한국어 학습 자료 구축 사업을 시작했다. 이번에 공개하는 자료는 지난해 구축한 18억 어절 규모의 말뭉치다. 공개 자료는 국립국어원에서 저작권 문제를 해결해 구축한 것이며 '모두의 말뭉치' 사이트에서 온라인 약정서를 작성하고 승인받으면 누구나 파일을 내려받아 이용할 수 있다.

문화체육관광부와 국립국어원은 지난 1998년에서 2007년까지 '21세기 세종계획'을 추진해 약 2억 어절의 자료를 구축, 공개한 바 있다. 10여 년이 지난 뒤 이번에 다시 공개하는 자료는 예전보다 9배 많은 것으로, 그동안 공개된 학습 자료의 부족으로 곤란을 겪던 한국어 처리 기술이 든든한 지원군을 만날 수 있게 됐다.

이번에 구축한 자료에서는 지난 '21세기 세종계획'보다 일상 대화, 메신저, 웹 문서 등 구어체 자료의 비중을 높였다. 이는 최근 인공지능 스피커, 챗봇 등의 대화형 서비스가 늘어나면서 구어체 대화에 대한 관심과 요구가 높아지고 있는 추세를 반영한 것이다. 특히 일상 대화 자료의 경우 표준어 위주의 수집에서 한 단계 더 나아가 지역별, 연령별로 다양한 대화 자료를 수집해 인공지능 기술에서 지역별 방언도 처리할 수 있는 발판을 마련했다.

'모두의 말뭉치'에서 받을 수 있는 자료에는 최근 10년간의 신문 기사와 서적 2만188종, 그리고 일상생활에서 음성 대화와 메신저 대화, 방송 자료, 대본 등이 포함됐고, 각종 인터넷 사이트의 블로그, 게시판의 자료 210만건도 포함돼 다양한 한국어 사용 양상을 볼 수 있다.

또한 컴퓨터가 한국어를 더 잘 분석하고 이해할 수 있도록 한국어 자료를 더욱 정밀하게 형태, 구문, 의미, 개체 등의 언어 단위별로 분석한 자료 1100만 어절과 한국어에 대한 사용자의 직관과 판단 정보를 분석한 문법성 판단과 어휘 관계 자료 30만 건도 포함됐다.

국립국어원 관계자는 "초기 구축에 많은 비용과 시간이 소요되는 한국어 말뭉치의 대규모 공개로 한국어 인공지능 서비스를 개발하는 중소기업과 새싹기업 등이 따로 시간과 비용을 들이지 않고도 한국어 처리 기술 개발에 쉽게 접근하게 됐다"고 밝혔다. 이어 "대기업이나 관련 연구 기관 등도 대규모의 기초 자원을 제공받게 돼 사양한 서비스 개발과 성능 향상에 많은 도움을 받게됐다"고 분석했다.

소강춘 원장은 "국립국어원은 앞으로도 국어 전문 기관의 이점을 살려 날로 변화하는 언어를 신속하게 반영한 말뭉치와 다양한 고품질의 언어 자료를 지속적으로 구축, 공개하여 한국어 인공지능 기술을 뒷받침하는 한국어 자원의 중심 기관으로 자리매김하도록 노력하겠다"고 강조했다.

한편 국립국어원은 이번에 공개한 자료의 의의와 활용을 주제로 한 온라인 전문가 토론회를 10월 초에 개최할 예정이다.

89hklee@newspim.com

[관련키워드]

국립국어원 빅데이터 한국어 학습

GAM - 해외주식 투자 도우미

피그마 ② 어도비 vs 피그마, AI 충격에 따른 기업 운명 엇갈려

피그마 ① AI의 역풍인가, 순풍인가…월가의 시선이 바뀌고 있다

[홍콩 대장주] 메이퇀 ③ 신성장 동력의 '폭발적 성장'

[홍콩 대장주] 메이퇀② 실적은 고속 상승, 밸류는 역대 저점

[뉴스핌 베스트 기사]

사진

송영길, 정청래 견제하며 당권 출사표 [서울=뉴스핌] 조승진 기자 = 송영길 더불어민주당 의원이 8·17 전당대회 당대표 출마를 공식 선언했다. 송 의원은 8일 서울 여의도 민주당 중앙당사 당원존에서 "원팀 민주당, 총선에서 승리하는 민주당, 국민에게 다시 희망을 주는 민주당을 다시 만들겠다"며 "나는 위기를 이겨본 사람, 무너진 당을 다시 세워본 사람이다 자신있다"고 지지를 호소했다. [서울=뉴스핌] 정일구 기자 = 송영길 더불어민주당 의원이 8일 오전 서울 여의도 민주당 중앙당사에서 당 대표 출마를 선언하고 있다. 2026.07.08 mironj19@newspim.com ◆ 송영길, 당원존서 출마 선언 "이재명이 만든 상징 공간" 출마선언식에는 김영호·민병덕·민홍철·박선원·정일영·허종식 의원과 윤준호 전 의원, 김용 전 민주연구원 부원장, 이승훈 변호사가 자리했다. 송 의원은 "출마 기자회견 전에 김밥 조찬모임을 함께했다"며 "전략 총괄을 해줄 민병덕 의원은 매주 몇 차례 김밥미팅을 했고, 허종식·김영호 의원은 간사, 김용 전 부원장은 내 대학 후배이자 동지, 이승훈 변호사는 강북 지역에서 석연찮게 후보를 박탈당했다"고 소개했다. 이어 송 의원은 "출마 선언 전에 오현지 민주당 전국대학생위원회 수석대변인 말부터 듣겠다"며 청년층을 향한 스킨십에도 공을 들이는 모습을 보였다. 당원존에서 전당대회 출마를 선언한 이유에 대해서 송 의원은 "이재명 대통령이 당 대표 시절 만든 당원존"이라며 당 대표가 되고자 했기 때문에, 여기서 하는 게 맞겠다(고 생각했고), 특히 권리당원과 소통의 장이라는 상징적 의미를 뒀기 때문"이라고 설명했다. [서울=뉴스핌] 정일구 기자 = 송영길 더불어민주당 의원이 8일 오전 서울 여의도 민주당 중앙당사에서 당 대표 출마를 선언하고 있다. 2026.07.08 mironj19@newspim.com ◆ "6·3 지방선거는 패배, 위기는 우리 안에서 시작"… 정청래 지도부 우회 비판 출마선언문에서 송 의원은 그간 민주당이 이재명 정부를 뒷받침하는 책무를 다하지 않았다며 우회적으로 정청래 지도부에 대해 비판했다. 또 이번 지방선거가 사실상 패배했다고 지적했다. 송 의원은 "민주당은 국민의힘하고만 경쟁하는 정당이 아니다. 세계 정당과 경쟁, 협력하고 이재명 정부를 강력히 뒷받침해야 한다"며 "이재명 정부의 성공은 곧 민주당의 책임"이라고 강조 했다. 이어 "지금 이 순간에도, 이재명 대통령은 혼신의 힘을 다하고 있다. 대통령 혼자 가시밭길을 걸어가게 해서는 안 된다"고 했다. 그러면서 "지난 6·3 지방선거는, 승리의 외피를 쓴 패배"라며 "70%에 육박하는 지지율과 이재명 대통령의 땀과 눈물로 만든 성과에도 당은 압승에 실패했다"고 짚었다. 그는 "위기는 밖이 아니라, 안에서 왔다. 우리 안에서 시작됐다"고 거듭 강조한 뒤 "해법도 우리 안에 있다. 이제는 집권여당다운 책임과 실력을 보여야 한다. 똘똘뭉쳐 하나로 뛰는 진짜 여당을 송영길이 만들겠다"고 했다. 또 "이번 지방선거에서 국민들이 민주당에 옐로카드(경고)를 보냈다"며 "대수롭지 않게 넘기면 다음 총선은 레드카드다. 총선 패배"라고 말했다. 그러면서 "총선에서 지면 정권 재창출은 없다. 그러면 이재명 정부의 성공도 장담할 수 없다"고 했다. 송 의원은 "2022년 대선당시 선거에서 패배했을 때 변명하지 않고 책임지고 곧바로 당대표직을 내려놓았다"고 했다. 또 "이번 전당대회는 누가 더 선명한 사람인가를 뽑는 선거가 아니다. 누가 이재명 정부와 협력해 대체불가 대한민국을 만들 대표인지를 선택하는 선거"라고 했다. [서울=뉴스핌] 정일구 기자 = 송영길 더불어민주당 의원이 8일 오전 서울 여의도 민주당 중앙당사에서 당 대표 출마 선언을 위해 이동하고 있다. 2026.07.08 mironj19@newspim.com ◆ "민주당, 동네 정당으로 축소…당이 李 국제무대 힘있게 뒷받침해줘야" 두 발언은 정 전 대표를 겨냥한 것으로 해석될 수 있다. 정 전 대표는 정치권 안팎에서 이번 선거 책임을 지고 물러나야 한다는 주장이 있었으나, 수용하지 않았다. 또 그간 검찰개혁과 관련해 보완수사권 완전폐지를 두고 정부의 '정부안 미제출'을 지적해 내부에서 '선명성 경쟁'을 한다는 비판을 받았다. 그는 "이번에 이 대통령이 포럼에서 외국 패널과 원고없이 바로 즉답하는 모습을 보며 자랑스러웠다"며 "이런 대통령을 보다 힘있게 뒷받침할 민주당이 필요하다"고 했다. 이어 "그동안 민주당 당내 지도부의 워딩(발언)을 보면 국제무대에서 이재명 정부를 뒷받침하는 언급은 너무 적었다"며 "매번 국내문제로 복닥복닥 하는 모습을 보며 답답함을 느꼈다"고 했다. 그러면서 "김대중 대통령, 노무현 대통령의 정신을 계승하는 민주당이 어떻게 동네 정당처럼 축소됐냐"며 "국민의힘과만 경쟁하는 정당이 아닌, 세계 여러 정당과 경쟁하고 협력하고 대한민국 주권을 지켜나가는 민주당을 만드는 것이 내 꿈"이라고 재차 정청래 지도부를 겨냥했다. [서울=뉴스핌] 정일구 기자 = 송영길 더불어민주당 의원이 8일 오전 서울 여의도 민주당 중앙당사에서 당 대표 출마 선언을 위해 이동하고 있다. 2026.07.08 mironj19@newspim.com ◆ "당대표 출마 선언, 정청래에 종속될 문제 아냐" 이후 기자들과 만남에서 '대통령의 마음이 김민석 전 총리, 정청래 전 대표가 아닌 송영길 의원에게 있다고 생각하냐'는 질의에 송 의원은 "당대표는 당원이 결정하는 것이고 당원의 마음이 가장 중요하다"며 즉답을 피했다. 민주당 전당준비위원회에서 선호투표 방식이 결정된 것과 관련해서 송 의원은 "결정을 존중한다. 사표방지 심리가 없어지게 됐다"며 "결과적으로 과반수 득표가 돼 부담없이 송영길을 찍을 분위기가 만들어졌다. 나로서는 승리의 카드"라고 했다. 또 '정 전 대표의 거취를 보고 출마를 판단하겠다고 하지 않았냐'는 질문에는 "정 전 대표의 출마가 확실시 되고 있다. 거기에 종속될 문제가 아니다"라고 말했다. 아울러 송 의원은 ▲'3대 메가 프로젝트' 실현 ▲반도체 전담기구 신설 ▲'AI 고속도로' 정책 뒷받침 ▲서울 주택 공급부족 문제 해결 ▲청년 해외진출을 위한 '장보고 10만 프로젝트' ▲주가누르기 방지법 통과 등을 공약으로 내세웠다. chogiza@newspim.com 2026-07-08 12:00

사진

딥시크도 '자체 AI칩' 개발 추진 [서울=뉴스핌] 고인원 기자= 중국 인공지능(AI) 스타트업 딥시크(DeepSeek)가 자체 AI 반도체 개발에 나선 것으로 알려졌다. 그동안 AI 모델 학습과 운영에 사용해 온 엔비디아와 화웨이 반도체 의존도를 줄이기 위한 전략으로 풀이된다. 개발이 성공하면 중국 AI 대표 기업으로 떠오른 딥시크의 사업 전략이 크게 바뀌는 것은 물론, 중국 AI 반도체 시장에서 영향력을 키워온 화웨이에도 새로운 경쟁자가 등장하게 된다. 로이터 통신은 7일(현지시간) 사안에 정통한 복수의 관계자를 인용해 딥시크가 자체 AI 추론용(inference) 반도체를 개발하고 있다고 보도했다. 추론은 학습을 마친 AI 모델이 사용자의 질문에 답변을 생성하는 단계로, 새로운 모델을 학습시키는 훈련(training)용 반도체와는 용도가 다르다. [AI 이미지 = 배상희 기자] 소식이 전해진 뒤 미국 엔비디아(NASDAQ:NVDA)의 주가는 개장 전 거래에서 약 1.6% 하락했다. 리처드 윈저 라디오프리모바일 애널리스트는 "엔비디아는 중국 시장에서 사실상 퇴출된 상태이며, 앞으로도 상황이 달라질 가능성은 거의 없다"며 "딥시크도 최첨단 반도체 생산 능력을 확보하지 못하면 자체 AI 반도체를 중국 외 시장에 판매하기는 사실상 불가능하다"고 말했다. 그는 따라서 이번 딥시크의 반도체 개발이 엔비디아 실적에는 큰 영향을 주지 않을 것으로 내다봤다. 딥시크는 지난해 공개한 저비용·고효율 AI 모델이 세계적인 주목을 받으며 중국 AI 산업의 대표 기업으로 떠올랐다. 다만 그동안에는 기술 상용화보다 AI 모델 성능 개선에 집중해 온 것으로 알려졌다. ◆ 화웨이 의존 줄이고 자체 생태계 구축 미국의 대중국 수출 규제로 엔비디아의 최첨단 AI 반도체 공급이 막히면서 화웨이는 약 500억달러 규모의 중국 AI 반도체 시장에서 절반가량의 점유율을 확보했다. 딥시크를 비롯한 중국 주요 AI 기업들도 화웨이 반도체를 적극 활용해 왔다. 하지만 화웨이의 독주도 흔들리고 있다. 알리바바와 바이두가 자체 AI 반도체를 개발하며 시장 점유율을 확대하고 있는 데 이어 딥시크까지 경쟁에 뛰어든 것이다. 소식통들에 따르면 딥시크의 반도체 개발은 아직 초기 단계다. 회사는 반도체 설계업체와 파운드리, 메모리 업체 등과 협의를 진행하고 있으며 프로젝트는 약 1년 전 시작됐다. 최근에는 반도체 설계 엔지니어 채용도 확대했지만 공개 채용 사이트에는 공고를 내지 않고 비공개 방식으로 인력을 확보한 것으로 전해졌다. 딥시크는 이번 보도와 관련한 논평 요청에 응답하지 않았다. [AI 이미지 = 배상희 기자] ◆ AI 추론 시장 겨냥…오픈AI도 자체 칩 개발 딥시크의 전략은 글로벌 AI 기업들의 움직임과도 맞닿아 있다. 오픈AI는 지난달 브로드컴과 공동 개발한 첫 자체 추론용 AI 반도체 '할라페뇨(Jalapeno)'를 공개했고, 앤트로픽도 자체 AI 반도체 개발을 검토 중인 것으로 알려졌다. 딥시크에는 미국의 대중국 반도체 수출 규제도 중요한 배경이다. 미국은 중국 기업들이 엔비디아의 최첨단 AI 반도체를 구매하지 못하도록 막고 있으며, 중국 정부는 자국 기업들에 국산 AI 반도체 개발을 독려하고 있다. 딥시크 창업자인 량원펑은 2024년 중국 언론과의 인터뷰에서 미국의 반도체 수출 규제가 회사의 가장 큰 과제 중 하나라고 밝힌 바 있다. 딥시크는 초기에는 엔비디아 H800 반도체를 이용해 AI 모델을 학습시켰지만, 이후 화웨이 어센드(Ascend) 반도체 사용 비중을 꾸준히 늘려왔다. 지난 4월에는 화웨이 어센드에 최적화된 V4 모델을 공개했고, 화웨이는 V4-Flash 모델 학습에도 자사 반도체가 일부 사용됐다고 밝혔다. 이후 중국 대형 IT 기업들의 화웨이 어센드 950 반도체 주문도 크게 증가한 것으로 알려졌다. 딥시크가 개발 중인 추론용 반도체는 AI 산업에서 가장 빠르게 성장하는 시장을 겨냥한다. AI 서비스가 확산되면서 컴퓨팅 수요가 모델 학습보다 실제 서비스를 위한 추론 단계로 빠르게 이동하고 있기 때문이다. 추론용 반도체는 범용 GPU보다 가격이 저렴하고 전력 소비도 적다는 장점이 있다. 다만 성공을 장담하기는 어렵다. 경쟁력 있는 AI 반도체를 개발하려면 막대한 자금과 수년의 개발 기간이 필요하며, 미국의 수출 규제로 중국 기업들은 최첨단 해외 파운드리와 고대역폭메모리(HBM) 접근에도 제약을 받고 있다. 한편 딥시크는 최근 기업가치 520억~590억달러를 인정받는 조건으로 70억달러 규모의 첫 외부 투자 유치를 추진하고 있다. 수년간 외부 투자를 거부해 온 기존 전략을 바꾸는 첫 행보다. koinwon@newspim.com 2026-07-07 22:00