전체기사 최신뉴스 GAM
KYD 디데이
문화·연예 문화·연예일반

속보

더보기

문체부·국립국어원 '챗GPT 말뭉치 사업' 긴급진단…현주소는?

기사입력 :

최종수정 :

※ 본문 글자 크기 조정

  • 더 작게
  • 작게
  • 보통
  • 크게
  • 더 크게

※ 번역할 언어 선택

문체부, 국어원과 'K-챗GPT' 저작권·활용방안 논의
국립국어원, K-GPT 개발 지원 '말뭉치' 사업
이달 말 '모두의 말뭉치' 영문판 홈페이지 개통
말뭉치 사업, 올바른 한국 정보 알리기 위한 기초 작업

[서울=뉴스핌] 이현경 기자 = 한국형 챗GPT 개발을 지원하는 국립국어원이 이달 말 '모두의 말뭉치' 홈페이지의 영문판을 개통한다.

'모두의 말뭉치'는 국립국어원이 거대 인공지능(AI) 기술에 활용될 언어 자료를 공식적으로 게시하는 온라인 공간이다. '모두의 말뭉치'의 영문판 홈페이지 구축은 한국 관련 정보의 오류 발생을 줄일 수 있는 발판을 마련한 것으로 해석된다. 

국어원에 따르면 '말뭉치 사업'은 고차원적인 한국어를 이해할 수 있는 자료인 동시에 저작권이 해결된 정보이기 때문에 기존 챗GPT가 소개하는 한국 정보보다 신뢰성도 높다. 이에 잘못된 한국 정보를 바로 잡는데 기여할 것으로 기대한다.  

[서울=뉴스핌] 이현경 기자 = 국립국어원의 '모두의 말뭉치' 홈페이지 2023.03.17 89hklee@newspim.com

유희정 국립국어원 언어정보과 학예연구사는 뉴스핌을 통해 "3월 말까지 '모두의 말뭉치' 영문 페이지를 개통하고,  올해 안으로 외국인 이용자의 홈페이지 회원가입 간소화를 위한 작업도 추진한다"고 밝혔다.

현재 '모두의 말뭉치' 홈페이지는 국문판만 개설돼 있다. 이곳에서도 국내외인 상관 없이 회원가입만 하면 국어원이 제공하는 한국어 말뭉치 자료를 내려받아 사용·활용할 수 있다. 가입 과정에서 휴대폰 번호를 통한 본인 인증이 필요한데, 외국인은 불가하기 때문에 그간 이메일이나 우편을 통한 서면 자료를 제출해야 하는 불편함이 있었다. 올해 내로 이 과정을 간소화해 외국인도 편리하게 한국어 말뭉치 자료를 활용할 수 있게 됐다.

장소원 국립국어원장은 말뭉치 사업이 한국에 대한 정확한 정보를 해외에 전하는데 도움이 될 것이라고 강조했다. 현재 공개된 챗GPT의 한국어 이해 능력과 한국에 대해 설명하는 정보는 신뢰할 수 없다는 평가다.

장 원장은 "한국어 챗GPT를 잘 만들려면 한국어 말뭉치를 잘 만들어야 한다"며 "챗GPT-4의 한국어 능력은 이전보다 나아졌지만, 앞선 세대는 잘못된 정보가 많았다. '국립국어원장이 누구냐'고 물으니 '김영권 교수'라며 거짓 정보를 말하더라"라고 말했다.

이어 "우리나라에 대한 정보를 잘 전달하기 위해서 말뭉치 사업이 필요하다"면서 "아직은 (오픈AI의)챗GPT 수준이 신뢰할 정도는 아니다. 잘 모르면 모르겠다고 하면 좋겠는데 지어내기도 한다"며 "미국에서 만든 챗GPT이기 때문에 한국어 말뭉치를 어디에서 가져온 것인지도 모른다. 국어원의 말뭉치 사업은 정교하고 고차원적인 해석이 가능하도록 하는 말뭉치 작업이기 때문에 한국어 능력과 정보에 대한 신뢰성을 올릴 수 있다. 또한 대기업, 작은 기업도 모두 활용할 수 있다"고 언급했다.

◆ 챗GPT 열풍… 문체부·국어원 K-GPT 개발 지원

[사진=게티이미지뱅크]

전 세계적으로 초거대 인공지능(AI)시대가 본격적으로 개막했다. 지난해 11월 미국의 인공지능 연구개발 기업 오픈AI가 개발한 챗GPT가 세상에 공개되면서다. AI의 인간을 뛰어넘는 학습 능력은 모두가 인정하는 부분이지만 자연스러운 언어 구사를 통한 소통은 신기술의 발전으로 평가된다.

챗GPT의 성능이 입증된지 불과 6개월도 채 되지 않은 지난 14일(현지시각)에는 인공지능 챗봇 '챗GPT'의 능력이 한 단계 더 향상됐다는 소식이 전해졌다. 오픈AI는 GPT-4를 공개하고 챗GPT가 문자뿐 아니라 사람의 손글씨, 이미지도 인식하고 이전보다 오류 발생률이 줄었다고 밝혔다. 앞서 11월에 공개된 GPT-3.5에 비해 GPT-4는 기존 회당 3000단어에서 2만5000단어를 처리할 정도로 수행력이 높아졌으며, 특히 한국어 처리 이해 정확도를 77%로 끌어 올리며 높은 성능을 자랑했다.

전 세계적인 챗GPT 열풍에 발맞춰 올해 2월 문체부는 국립국어원과 함께 추진하는 '한국어를 잘하는 K-챗GPT' 개발을 지원한다고 밝혔다. 이에 지난달 24일 AI 등 신기술 관련 저작권, 활용방안과 관련해 논의할 워킹그룹을 발족했다. 이 워킹그룹은 2027년까지 한국어 특성을 반영한 고품질 말뭉치 10억 어절 구축 계획을 세울 예정이다. 

올해는 한국형 챗GPT가 빠르게 개발될 수 있도록 25종, 약 1억2000만 어절의 고품질 한국어 말뭉치를 구축해 배포한다. 국어원에 따르면 4월 중 25종 말뭉치 사업과 관련한 발주를 마무리하고 5월 중 계약까지 체결한 후 수립된 올해 계획이 시행된다.

유희정 국어원 학예연구사는 "챗GPT-4가 올해 나온다는 건 지난해 말부터 예측이 됐다. 최근 챗GPT를 사용해보면 알겠지만 한국어로 소통이 가능하지만 한국에 대한 정보, 한국 문화와 한국어에 대한 이해는 뛰어나지 않다"고 평가했다.

◆ 국어원, '저작권' 문제 해결된 말뭉치 자료

국어원이 추진하는 말뭉치 사업은 AI가 '고차원적'인 한국어 처리 능력을 할 수 있도록 하는 밑바탕 작업이다. 국어원은 2018년부터 대규모 한국어 말뭉치 사업을 시작해 37종(약 22억 어절)을 공개 사이트인 '모두의 말뭉치' 통해 제공하며 한국어 인공지능 개발에 활용되고 있다.

고품질의 말뭉치는 사람이 직접 말뭉치에 한국어 분석 정보(어휘 의미, 구문, 개체명, 감성 등)를 입력하고 검수하는 과정을 거치는데, 이 과정에 비용이 많이 들기 때문에 한국어 말뭉치 제공은 스타트업의 언어자료 구축 비용 절감과 개발된 인공지능 기술의 고도화에 기여하고 있다.

국어원이 제공하는 '말뭉치'는 '저작권' 문제가 해결된 자료다. 여러 분야의 정보를 제공하는 AI의 학습을 위해 다양한 방면의 자료가 필요하다보니 자료 수집 과정에서 중복된 자료, 거짓 정보까지 포함된다. 여기에 출처가 분명하지 않으면 저작권 문제까지 번질 수 있다. 누구나 자료를 쓸 수 있게 하기 위해 저작권 문제에 집중하고 있으며 예산도 저작권 관련 비중이 가장 높다. 

유희정 연구사는 "실제로 웹크롤링(웹 검색을 통해 추출하는 자료)을 통한 공개된 데이터를 개발과 연구에 사용할 때 윤리적인 문제나 저작권 문제가 발생한다"고 말했다.

이어 "저작권을 확보한 자료를 수집하더라도 인공지능이 학습할 수 있는 형식으로 가공이 필요한데 이 작업을 국어원에서 한다"며 "인공지능 모델이 한국어를 처리하기 위해 이 자료를 어떤 뜻으로 해석해야 하고 어떤 문장으로 분석해야하는 지 등의 지침을 만들고 데이터화하는 작업까지 한다"라고 소개했다. 

유 연구사는 "카카오나 네이버와 같은 대기업은 AI 모델에 학습시킬 다양한 한국어 자료를 확보할 사정이 되지만 이에 비해 중소기업이나 스타트업은 거대 데이터 수집이 힘들고, 이 과정에서 자료가 중복되거나 사실이 아니거나 저작권이나 윤리적인 문제가 일어날 수 있다"며 "국어원이 제공하는 자료는 저작권과 관련해서는 안심하고 사용할 수 있다"고 덧붙였다. 

89hklee@newspim.com

[뉴스핌 베스트 기사]

사진
'내란가담' 이상민, 항소심 징역 9년 [서울=뉴스핌] 홍석희 기자 = 12·3 비상계엄 당시 특정 언론사에 단전·단수 지시 혐의를 받는 이상민 전 행정안전부 장관이 12일 항소심에서 징역 9년을 선고받았다. 내란전담재판부인 서울고법 형사1부(재판장 윤성식)는 이날 오후 내란 중요임무 종사 등 혐의로 재판에 넘겨진 이 전 장관에게 징역 9년을 선고했다. 앞서 1심 재판부는 징역 7년을 선고한 바 있다. 12·3 비상계엄 당시 특정 언론사 단전·단수를 지시한 혐의를 받는 이상민 전 행정안전부 장관이 12일 항소심에서 징역 9년을 선고받았다. [사진=뉴스핌 DB] 재판부는 이 전 장관의 내란 중요임무 종사 혐의를 유죄로 판단하며 "내란이 성공해 현재의 헌법질서가 무너지면 원래 상태로 회복하는 것은 어려운 일이 될 것이다. 내란 행위에 대해 엄중한 처벌이 필요하다"고 판시했다.  이 전 장관은 계엄법상 주무부처 장관임에도 윤 전 대통령의 위헌·위법적 계엄 선포를 방조하고, 특정 언론사 단전·단수 지시를 전달하는 등 내란에 순차적으로 공모한 혐의로 1심에서 징역 7년을 선고받았다. 1심 재판부는 언론사 단전·단수 지시 혐의에 대해 "피고인이 법조인으로서 장기간 근무했고 비상계엄의 의미와 그 요건을 잘 알 수 있는 지위에 있었던 점과 피고인이 언론사 단전·단수에 대한 협조 지시를 하기 직전 경찰청장과의 통화를 통해 국회 상황에 대해 인식하고 있었던 점을 종합해볼 때, 피고인에게 내란 중요임무 종사의 고의 및 국헌문란의 목적이 있었다"며 유죄로 판단했다. 특검은 항소심 결심 공판에서 "본 사건은 대한민국이 수립한 민주주의에 대한 테러"라며 이 전 장관에게 징역 15년을 선고해 달라고 재판부에 요청했다. hong90@newspim.com 2026-05-12 15:57
사진
[6·3 지선 Q&A]사전투표 29~30일 [서울=뉴스핌] 송기욱 기자 = 오는 6월 3일 9회 지방선거가 실시된다. 본후보 등록일은 오는 14~15일 오전 9시부터 오후 6시까지다. 사전투표는 5월 29일부터 30일까지 이틀간 진행된다. 유권자가 반드시 알아야 할 투표 시간과 선거운동 기준, 여론조사 공표 금지 기간, 투표 때 유의 사항을 중앙선거관리위원회가 펴낸 책자를 통해 질의응답(Q&A)으로 정리한다.      선거일 투표 시간은 오전 6시부터 오후 6시까지다. 사전투표 역시 오전 6시부터 오후 6시까지 가능하며 거소투표자를 제외한 모든 유권자가 참여할 수 있다. 일반 지역 유권자는 이번 지방선거에서 시·도지사와 교육감, 기초단체장, 광역·기초의원 등을 선출하기 위해 총 7장의 투표용지를 받게 된다. 선거일 전 6일인 5월 28일부터 선거일 투표 마감 시각까지 정당 지지도나 당선인을 예상하게 하는 여론조사 결과 공표·인용 보도가 금지된다. 다만 금지기간 이전 실시된 여론조사 결과는 관련 요건을 준수할 경우 공표할 수 있다. 또 일반 유권자도 문자메시지와 사회관계망서비스(SNS), 인터넷 등을 활용해 선거운동을 할 수 있다. 선거일 당일에는 인터넷·전자우편·문자메시지를 제외한 일체의 선거운동이 금지된다. 기표소 안에서 투표지를 촬영하는 행위 역시 허용되지 않는다. 다음은 6·3 지방선거 관련 꼭 알아야 할 주요 Q&A다. -선거일과 투표 시간은 ▲6월 3일 오전 6시 ~ 오후 6시. 거소·사전 투표자를 제외한 해당 투표구의 선거인. -사전 투표일과 시간은 ▲5월 29일(금) ~ 5월 30일(토) 2일간 오전 6시 ~ 오후 6시. 거소 투표자를 제외한 모든 선거인. 읍·면·동마다 1개소 투표소 설치. -선거일 당일 선거 운동 여부와 금지 사항은 ▲일체의 선거운동 금지. 다만 인터넷·전자우편·문자메시지를 이용한 선거운동은 가능. 투표 마감시각 종료 이전에 선거인에 대해 투표하고자 하는 정당이나 후보자 또는 투표한 정당이나 후보자의 표시 요구 금지. -선거일 후 답례 금지 사항은 ▲금품 또는 향응을 제공하는 행위. 방송·신문 또는 잡지 기타 간행물에 광고하는 행위. 자동차에 의한 행렬을 하거나 다수인이 무리를 지어 거리를 행진하거나 거리에서 연달아 소리 지르는 행위. 다만 공개 장소 연설·대담용 자동차를 이용해 당선 또는 낙선 거리 인사를 하는 것은 가능. 일반 선거구민을 모이게 해 당선 축하회 또는 낙선에 대한 위로회를 개최하는 행위나 현수막을 게시하는 행위는 금지됨. 다만 선거일 다음 날부터 6월 16일까지 13일 동안 읍·면·동마다 1매의 현수막을 게시하는 것은 가능함. -이번 지방선거에서 투표할 수 있는 사람은 ▲선거일 현재 만 18살 이상(2008년 6월 4일까지 출생)의 국민은 선거권이 있음. 공직선거법 제15조 제2항 제3호에 따른 외국인은 지방선거 선거권이 있음. -후보자 기호는 어떻게 결정되나 ▲후보자 기호는 후보자 등록 마감일을 기준으로 국회에 의석을 갖고 있는 정당의 후보, 의석이 없는 정당의 후보, 무소속 후보의 순으로 결정됨. 국회에 의석을 갖고 있는 정당 간의 기호 순위는 다수 의석 순. 의석이 없는 정당 간에는 정당 명칭의 '가나다'순으로 함. 무소속 후보자는 추첨에 의해 기호를 결정함. -후보자 정보는 어떻게 확인할 수 있나 ▲선거관리위원회는 선거인이 올바른 선택을 할 수 있도록 후보자가 제출한 서류를 선거일까지 공개하고 있음. 후보자 등록이 완료되면 인터넷 홈페이지를 통해 후보자 인적사항과 후보자가 제출한 재산신고서, 병역사항 신고서, 학력에 관한 증명서, 세금 납부·체납 사항, 전과기록에 관한 증명서류를 공개함. -공식 선거운동은 언제부터 하나 ▲선거운동기간은 5월 21일부터 선거일 전일인 6월 2일까지임. -후보자나 선거운동 관계자만 선거운동을 할 수 있나 ▲후보자 가족의 선거운동은 1991년, 일반 유권자의 선거운동은 1994년 이후 허용됨. 현행 공직선거법에서는 일반 유권자도 선거운동을 할 수 있음. 선거운동 기간이 아닌 때라도 제한된 방법인 전화 또는 말, 문자메시지, 인터넷 이용 등으로 선거운동을 할 수 있음. -일반 유권자가 할 수 있는 선거운동방법은 어떤 것이 있나 ▲선거운동을 할 수 있는 일반 유권자는 선거일을 포함해 언제든지 문자메시지나 전자우편, 인터넷 홈페이지, 사회관계망서비스(SNS)를 이용해 선거운동을 할 수 있고 선거일이 아닌 때에 전화나 말로 선거운동 할 수 있음. 선거운동기간 중에는 공개 장소에서 특정 정당이나 후보자에 대한 지지를 호소하는 등 법에서 정한 방법으로 선거운동을 할 수 있음. 특정 후보자를 위한 선거운동 자원봉사자로 활동할 수 있음. 선거운동기간 중 길이 25㎝ 너비 25㎝ 높이 25㎝ 이내 소형의 소품등을 본인의 부담으로 제작 또는 구입해 몸에 붙이거나 지니는 방법으로 선거운동을 할 수 있음. 다만 선거운동을 해 주는 대가로 수당·실비나 음식물을 제공받을 수 없음. -일반 유권자가 자신의 소셜미디어에 (예비)후보자를 지지하는 글을 게시해 팔로어에게 전송할 수 있나 ▲선거일을 포함해 언제든지 가능함. -(예비)후보자로부터 받은 선거운동정보를 자신의 팔로어에게 돌려보기(retweet)가 가능한가 ▲선거일을 포함해 언제든지 가능함. -(예비)후보자나 일반 유권자가 자신의 카카오톡 프로필이나 상태 메시지에 (예비)후보자의 사진이나 지지 호소의 글을 게재할 수 있나 ▲선거일을 포함해 언제든지 가능함. 중앙선거관리위원회. [사진=뉴스핌 DB] -거소투표제도란 무엇인가 ▲몸이 불편해 투표소에 가서 투표할 수 없는 선거인 등을 위해 자신이 머무는 자택 등에서 우편으로 투표할 수 있도록 한 제도임. 거소투표를 하려면 거소투표신고를 해야 함. -이번 선거에서 유권자들은 몇 장의 투표용지를 받나 ▲시·도지사 선거, 교육감 선거, 구·시·군 장 선거, 지역구 시·도의원 선거, 비례대표 시·도의원 선거, 지역구 구·시·군의원 선거, 비례대표 구·시·군의원 선거를 포함해 모두 7개 선거가 실시되므로 투표용지도 7장임. 다만 제주특별자치도, 세종특별자치시는 4장(시·도지사 선거, 교육감 선거, 지역구 시·도의원 선거, 비례대표 시·도의원 선거)의 투표용지를 받음. 2026년 4월 30일까지 실시 사유가 확정된 재·보궐선거 지역의 선거인은 재·보궐선거 투표용지를 함께 받음. -본인 투표소 위치를 어떻게 확인할 수 있나 ▲구·시·군 선관위가 각 가정에 발송하는 투표안내문을 확인하면 됨. 지방자치단체의 '선거인명부 열람시스템'을 이용하거나 중앙선거관리위원회 홈페이지 투표소찾기 연결 서비스를 통해 투표소 위치를 확인할 수 있음. -투표하러 갈 때 준비해야 할 것은 ▲주민등록증, 공무원증, 여권, 운전면허증, 국가유공자증, 장애인등록증, 관공서 또는 공공기관이 발행한 사진이 첩부된 신분증 등 선거인 본인 여부를 확인할 수 있는 증명서나 서류가 필요함. 신분증의 모바일 신분증(앱 실행화면)으로도 본인 확인이 가능함. 다만 신분증 등을 사진 촬영하거나 화면 캡처 등을 통해 저장한 이미지 파일은 사용할 수 없음. 각 가정에 발송한 투표안내문에 선거인명부 등재 번호가 기재돼 있음. 등재번호를 확인하고 가시면 투표시간 단축할 수 있음. -선거권이 없는 자녀를 데리고 투표소에 갈 수 있나 ▲선거인은 초등학생 이하의 어린이와 함께 투표소 안에 출입할 수 있음. 다만 기표소 안에는 미취학 아동만 들어갈 수 있음. -신체에 장애가 있어 기표소에서 혼자 기표할 수 없는 경우 어떻게 투표하나 ▲시각장애인과 신체에 장애가 있어 혼자서 기표할 수 없는 선거인은 보조를 위해 그 가족 또는 본인이 지명한 2명을 동반할 수 있음. -거소투표신고를 한 사람은 선거일 투표소에서 투표할 수 없나 ▲거소투표신고를 한 선거인이 거소투표를 하지 않고 선거일에 해당 투표소의 투표관리관에게 거소투표용지와 회송용봉투를 반납하면 투표할 수 있음. 만약 거소투표용지에 기표가 돼 있으면 다시 투표할 수 없음. -기표소 안에서 투표지를 촬영할 수 있나 ▲기표소 안에서 투표지를 촬영할 수 없음. 이는 투표의 비밀을 보장하기 위해서임. 투표인증샷을 찍으시려면 투표소 입구 등에 설치한 포토존이나 투표소 표지판 등을 활용하면 됨. 22대 국회의원선거 사전투표가 시작된 2024년 4월 5일 인천 계양구 계양3동행정복지센터에 마련된 사전투표소에서 군인들이 투표를 하고 있다. [사진=뉴스핌 DB] -SNS에 투표인증샷을 게시할 때 유의해야 할 점은 ▲선거일에 기호를 나타내는 인증샷(엄지손가락, V자 표시 등)을 SNS에 게시할 수 있음. 다만 기표한 투표지를 촬영해 게시해서는 안됨. -선거여론조사 결과 공표가 제한되는 기간이 있나 ▲누구든지 선거일 전 6일(5월 28일)부터 선거일의 투표마감시각까지 선거에 관해 정당에 관한 지지도나 당선인을 예상하게 하는 여론조사(모의투표나 인기투표에 의한 경우 포함)의 경위와 그 결과를 공표하거나 인용해 보도할 수 없음. 다만 선거일 6일 전에 실시된 여론조사 결과는 공표·보도 요건을 준수해 언제든지 보도할 수 있음. -선거에 관한 여론조사 결과를 공표·보도할 때 유의해야 할 사항은 ▲누구든지 선거에 관한 여론조사 결과를 공표 또는 보도하는 경우에는 선거여론조사기준으로 정한 12가지 사항을 함께 공표·보도하여야 함. 조사의뢰자, 선거여론조사기관, 조사지역, 조사일자, 조사대상, 조사방법, 표본의 크기, 피조사자 선정방법, 응답률, 표본오차, 질문내용, 권고 무선 응답비율(무선전화 응답비율이 100분의 70에 미달한 때). 조사의뢰자(언론사 등)는 선거여론조사기관이 첫 공표·보도 전 여론조사 결과를 등록할 수 있도록 해당 여론조사 결과의 공표·보도 예정일시를 여론조사기관에 통보해야 함. 선거여론조사기관은 중앙여심위 홈페이지 등록내용을 의뢰자에게 공표·보도 전까지 통보해야 함. 누구든지 선거에 관한 여론조사 결과를 공표·보도하는 경우에는 중앙여심위 홈페이지에 등록된 내용만 공표·보도해야 함. -이미 발표된 여론조사 결과를 인용해 공표·보도할 때 유의해야 할 사항은 ▲이미 공표·보도된 여론조사 결과를 다시 인용해 공표·보도하는 경우에는 조사의뢰자, 선거여론조사기관, 조사일자, 조사방법과 함께 '그 밖의 사항은 중앙선거여론조사심의위원회 홈페이지 참조'라고 표기해야 함. oneway@newspim.com 2026-05-12 06:00
기사 번역
결과물 출력을 준비하고 있어요.
종목 추적기

S&P 500 기업 중 기사 내용이 영향을 줄 종목 추적

결과물 출력을 준비하고 있어요.

긍정 영향 종목

  • Lockheed Martin Corp. Industrials
    우크라이나 안보 지원 강화 기대감으로 방산 수요 증가 직접적. 미·러 긴장 완화 불확실성 속에서도 방위산업 매출 안정성 강화 예상됨.

부정 영향 종목

  • Caterpillar Inc. Industrials
    우크라이나 전쟁 장기화 시 건설 및 중장비 수요 불확실성 직접적. 글로벌 인프라 투자 지연으로 매출 성장 둔화 가능성 있음.
이 내용에 포함된 데이터와 의견은 뉴스핌 AI가 분석한 결과입니다. 정보 제공 목적으로만 작성되었으며, 특정 종목 매매를 권유하지 않습니다. 투자 판단 및 결과에 대한 책임은 투자자 본인에게 있습니다. 주식 투자는 원금 손실 가능성이 있으므로, 투자 전 충분한 조사와 전문가 상담을 권장합니다.
안다쇼핑
Top으로 이동