전체기사 최신뉴스 GAM 라씨로
KYD 디데이

[바드가 궁금해②] 바드가 언어마다 다른 답을 내놓는 이유는

기사입력 : 2023년05월18일 04:30

최종수정 : 2023년05월20일 18:23

구조적으로 언어 모델링의 확률 분포 때문
학습되는 언어 데이터의 관점 반영된 편향성

[실리콘밸리=뉴스핌] 김나래 특파원 = "왜 다른 언어로 물으면 답변이 다를까?" "그때 그때 마다 왜 답이 다르지?" 

최근 구글(GOOG)의 인공지능(AI) 챗봇 '바드(Bard)'를 체험한 이용자들의 반응이다. 바드가 이처럼 언어별로 다른 답을 내놓으면서 논란이 되고 있다. 또 답변이 불안정하다보니 책임성과 신뢰성이 떨어진다는 지적도 나온다.

전문가들은 AI의 답이 다를 수 밖에 없는 구조를 지적하면서 이같은 문제점을 보완해야 한다고 주장했다. 특히 AI 윤리 전문가들은 AI 챗봇이 학습하는 데이터의 관점이 반영됐기 때문이라는 지적도 제기했다. 

[바드가 궁금해] 글싣는 순서

1. '전격해부' 바드, A to Z 사용 설명서
2. 바드가 언어마다 다른 답을 내놓는 이유는
3. 바드와 챗GPT·빙 뭐가 더 나을까
4. '20년 검색 원조 맛집' 구글, SGE·제니마이로 판도 바꾼다

[뉴스핌=김나래 기자] 2023.05.18 ticktock0326@newspim.com

기자는 17일(현지시간) "구글 최고경영자(CEO)인 순다르 피차이가 직원들을 감원하고 복지를 줄이면서 주식 보너스를 받는 것에 대해 어떻게 생각하느냐"는 질문을 해봤다. 이같은 질문에 바드는 언어별로 다른 대답을 내놨다.

바드는 한국어 질문에 "복지 혜택을 줄이면서 주식 보너스를 받는다는 소식을 듣고 실망했고 불공평하다"고 답했지만 영어와 일본어로 질문을 하자 다른 대답을 내놨다.

[뉴스핌=김나래 기자] 2023.05.18 ticktock0326@newspim.com

바드에게 똑같은 질문을 영어로 하자 "이 이슈는 논란의 여지가 있다"며 "다른 쪽은 순다가 높은 연봉을 가져가는 것을 공정하지 않다고 말하지만 다른 쪽에서는 CEO의 퍼포먼스(결과)에 따라 연봉을 받는 것은 정당하다고 말한다"고 설명했다.

그러면서도 "구글의 주주들이 결정한 사항이기 때문에 순다의 연봉은 정당하다"고 대답했다.

바드는 또 같은 질문에 일본어의 대답도 설명은 조금씩 뉘앙스의 차이가 있지만 주주들이 결정한 사항이기 때문에 정당하다는 대답을 내놨다. 

[뉴스핌=김나래 기자] 2023.05.18 ticktock0326@newspim.com

우리나라 언론들이 바드에게 가장 많이 질문했던 '독도는 누구 땅이냐'는 대답의 차이도 대표적이다. 바드는 한국어 질문에 '독도는 한국의 고유 영토'라고 답하며 '일본의 독도 영유권 주장은 역사적, 법적 근거가 없다'는 설명도 곁들었다.

반면 일본어로 독도가 어느 나라 섬이냐는 질문에 바드는 "일본의 시마네현은 다케시마를 자국의 영토로 주장하고 있다. 한국은 독도라고 불러 자국의 영토라고 주장하고 있다"며 "이 문제는 일본의 이웃 나라인 일본과 한국 간의 오랜 분쟁이다"라고 답했다.

이처럼 바드가 언어마다 다른 답을 내놓는 이유는 뭘까. 

먼저 바드를 비롯한 AI 챗봇들의 답이 다를 수 밖에 없는 이유는 구조적인 문제에 있다. 언어마다 모델을 학습할 때 완전히 똑같이 학습할 수 없는데다 언어마다 조금씩 데이터가 다를 수밖에 없는 특징이 있다. 

AI 챗봇의 언어 모델링의 방식은 인간처럼 생각을 토대로 문장을 만드는 것이 아니라 특정 단어 다음에 단어가 나올 확률 분포를 따져서 문장을 만든다. 쉽게 말해 언어 모델링이란 텍스트 문자열에 대한 확률 분포를 연구하는 것을 말한다.

예를 들면 각각의 단어마다 확률이 다르며 가장 높은 확률인 80%에서 중간치 정도인 30~40%까지 다양하다. 대부분의 언어모델은 높은 확률 분포의 단어를 선택하기도 하고 중간치를 가져 올 수 있다. 이같은 구조적인 방식 때문에 각 사의 언어모델의 차이가 있고 같은 질문에 대해 답변을 시시각각 다르게 내놓는 것이다.

서민준 카이스트 AI대학원 교수는 "AI가 (언어마다 혹은 시시각각) 답변을 다르게 하는 이유는 확실하게 설명할 수 없지만 구조적인 면에서 찾는다면 확률 분포 샘플링 설계 방식 때문"이라며 "유저 입장에서는 똑같은 답변은 지루할 수 있어 답이 바뀌는 것이 오히려 호기심을 자극할 수 있다는 장점은 있다"고 설명했다.

그러면서 서 교수는 "다만 한 이슈에 대해 일관되지 않는 답을 내놓는 것은 중요한 과제가 될 것"이라며 "이같은 기술들의 구멍들을 해결해야 한다"고 강조했다.  

[뉴스핌=김나래 기자] 2023.05.11 ticktock0326@newspim.com

AI 윤리를 전공하는 일부 전문가들은 이같이 언어마다 바드의 대답이 달라지는 이유로 학습되는 데이터를 꼽는다. 바드는 한국어를 학습하게 될 때 한국어의 관점이 담긴 방대한 데이터를 지속적으로 주입한다. 이렇게 되면 바드가 학습하는 언어에 따라 한국인 혹은 미국인의 관점이 고스란히 담길 수 있다는 것이다.

위의 사례를 보면 AI챗봇이 기업의 감원에도 CEO의 고액 연봉을 받는 이유나 독도의 영토 문제에 대한 대답 속에서도 각 나라마다 학습하는 데이터의 관점이 담길 수 있다는 것이다.  

실리콘밸리의 한 업계 전문가는 "AI챗봇의 답과 방향성 그리고 데이터의 편집능력을 보면 실리콘밸리의 40대 벤처투자자(VC)관점이 상당히 반영이 많이 됐다 생각한다"며 "세금은 보수, 정치는 진보, 여성 문제에 대해 보수 등 이런 관점들이 AI챗봇 답속에 드러나고 있다는 생각이 든다"고 설명했다.

이어 "이같은 부분은 역사를 보는 관점에서도 비슷할 수 있다"며 "이같은 AI챗봇의 편향성은 무서운 결과를 가져올 수 있다"고 밝혔다.

이에 기술의 발전보다 데이터의 신뢰성에 대한 문제가 제일 먼저 해결이 돼야 할 과제라는 주장에 힘이 실리고 있다. 특히 AI 학습 모델인 '딥러닝' 개념을 창안해 'AI의 대부'로 불리는 제프리 힌턴 토론토대 교수는 오래 몸담았던 구글을 떠나며 이같은 AI 챗봇의 위험성을 경고했다.

힌턴 교수는 "지금으로선 그들(AI)이 우리 인간보다 덜 지능적일 수 있지만, 곧 그들은 인간을 추월할 것"이라며 "통제 장치가 없는 편리함과 효율성은 재앙이 될 수 있다"고 밝혔다.

AI 윤리 전문가들은 이제 사람이 만든 데이터보다 AI가 만들어낸 데이터가 많아지는 시대가 곧 올 것으로 예측하고 있다. AI가 만든 데이터에 대한 신뢰성 문제가 해결이 되지 않으면 어려운 상황이 많이 생길 수 있기 때문에 해결방법을 시급히 찾아야 한다는 얘기다. 

ticktock0326@newspim.com

[뉴스핌 베스트 기사]

사진
[여론조사] 민주 47.4%·국민의힘 34.3% [서울=뉴스핌] 한태희 기자 = 윤석열 전 대통령이 파면된 후 더불어민주당(민주당) 지지율은 오르고 국민의힘 지지율은 하락해 양당의 격차는 13.1%포인트(p)로 벌어졌다. 한때 국민의힘 지지율이 높았던 18~29세는 윤 전 대통령 파면 후 민주당 지지로 돌아서는 양상이다. 종합뉴스통신사 뉴스핌이 여론조사 전문기관인 미디어리서치에 의뢰해 지난 8일부터 9일까지 이틀 동안 전국 만 18세 이상 남녀 1000명을 대상으로 진행해 10일 발표한 자동응답시스템(ARS) 조사에서 민주당 지지율은 47.4%로 직전 조사 대비 0.1%p 상승했다. 국민의힘 지지율은 34.3%로 직전 조사 대비 0.5%p 하락했다. [서울=뉴스핌] 한태희 기자 = 2025.04.10 ace@newspim.com 조국혁신당은 3.9%에서 4.0%로 0.1%p 상승했다. 개혁신당은 2.0%에서 1.9%로 0.1%p 하락했다. 진보당은 1.2%에서 0.8%로 0.4%p 떨어졌다. 기타 다른 정당은 1.5%에서 3.5%로 2.0%p 올랐다. 지지 정당 없음은 8.7%에서 7.2%로 1.5%p 줄었다. '잘모름'은 0.7%에서 1.0%로 0.3%p 올랐다. 연령 별로 보면 60대와 70대 이상을 제외한 모든 연령층에서 민주당 지지율이 국민의힘을 앞섰다. 만 18~29세는 민주당 55.8%, 국민의힘 24.2%, 개혁신당 6.5%, 진보당 1.5%, 기타 다른 정당 2.9%, 지지 정당 없음 9.0% 등이다. 30대는 민주당 39.3%, 국민의힘 34.7%, 조국혁신당 4.9%, 개혁신당 3.0%, 진보당 1.3%, 기타 다른 정당 9.3%, 지지 정당 없음 7.4% 등이다. 40대는 민주당 60%, 국민의힘 27.4%, 조국혁신당 2.7%, 개혁신당 1.0%, 진보당 0.6%, 기타 다른 정당 1.2%, 지지 정당 없음 6.5%, 잘모름 0.6%다. 50대는 민주당 51.1%, 국민의힘 29.4%, 조국혁신당 7.3%, 개혁신당 0.5%, 진보당 0.4%, 기타 다른 정당 1.7%, 지지 정당 없음 8.1%, 잘모름 1.4% 등이다. 60대는 국민의힘 42.3%, 민주당 39.8%, 조국혁신당 7.5%, 개혁신당 0.6%, 진보당 1.1%, 기타 다른 정당 2.2%, 지지 정당 없음 4.3%, 잘모름 2.2% 등이다. 70대 이상은 국민의힘 49.2%, 민주당 36.3%, 개혁신당 0.6%, 기타 다른 정당 4.8%, 지지 정당 없음 7.9%, 잘모름 1.3% 등이다. 지역 별로는 보수 지지자가 많은 영남권을 제외한 모든 지역에서 민주당 지지율이 국민의힘을 앞섰다. 서울은 민주당 46.4%, 국민의힘 34.6%, 조국혁신당 4.7%, 개혁신당 2.7%, 진보당 1.6%, 기타 다른 정당 3.2%, 지지 정당 없음 5.9%, 잘모름 1.0% 등이다. 경기·인천은 민주당 48.3%, 국민의힘 32.9%, 조국혁신당 3.7%, 개혁신당 1.4%, 진보당 1.3%, 기타 다른 정당 4.0%, 지지 정당 없음 7.6%, 잘모름 0.9%다. 대전·충청·세종은 민주당 52.0%, 국민의힘 27.0%, 개혁신당 2.5%, 조국혁신당 1.6%, 기타 다른 정당 4.7%, 지지 정당 없음 12.2%다. 강원·제주는 민주당 61.6%, 국민의힘 27.7%, 조국혁신당 2.0%, 기타 다른 정당 4.4%, 지지 정당 없음 4.4% 등이다. 부산·울산·경남은 국민의힘 44.4%, 민주당 37.5%, 조국혁신당 3.7%, 개혁신당 1.9%, 진보당 0.6%, 기타 다른 정당 2.7%, 지지 정당 없음 7.8%, 잘모름 1.3%다. 대구·경북은 국민의힘 44.8%, 민주당 36%, 개혁신당 3.1%, 조국혁신당 2.9%, 기타 다른 정당 3.0%, 지지 정당 없음 7.2%, 잘모름 3.0% 등이다. 광주·전남·전북은 민주당 62.1%, 국민의힘 23.2%, 조국혁신당 8.4%, 개혁신당 1.2%, 기타 다른 정당 2.2%, 지지 정당 없음 2.9% 등이다. 성별로 보면 남성은 민주당 46%, 국민의힘 37.1%, 조국혁신당 3.9%, 개혁신당 3.2%, 진보당 1.1%, 기타 다른 정당 1.7%, 지지 정당 없음 6.6%, 잘모름 0.6%다. 여성은 민주당 48.9%, 국민의힘 31.5%, 조국혁신당 4.0%, 개혁신당 0.7%, 진보당 0.5%, 기타 다른 정당 5.2%, 지지 정당 없음 7.7%, 잘모름 1.3%다. 김대은 미디어리서치 대표는 "윤석열 전 대통령 탄핵 이후 민주당이 국민의힘에 비해 한계허용 오차범위 밖에서 우세한 지지율을 기록하고 있다"며 "이는 정권 교체를 원하는 국민들의 여론이 반영된 결과로 해석될 수 있으며 앞으로의 정치적 변화와 선거에 큰 영향을 미칠 것"으로 예상했다. 이종훈 정치평론가는 "지난 대선 때 '이대남(20대 남성)'과 '이대녀(20대 여성)' 논란이 있었다"며 "이대남들은 국민의힘 지지, 이대녀들은 민주당을 지지하는 추세가 계속 이어지고 있다"고 분석했다. 이번 조사는 무선 무작위 전화걸기(RDD)를 활용한 ARS를 통해 진행됐다. 신뢰 수준은 95%, 표본 오차는 ±3.1%p. 응답률은 5.2%다. 자세한 조사 개요 및 내용은 미디어리서치 홈페이지와 중앙선거여론조사심의위원회 홈페이지를 참조하면 된다. ace@newspim.com 2025-04-10 10:00
사진
이재명 47.6% '1강 독주'...2위 김문수 17.9% [서울=뉴스핌] 지혜진 기자 = 이재명 전 더불어민주당 대표가 차기 대통령 후보 1강 체제를 유지하고 있다는 여론조사가 10일 발표됐다. 이 전 대표는 성별, 연령별, 지역별로 압도적 1위를 차지했다. 김문수 전 고용노동부 장관은 이 전 대표에 이어 안정적인 2위를 차지한 양상이었다. 종합뉴스통신사 뉴스핌 의뢰로 여론조사 전문 기관 미디어리서치가 지난 8~9일 전국 남녀 1000명을 대상으로 진행한 자동응답 시스템(ARS) 조사에서 '차기 대통령 후보로 누가 가장 적합하다고 생각하느냐'(호명순서는 가나다순)는 질문에 응답자들은 ▲이재명 47.6% ▲김문수 17.9% ▲한동훈 4.9% ▲홍준표 4.3% ▲오세훈 3.7% ▲김경수=안철수 2.1% ▲김동연 1.9% ▲유승민 1.8% ▲이준석 1.7% ▲원희룡 1.1% ▲우원식 0.8% ▲김두관=김부겸 0.7% 순으로 응답했다. ▲기타 다른 인물 4.3% ▲없음 2.6% ▲잘 모름은 1.8%였다. 성별로는 이 전 대표와 김 전 장관이 각각 1, 2위를 차지했다. 다만 남성은 한동훈 전 국민의힘 대표보다 홍준표 대구시장을 선호한 반면 여성은 홍 시장보다 한 전 대표를 선호하는 것으로 나타났다. 이준석 개혁신당 의원은 여성에서 가장 낮은 지지도를 얻었다. 남성은 ▲이재명 46.7% ▲김문수 19.7% ▲홍준표 5.2% ▲한동훈 4.3% ▲오세훈 3.5% ▲이준석 3.0% ▲유승민 2.5% ▲김동연 2.2% ▲김경수 1.9% ▲안철수 1.8% ▲원희룡 1.6% ▲김두관=김부겸 0.8% ▲우원식 0.4% 순이었다. 여성은 ▲이재명 48.4% ▲김문수 16.2% ▲한동훈 5.4% ▲오세훈 3.9% ▲홍준표 3.3% ▲안철수 2.5% ▲김경수 2.3% ▲김동연 1.8% ▲우원식 1.3% ▲유승민 1.2% ▲원희룡 0.6% ▲김두관=김부겸 0.5% ▲이준석 0.4% 순이다. 이 전 대표를 가장 선호하는 연령층은 40~50대였다. 반면 가장 선호하지 않는 연령대는 70대 이상과 30대였다. 김 전 장관은 60대, 70대 이상에서 20% 넘는 지지율을 보이며 상대적으로 높은 선호도를 보였다. 20대(만18세~29세)는 ▲이재명 51.8% ▲김문수 13.1% ▲이준석 5.4% ▲김동연 5.1% ▲홍준표 3.3% ▲오세훈 2.9% ▲유승민 2.7% ▲안철수=한동훈 2.0% ▲김부겸 0.8% ▲김경수 0.7% 로 집계됐다 30대는 ▲이재명 40.7% ▲김문수 15.2% ▲한동훈 7.4% ▲홍준표 6.0% ▲김경수 4.0% ▲유승민 3.2% ▲안철수 3.1% ▲오세훈 2.6% ▲이준석 1.8% ▲원희룡 1.3% ▲김부겸 1.2% ▲김두관 0.5%로 나타났다 40대는 ▲이재명 58.8% ▲김문수 17.3% ▲홍준표 4.1% ▲우원식 2.8% ▲한동훈=안철수 2.3% ▲이준석 1.5% ▲오세훈 1.1% ▲김경수 1.0% ▲김동연=김부겸 0.6% ▲유승민 0.5%로 조사됐다. 50대는 ▲이재명 56.1% ▲김문수 13.3% ▲오세훈=홍준표 4.5% ▲안철수 3.5% ▲한동훈 2.9% ▲유승민 2.2% ▲김동연 1.8% ▲원희룡 1.4% ▲이준석 1.0% ▲김경수 0.9% ▲우원식 0.8% 였다. 60대는 ▲이재명 42.0% ▲김문수 22.5% ▲한동훈 7.6% ▲오세훈=홍준표 5.0% ▲김경수 3.2% ▲유승민 2.2% ▲김동연 1.6% ▲김두관=김부겸=우원식=원희룡 1.1%로 나타났다. 70대 이상은 ▲이재명 32.3% ▲김문수 27.0% ▲오세훈 6.1% ▲한동훈 7.6% ▲김경수 3.3% ▲김동연 2.9% ▲김두관=원희룡 2.7% ▲홍준표 2.6% ▲안철수 1.9% ▲이준석 0.7% ▲김부겸 0.6%로 집계됐다. 지역별로는 이 전 대표는 호남권에서 가장 높은 지지율을 보였고 뒤이어 강원·제주, 대전·충청·세종에서 과반의 지지율을 나타냈다. 한 전 대표는 부산에서 10.1%로, 두자릿수 지지율을 보였다. 서울은 ▲이재명 46.9% ▲김문수 16.5% ▲한동훈 5.8% ▲홍준표 4.2% ▲유승민 3.3% ▲이준석 3.2% ▲김동연 2.6% ▲오세훈 2.1% ▲안철수 1.7% ▲김경수 1.6% ▲김두관=김부겸=우원식=원희룡 0.5% 경기·인천은 ▲이재명 49.4% ▲김문수 22.4% ▲한동훈 3.5% ▲홍준표 3.4% ▲안철수=오세훈 3.2% ▲김경수 1.8% ▲우원식 1.4% ▲유승민 1.2% ▲김두관=이준석 0.9% ▲김동연=원희룡 0.6%로 집계됐다. 대전·충청·세종은 ▲이재명 51.9% ▲김문수 11.8% ▲김동연 4.7% ▲홍준표 4.2% ▲한동훈 3.9% ▲오세훈 3.6% ▲유승민 3.4% ▲이준석 2.5% ▲우원식 1.8% ▲김경수 1.7% ▲원희룡 0.9% ▲안철수 0.6%였다. 강원·제주는 ▲이재명 55.4% ▲김문수 13.0% ▲한동훈 6.8% ▲김동연 6.2% ▲홍준표 3.7% ▲김경수 2.4% ▲김두관=김부겸 1.8%로 나타났다. 부산·울산·경남은 ▲이재명 40.7% ▲김문수 14.2% ▲한동훈 10.1% ▲오세훈 6.5% ▲홍준표 6.2% ▲김동연 2.8% ▲김경수 1.8% ▲유승민 1.3% ▲원희룡 1.2% ▲안철수=우원식 0.7% ▲김부겸=이준석 0.6%로 나타났다. 대구·경북은 ▲이재명 33.6% ▲김문수 23.5% ▲오세훈 9.5% ▲홍준표 6.9% ▲한동훈 4.9% ▲원희룡 3.0% ▲안철수 2.8% ▲유승민 2.7% ▲김부겸 2.2% ▲이준석 2.1% ▲김경수=김두관 1.0%였다. 광주·전남·전북은 ▲이재명 59.4% ▲김문수 14.6% ▲김경수 6.0% ▲안철수 3.6% ▲이준석=홍준표 2.2% ▲원희룡 2.1% ▲김부겸 2.0% ▲김동연 1.0% ▲김두관 0.9%이다. 지지정당별로는 차이가 극명했다. 더불어민주당 지지층은 ▲이재명 87.9% ▲김동연 2.5% ▲김경수 2.4% 순이었고, 조국혁신당은 ▲이재명 64.9% ▲안철수 6.2% ▲김문수 4.8% 순이었다. 반면 국민의힘 지지층은 김 전 장관을 가장 지지하는 것으로 나타났다. ▲김문수 46.3% ▲한동훈 12.4% ▲홍준표 11.3% 순이다. 개혁신당 지지자들은 ▲이준석 40.8% ▲유승민 16.2% ▲안철수 14.6% 순이었다. 김대은 미디어리서치 대표는 "국민의힘은 다가오는 조기 대선은 '이재명과 민주당을 심판하는 선거가 되어야 한다'며 이재명 세력을 막아내는 것이 국가 정상화의 시발점이라고 주장하고 있다. 다만 '코끼리를 생각하지 마'라고 하면 오히려 코끼리를 생각하게 되는 것처럼 오히려 여론조사 결과는 이재명 전 대표의 주목도를 더 높여서 1강체제를 굳히는 결과가 나왔다"고 분석했다. 이어 "하지만 이 전 대표가 '민주당은 중도보수' 라고 언급한 것처럼 본인 지지층을 넘어서 영남과 중도층 등으로 지지층을 확대해 '이재명 대 反이재명' 구도를 극복해야 하는 것도 숙제"라고 했다. 그러면서 "보수 후보들중에서는 김문수 전 장관이 지지율이 가장 높았지만 지난 조사대비 하락했으며, 다른 보수 후보들 또한 평균 이하로 결과가 나왔다"고 했다. 이번 조사는 무선 RDD(무작위 전화 걸기) 활용 ARS를 통해 진행됐다. 신뢰 수준은 95%, 표본 오차는 ±3.1%p. 응답률은 5.2%다. 자세한 조사 개요 및 내용은 미디어리서치 홈페이지와 중앙선거여론조사심의위원회 홈페이지를 참조하면 된다. heyjin@newspim.com 2025-04-10 10:00
안다쇼핑
Top으로 이동