전체기사 최신뉴스 GAM 라씨로
KYD 디데이
글로벌 미국·북미

속보

더보기

GPT-4, 美 의사시험 '90점 이상' 합격...선천성 희귀병도 맞춰

기사입력 : 2023년04월07일 09:53

최종수정 : 2023년04월07일 09:53

GPT-4, 평균 60점이었던 이전 모델에서 향상
검진표 보고 발병 10만분의 1 선천성 희귀병도 맞춰
"내가 여태 봐온 많은 의사들 보다도 낫다"

[서울=뉴스핌] 최원진 기자= 대화형 인공지능(AI) 챗GPT의 유료 서비스인 챗GPT플러스(+)에서 지난달부터 서비스하고 있는 최신 거대언어모델(LLM) 'GPT-4'에 미국 의사면허시험(USMLE) 문제를 출제했더니 높은 점수로 '합격'했다는 결과가 나왔다.

미 경제전문 매체 인사이더가 오는 13일(현지시간) 출판될 '의료계의 AI 혁명: GPT-4와 그 너머'(The AI Revolution in Medicine: GPT-4 and Beyond) 신간을 입수해 6일 보도한 바에 따르면 현직 의사이자 하버드대학교에서 컴퓨터를 활용해 생물학을 연구하는 생물정보학 교수인 아이잭 코핸 박사는 두 명의 동료 연구원들과 GPT-4의 의학 지능 탐구에 나섰다.

코핸 박사와 연구진이 GPT-4에 미 의사면허시험 출제 문제들을 물어보니 무려 90% 이상의 정답률을 보여 '합격'했다.

진료실 책상에 놓인 청진기. 사진은 본 기사 내용과 무관하다. [사진=블룸버그]

이는 지난 2월 이전 LLM 버전인 GPT-3와 GPT-3.5를 대상으로 진행한 연구 결과 때보다 월등히 향상된 점수다. 지난 2월 9일 미국공공과학도서관(PLOS)에서 발행하는 학술전문지 'PLOS 디지털 헬스'에 실린 미 캘리포니아 의료기관 '앤시블헬스'의 연구에서 GPT-3와 GPT-3.5는 평균 60%에 가까운 정답률을 보였는데 의사면허 취득을 위한 최하 점수는 60%여서 당시의 챗GPT는 매우 근소한 차이로 합격하지 못했다.

GPT-4는 '훌륭한 수험생'일 뿐만 아니라 엄청난 의료전문 번역가라고 연구진은 말한다. 포르투갈 환자를 위한 퇴원 수속 정보 안내부터 복잡하고 어려운 의학용어를 초등 6학년이 이해할 만한 수준으로 해석해 설명해주는 등 일반 의사들도 해내기 어려운 환자 응대를 GPT-4는 훌륭히 해낸다는 설명이다.

GPT-4는 든든한 의사 조수 역할도 한다. 예시로 해당 모델은 입원환자들을 대할 때 적절한 태도를 조언해주는 데, '최대한 명확한 언어로 열정적이고 친절하게' 환자를 응대할 수 있는 말들을 추천해준다. 장문의 의학논문도 '눈 깜짝할 사이에' 요약해주기도 하며 심지어 논문과 각종 보고서에서 발췌한 정보들을 바탕으로 직접 인간지능처럼 분석해낸다.

코핸 박사는 GPT-4가 임상진단 능력도 있는지 시험해봤다. 그가 과거에 실제로 진단했던 신생아 환자 사례를 갖고 GPT-4에 환자의 각종 호르몬 수치와 초음파 등 신체검진 기록을 알려줬더니 발병률이 10만분의 1로 희귀질환인 '선천성 부신 과형성'을 완벽히 진단해냈다.

선천성 부신 과형성은 부신 피질에서 나오는 호르몬의 생합성에 관여하는 효소가 선천적으로 결핍되어 나타나는 질환으로, 희귀병이어서인지 단번에 해당 질환을 짚어내는 의사가 많지 않다고 코핸은 말한다.

그는 "내가 다년간의 공부와 연구, 경험에서 비롯해 진단했던 그대로였다"며 매우 인상깊었다면서도 한편으로는 "소름이 끼쳤다"고 말했다.

이어 코핸은 "내가 이런 말을 하게 될줄은 몰랐다. GPT-4는 내가 여태 봐온 많은 의사들 보다도 낫다"고 발언했다.

그는 "언젠가 수많은 가정에서 이 놀라운 가상 의료전문가를 만날 수 있다는 생각에 한편으로는 불안하다"며 "GPT-4의 의료 권고들이 안전하고 효과적일 것이란 검증과 보장은 어떻게 할지 현재 나로선 모르겠다"고 말했다.

GPT-4 등 언어 모델이 존재하지 않는 정보를 팩트처럼 답하거나 답변에 사실적 오류를 범하는 현상을 인공지능 용어로 '할루시네이션'(hallucination·환각 현상)이라고 일컫는다.

구글이 지난 2월 6일 공개한 챗봇 '바드'의 시연영상에서 역사적 사실에 틀린 답변을 한 것도 할루시네이션의 한 예이다. 챗GPT 개발사인 오픈AI조차 챗봇이 종종 틀린 답변을 할 수 있다며, 아직은 할루시네이션에서 자유로울 수 없다고 밝혔다.

코핸은 실제 의료상황에서 발생할 수 있는 할루시네이션과 관련해 "의사들도 불완전하고 부정확한 데이터를 바탕으로 잘못된 추정을 하거나 실수를 범한다. 나 역시 인간 의사와 간호사들에게 요구하는 임상적 판단과 도덕적 책임 기준은 없다"고 말했다.

wonjc6@newspim.com

 

CES 2025 참관단 모집

[뉴스핌 베스트 기사]

사진
尹지지율 2%p↓, 26.9%…"김 여사 논란 등 영향" [서울=뉴스핌] 박성준 기자 = 윤석열 대통령의 지지율이 소폭 하락해 20%대 중후반을 기록했다는 여론조사 결과가 31일 발표됐다. 종합뉴스통신사 뉴스핌 의뢰로 여론조사 전문업체 미디어리서치가 지난 28일~29일 이틀간 전국 만 18세 이상 남녀 1001명에게 물은 결과 윤 대통령의 국정운영에 대한 긍정평가는 26.9%로 집계됐다. 부정평가는 71.9%로 나타났다. '잘 모름'에 답한 비율은 1.2%다. 지난 조사 대비 긍정평가는 2.0%포인트(p) 하락했고 부정평가는 3.5%p 상승했다. 긍정평가와 부정평가 간 격차는 45.0%p다. 연령별로 보면 40대에서 긍·부정 평가 격차가 극명하게 드러났다. 만 18세~29세에서 '잘함'은 19.9% '잘 못함' 80.1%였고, 30대에서는 '잘함' 29.6% '잘 못함' 68.3%였다. 40대는 '잘함' 16.1% '잘 못함' 82.9%, 50대는 '잘함' 25.7% '잘 못함' 74.3%로 집계됐다. 60대는 '잘함' 32.2% '잘 못함' 67.3%였고, 70대 이상에서는 '잘함' 40.5% '잘 못함' 54.9%로 집계됐다. 지역별로는 서울 '잘함' 25.1%, '잘 못함'은 74.0%로 집계됐다. 경기·인천 '잘함' 27.8% '잘 못함' 70.8%, 대전·충청·세종 '잘함' 21.3% '잘 못함' 77.9%, 강원·제주 '잘함' 32.7% '잘 못함' 64.9%로 조사됐다. 부산·울산·경남 '잘함' 32.1% '잘 못함' 67.1%, 대구·경북은 '잘함' 36.8% '잘 못함' 62.1%로 집계됐다. 전남·광주·전북은 '잘함' 13.2% '잘 못함' 85.0%로 나타났다. 성별로도 남녀 모두 부정평가가 우세했다. 남성은 '잘함' 26.3% '잘 못함' 72.1%, 여성은 '잘함' 27.5% '잘 못함' 71.6%였다. 김대은 미디어리서치 대표는 여론조사 결과에 대해 "도이치모터스·명품백 논란, 선거 관련 의혹 등 김건희 여사 리스크가 증폭됐고, 한동훈 국민의힘 대표와 '빈손 회동'이후 당정 갈등 심화로 전통적인 핵심 지지층인 70대 이상과 영남권에서도 지지율이 하락했다"고 분석했다. 신율 명지대 정치외교학과 교수는 "(윤 대통령 지지율 하락의) 근본적인 원인은 불통 이미지 때문"이라며 "불통이라는 것은 여론에 대한 반응성이 떨어진다는 이야기다. 김건희 여사와 관련한 논란이 대표적인 사례"라고 평가했다. 그는 "김 여사 관련한 사과를 하는 것도 이미 늦었다"며 "윤 대통령은 법조인 출신이라 법적으로 문제가 없으면 괜찮다고 생각하는 것 같은데 국민 인식은 그렇지 않다"고 설명했다. 그러면서 "김 여사 문제에 대해 제대로 된 해결책을 제시하면 지지율이 오를 수 있지만 그렇게 하지 않으면 지지율 반등은 힘들어 보인다"고 덧붙였다. 이번 여론조사는 성·연령·지역별 인구비례 할당 추출 방식으로 추출된 표본을 구조화된 설문지를 이용한 무선(100%) ARS 전화조사 방식으로 실시했으며 응답률은 3.3%, 표본오차는 95% 신뢰수준에 ±3.1%p다. 통계보정은 2024년 1월말 행정안전부 주민등록 인구통계를 기준으로 성별 연령별 지역별 가중 값을 부여(셀가중)했다. 자세한 내용은 중앙선거여론조사심의위원회 홈페이지를 참조하면 된다. parksj@newspim.com 2024-10-31 06:00
사진
국민 3명 중 2명 "김건희 여사 특검 실시해야" [서울=뉴스핌] 지혜진 기자 = 국민 3명 중 2명은 윤석열 대통령 부인 김건희 여사의 각종 의혹에 대해 특별검사법 실시의 필요성을 인식한다는 여론조사 결과가 31일 발표됐다. 여론조사 전문기관 미디어리서치가 종합뉴스통신사 뉴스핌의 의뢰로 지난 28~29일 이틀간 전국 만 18세 이상 남녀 1001명을 대상으로 ARS(자동응답시스템) 조사 결과 '더불어민주당에서 김건희 여사의 도이치모터스 주가조작, 공천 개입 등이 포함된 총 14가지 의혹들에 대해 특검법을 재발의했다. 김 여사 특검 실시에 대해 어떻게 생각하느냐'는 질문에 '실시해야 한다' 66.2%, '실시해서는 안 된다' 26.0%, '잘 모름'은 7.9%로 응답했다. 연령별로는 40대, 만18세~29세, 50대 순으로 실시해야 한다는 의견이 높았다. 70대 이상을 제외하고는 실시해야 한다는 의견이 과반을 차지했다. 40대는 '실시해야 한다'고 응답한 비율이 81.2%에 달했다. 반면 '실시해서는 안 된다'는 12.7%에 그쳤다. 만18세~29세는 '실시해야 한다' 76.5%, '실시해서는 안 된다' 19.0%, '잘 모름'은 4.5%로, 50대는 '실시해야 한다' 69.9%, '실시해서는 안 된다' 25.0%, '잘 모름'은 5.1%로 나타났다. 30대는 '실시해야 한다' 62.0%, '실시해서는 안 된다' 34.3%, '잘 모름'은 3.7%로, 60대는 '실시해야 한다' 57.5%, '실시해서는 안 된다' 33.7%, '잘 모름'은 8.8%로 응답했다. 70대는 '실시해야 한다' 45.5%, '실시해서는 안 된다' 33.7%, '잘 모름'은 20.8%였다. 지역별로는 광주·전남·전북, 대전·충청·세종, 서울, 경기·인천, 부산·울산·경남, 강원·제주, 대구·경북 순으로 실시해야 한다는 여론이 우세했다. 대구·경북을 제외한 모든 지역에서 김 여사 특검법에 찬성하는 의견이 절반 이상으로 집계됐다. 광주·전남·전북은 '실시해야 한다' 78.4%, '실시해서는 안 된다' 15.4%, '잘 모름'은 6.2%, 대전·충청·세종은 '실시해야 한다' 72.9%, '실시해서는 안 된다' 24.6%, '잘 모름'은 2.5%로 나타났다. 서울은 '실시해야 한다' 68.7%, '실시해서는 안 된다' 24.8%, '잘 모름'은 6.5%, 경기·인천은 '실시해야 한다' 67.4%, '실시해서는 안 된다' 25.6%, '잘 모름'은 7.0%였다. 부산·울산·경남은 '실시해야 한다' 62.5%, '실시해서는 안 된다' 27.5%, '잘 모름'은 10.1%로, 강원·제주는 '실시해야 한다' 59.3%, '실시해서는 안 된다' 21.2%, '잘 모름'은 19.5%로 응답했다. 대구·경북은 '실시해야 한다' 46.3%, '실시해서는 안 된다' 41.1%, '잘 모름'은 12.6%였다. 지지 정당별로는 국민의힘을 제외한 모든 정당에서 실시해야 한다는 의견이 압도적이었다. 더불어민주당 지지층은 '실시해야 한다' 95.5%, '실시해서는 안 된다' 2.7%, '잘 모름'은 1.8%, 조국혁신당 지지층은 '실시해야 한다' 90.8%, '실시해서는 안 된다' 5.8%, '잘 모름'은 3.3%로 나타났다. 진보당 지지자들은 '실시해야 한다' 77.0%, '실시해서는 안 된다' 23.0%, '잘 모름'은 0%였다. 보수 성향의 개혁신당 지지층은 '실시해야 한다' 87.6%, '실시해서는 안 된다' 6.4%, '잘 모름'은 6.0%였다. 지지정당이 없다고 응답한 층도 '실시해야 한다' 79.1%, '실시해서는 안 된다' 15.0%, '잘 모름'은 5.9%로 특검에 찬성하는 여론이 더 컸다. 국정 지지별로는 응답층의 의견이 극명하게 엇갈렸다. 윤석열 정부가 잘 못하고 있다고 답한 이들은 김건희 특검법에 대해 '실시해야 한다'고 응답한 이들이 88.8%에 달한 반면, 정부가 잘하고 있다고 평가한 응답층은 '실시해서는 안 된다'가 78.6%로 나타났다. 한편, 성별로는 차이가 두드러지지 않았다. 남녀 각각 '실시해야 한다'고 응답한 이들이 67.4%, 64.9%로 나타났다. 김대은 미디어리서치 대표는 "전통적인 보수 지지층인 60~70대 이상과 영남권에서 조차 김 여사 특검을 실시해야 한다는 응답이 높게 나오면서 특검이 대세로 굳어지고 있다"며 "최근 한동훈 국민의힘 대표가 특별감찰관 추천을 대안으로 제시했지만 특감은 한계가 있는 등 국민 다수가 원하는 건 '특감'이 아니라 '특검'이라는 결과"라고 분석했다. 이번 조사는 무선 RDD 활용, ARS를 통해 진행됐다. 신뢰 수준은 95%, 표본 오차는 ±3.1%p, 응답률은 3.3%다. 자세한 조사 개요 및 내용은 미디어리서치 홈페이지와 중앙선거여론조사심의위원회 홈페이지를 참조하면 된다. heyjin@newspim.com 2024-10-31 06:00
안다쇼핑
Top으로 이동