전체기사 최신뉴스 GAM
KYD 디데이

AI 최강자 등극 구글 '제미나이', GPT-4와 비교해 보니

기사입력 : 2023년12월07일 14:53

최종수정 : 2023년12월08일 07:49

[서울=뉴스핌] 최원진 기자= 구글이 오픈AI의 최신 생성형 인공지능(AI) 거대언어모델(LLM) 'GPT-4'를 능가하는 자체 모델 '제미나이(Gemini) 1.0'을 6일(현지시간) 공개해 화제다.

지난해 11월 챗GPT로 생성형 AI의 미래를 제시한 오픈AI가 기술 최강 자리를 굳건히 지킬 것이란 예상이 GPT-4 출시 후 불과 약 9개월 만에 깨진 것이다. 구글 제미나이가 AI 업계의 치열한 개발 경쟁에 다시 한번 불을 지폈다.

◆ 제미나이의 강점은 '멀티 플레이어'

제미나이는 3가지 버전으로 나온다. 구글이 지금까지 내놓은 것 중 가장 강력한 LLM이자 데이터센터와 기업용 모델인 '제미나이 울트라', 구글의 AI 챗봇 '바드'의 모델인 '제미나이 프로', 스마트폰 등 모바일 기기에서 사용 가능한 컴팩트한 사이즈의 '나노'다.

제미나이 프로는 제품 공개한 이날 바로 바드에 탑재됐다. 제미나이 프로가 적용된 바드는 170개 이상 국가 및 지역에서 영어로 제공되며, 향후 서비스 확장 및 새로운 지역과 언어도 지원될 예정이다. 

'제미나이 울트라'는 내년 초 '바드 어드밴스드'라는 이름으로 바드에 장착되며, '제미나이 나노'는 구글이 지난 10월 공개한 최신 스마트폰인 '픽셀8 프로'에 탑재된다.

구글은 제미나이가 "선천적"(natively)으로 멀티모달(Multi-Modal·다중모드) AI 모델이라고 소개한다. 멀티모달은 말그대로 텍스트뿐만 아니라 이미지, 동영상 등 비언어 입력값도 이해해 응용할 수 있는 '멀티 플레이어'다.

오픈AI가 이미지 생성 AI '달리'(DALL-E), 음성 인식 AI '위스퍼'(Whisper)를 각각 개발한 방식과 달리 구글은 애초부터 텍스트·이미지·오디오 등 다양한 데이터로 제미나이를 훈련해왔다는 것이다.

제미나이가 학생의 물리학 문제를 풀이해주는 예시. [사진=구글 딥마인드 제공]

특히 제미나이는 이미지와 동영상을 이해한 데이터를 응용하고 상호 작용하는 데 강점을 보인다.

예컨대 한 학생이 물리학 문제를 풀이하는 과정을 펜으로 쓴 이미지를 교사가 제미나이 프롬프트에 넣어 문제 풀이 과정에 어떤 부분이 틀렸는지 질문하면 제미나이는 정확히 문제의 정답과 학생의 손 글씨를 이해해 잘못된 문제 풀이 과정을 수정해 준다.

구글 딥마인드는 "제미나이가 이미지 속 텍스트를 이해하는 것을 넘어 교사가 어떻게 문제를 다르게 설정했는지 등을 이해해야 가능하다"고 설명했다. 제미나이는 오답 풀이 뿐만 아니라 학생이 틀린 유형의 다른 연습 문제도 제공해 교육 환경에서의 활용도가 높다는 게 자체 평가다.

이 밖에 제미나이는 동영상 속 언어를 감지해 번역 자막을 달아주고, 동영상 속 상황을 이해해 질문에 답할 수 있다.

◆ 32개 벤치마크 테스트 중 30개, 최고 성적

이미지와 영상의 이해부터 수학적 추론까지 가능한 제미나이 울트라가 업계에서 LLM 연구개발 평가 시 널리 사용되는 학술 벤치마크 기준 32개 가운데 30개 항목에서 GPT-4를 뛰어넘는 성적을 기록했다.

구체적으로 제미나이 울트라는 텍스트와 추론 벤치마크 부문 12개 중 10개, 이미지 이해 부문 9개 중 9개, 동영상 이해 벤치마크 6개 중 6개, 음성 인식 부문 5개 중 5개에서 GPT-4보다 높은 신기록을 썼다.

특히 대규모 다중작업 언어 이해(MMLU) 벤치마크에서 제미나이 울트라는 90% 이상의 정답률을 기록했다.

MMLU는 수학, 물리학, 역사, 법률, 의학, 윤리 등 57개의 주제를 복합적으로 활용해 지식과 문제 해결 능력을 평가하는 대표 격 LLM 벤치마크다.

구글 딥마인드는 제미나이 울트라의 MMLU 점수가 GPT-4의 86.4%를 앞선 것에서 나아가 AI 모델로는 최초로 인간 전문가 점수인 89.8%를 뛰어넘었다고 밝혔다. 

이 밖에 여러 단계의 추론을 요구하는 여러 문제 해결 능력을 평가하는 빅 벤치 하드(BIG-Bench-Hard)와 독해력 벤치마크인 DROP에서 각각 80%가 넘는 점수로 GPT-4를 능가했다. 

WMT23 벤치마크는 LLM의 번역 능력을 평가한다. 제미나이 울트라는 74.40%로 GPT-4보다 번역 능력이 우수했다.

다만 일상에 필요한 상식 추론 능력을 보는 헬라스웨그(HellaSwag) 벤치마크에서는 제미나이 울트라가 GPT-4에 못미쳤다. 

제미나이 울트라의 이미지 이해 능력은 GPT-4 보다 뛰어났다.

과학, 기술, 인문 과학, 음악 등 6개 핵심 부문 대학교 시험과 교과서에서 수집된 차트, 표, 악보 이미지를 이해하는 능력을 평가하는 다소 새로운 벤치마크인 MMMU에서 제미나이 울트라는 59.4%를 기록, GPT-4를 앞섰다.

이미지를 보고 이해해 관련 질문에 답할 수 있는 능력을 확인하는 VQAv2 벤치마크와 서류상 이미지를 이해하는 능력을 보는 DocVQA, 그래프 등을 보고 수학적 추론 능력을 보는 매스 비스타(MathVista) 벤치마크에서도 GPT-4 보다 좋은 성적을 거뒀다.

AI 모델의 동영상 이해를 평가하는 벤치마크들에서도 제미나이 울트라는 두각을 보였다. 

영상 속 상황을 텍스트로 옮기는 능력을 평가하는 VATEX 벤치마크와 영상과 관련된 질문에 답해 전반적인 영상 이해도를 평가하는 인식 테스트 MCQA 벤치마크 모두 GPT-4를 뛰어넘었다. 

이밖에 중국어 텍스트로 영상 속 상황을 옮기는 능력을 평가하는 VATEX ZH, 영어로 복잡한 요리 과정이 담긴 영상을 텍스트로 옮기는 YouCook2 등 여러 벤치마크에서도 높은 성적을 거뒀다.

제미나이 프로의 음성 인식 이해도도 우수했다. 21개 언어의 음성을 인식해 텍스트로 변환하는 능력을 평가하는 CoVoST 2 벤치마크에서 제미나이 프로는 40.1을 기록, 오픈AI의 음성 인식 AI 모델 '위스퍼' 버전 2(v2) 보다 10 이상 높았다.

62개 언어로 음성 인식 여부를 확인하는 FLEURS 벤치마크에서도 제미나이 프로는 7.6%를 기록, 위스퍼 v3 보다 월등했다. FLEURS는 AI 모델이 음성 인식 정확도를 측정하는 테스트로 점수가 낮을 수록 인식 오류가 적다는 의미다. 

이밖에 제미나이는 파이선(Python), 자바(JAVA), C++, Go 등 세계에서 널리 사용되는 프로그래밍 언어로 코드를 이해하고 생성할 수 있다. 

코딩 작업 성능을 평가하는 업계 표준인 휴먼이발(HumanEval) 벤치마크에서 제미나이 울트라는 74.4%를 기록해 GPT-4(67.0%)를 능가했다. 파이썬 코드 생성 능력을 평가하는 내추럴2코드(Natural2Code) 벤치마크에서도 GPT-4 보다 1%포인트(p) 높은 74.9%를 기록했다. 

[사진= 구글 홈페이지]

wonjc6@newspim.com

 

[뉴스핌 베스트 기사]

사진
오늘 낮 최고기온 33도 무더위 [서울=뉴스핌] 최수아 인턴기자 = 월요일인 9일은 낮 기온이 최고 33도까지 오르는 무더운 날이 되겠다. 전국이 대체로 흐리다가 오후부터 맑아지겠다.  기상청에 따르면 이날 아침 최저기온은 18~21도, 낮 최고기온은 25~33도가 되겠다. 일부 경기내륙과 충청권내륙, 경상권내륙을 중심으로 최고 체감온도가 31도 이상으로 올라 덥겠다.  [서울=뉴스핌] 윤창빈 기자 = 무더운 날씨를 보인 6일 오후 서울 중구 청계천에서 시민들이 양산을 쓰고 이동하고 있다. 2025.06.08 pangbin@newspim.com 이날 오전까지 경기북서내륙과 서해안, 남해안을 중심으로 짙은 안개가 끼는 곳이 있겠다. 해안에 위치한 교량과 강이나 호수, 골짜기에 인접한 도로에는 안개가 더욱 짙게 끼겠으니 유의해야 한다.  주요 지역별 아침 최저기온은 ▲서울 20도 ▲인천 19도 ▲수원 19도 ▲춘천 18도 ▲강릉 20도 ▲청주 21도 ▲대전 20도 ▲전주 21도 ▲광주 20도 ▲대구 20도 ▲부산 20도 ▲울산 18도 ▲제주 19도다. 낮 최고기온은 ▲서울 30도 ▲인천 26도 ▲수원 29도 ▲춘천 30도 ▲강릉 28도 ▲청주 31도 ▲대전 31도 ▲전주 31도 ▲광주 31도 ▲대구 31도 ▲부산 25도 ▲울산 27도 ▲제주 25도이다. 미세먼지는 전 권역이 '좋음'∼'보통'으로 예상된다. 바다의 물결은 동해와 남해 앞바다에서 0.5~1.0m, 서해 앞바다에서 0.5m로 일겠다.  geulmal@newspim.com 2025-06-09 06:30
사진
민정수석에 검찰 출신 오광수 변호사 [서울=뉴스핌] 유신모 외교전문기자 = 이재명 대통령은 8일 검찰개혁 과제를 수행할 민정수석으로 검찰 특수부 출신의 오광수 법무법인 대륙아주 대표변호사(사법연수원 18기)를 임명했다. 오 수석은 제28회 사법고시에 합격해 사법연수원 18기를 수료했다. 이 대통령, 더불어민주당 정성호 의원 등과 동기다. 26년 동안 검찰에 재직한 특수통으로 꼽힌다. 오광수 대통령실 민정수석비서관 [사진=대통령실] 오 수석은 부산지검에서 첫 근무를 시작해 대전·서울·수원지검을 거쳐 1999년 대검 검찰연구관을 역임했다. 2001년 부부장검사로 승진해 제19대 광주지검 해남지청장을 지냈으며 서울지검 부부장검사, 인천지검 특수부 부장검사, 대검찰청 중수2과장, 서울중앙지검 특수2부 부장검사 등 요직을 두루 거쳤다. 2012년부터는 대구·청주에서 검사장을 지낸 뒤 2015년 법무부 범죄예방정책국장 근무를 끝으로 26년 간의 검찰공무원 생활을 마무리했다. 2020년부터는 법무법인 대륙아주의 대표 변호사로 활동해왔다. 검찰 재직 시 김우중 대우그룹 회장 분식회계 사건, 한보그룹 분식회계 사건, 김영삼 전 대통령의 차남 김현철 씨 비리사건, 마우나 리조트 붕괴사건 등 굵직한 사건을 수사했다. 여권 일각에서 당초 오 수석이 검찰 개혁을 추진할 적임자인지 의문이라는 우려가 제기되기도 했다. 윤석열 전 대통령과 같은 특수부 검사출신인데다 2013년 박성재 전 법무부 장관이 대구고검장으로 재직할 당시 대구지검장을 지낸 이력 때문이었다. 강훈식 대통령실 비서실장은 이 같은 우려에 대해 "이 대통령은 정치 검찰의 가장 큰 피해자"라며 "오 수석의 사법 개혁 의지도 확인했다. 일부 우려하신 분들 걱정 없도록 하겠다"고 밝혔다. ▲1960년 전북 남원 ▲전주고 ▲성균관대 법학 학사 ▲성균관대 대학원 공법 박사 ▲사시 28회 ▲사법연수원 18기 ▲광주지검 해남지청장 ▲인천지검 특수부 부장검사 ▲대검 중수2과 과장 ▲서울중앙지검 특수2부 부장검사 ▲대전지검 서산지청장 ▲수원지검 안산지청장 ▲청주지검장 ▲대구지검장 ▲법무부 범죄예방정책국장 ▲법무법인 대륙아주 대표변호사 ▲성균관대 법학전문대학원 객원교수 opento@newspim.com 2025-06-08 11:15
안다쇼핑
Top으로 이동