전체기사 최신뉴스 GAM
KYD 디데이
경제 과학기술

속보

더보기

KAIST, GPT-4 버전의 시각 멀티모달 성능 뛰어넘는 대형 언어모델 개발

기사입력 :

최종수정 :

※ 본문 글자 크기 조정

  • 더 작게
  • 작게
  • 보통
  • 크게
  • 더 크게

※ 번역할 언어 선택

공개형 멀티모달 LLM 'CoLLaVO'·'MoAI' 개발

[세종=뉴스핌] 이경태 기자 = 한국과학기술원(KAIST)은 전기및전자공학부 노용만 교수 연구팀이 오픈AI(OpenAI)의 GPT-4 등 기업에서 비공개하고 있는 상업 모델인 초대형 언어모델의 시각 성능을 뛰어넘는 공개형 멀티모달 대형 언어모델을 개발해 출시했다고 20일 밝혔다.

노용만 교수 연구팀은 단순히 모델의 크기를 키우거나 고품질의 시각적 지시 조정 데이터셋을 만들지 않고 멀티모달 대형언어모델의 시각 성능을 획기적으로 높인 콜라보(CoLLaVO), 모아이(MoAI) 2가지 기술을 연속적으로 개발했다.

MoAI 멀티모달 대형언어모델 성능 [자료=한국과학기술원] 2024.06.20 biggerthanseoul@newspim.com

연구팀이 개발한 첫번째 기술인 '콜라보(CoLLaVO)'는 현존하는 공개형 멀티모달 대형언어모델이 비공개형 모델의 성능에 비해 현저하게 낮은 이유를 일차적으로 물체 수준에 대한 이미지 이해 능력이 현저하게 떨어진다는 것을 먼저 검증했다.

해당 능력을 효율적으로 증가시켜 시각-언어 태스크에 대한 성능을 향상 하기 위해 연구팀은 이미지 내의 정보를 배경과 물체 단위로 분할하고 각 배경 및 물체에 대한 정보를 멀티모달 대형언어모델에 입력으로 직접 넣어주는 새로운 방법인 '크레용 프롬프트(Crayon Prompt)'라는 시각적 프롬프트를 새롭게 제안했다.

시각적 지시 조정 단계에서 크레용 프롬프트로 학습한 정보를 잃어버리지 않기 위해 연구팀은 물체 수준 이미지 이해 능력과 시각-언어 태스크 처리 능력을 서로 다른 파라미터로 학습해 서로 간의 정보를 잃지 않게 만드는 획기적인 학습 전략인 '듀얼 큐로라(Dual QLoRA)'를 제안했다.

연구팀은 이를 통해 콜라보(CoLLaVO) 멀티모달 대형언어모델은 이미지 내에서 배경 및 물체를 구분하는 능력이 뛰어나 일차원적인 시각 구분 능력이 크게 향상됐다고 전했다.

두 번째 대형언어모델인 '모아이(MoAI)'는 인간이 사물을 판단할 때 물체의 존재, 상태, 물체 간의 상호작용, 배경에 대한 이해, 텍스트에 대한 이해 등으로부터 상황을 판단하는 인지과학적인 요소에 영감을 받아서 만들었다는 게 연구팀의 설명이다.

기존 멀티모달 대형언어모델은 텍스트에 의미적으로 정렬된 시각 인코더(vision encoder)만을 사용한다. 이미지 픽셀 수준에서의 상세하고 종합적인 실세계 장면 이해가 부족하다는 점을 연구팀은 지적했다. 연구팀은 이런 컴퓨터 비전 모델들의 결과를 받으면 모두 인간이 이해할 수 있는 언어로 변환한 뒤에 멀티모달 대형언어모델에 입력으로 직접 사용했다.

노용만 교수는 "연구팀에서 개발한 공개형 멀티모달 대형언어모델이 허깅페이스 일간 화제의 논문(Huggingface Daily Papers)에 추천됐고, 각종 SNS를 통해 세계 연구자에게 알려지고 있다"며 "모든 모델을 공개형 대형언어모델로 출시 했기 때문에 이 연구모델이 멀티모달 대형언어모델 발전에 기여할 것"이라고 말했다.

biggerthanseoul@newspim.com

[뉴스핌 베스트 기사]

사진
반포대교 한강 유람선 좌초 원인은 [서울=뉴스핌] 김정인 기자 = 한강 반포대교 인근에서 발생한 유람선 좌초 사고와 관련, 서울시는 선박이 항로를 벗어나 저수심 구간에 진입한 데다 간조 영향이 겹치며 사고가 발생한 것으로 보고 있다. 29일 서울시에 따르면 전날 오후 8시쯤 반포대교 달빛 무지개 분수 인근을 지나던 이랜드 크루즈 유람선이 강 바닥에 걸려 멈춰섰다. 좌초 지점 수심은 약 1.8m 수준으로 파악됐다. 한강 유람선. [사진=뉴스핌DB] 사고 시점은 인천 앞바다 간조 시간과 맞물렸다. 당시 해수면이 낮아진 상태에서 선박이 평소보다 분수 인근으로 가까이 접근하면서 저수심 구간에 진입한 것으로 추정된다. 해당 선박은 여의도와 반포대교를 오가는 정기 노선을 운항해왔으나, 좌초 지점은 평소 회전 지점과 차이가 있었던 것으로 알려졌다. 좌초된 유람선은 이후 수위가 상승하면서 같은 날 밤 자체 동력으로 이동했다. 시는 선박 자체 결함 가능성은 낮은 것으로 보고 있다. 사고 직후 승객 359명은 구조정으로 옮겨져 모두 구조됐다. 초기 화재 신고는 엔진 출력 과정에서 발생한 연기를 오인한 것으로 확인됐다. 서울시는 운항사 등을 상대로 정확한 사고 경위를 조사할 방침이다. kji01@newspim.com 2026-03-29 15:31
사진
은행 주담대 금리 7% 돌파 [서울=뉴스핌] 김정인 기자 = 시장금리 오름세가 이어지면서 은행권 주택담보대출 금리 상단이 7%대에 진입했다. 중동발 불확실성이 장기화될 경우 영끌족 부담이 더욱 커질 수 있다는 전망이 나온다. 29일 금융권에 따르면 KB국민·신한·하나·우리·NH농협 등 5대 은행의 5년 고정형 주담대 금리는 지난 27일 기준 연 4.62~7.01% 수준으로 집계됐다. 이달 중순과 비교하면 최대 0.38%포인트 상승한 수준이다. 서울 남산에서 바라본 서울 시내 아파트 단지. [사진=뉴스핌DB] 농협은행의 'NH주택담보대출(5년 주기형)'은 금리 상단이 7.01%까지 올라섰다. 다른 주요 은행들도 상단이 6%대를 넘기며 전반적인 상승 흐름을 보이고 있다. 이 같은 금리 상승은 채권금리 급등 영향으로 풀이된다. 금융투자협회에 따르면 금융채 5년물(AAA) 금리는 지난 27일 기준 4.119%로, 한 달 전보다 0.5%포인트 이상 상승했다. 가계 이자 부담도 확대되는 추세다. 대출금리가 상승하면서 동일한 조건의 주택담보대출이라도 월 상환액이 크게 늘어나는 구조다. 연체율 역시 상승 흐름을 보이고 있다. 한국은행에 따르면 지난 1월 전국 주담대 연체율은 0.29%로 전월 대비 상승했다. 서울 지역 연체율도 같은 기간 0.32%에서 0.35%로 높아졌다. 시장에서는 금리 상승 흐름이 당분간 이어질 가능성이 크다는 전망이 나온다. 중동 리스크에 따른 유가 상승과 인플레이션 우려가 채권금리를 자극하면서 대출금리에도 영향을 미치는 구조다. kji01@newspim.com 2026-03-29 10:05
기사 번역
결과물 출력을 준비하고 있어요.
종목 추적기

S&P 500 기업 중 기사 내용이 영향을 줄 종목 추적

결과물 출력을 준비하고 있어요.

긍정 영향 종목

  • Lockheed Martin Corp. Industrials
    우크라이나 안보 지원 강화 기대감으로 방산 수요 증가 직접적. 미·러 긴장 완화 불확실성 속에서도 방위산업 매출 안정성 강화 예상됨.

부정 영향 종목

  • Caterpillar Inc. Industrials
    우크라이나 전쟁 장기화 시 건설 및 중장비 수요 불확실성 직접적. 글로벌 인프라 투자 지연으로 매출 성장 둔화 가능성 있음.
이 내용에 포함된 데이터와 의견은 뉴스핌 AI가 분석한 결과입니다. 정보 제공 목적으로만 작성되었으며, 특정 종목 매매를 권유하지 않습니다. 투자 판단 및 결과에 대한 책임은 투자자 본인에게 있습니다. 주식 투자는 원금 손실 가능성이 있으므로, 투자 전 충분한 조사와 전문가 상담을 권장합니다.
안다쇼핑
Top으로 이동