GPU·CPU에 다른 프로세서 LPU 추가
오픈AI 불만·경쟁사 추격이 전환 배경
파인만 프리뷰·CPO 로드맵도 공개 전망
이 기사는 3월 16일 오후 4시17분 '해외 주식 투자의 도우미' GAM(Global Asset Management)에 출고된 프리미엄 기사입니다. GAM에서 회원 가입을 하면 9000여 해외 종목의 프리미엄 기사를 보실 수 있습니다.
[서울=뉴스핌] 이홍규 기자 = 엔비디아(NVDA)가 매년 차세대 칩과 기술 로드맵(기술 개발 일정과 방향을 정리한 청사진)을 공개하는 올해 GTC 행사가 이번 주 16~19일(현지시간) 미국 캘리포니아주 새너제이에서 열린다.
엔비디아의 젠슨 황 최고경영자(CEO)는 16일 기조연설을 통해 AI 추론 특화 칩을 공개할 것으로 전망되고 있다. 통상 GTC에서 엔비디아의 신제품과 로드맵 공개는 황 CEO의 기조연설에 집중돼 왔다.
◆기존 체계에 LPU 합류
당초 이번 GTC에서의 큰 초점은 차세대 AI 칩 플랫폼인 '파인만'에 대한 구체적인 설명 여부에 모였다. 하지만 작년 12월 거액을 들여 라이선싱한 그록(Groq) 기술에 대한 시스템 편입 작업이 빠르게 전개되는 것으로 전해지면서 관심의 무게 중심이 옮겨간 양상이다.
GTC에서 주인공으로 부상한 것은 그록의 추론 전용 프로세서 LPU(언어처리장치)다. 그록은 작년 12월 엔비디아가 200억달러를 들여 기술을 라이선싱하고 인력을 영입한 곳이다. 관련 제품이 공개되면 GPU와 CPU만으로 일관해 온 엔비디아 AI 칩 구성에 다른 프로세서가 더해지는 첫 사례가 된다.

LPU가 주목받는 이유는 추론 속도와 비용 효율에 있다. 이를 가능하게 하는 것이 GPU와 근본적으로 다른 메모리 구조다. GPU는 연산 다이와 HBM 다이가 물리적으로 분리돼 데이터가 양쪽을 왕복하면서 지연시간과 전력 소모가 발생한다. 반면 LPU는 연산회로와 SRAM을 같은 실리콘 다이 위에 함께 새기는 '온칩' 구조를 채택해 이 지연을 줄인다.
다만 LPU가 HBM을 대체하는 것은 아니다. SRAM은 속도가 빠른 대신 같은 용량을 만드는 데 드는 비용이 DRAM보다 훨씬 높고 집적도도 크게 떨어진다. 추론이라 해도 대용량 AI 모델의 파라미터를 메모리에 올려야 작동하기 때문에 대용량 HBM은 여전히 필수적이다. 추론 단계에서 GPU의 부담을 덜고 속도를 높여주는 보완재 격이다.
엔비디아는 이 LPU를 차기 AI 칩인 베라·루빈(CPU인 베라와 GPU인 루빈을 결합한 플랫폼명)과 한 묶음으로 구성해 판매할 것으로 전망된다. 한 서버 안에 GPU 보드와 LPU 보드를 나란히 장착하고 고속 인터커넥트인 NV링크로 연결하는 구성을 선보일 것으로 전망된다. 추론 과정에서 입력을 한꺼번에 처리하는 프리필 단계는 GPU가, 답변을 이른바 토큰 단위로 생성하는 디코드 단계는 LPU가 각각 분담하는 구조다.
그록 LPU는 올해 하반기 삼성전자에서 생산(양산)될 것으로 전해(디인포메이션 보도)졌다. 엔비디아 서버 칩이 TSMC가 아닌 파운드리에서 제조되는 것은 이번이 처음이 될 수 있다. 다만 차세대 LPU는 엔비디아의 향후 AI 칩과 긴밀히 통합돼야 할 가능성이 있는 만큼 후속 생산은 다시 TSMC로 돌아갈 가능성도 배제하지 못하는 것으로 전해졌다.
◆추론 서두르는 엔비디아
엔비디아가 추론 칩 카드를 꺼낸 배경에는 누적된 고객사의 불만이 있다. 오픈AI 엔지니어들은 코드 생성 도구 '코덱스' 개발 과정에서 GPU 기반 추론의 전력 소모와 속도 문제를 실감한 것으로 알려졌다. 이에 오픈AI가 경쟁 칩 업체와 접촉하면서 엔비디아로서는 추론 역량 보강을 서두를 수밖에 없었던 것으로 전해졌다.
고객사의 이탈 우려에 더해 경쟁사의 추격도 거세지고 있는 점도 그 배경이다. 메타는 이번 주 추론을 비롯한 특화 프로세서 4종을 발표하며 6개월마다 새 AI 칩을 내놓겠다고 밝혔고 구글·아마존·오픈AI 등 주요 빅테크도 자체 추론용 ASIC(주문형반도체) 개발을 진행하고 있다. 이들이 일제히 추론에 무게를 싣는 것은 AI가 단순 질의응답을 넘어 스스로 작업을 수행하는 에이전트형 AI로 진화하면서 추론 호출 빈도가 폭발적으로 늘어나고 있기 때문이다.

뱅크오브아메리카(BofA)에 따르면 AI 데이터센터 시장은 2030년까지 약 1조2000억달러 규모에 이를 것으로 전망되는 가운데 추론 관련 지출 비중이 작년 약 50%에서 75%로 확대될 것으로 전망했다. 이 과정에서 훈련·추론 모두에서 90%대 점유율 보유한 엔비디아가 2027년부터 추론 시장에서는 점유율이 떨어질 수 있다는 관측(서밋인사이트그룹)도 따른다.
당초 관심이 모였던 파인만이 이번 GTC에서 완전히 빠지는 건 아닐 것으로 보인다. 일종의 프리뷰 차원의 소개가 될 것으로 예상된다. 엔비디아는 지난해 루빈 2026년 루빈울트라 2027년, 파인만 2028년이라는 GPU 로드맵을 제시한 바 있다. 이마케터의 제이콥 본 애널리스트는 "엔비디아가 루빈에서 파인만까지 아우르는 풀스택 로드맵 업데이트를 제시하되 추론과 에이전틱 AI, 네트워킹, AI 팩토리 인프라에 방점을 찍을 것"으로 전망했다.
◆CPO 로드맵도 공개 예상
이번 GTC에서는 데이터 전송 방식을 바꾸는 코패키지드옵틱스(CPO) 기술의 로드맵도 공개될 것으로 전망된다. 서버 간·랙 간 통신에서 칩의 전기 신호는 기판 위 구리 배선을 타고 전면판의 광 트랜시버에 도달해 빛으로 바뀐 뒤 광섬유로 전달되는데 이 구리 구간에서 신호 손실과 전력 낭비가 발생한다. CPO는 광 트랜시버를 칩 바로 옆에 붙여 구리 구간을 크게 줄이는 기술이다. 엔비디아가 이 기술을 보유한 루멘텀과 코히런트에 각 20억달러를 투자한 배경이기도 하다.
다만 CPO는 아직 엔비디아의 칩 출하량을 뒷받침할 만큼 대량생산 체제가 갖춰지지 않았다. 이마케터의 제이콥 본 애널리스트는 "엔비디아가 CPO를 대규모 AI 클러스터의 핵심 연결 기술로 제시할 것이지만 대규모 배치가 가능할 만큼 비용을 낮추는 것이 과제"라고 지적했다. 윌리엄블레어의 세바스티엔 나지 애널리스트는 CPO가 차세대 파인만 아키텍처의 핵심 기술이 될 것으로 전망했다.

bernard0202@newspim.com













