오픈AI 대규모 투자 의미는
기존 방식에 역행하는 설계
월가 수혜주 베팅 나서
이 기사는 9월 26일 오후 3시28분 '해외 주식 투자의 도우미' GAM(Global Asset Management)에 출고된 프리미엄 기사입니다. GAM에서 회원 가입을 하면 9000여 해외 종목의 프리미엄 기사를 보실 수 있습니다.
[서울=뉴스핌] 황숙혜 기자 = 인공지능(AI) 칩 개발에 주력하던 엔비디아(NVDA)가 데이터센터 설계에 직접 뛰어들자 반사이익이 기대되는 종목들 주가가 들썩이고 있다.
미국 금융 매체 배런스는 엔비디아가 오픈AI에 1000억달러에 달하는 대규모 투자를 강행한 데 대해 단순한 수동적 투자가 아니라고 판단했다.
AI 시대의 중추라고 할 수 있는 데이터센터가 어떤 모습이어야 하는가에 직접적이고 적극적인 개입에 나선 것이라는 해석이다.
앞서 엔비디아는 데이터센터 업체 코어위브(CRWV)에 대규모 투자를 단행, 자사 사업의 데이터센터 부문에 관여한 바 있다.
소식통에 따르면 업체는 이번 오픈AI의 투자를 통해 데이터센터의 설계에 더욱 깊이 개입하는 움직임이다.
엔비디아는 양사가 AI를 위한 로드맵을 공동으로 최적화할 계획이라고 밝혔다. 시장 전문가들은 엔비디아가 AI와 함께 소위 AI 팩토리를 어떻게 설계할 것인지를 놓고 함께 작업에 뛰어든다는 의미로 해석한다.
내부 관계자는 오픈AI가 데이터센터를 건설하기 위한 부지를 선택하면 엔비디아가 오픈AI와 긴밀히 협력해 데이터센터의 구체적인 형태와 성능을 설계할 예정이라고 전했다.
![]() |
오픈AI와 엔비디아 로고 [자료=블룸버그] |
엔비디아가 오픈AI 투자를 결정한 배경은 업체의 가속 컴퓨팅 담당 부사장인 이안 벅이 이달 초 한 컨퍼런스에서 공개한 데이터센터 관련 발언을 통해 좀 더 명확하게 알 수 있다.
그는 "데이터센터는 더 이상 내부에 탑재되는 컴퓨터 플랫폼, 즉 연산 플랫폼과 독립적으로 설계되면 안된다"며 "이 경우 전력 분배와 냉각 그리고 시스템 운영 측면의 효율성이 떨어진다"고 지적했다. 때문에 엔비디아와 파트너들은 기존 모델을 뒤집고 있다고 그는 설명했다.
![]() |
AI 데이터센터 [사진=블룸버그] |
핵심은 데이터센터 설계의 방식이 달라져야 한다는 데 있다. 과거에는 데이터센터 건축과 전기, 냉각, 랙 배열 등 인프라를 먼저 구축하고 그 안에 들어갈 서버와 CPU(중앙처리장치), GPU(그래픽처리장치) 등 컴퓨팅 장비를 '나중에 끼워 넣는' 형태를 취했다. 즉, 건물과 인프라, 장비를 각각 따로 접근하는 모델이었다.
벅이 지적하는 부분은 이 같은 방식을 취할 때 AI 연산, 특히 엔비디아 GPU 기반의 학습과 추론이 엄청난 전력 소모와 발열을 발생시킨다는 점이다. 데이터센터를 컴퓨팅 플랫폼과 무관하게 설계하면 전력 배분 효율성이 떨어지고, 냉각 장치가 GPU 발열 특성을 최적으로 다루지 못하고, 네트워킹과 스케줄링, 자원 관리 등 시스템 전반에 걸친 최적화도 어렵다는 얘기다.
엔비디아는 이런 문제를 해결하기 위해 서버와 GPU를 포함한 컴퓨팅 플랫폼을 중심에 두고 데이터센터 설계를 출발부터 새롭게 접근한다는 계획이다.
이는 소위 'AI 팩토리'라고 지칭되는 GPU의 특성에 맞춘 전력 및 냉각 구조와 서버부터 네트워크, 스토리지까지 하나의 통합된 설계, 엔비디아의 GPU와 소프트웨어, 네트워크 생태계를 최적화 한 탑재를 뜻한다.
벅이 '모델을 뒤집는다'고 표현한 대목은 건물부터 장비 순으로 이뤄지는 기존의 설계 방식을 장비부터 건물 및 인프라 순으로 역방향을 취한다는 의미다.
즉, 엔비디아는 AI 팩토리라고 불리는 AI 전용 데이터센터 시대에는 기존 데이터센터처럼 범용적으로 짓는 방식이 아니라 GPU와 AI 워크로드에 최적화된 맞춤형 데이터센터를 직접 구상하려는 입장이다.
오픈AI는 초대형 AI 모델 기업으로, GPU에 최적화된 막대한 전용 연산 인프라가 필요하다. 엔비디아는 단순히 GPU를 판매해 이익을 창출하는 데 그치지 않고, 이번 대규모 투자를 통해 데이터센터 전체 설계의 표준을 세우는 데 주도권을 쥐려는 움직임으로 풀이된다.
월가는 엔비디아의 새로운 행보가 상당수의 업체들에게 성장 동력을 제공할 것으로 예상한다. 각 AI 팩토리는 소규모 도시만큼의 전력을 사용할 것으로 보이는 만큼 에너지 섹터의 기업들이 반사이익을 얻을 수 있고, 거대한 데이터센터 설계 과정에 엔지니어링 및 산업재 업체들이 매출 성장을 나타낼 여지가 높다는 얘기다.
데이터센터용 전기 장비를 공급하는 스위스의 산업재 업체 ABB의 모르텐 비에로드 회장은 "AI 데이터센터가 기존의 표준에 따라 건설된다면 공간과 전력, 물이 가까운 미래에 부족해질 것"이라며 "더 높은 전력을 수용하기 위해 ABB는 데이터센터 전압을 약 48볼트에서 800볼트로 높이는 작업을 벌이고 있다"고 전했다.
업계에 따르면 최신 AI GPU 서버는 소위 랙 단위로 엄청난 전력을 소모한다. 관련 매체 데이터센터매거진은 흔히 쓰는 교류(AC) 대신 직류(DC)로 전환할 경우 전력 손실을 낮추는 한편 효율적인 분배가 가능하며, 구리 비용의 절감 효과까지 볼 수 있다고 말한다.
냉각 시스템도 개선이 필요한 부분이다. AI 서버는 공랭만으로 감당이 불가능하고, 고효율 액체 냉각이 필수라고 업계 전문가들은 강조한다.
냉각 장치는 설계 단계에서부터 서버의 전력 소모 및 발열 특성을 디지털 트윈, 즉 가상 복제체나 시뮬레이션으로 구현해 선제적으로 설계할 수 있다.
시스템의 전반적인 구성과 배치, 시뮬레이션을 포괄하는 시스템 오케스트레이션도 엔비디아가 '뒤집기'를 통해 개선시키려는 부분이다.
전통적으로는 데이터센터 시공과 서버 배치, 냉각 층별 운영 등이 별도로 움직였지만 디지털 트윈을 활용해 엔지니어들이 설계 초기에 3D로 서버를 배치하고, 전력과 냉각 효율, 네트워크 지연이나 장애 대책까지 통합 시뮬레이션이 가능해졌다.
실제로 엔비디아는 AI 기반의 실시간 디지털 트윈 제작 솔루션인 옴니버스 블루프린트를 이용해 데이터센터 설계 오류를 최소화하는 한편 공정을 최적화하고, 비용과 잠재적인 리스크를 절감하고 있다고 내부 블로그를 통해 밝혔다.
디지털 트윈이 중요한 이유는 실제 데이터센터 공사 전 과열이나 장애, 비용 초과, 업타임 등을 가상에서 검증해 다운타임과 설계 실패를 최소화할 수 있기 때문이다.
여기서 업타임은 시스템과 서버, 컴퓨터 등이 충돌이나 재부팅 없이 정상적으로 작동하며 사용 가능한 시간을 의미하며, 일반적으로 백분율로 표시된다. 가령, 업타임이 99.9%라면 24시간 중 99.9% 동안 정상 작동했다는 뜻이다.
다운타임은 시스템이나 기계 서비스 등이 작동하지 않거나 사용할 수 없는 시간을 의미한다. 고장 뿐 아니라 유지보수, 정전 등으로 인해 작동하지 않는 시간도 여기에 포함된다.
디지털 트윈을 이용해 이 같은 부분에 대한 문제들을 사전에 가상으로 점검, 실제 데이터센터를 가동할 때 효율성을 최대화 할 수 있다고 업계 전문가들은 말한다.
shhwang@newspim.com