엔비디아, AI 추론 시대에 200억 달러를 걸다: GTC 2026 핵심 정리

AI 붐의 초창기는 온통 훈련에 관한 것이었다. 누가 가장 큰 모델을 만들고, 누가 가장 많은 컴퓨팅 자원을 태우고, 누가 하나의 클러스터에 가장 많은 GPU를 쌓을 수 있는지가 경쟁의 핵심이었다. 그 시대가 끝난 건 아니지만, 월요일 산호세 GTC 2026 기조연설에서 젠슨 황은 엔비디아의 다음 목표가 추론임을 명확히 했다. 그 베팅의 가격표? 200억 달러다.

Groq 3 LPU: 그냥 또 하나의 칩이 아니다

황의 기조연설에서 주인공은 새 Vera Rubin GPU 플랫폼이 아니었다. 바로 **Groq 3 언어 처리 장치(LPU)**였다. 2025년 12월에 200억 달러에 마무리된 추론 전문 스타트업 Groq 인수에서 탄생한 첫 번째 칩이다.

각 Groq 3 LPU에는 500MB의 SRAM이 탑재되어 있고, 150TB/s의 메모리 대역폭을 제공한다. 비교하자면 엔비디아 자체 Rubin GPU는 HBM4 메모리를 통해 22TB/s를 처리한다. LPU의 대역폭 우위는 약 7배에 달하는데, 이는 추론 워크로드에서 병목이 순수 연산 능력이 아니라 데이터를 시스템을 통해 얼마나 빨리 이동시킬 수 있느냐에 달려 있기 때문에 매우 중요하다.

이 칩은 대규모 언어 모델 추론의 "디코드" 단계, 즉 토큰 하나하나를 순차적으로 생성하는 단계에 특화되어 설계되었다. Groq의 아키텍처는 GPU가 의존하는 HBM 메모리 대신 SRAM을 사용하여, 결정론적 단일 사이클 지연 시간을 달성해 응답이 거의 즉각적으로 느껴지게 만든다.

LPX 랙: 산업 규모의 추론 인프라

엔비디아는 Groq 3를 독립형 칩으로 출하하지 않는다. 256개의 LPU를 Groq LPX 랙에 패키징하여 Vera Rubin NVL72 GPU 랙 옆에 배치하는 구조다. 개념은 페어 시스템이다. GPU가 연산 집약적인 "프리필" 단계(전체 프롬프트를 한 번에 처리)를 담당하고, 빠른 토큰 생성은 LPU 랙으로 넘긴다.

엔비디아가 제시하는 수치는 놀랍다. 랙당 128GB SRAM, 40PB/s 총 대역폭, 전용 640TB/s 스케일업 인터커넥트. Vera Rubin과 결합하면 메가와트당 35배 높은 처리량과 AI 서비스 제공업체를 위한 10배의 수익 잠재력을 제공한다고 한다.

마지막 지표가 시사하는 바가 크다. 엔비디아는 더 이상 단순히 하드웨어를 파는 게 아니라, 비즈니스 케이스를 팔고 있다. AI 추론 서비스를 운영한다면, 소비하는 전력 와트당 훨씬 더 많은 수익을 올릴 수 있다는 제안인 셈이다.

2027년까지 1조 달러

황은 GTC 역사상 가장 충격적인 숫자를 내놓았다. 블랙웰과 Vera Rubin 플랫폼에 대한 구매 주문이 2027년까지 1조 달러에 달할 것으로 예상한다는 것이다. 이는 매출이 아닌 주문량이지만, AI 인프라에 유입되는 자본의 규모를 보여준다.

Vera Rubin 플랫폼 자체는 2026년 하반기 출하 예정이며, Groq 3 LPU를 포함해 현재 7개의 칩이 생산 중이다. 기업들이 AI 실험 단계에서 대규모 배포 단계로 전환하면서 추론 수요가 폭발하고 있기 때문에 타이밍이 중요하다. 모델을 훈련하는 건 일회성 비용이지만, 수백만 사용자에게 서비스하는 것은 초기 투자를 훨씬 초과하는 반복 비용이다.

NemoClaw와 에이전트 전략

또 하나의 주요 발표는 NemoClaw였다. 자율형 AI 에이전트를 구축하고 배포하기 위한 엔비디아의 오픈소스 스택이다. 황은 이를 "클로(claw)"라고 불렀는데, 사람의 개입 없이 추론하고, 계획하고, 코드를 작성하고, 도구를 호출하며 지속적으로 개선하는 장기 실행 에이전트다.

NemoClaw는 NVIDIA DGX Spark와 DGX Station 시스템에서 구동되며, 최대 4개 유닛을 클러스터링해 소형 "데스크톱 데이터센터"를 구성할 수 있다. 오픈소스 접근 방식은 CUDA가 GPU 컴퓨팅에서 했던 것과 같은 전략이다. 소프트웨어는 무료로 제공하되 모든 배포가 엔비디아 하드웨어에서 실행되도록 하여, 떠나기 거의 불가능한 생태계를 구축하는 것이다.

황은 모든 기업이 "OpenClaw 전략"이 필요하다고까지 말하며, 과거 기업들이 인터넷 전략이 필요했던 것에 비유했다. 대담한 주장이지만, 기업들이 AI를 웹사이트에 붙인 챗봇이 아니라 복잡한 다단계 워크플로를 처리하는 자율 시스템으로 바라보기 시작한 현실을 반영한다.

멜라녹스 전략의 재현

업계 분석가들은 이미 Groq 인수를 엔비디아의 "멜라녹스 모먼트"라고 부르고 있다. 2020년 엔비디아가 70억 달러에 멜라녹스를 인수했을 때 회의론자들은 가격이 과하다고 했다. 그 네트워킹 기술은 전 세계 모든 주요 AI 훈련 클러스터의 핵심 연결 조직이 되었다. 이제 엔비디아는 AI 산업이 모델 구축에서 서비스로 전환하는 시점에 Groq의 추론 기술이 비슷한 역할을 할 것에 베팅하고 있다.

전략적 논리는 명확하다. 엔비디아는 이미 GPU로 AI 훈련을 장악하고 있다. Groq 인수를 통해 AMD, 인텔, 또는 Cerebras 같은 스타트업이 차지하기 전에 추론 쪽도 확보하려는 것이다. 200억 달러라는 가격은 Groq의 마지막 비공개 평가액의 2.9배로, 엔비디아가 이를 "있으면 좋은 것"이 아니라 "반드시 필요한 것"으로 봤음을 말해준다.

AI 산업에 주는 의미

GTC 2026 기조연설은 몇 달간 쌓여온 흐름을 명확하게 정리했다. AI 산업이 배포 단계에 진입하고 있다는 것이다. 가장 큰 모델을 만드는 경쟁은 멈추지 않겠지만, 경제적 무게 중심은 실제 수익이 발생하는 추론 쪽으로 이동하고 있다.

클라우드 제공업체와 AI 스타트업에게 Groq 3 LPU + Vera Rubin 조합은 추론 비용이 극적으로 떨어지면서 처리량이 급증할 수 있음을 의미한다. 대규모 언어 모델 위에 제품을 구축하는 모든 이에게 좋은 소식이다. 엔비디아의 경쟁자들에게는 AI 인프라에서의 지배력에 도전할 수 있는 창이 빠르게 좁아지고 있다는 신호다.

LPX 랙은 2026년 하반기에 출하된다. 그때쯤이면 황의 1조 달러 전망이 선견지명이었는지, 단순한 실리콘밸리식 과장이었는지 알 수 있을 것이다. 월요일 SAP 센터의 만석 관중을 보면, 상당히 많은 사람들이 전자에 베팅하고 있다.