구글 제미나이 3.1 프로가 추론 점수를 두 배로 올렸다. AI 경쟁이 이렇게 치열했던 적이 없다.

구글이 도전장을 던졌다

구글 딥마인드가 2월 19일에 제미나이 3.1 프로를 출시했고, 헤드라인 숫자는 무시하기 어렵다: 업계에서 진정한 새로운 추론 능력을 측정하는 가장 중요한 벤치마크로 자리잡은 **ARC-AGI-2에서 77.1%**를 기록했다. 이 점수는 제미나이 3 프로가 달성한 것의 두 배 이상이며, 많은 연구자들이 현재 AI에서 가장 의미 있는 벤치마크로 여기는 곳에서 구글을 다시 1위로 올려놓았다.

하지만 이번 출시는 하나의 숫자에 관한 것이 아니다. 제미나이 3.1 프로는 16개 주요 벤치마크 중 13개에서 최고 점수를 기록했다. GPQA 다이아몬드(대학원 수준 과학 문제)에서 94.3%, SWE-Bench Verified(실제 소프트웨어 엔지니어링)에서 80.6%, MMLU에서 92.6%를 달성했다. 이런 전방위적 개선은 자주 일어나지 않으며, 세 주요 연구소가 전례 없는 속도로 업그레이드를 밀어내고 있는 바로 이 시점에 벌어지고 있다.

모든 것을 바꾼 .1 업데이트

이번 출시가 특이한 이유가 있다: 구글이 자체 버전 관리 패턴을 깨뜨렸다. 이전 제미나이 세대는 중간 업데이트에 .5 증분을 사용했다(제미나이 1.5, 제미나이 2.5). 3.5 대신 3.1로의 도약은 이것이 사소한 새로고침이 아님을 신호한다. 구글은 이 모델을 빨리 출시하고 싶었고, .1 태그는 아직 더 할 일이 남았음을 시사한다.

모델은 제미나이 3 프로의 거대한 컨텍스트 윈도우 1,048,576 토큰(약 100만 토큰)을 유지하며, 이는 앤트로픽과 오픈AI가 제공하는 것보다 약 5배 크다. 출력 윈도우는 65,536 토큰으로 확장됐고, 멀티모달 기능은 프롬프트당 최대 900개 이미지, 8.4시간의 오디오, 1시간의 비디오를 지원한다. 인프라 측면에서 구글은 3.1 프로를 제미나이 API, Vertex AI, 제미나이 앱, NotebookLM에 즉시 배포했다.

가격은 제미나이 3 프로와 동일하게 유지됐다: 입력 100만 토큰당 2달러, 출력 100만 토큰당 12달러. 이는 앤트로픽의 오퍼스 4.6(100만 토큰당 5달러/25달러)보다 약 7배 저렴하다. 대규모로 AI를 운영하는 기업에게 이 가격 차이는 엄청나게 중요하다.

3파전 경쟁

이번 주가 특히 흥미로운 이유는 구글만 움직이는 것이 아니기 때문이다. 2026년 2월 말 현재 AI 지형에는 모든 벤치마크 상위에서 치고받는 세 모델이 있다:

제미나이 3.1 프로는 원시적 폭에서 앞선다. 가장 많은 벤치마크에서 최고 점수를 기록했으며, ARC-AGI-2(77.1%), GPQA 다이아몬드(94.3%), LiveCodeBench Pro(2887 Elo)를 포함한다. 구글은 경쟁 코딩, 과학적 추론, 도구 조율을 공격적 가격대에 최적화했다.

클로드 오퍼스 4.6은 정밀도에서 앞선다. SWE-Bench Verified에서 근소하게 앞서고(80.8% vs 80.6%), 도구 사용이 가능한 Humanity's Last Exam에서 우위를 점하며(53.1% vs 51.4%), GDPval-AA Elo 전문가 과제에서 최고점을 기록했다(1633 vs 1317). 앤트로픽은 실세계 소프트웨어 엔지니어링과 전문가 워크플로우에서의 정밀한 정확도에 집중했다.

GPT-5.3 코덱스는 속도와 에이전트 실행에서 앞선다. 오픈AI의 최신작은 에이전트 코딩 시나리오에서 벤치마크 점수 일부를 처리량과 교환하며, 터미널 실행과 지속적 다단계 코딩 루프에서 특히 강하다. SWE-Bench Pro(Public)에서 GPT-5.3 코덱스가 56.8%로 제미나이의 54.2%를 앞선다.

많은 분석가들이 수렴하고 있는 실용적 결론: 더 이상 단일 "최고" 모델은 없다. 초기 비교에서 나타나는 권장 아키텍처는 일상적 요청의 약 80%(비용 효율이 중요한 곳)에 제미나이 3.1 프로를, 나머지 20%의 전문가 수준 작업(최대 정밀도가 필요한 곳)에 클로드 오퍼스 4.6을 사용하는 것이다.

벤치마크가 실제로 의미하는 것

ARC-AGI-2에 대해 구체적으로 이야기하자. 77.1% 점수는 맥락이 필요하다. ARC-AGI-2는 모델이 훈련 중에 보지 못한 완전히 새로운 논리 패턴을 푸는 능력을 테스트한다. MMLU나 HumanEval과 달리, 답을 외워서 ARC-AGI-2를 속일 수는 없다. 각 퍼즐은 모델이 공간 관계, 시퀀스, 추상적 변환에 대해 진정으로 추론하도록 요구한다.

한 세대 만에 약 35%에서 77.1%로 올라간 것은 인상적일 뿐 아니라, 구글이 3.1의 추론 파이프라인에 가한 아키텍처 변경이 상당하다는 것을 시사한다. 구글은 아직 기술적 세부 사항을 공개하지 않았지만, 초기 분석은 복잡한 문제를 중간 추론 단계로 분해하는 모델의 능력 향상을 지적한다. 업계에서 "체인 오브 소트 스케일링"이라 부르는 것이다.

SWE-Bench Verified도 마찬가지로 의미 깊다. 80.6% 점수는 모델이 실제 오픈소스 저장소의 실제 버그 리포트를 다섯 번 중 네 번 성공적으로 해결할 수 있음을 의미한다. 1년 전만 해도 최고 모델이 이 벤치마크에서 겨우 50%를 넘기던 때였다. AI 코딩 어시스턴트와 인간 소프트웨어 엔지니어 사이의 격차가 출시마다 측정 가능하게 줄어들고 있다.

비용 혁명

3.1 프로 출시에서 가장 과소평가되는 측면은 AI 경제학에 대한 의미일 수 있다. 구글은 사실상 오퍼스 수준의 성능을 7분의 1 가격에 제공하고 있다. AI API 호출에 연간 수백만 달러를 지불하는 기업들에게, 워크로드 대부분을 오퍼스에서 제미나이 3.1 프로로 전환하면 품질 손실은 거의 없이 AI 컴퓨트 비용을 70-80% 절약할 수 있다.

이 가격 압력은 거의 확실하게 앤트로픽과 오픈AI의 대응을 강제할 것이다. 앤트로픽은 역사적으로 품질 선도를 내세워 오퍼스 가격을 정당화해왔지만, 제미나이가 이제 대부분의 벤치마크에서 오퍼스를 따라잡거나 넘어서면서 그 프리미엄을 방어하기 어려워졌다.

더 넓은 함의는 프론티어 AI 능력이 누구도 예상하지 못한 속도로 상품화되고 있다는 것이다. 2년 전 GPT-4 수준의 인텔리전스에 접근하려면 100만 토큰당 60달러가 들었다. 오늘날 100만 토큰당 2달러로 상당히 더 나은 성능을 얻을 수 있다. 이 가격 곡선은 어떤 회사가 AI 네이티브 제품을 만들 수 있고 어떤 애플리케이션이 경제적으로 실행 가능해지는지에 대해 거대한 함의를 갖는다.

2월의 모델 러시

제미나이 3.1 프로는 고립적으로 도착한 것이 아니다. 2026년 2월은 일부 논평가들이 "2월 리셋"이라 부르는 것을 목격했으며, 한 주에 여러 주요 모델이 출시됐다. 이 출시 속도는 모델을 몇 주만 늦춰도 경쟁자에게 밀리는 업계를 반영한다.

경쟁 역학은 모델 출시 방식도 바꾸고 있다. 구글은 완전한 .5 업데이트를 기다리면 수개월간 벤치마크 선두를 내줘야 했기 때문에 구체적으로 .1 증분으로 3.1 프로를 밀어냈다. 시장 출시 속도가 이제 원시적 능력만큼 중요하며, 세 연구소 모두 출시 주기를 압축하고 있다.

개발자에게 이것은 "어떤 모델을 써야 하나"라는 질문에 그 어느 때보다 "상황에 따라 다르다"로 답해야 한다는 뜻이다. 하나의 확실한 승자가 있던 시절은 끝났다. 2026년의 스마트한 API 전략은 특정 작업, 비용 제약, 지연시간 요구사항에 따라 다른 유형의 요청을 다른 모델로 라우팅하는 것을 포함한다.

앞으로 주목할 것

구글의 .1 버전 선택은 3.5나 심지어 4.0이 이미 개발 중임을 강하게 시사한다. 3.1이 중간 업데이트라면, 차세대 모델은 ARC-AGI-2 점수를 80% 이상으로 밀어올리고 SWE-Bench에서 90% 임계값을 넘을 가능성이 있다.

앤트로픽은 수개월 내에 클로드 5를 출시할 것으로 널리 예상되며, 오픈AI는 GPT-5 패밀리를 계속 반복하고 있다. 벤치마크가 계속 올라갈지는 의문이 아니다; 이 모델들 사이의 실질적 품질 차이가 결국 가격과 통합만이 유일한 차별화 요소가 될 만큼 작아질지가 질문이다.

현재로서는 제미나이 3.1 프로가 서류상으로 이길 모델이다. 그 위치가 몇 주 또는 몇 달 유지될지는 앤트로픽과 오픈AI가 얼마나 빨리 대응하느냐에 달렸다. 현재 AI 경쟁에서 리더보드 정상에서의 한 주는 영원이나 다름없다.