GPT-5.4, 이제 컴퓨터를 직접 조작한다: OpenAI의 수년 만에 가장 큰 변화

컴퓨터를 직접 쓰는 모델이 나왔다

OpenAI가 3월 5일 GPT-5.4를 출시했는데, 가장 주목할 기능은 벤치마크 점수나 가격 변경이 아니다. 이 모델이 이제 컴퓨터를 직접 사용할 수 있다는 것이다. 비유적으로 "작업을 도와준다"는 뜻이 아니다. GPT-5.4는 스크린샷을 찍고, 마우스를 움직이고, 키보드로 타이핑하고, 웹사이트를 탐색하고, 파일을 관리하며, 여러 소프트웨어 시스템에 걸친 다단계 워크플로를 실행할 수 있다. 네이티브 컴퓨터 사용 기능을 탑재한 최초의 범용 AI 모델이다.

이것은 근본적으로 다른 종류의 AI 능력이다. 기존 모델들은 텍스트를 생성하고, 코드를 작성하고, 질문에 답할 수 있었다. GPT-5.4는 실제로 사람이 하듯 컴퓨터에서 일을 할 수 있다: 메뉴를 클릭하고, 양식을 채우고, 애플리케이션 사이를 전환하며, 이전에는 사람이나 맞춤 자동화 스크립트가 필요했던 작업을 완수한다.

컴퓨터 사용이 실제로 작동하는 방식

시스템은 스크린샷, 마우스 이동, 키보드 입력을 통해 작동한다. GPT-5.4는 화면에 있는 것을 보고, 인터페이스를 이해하며, 행동을 취한다. AI 어시스턴트에게 책상에 앉아 노트북을 조작할 수 있는 능력을 준 것이라고 생각하면 된다.

AI가 실제 운영체제 작업을 얼마나 잘 수행하는지 측정하는 OSWorld-Verified 벤치마크에서 GPT-5.4는 **75.0%**를 기록했다. 같은 벤치마크에서 인간의 성능이 **72.4%**라는 점에서 이 숫자는 의미가 크다. 범용 AI 모델이 운영체제 작업에서 인간 기준선을 넘어선 것은 이번이 처음이다. 웹 브라우징과 리서치 능력을 테스트하는 BrowseComp에서 GPT-5.4 Pro는 **89.3%**로 새로운 최고 기록을 세웠다.

실용적 활용은 즉각적이다. AI 에이전트가 이제 회사의 내부 도구를 탐색하고, 경비 보고서를 작성하고, CRM 항목을 업데이트하고, 여러 캘린더에 걸쳐 회의를 잡거나, 브라우저에서 테스트 워크플로를 실행할 수 있다. 전문 인력의 시간을 매일 몇 시간씩 잡아먹는 반복적이고 다단계인 컴퓨터 작업들이다.

Thinking과 Pro 등급

GPT-5.4는 세 가지 버전으로 출시된다. 표준 버전은 일상적인 작업을 처리한다. GPT-5.4 Thinking은 확장된 추론 기능을 추가하며, 실행 전에 계획을 먼저 보여주기 때문에 잘못된 방향으로 가는 것을 발견하면 중간에 개입할 수 있다. GPT-5.4 Pro는 까다로운 전문 업무를 위한 고성능 등급이다.

사고 모델이 자신의 작업 과정을 보여주고 수정을 받아들이는 기능은 진정한 신기능이다. 이전 추론 모델들은 블랙박스로 작동했다: 문제를 주고 답을 기다렸다. GPT-5.4 Thinking은 먼저 전략을 보여주고 단계별로 실행한다. 초기에 문제를 발견하면 모델이 잠재적으로 비용이 큰 연산을 끝마칠 때까지 기다리지 않고 방향을 전환할 수 있다.

GPT-5.4 Thinking은 Plus, Team, Pro 구독자에게 지금 바로 사용 가능하다. GPT-5.2 Thinking을 대체하며, 기존 모델은 레거시 모델 섹션에서 3개월간 유지된 후 6월 5일 은퇴한다.

핵심 숫자들

컴퓨터 사용이라는 헤드라인 외에도 GPT-5.4는 전반적으로 상당한 개선을 보여준다.

컨텍스트 윈도우가 API에서 100만 토큰으로 확대됐는데, OpenAI가 제공한 것 중 단연 최대 규모다. 참고로 이는 약 75만 단어, 즉 장편 소설 10권 분량에 해당한다. 기업 활용 사례에 엄청나게 중요하다: 전체 코드베이스, 긴 법률 계약서, 방대한 연구 문서를 하나의 컨텍스트에서 처리할 수 있다.

정확도 면에서 OpenAI는 개별 응답이 GPT-5.2 대비 오류 가능성이 33% 낮아졌다고 주장하며, 전체적으로 18% 실수가 줄었다. 전문 지식 업무 벤치마크에서 GPT-5.4는 비교 대상의 83%에서 업계 전문가를 따라잡거나 넘어섰다. GPT-5.2의 70.9%에서 올라간 수치다. 스프레드시트 모델링 점수는 68.4%에서 87.3%로 뛰었다.

토큰 효율성도 개선됐다. OpenAI에 따르면 GPT-5.4는 전작보다 훨씬 적은 토큰으로 같은 문제를 해결하는데, 이는 공식적인 가격 변경 전에도 개발자의 API 비용 절감으로 직결된다.

AI 경쟁에서의 의미

GPT-5.4의 컴퓨터 사용 기능은 OpenAI를 Anthropic의 Claude 컴퓨터 사용 기능과 정면 경쟁 구도에 놓는다. Claude의 컴퓨터 사용은 작년에 출시됐지만 프로덕션 기능이 아닌 리서치 프리뷰로 자리매김했다. OpenAI는 이것을 출시 첫날부터 핵심 기능으로 내놓고 있다.

경쟁 맥락이 중요하다. OpenAI는 여러 방면에서 압박을 받아왔다. MiniMax나 곧 출시될 DeepSeek V4 같은 중국 연구소들이 비용의 극히 일부로 프론티어 성능에 필적하고 있다. Anthropic의 Claude는 강력한 코딩 성능으로 개발자 충성도를 확보해왔다. 구글의 Gemini는 차세대 Siri를 구동한다. OpenAI에는 명확한 기술 리더십을 보여주는 출시가 필요했고, 네이티브 컴퓨터 사용이 그 답이다.

가격 측면도 중요하다. GPT-5.4는 프리미엄 가격 책정으로 Anthropic의 Claude를 겨냥하며, 에이전틱 기능이 필요한 조직을 위한 엔터프라이즈급 옵션으로 포지셔닝하고 있다. 메시지는 분명하다: 컴퓨터에서 어떻게 할지 알려주는 것이 아니라 실제로 해주는 AI를 원한다면, OpenAI는 그것에 프리미엄을 지불할 가치가 있다고 보는 것이다.

아무도 말하지 않는 리스크

컴퓨터 사용은 분명한 안전 함의를 가진 기능이다. 데스크톱을 탐색하고, 파일을 관리하며, 다단계 워크플로를 실행할 수 있는 AI는 실질적 결과가 따르는 실수도 할 수 있다. 잘못된 파일 삭제, 잘못된 수신자에게 이메일 전송, 금융 애플리케이션에서 잘못된 버튼 클릭 등은 AI가 컴퓨터에 대한 주도권을 가질 때 가능해지는 시나리오들이다.

OpenAI는 실행 중 개입 기능과 명시적 권한 제어 등의 안전장치를 구축했다. 하지만 근본적 긴장은 남아 있다: 컴퓨터 사용의 요점 자체가 AI가 사용자를 대신해 행동하게 하는 것이고, 모든 행동에는 위험이 수반된다.

인력 영향 문제도 있다. AI가 OSWorld 벤치마크가 시사하듯 운영체제 작업을 인간보다 잘 수행할 수 있다면, 상당한 범주의 행정 및 기술 지원 업무가 새로운 방식으로 자동화 가능해진다. 맞춤 소프트웨어 통합을 통해서가 아니라, 기존 소프트웨어를 사람과 같은 방식으로 사용할 수 있는 AI를 통해서다.

앞으로 주목할 포인트

당장의 질문은 채택 속도다. 컴퓨터 사용은 지금 이용 가능하지만, 기업들은 AI 에이전트에 시스템 제어권을 줄 때 신중하게 움직이는 경향이 있다. 얼리 어답터 사례 연구와 기업 도입을 가속하거나 둔화시킬 수 있는 주요 사건에 주목해야 한다.

경쟁 전선에서 Anthropic과 구글은 대응해야 한다. Claude는 이미 프리뷰로 컴퓨터 사용을 갖추고 있어 완전한 프로덕션 출시가 머지않아 있을 것으로 보인다. 구글은 Gemini의 확장되는 기능 세트에 컴퓨터 사용을 통합할 수 있다.

더 장기적인 질문은 컴퓨터 사용이 모든 프론티어 모델의 표준 기능이 되면 무슨 일이 벌어지느냐다. 지금은 차별화 요소다. 6개월 후에는 기본 사양이 될 수 있다. 그리고 사람들이 컴퓨터와 일하는 방식에 대한 진정한 파괴적 변화가 시작되는 것은 바로 그때다.