'절치부심' 챗GPT, 성능으로 제미나이 눌러…구글도 심층모델 맞불

전체서비스

문화·스포츠

서경스타

스페셜 컨텐츠

이용안내

보내는 사람
받는 사람	※ 여러명에게 보낼 경우 콤마(,)로 구분하세요.

보내는 사람

받는 사람

※ 여러명에게 보낼 경우 콤마(,)로 구분하세요.

'절치부심' 챗GPT, 성능으로 제미나이 눌러…구글도 심층모델 맞불

입력2025-12-12 18:31:37 수정 2025.12.12 18:31:37 뉴욕=윤경환 특파원

구글의 거센 추격에 ‘코드 레드(중대 경보)’를 발령하며 성능 고도화에 총력을 기울였던 오픈AI가 새 인공지능(AI) 모델인 ‘GPT-5.2’를 선보였다. 구글도 이에 질세라 제미나이의 심층 연구용 에이전트를 내놓으며 AI 초거대 기업 간 싸움이 격화하는 양상이다.

11일(현지 시간) 오픈AI는 기존 즉답(Instant), 사고(Thinking) 모드에 ‘프로(Pro) 모드’를 더한 GPT-5.2 모델 시리즈를 유료 구독자용부터 순차적으로 출시한다고 밝혔다. 오픈AI는 프로 모드가 긴 작업 시간이 필요한 어려운 질문에 적합한 도구이며 전문적인 지식 업무에서 뛰어난 성능을 보여준다고 소개했다. 오픈AI는 특히 GPT-5.2가 AI 성능 측정 과정에서 최고 수준을 달성했다고 강조했다. GPT-5.2 사고 모드와 프로 모드는 법률·회계·의료·금융 등 44개 전문 직종의 업무 수행 능력을 따지는 GDPval 평가에서 각각 70.9%, 74.1%의 점수를 기록했다. 최고의 실무 능력을 보유한 인간을 100%로 봤을 때 중상위권 전문가들과 대등한 수준까지 올라왔다는 뜻이다. 이전 버전인 GPT-5 사고 모드의 평가 점수가 38.8%였던 점을 감안하면 거의 두 배 높은 성적을 거뒀다. GPT-5.2는 또 소프트웨어 공학 능력을 평가하는 SWE 벤치마크(성능 평가)에서도 80.0%를 기록해 제미나이 3.0 프로(76.2%)보다 앞섰다. 코딩 능력이 뛰어난 앤스로픽의 클로드 오퍼스 4.5(80.9%)와도 동등한 수준이 됐다. ‘인류의 마지막 시험’이라고도 불리는 박사급 추론 능력 측정 벤치마크 HLE에서도 제미나이 3.0과 막상막하의 실력을 보였다. 검색 등의 도구를 사용해 진행한 평가에서 GPT-5.2 프로 모드(50.0%)가 제미나이 3.0 프로(45.8%)보다 더 높은 점수를 받았다.

구글도 같은 날 제미나이 3.0 프로의 ‘심층 연구’ 에이전트를 선보이며 맞불을 놓았다. 구글은 이번 새 에이전트가 ‘심층검색QA’ 벤치마크 도구로 측정한 결과에서 66.1%의 점수를 받아 최고 성능을 보였다고 주장했다. 구글은 또 HLE 벤치마크에서도 심층 연구 에이전트가 46.4%를 기록했다고 덧붙였다. 한동안 챗GPT 독주 체제에 가까웠던 AI 모델 시장에서 구글이 치고 나오면서 경쟁이 점차 격화하고 있는 모양새다. 오픈AI가 불과 한 달 간격으로 챗GPT 새 버전을 내놓은 것은 2022년 챗GPT 서비스를 시작한 이래 처음 있는 일이고 구글이 GPT-5.2 출시 당일에 새 에이전트를 공개한 것도 이례적인 일로 평가된다. 오픈AI는 당초 GPT-5.2를 이달 말께 내놓으려 했지만 제미나이 3.0 프로가 강력한 벤치마크 성적표를 앞세워 이용자 몰이를 하는 것을 보고 출시를 앞당긴 것으로 전해졌다. 앞서 샘 올트먼 오픈AI 최고경영자(CEO)는 제미나이 3.0 프로 출시 직후인 이달 1일 사내에 ‘적색 경보(코드 레드)’를 발령하고 내년 1월 또 다른 새 모델을 선보인 뒤에야 이를 해제하겠다고 예고했다.