전체메뉴

검색
팝업창 닫기
이메일보내기

'절치부심' 챗GPT, 성능으로 제미나이 눌러…구글도 심층모델 맞불

즉답·사고에 프로 모드 추가…미성년자 보호 기능도

SW 공학에선 제미나이에 앞서…박사급도 막상막하

구글은 이례적으로 오픈AI 발표날 '심층연구' 선봬

챗GPT 로고. 로이터연합뉴스




구글의 거센 추격에 ‘코드 레드(중대 경보)’를 발령하며 성능 고도화에 총력을 기울였던 오픈AI가 새 인공지능(AI) 모델인 ‘GPT-5.2’를 선보였다. 구글도 이에 질세라 제미나이의 심층 연구용 에이전트를 내놓으며 AI 초거대 기업 간 싸움이 격화하는 양상이다.

11일(현지 시간) 오픈AI는 기존 즉답(Instant), 사고(Thinking) 모드에 ‘프로(Pro) 모드’를 더한 GPT-5.2 모델 시리즈를 유료 구독자용부터 순차적으로 출시한다고 밝혔다. 오픈AI는 프로 모드가 긴 작업 시간이 필요한 어려운 질문에 적합한 도구이며 전문적인 지식 업무에서 뛰어난 성능을 보여준다고 소개했다. 오픈AI는 특히 GPT-5.2가 AI 성능 측정 과정에서 최고 수준을 달성했다고 강조했다. GPT-5.2 사고 모드와 프로 모드는 법률·회계·의료·금융 등 44개 전문 직종의 업무 수행 능력을 따지는 GDPval 평가에서 각각 70.9%, 74.1%의 점수를 기록했다. 최고의 실무 능력을 보유한 인간을 100%로 봤을 때 중상위권 전문가들과 대등한 수준까지 올라왔다는 뜻이다. 이전 버전인 GPT-5 사고 모드의 평가 점수가 38.8%였던 점을 감안하면 거의 두 배 높은 성적을 거뒀다. GPT-5.2는 또 소프트웨어 공학 능력을 평가하는 SWE 벤치마크(성능 평가)에서도 80.0%를 기록해 제미나이 3.0 프로(76.2%)보다 앞섰다. 코딩 능력이 뛰어난 앤스로픽의 클로드 오퍼스 4.5(80.9%)와도 동등한 수준이 됐다. ‘인류의 마지막 시험’이라고도 불리는 박사급 추론 능력 측정 벤치마크 HLE에서도 제미나이 3.0과 막상막하의 실력을 보였다. 검색 등의 도구를 사용해 진행한 평가에서 GPT-5.2 프로 모드(50.0%)가 제미나이 3.0 프로(45.8%)보다 더 높은 점수를 받았다.





구글도 같은 날 제미나이 3.0 프로의 ‘심층 연구’ 에이전트를 선보이며 맞불을 놓았다. 구글은 이번 새 에이전트가 ‘심층검색QA’ 벤치마크 도구로 측정한 결과에서 66.1%의 점수를 받아 최고 성능을 보였다고 주장했다. 구글은 또 HLE 벤치마크에서도 심층 연구 에이전트가 46.4%를 기록했다고 덧붙였다. 한동안 챗GPT 독주 체제에 가까웠던 AI 모델 시장에서 구글이 치고 나오면서 경쟁이 점차 격화하고 있는 모양새다. 오픈AI가 불과 한 달 간격으로 챗GPT 새 버전을 내놓은 것은 2022년 챗GPT 서비스를 시작한 이래 처음 있는 일이고 구글이 GPT-5.2 출시 당일에 새 에이전트를 공개한 것도 이례적인 일로 평가된다. 오픈AI는 당초 GPT-5.2를 이달 말께 내놓으려 했지만 제미나이 3.0 프로가 강력한 벤치마크 성적표를 앞세워 이용자 몰이를 하는 것을 보고 출시를 앞당긴 것으로 전해졌다. 앞서 샘 올트먼 오픈AI 최고경영자(CEO)는 제미나이 3.0 프로 출시 직후인 이달 1일 사내에 ‘적색 경보(코드 레드)’를 발령하고 내년 1월 또 다른 새 모델을 선보인 뒤에야 이를 해제하겠다고 예고했다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >
주소 : 서울특별시 종로구 율곡로 6 트윈트리타워 B동 14~16층 대표전화 : 02) 724-8600
상호 : 서울경제신문사업자번호 : 208-81-10310대표자 : 손동영등록번호 : 서울 가 00224등록일자 : 1988.05.13
인터넷신문 등록번호 : 서울 아04065 등록일자 : 2016.04.26발행일자 : 2016.04.01발행 ·편집인 : 손동영청소년보호책임자 : 신한수
서울경제의 모든 콘텐트는 저작권법의 보호를 받는 바, 무단 전재·복사·배포 등은 법적 제재를 받을 수 있습니다.
Copyright ⓒ Sedaily, All right reserved

서울경제를 팔로우하세요!

서울경제신문

텔레그램 뉴스채널