전체메뉴

검색
팝업창 닫기
이메일보내기

눈 뜬 네이버 AI '클로바X'…멀티모달 AI로 진화

하이퍼클로바X 비전 탑재

이미지 상황까지 추론

차트·표·방정식 이해

음성 대화 기능도 개발





네이버의 대화형 인공지능(AI) 클로바X가 시각 정보도 동시에 처리할 수 있는 '멀티모달'(복합정보처리) AI로 진화한다. 거대 언어모델(LLM) 하이퍼클로바X를 선보인 지 약 1년만이다. 추후 음성으로 대화할 수 있는 기능도 탑재할 예정이다.

네이버는 이달 27일 클로바X에 멀티모달 거대 언어모델 ‘하이퍼클로바X 비전’을 탑재해 시각 정보 처리 능력을 새롭게 추가한다고 22일 밝혔다. 하이퍼클로바X 기반의 기업간거래(B2B) 클라우드 솔루션 ‘클로바 스튜디오’에도 도입된다.



사용자들은 이번 업데이트로 클로바X 대화창에 올린 이미지에서 추출된 정보와 입력한 질의를 바탕으로 AI와 대화할 수 있다.

클로바X는 사진 속 현상을 묘사하거나 상황을 추론하는 등 다양한 지시를 수행할 수 있다. 예를 들어 클로바X가 이미지나 그림 형식으로 된 표, 그래프를 이해하고 분석하는 것이 가능하다.





클로바X는 그동안 논리적 글쓰기, 코드 작성, 번역 등의 작업에 사용됐는데 이미지 이해 능력을 기반으로 개인의 생산성 향상 도구로서 활용 범위가 넓어졌다. 네이버는 하이퍼클로바X 비전의 성능이 오픈AI의 GPT-4v 수준이라고 설명했다. 네이버에 따르면 하이퍼클로바X 비전의 MMMU 등 8개 지표 평균 점수는 71.59점으로 GPT-4V(71.63) 대비 0.04점 낮다.



한국 지역의 문화와 가치를 보다 강력하게 반영했다는 ‘소버린 AI’로서 강점도 살렸다. 실제 대한민국 초·중·고등학교 검정고시 총 1480개 문항을 AI 모델에 이미지 형태로 입력하고 문제를 풀게 한 결과, 클로바X는 약 84%의 정답률을 기록해 오픈AI의 GPT-4o(GPT-포오)의 78%보다 높은 정답률을 보였다.

네이버는 하이퍼클로바X 기반 음성 AI 기술 ‘오디오 LLM’도 공개했다. 오디오 LLM은 기존의 음성 인식, 음성 합성 기술보다 발전한 모델로 언어 구조 및 발음 정확도 개선은 물론, 감정 표현까지 더한 자연스러운 대화가 가능하다. 네이버는 실시간 음성 번역, 언어 학습, 상담 등 이 기술의 다양한 서비스 가능성을 제시했다.

성낙호 네이버클라우드 하이퍼스케일(Hyperscale·초대형) AI 기술 총괄은 "거대언어모델로 출발한 하이퍼클로바X는 이미지 이해 능력을 더한 거대시각언어모델, 나아가 음성 멀티모달 언어모델로 발전하고 있다"고 말했다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >
주소 : 서울특별시 종로구 율곡로 6 트윈트리타워 B동 14~16층 대표전화 : 02) 724-8600
상호 : 서울경제신문사업자번호 : 208-81-10310대표자 : 손동영등록번호 : 서울 가 00224등록일자 : 1988.05.13
인터넷신문 등록번호 : 서울 아04065 등록일자 : 2016.04.26발행일자 : 2016.04.01발행 ·편집인 : 손동영청소년보호책임자 : 신한수
서울경제의 모든 콘텐트는 저작권법의 보호를 받는 바, 무단 전재·복사·배포 등은 법적 제재를 받을 수 있습니다.
Copyright ⓒ Sedaily, All right reserved

서울경제를 팔로우하세요!

서울경제신문

텔레그램 뉴스채널

서경 마켓시그널

헬로홈즈

미미상인