네이버가 이미지와 텍스트를 이해하는 멀티모달 거대 언어모델 ‘하이퍼클로바X 비전’을 공개한다. 거대 언어모델(LLM) 하이퍼클로바X를 선보인 지 약 1년만이다.
21일 정보기술(IT) 업계에 따르면 네이버는 조만간 대화형 인공지능(AI) 서비스 ‘클로바X’에 이미지 분석과 추론 능력이 있는 ‘하이퍼클로바X 비전’을 탑재할 예정이다. 하이퍼클로바X 기반의 기업간거래(B2B) 클라우드 솔루션 ‘클로바 스튜디오’에도 도입된다. 하이퍼클로바X 비전은 문서나 이미지 내 글자를 이해하고 상황을 추론할 수 있는 AI다. 한글뿐만 아니라 영어나 한자, 일본어로 작성된 문서도 이해할 수 있다. 네이버는 “텍스트 위주의 소통 창구에서 한 발짝 나아가 사람들에게 더욱더 가까운 형태의 소통으로 발전하고 있다”며“하이퍼클로바X 비전이 다양한 배경을 가진 사람들에게 다방면에서 이로운 AI가 될 수 있도록 각고의 노력과 열정을 바치고 있다”고 설명했다.
하이퍼클로바X 비전은 이미지에 대해 상세하게 설명할 수 있다. 예를 들어 이용자가 어린아이가 양에게 먹이를 주고 있는 모습의 사진을 설명해달라고 요구하면 AI는 아이의 옷차림과 표정, 양의 동작, 사진의 배경까지 서술하는 식이다.
새 클로바X는 이미지에 대한 상황까지 추론할 수 있다. 가령 소고기와 토마토, 양파 사진을 제시하고 어떤 요리를 만들지 질의하면 ‘햄버거’라고 답한다. 요리 방법까지 알려준다.
하이퍼클로바X 비전은 차트와 표, 방정식을 이해할 수 있다. 도형이 포함된 수학 문제를 이해하고 풀이도 제공한다. 하이퍼클로바X 비전은 코딩도 지원한다. 도형이나 차트, 그래프 등을 만드는 데 필요한 코드를 생성할 수 있다.
네이버는 하이퍼클로바X 비전의 성능이 오픈AI의 GPT-4V에 버금간다고 설명했다. 네이버에 따르면 하이퍼클로바X 비전의 MMMU 등 8개 지표 평균 점수는 71.59점으로 GPT-4V(71.63) 대비 0.04점 낮다. 아울러 한국 지역의 문화와 가치를 보다 강력하게 반영했다는 강점도 살렸다.
네이버는 하이퍼클로바X 비전을 지속해서 고도화할 계획이다. 네이버는 “추론 능력을 개선하고 고해상도 처리를 위한 인코더 구조를 변경해서 점진적으로 성능을 향상할 예정”이라고 설명했다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >