'폭싹 속았수다' 방언까지 해석…카카오, 언어모델 성능 공개

전체서비스

문화·스포츠

서경스타

스페셜 컨텐츠

이용안내

보내는 사람
받는 사람	※ 여러명에게 보낼 경우 콤마(,)로 구분하세요.

보내는 사람

받는 사람

※ 여러명에게 보낼 경우 콤마(,)로 구분하세요.

"폭싹 속았수다" 방언까지 해석…카카오, 언어모델 성능 공개

입력2025-05-01 10:37:25 수정 2025.05.01 10:37:25 진동영 기자

카카오(035720)가 통합 멀티모달 언어모델인 ‘카나나-오(o)’가 한국어·영어 벤치마크(성능 검증)에서 글로벌 최고 AI 수준의 성능을 기록했다고 1일 밝혔다.

카카오는 이날 공식 테크 블로그를 통해 카나나-o와 오디오 언어모델 ‘카카나-에이(a)’의 성능 및 개발 후기를 공개했다.

카나나-o는 국내 최초로 텍스트와 음성, 이미지까지 다양한 형태의 정보를 동시에 이해하고 처리하는 모델이다. 텍스트, 음성, 이미지 중 어떤 조합으로 질문해도 이를 이해하고 처리할 수 있다. 상황에 맞는 텍스트나 자연스러운 음성으로 응답 가능한 구조로 설계됐다.

카카오는 이미지 처리에 특화한 모델 ‘카나나-브이(v)’와 오디오 이해·생성에 특화한 카나나-a 모델을 통합하는 방식으로 단기간에 효율적으로 카나나-o를 개발했다. 통합 후에는 이미지·오디오·텍스트 데이터를 동시에 학습하는 ‘병합 학습’(Joint Training)을 통한 통합 훈련을 거쳤다. 이 같은 과정을 통해 카나나-o는 음성 감정 인식 기술로 사용자의 의도를 해석하고 상황에 맞는 적절한 반응과 답변을 제공한다. 억양, 말투, 목소리 떨림 등 비언어적 신호를 분석해 대화 맥락에 맞는 감정적이고 자연스러운 음성의 응답을 생성하는 게 특징이다.

특히 대규모 한국어 데이터셋을 활용해 한국어의 특수한 발화 구조, 억양, 어미 변화 등을 정밀하게 반영했다. 제주도, 경상도 등 지역 방언을 인식하고 이를 표준어로 변환해 자연스러운 음성을 생성한다. 카카오는 독자적인 한국어 음성 토크나이저(오디오 신호를 일정 단위로 작게 분해하는 도구)를 개발하고 있다.

카카오의 자체 분석 결과 카나나-o는 한국어 및 영어 벤치마크에서 챗GPT-포오(4o), 제미나이-1.5프로, 미니CPM-오(o) 2.6 등 글로벌 최고 수준의 모델과 유사한 수준을 기록했다. 한국어 벤치마크에서는 경쟁 모델에 비해 압도적인 우위를 보였다. 감정 인식 능력에서는 한국어와 영어 모두에서 큰 격차를 기록했다.

카카오는 카나나-o를 통해 △다중 턴 대화 처리 △풀 듀플렉스(Full-duplex·양방향 데이터 동시 송수신 기술) △부적절한 응답 방지를 위한 안전성 확보 등을 목표로 연구개발을 지속할 계획이다. 다중 음성 대화 환경에서의 사용자 경험을 혁신하고 실제 대화에 가까운 자연스러운 상호작용을 실현하는 게 목표다.

김병학 카카오 카나나 성과리더는 “카나나 모델은 복합적인 형태의 정보를 통합적으로 처리함으로써 기존의 텍스트 중심 AI를 넘어 사람처럼 보고 듣고 말하며 공감하는 AI로 진화하고 있다”며 “독자적인 멀티모달 기술을 바탕으로 AI 기술 경쟁력을 강화하는 한편 지속적 연구 결과 공유를 통해 국내 AI 생태계 발전에 꾸준히 기여할 계획”이라고 말했다.