음성 인공지능(AI) 기술로 세계적인 주목을 받고 있는 영국 스타트업인 일레븐랩스가 앞으로 AI기기 작동의 기본 인터페이스는 ‘음성’이 될 것이라고 전망했다. 지금은 텍스트가 AI 입력 방식의 주류지만 앞으로 로봇이나 자동차, 웨어러블기기 등 AI기반 기기가 확산될 수록 음성의 비중이 커질 것이란 관측이다. 음성AI 시장의 잠재력이 그만큼 크다는 전망이다. 일레븐랩스는 이같은 음성AI 시장의 아시아 거점으로 한국을 선택하고 본격적인 시장 개척에 나선다.
마티 스타니셰프스키(Mati Staniszewski) 공동 창업자 겸 최고경영자(CEO)는 21일 JW메리어트호텔에서 개최한 기자간담회에서 “AI오디오의 미래를 볼 때 인간과 AI가 소통하는 가장 근본적인 방식이 바로 오디오가 될 것”이라며 “웨어러블에서 로봇, 자동차에 이르기 까지 모든 디바이스가 우리가 무엇을 말하는지 이해할 수 있게 될 것”이라고 말했다. 생성형 AI가 대세를 이루는 지금은 텍스트가 AI를 이용하는 주된 방법이지만 추후에는 텍스트나, 이미지 등 다른 입력 방식 보다 음성이 주류 AI인터페이스가 될 것이란 전망이다. 그는 “음성은 텍스트에 비해 더 많은 억양과 감정을 표현할 수 있다”며 “말이야 말로 가장 근원적인 소통방식이며 (미래의 AI 활용은) 음성을 기준으로 할 것”이라고 전망했다.
일레븐랩스는 영국에 본사를 두고 있는 음성 AI 스타트업이다. 2022년 창업해 3년여 만에 현재 월간활성이용자(MAU) 수 5000만명을 기록하고 있다. 기업가치는 66억달러(약 9조7000억원)로 평가받고 있으며 포천 500대 기업 중 75%를 고객사로 두고 있다. 세콰이어캐피탈이나 a16z 등 유명투자사의 투자를 받았으며 한국 기업 중에는 네이버와 LG유플러스가 투자사다. 크래프톤, EST 등 다수의 국내 기업을 고객사로 확보하고 있다.
일레븐랩스의 기술은 AI를 이용한 내레이션이나 번역, 더빙, 사람과의 대화다. 이 기술을 활용하면 별도의 성우 없이 내레이션이나 더빙을 입힐 수 있어 영상 제작 기간과 비용을 줄이게 된다. 고객 센터 업무에 적용하면 1번과 2번 등 안내에 따라 버튼을 선택하는 시간을 줄이고 곧장 실제 상담원처럼 응대할 수 있어 시간과 비용을 줄일 수 있다는 게 회사 측 설명이다. 현재 일레븐랩스는 7000개 이상의 목소리와 한국어를 포함한 32개 언어를 제공한다.
이날 시연에서 일레븐랩스의 AI솔루션은 스타니셰프스키 CEO의 영어 발언 내용을 그의 음성으로 한국어로 발언하는 기능을 구현했다. 한글 텍스트를 읽을 때는 한숨이나 작은 웃음, 대화 중 잠시 멈춤 등 사람이 말할 때 나타나는 특징까지 구현해냈다.
특히 한글 소설을 읽는 시연에서는 별도의 행동 지문이 제시되지 않았지만 소설 내용을 인지해 맥락에 따라 목소리 톤을 바꾸고 등장 인물 간의 대화 부분에서는 화자를 구분해 목소리 연기를 달리하는 수준의 성능을 보여줬다. 고객센터 시연의 경우 고객이 중간에 말을 끊고 질문을 이어가더라도 적절한 답을 제시했다. 스타니셰프스키 CEO는 “AI 에이전트 플랫폼은 0.5초 미만의 지연 속도로 인간 수준의 자연스러움을 갖추고 있고, 경쟁사보다 오류율도 낮다”고 소개했다.
스타니셰프스키 CEO는 이날 한국 시장 본격 진출을 발표하기도 했다. 그는 “한국은 영화와 영상, 게이밍이 핵심 시장으로 이미 고객사에 맞게 최적화해서 상당한 단계에 이르렀다”며 “내년부터는 고객 응대 부분이 급격히 성장할 것으로 보고 우선 순위를 두고 있다”고 말했다.
홍상원 일레븐랩스 한국지사장은 “한국에서의 성공은 곧 글로벌 성공의 지표”라며 “일레븐랩스는 한국을 아시아 진출의 핵심 거점으로 선택했다”고 설명했다.
스타니셰프스키 CEO는 기업공개(IPO)도 계획 중이라고 밝혔다. 그는 “그동안 5년 내 IPO를 목표로 세웠지만 서비스 성과가 예상보다 잘 나오고 있다”며 “현재 3년 내 IPO를 할 수 있을 것으로 보고 있다”고 내다봤다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >





rok@sedaily.com








