'보고 듣고 말한다' 구글, 신형 AI 비서 출시…새 바람 일으킬까 [딥테크 트렌드]

전체서비스

문화·스포츠

서경스타

스페셜 컨텐츠

이용안내

보내는 사람
받는 사람	※ 여러명에게 보낼 경우 콤마(,)로 구분하세요.

보내는 사람

받는 사람

※ 여러명에게 보낼 경우 콤마(,)로 구분하세요.

'보고 듣고 말한다' 구글, 신형 AI 비서 출시…새 바람 일으킬까 [딥테크 트렌드]

입력2025-03-08 11:09:04 수정 2025.03.08 11:09:04 김성태 기자

구글이 실시간 영상을 분석해 사용자의 작업을 돕는 미래형 AI 에이전트(비서) ‘프로젝트 아스트라’를 이달 말 출시한다. 사진과 음성을 이해하는 수준에서 더욱 진화한 아스트라는 구글의 플랫폼 역량을 강화할 것으로 분석된다. 아스트라가 출격하며 플랫폼 생존을 가를 수 있는 차세대 AI 비서 개발 경쟁이 달아오를 것으로 보인다.

8일 정보기술(IT) 업계에 따르면 구글은 3일(현지시간) 스페인 바르셀로나에서 열린 ‘모바일월드콩그레스(MWC) 2025'에서 AI 비서 '제미나이 라이브'가 움직이는 화면과 영상을 인식하며 이용자와 대화할 수 있는 기능을 선보였다. 이 기능은 이달 말 안드로이드 기기에서 ‘제미나이 어드밴스드’ 이용자에게 제공된다. 구글이 그간 밝힌 ‘프로젝트 아스트라’가 출시되는 것이다.

아스트라는 사람처럼 보고 듣고 음성으로 대화하면서 이용자의 개인 비서 역할을 하는 AI 기능이다. 아스트라는 다국어로 대화할 수 있을뿐만 아니라 다양한 억양과 생소한 단어까지 이해하는 자연스러운 대화 능력도 갖춘다. 구글 검색과 구글 렌즈, 구글 맵스 등 다양한 기능을 활용할 수 있다. 예를 들어 프랑스 파리에 있는 에펠탑을 보며 한국어 설명을 들을 수 있다. 또 밀키트에 적힌 조리법을 찍으며 ‘요리를 어떻게 해야해?라고 물으면 AI가 요리 방법을 곧바로 요약해 음성으로 설명한다. 아스트라는 최대 10분 동안의 대화 내용을 기억하고 과거 대화를 바탕으로 개인화된 경험을 제공한다. 데미스 하사비스 구글 딥마인드 최고경영자(CEO)는 지난해 12월 "제미나이 2.0은 다양한 기능 조합, 더욱 자연스러운 상호작용, 빠른 응답 속도, 복잡한 작업 처리 능력으로 완전히 새로운 차원의 에이전트형 기반 경험을 제공한다"고 설명했다.

구글이 눈까지 달린 AI 비서를 선보이며 AI 시장 공략 속도는 더욱 빨라질 것으로 분석된다. 음성뿐만 아니라 시각 정보를 이해하며 다양한 상호작용이 가능해지며 활용 가능성이 확대됐기 때문이다. 아스트라는 삼성전자(005930)의 갤럭시S25 시리즈에 장착된다. 아울러 안경 형태의 기기에서도 아스트라를 구현할 예정이다. 삼성전자와 구글, 퀄컴이 공동 개발 중인 ‘프로젝트 무한’에도 탑재될 가능성 있다. 최근 구글은 카카오헬스케어와 협업 방안을 모색하기 위한 ‘AI 이노베이션 데이’ 행사에서 아스트라를 소개하기도 했다. 헬스케어를 포함한 다양한 산업까지 확대 적용될 수 있기 때문이다. 순다르 피차이 구글 CEO는 “멀티모달의 새로운 발전을 통해 ‘유니버설 어시스턴트’라는 구글의 비전에 더 가까이 다가갈 수 있게 됐다”고 강조했다.

범용 AI 비서 시장 선점 경쟁은 치열해질 것으로 전망된다. 차세대 AI 비서는 향후 IT 주도권 전쟁에서도 핵심 무기가 될 것으로 전망되기 때문에 테크 기업들은 이 기술을 개발에 힘을 쏟고 있다. 메타는 이미 스마트 안경 ‘레이벤 메타’에 AI를 탑재했다. 이용자가 현재 보고 있는 것에 대해 설명해달라고 하면 AI가 실시간으로 답변한다. 오픈AI는 지난해 5월 텍스트뿐만 아니라 이미지, 음성 등 다양한 형태의 입력을 처리할 수 있는 AI 모델 ‘GPT-4o’를 선보였다. 하나의 AI 모델이 다양한 형태의 입력을 분석할 수 있는 것이다. 예를 들어 수학 문제를 사진으로 찍어 올리면 AI가 음성으로 설명해 준다. 중국 딥시크도 시각 정보를 이해하는 동시에 이미지도 생성할 수 있는 ‘야누스’를 선보였다.

국내 기업 중에서는 영상 이해 AI를 개발 중인 트웰브랩스가 업계를 선도하고 있다는 평가를 받는다. 시각과 청각 등 다양한 감각을 통해 정보를 파악할 수 있는 AI 원천 기술력을 갖고 있기 때문이다. 활용 가능성이 무궁무진하다. 트웰브랩스는 최근 차세대 영상 언어 생성 AI 모델 페가수스 1.2를 공개한 바 있다. 이 모델은 기존 버전에 비해 영상의 화면과 음성을 동시에 분석해 텍스트로 변환하는 능력을 강화하고, 짧은 영상부터 한 시간 분량 장편 영상까지 다양한 길이의 영상을 처리할 수 있게 정확도를 높였다. 트웰브랩스는 이 모델이 GPT-4o, 구글 제미나이 1.5 프로보다 빠른 응답 속도를 보여주며, 빅테크 AI보다 뛰어난 성능을 낮은 비용으로 제공한다고 강조했다. 엔비디아와 삼성전자의 기업형 벤처캐피털(CVC) 삼성넥스트, 스노우플레이크, 데이터브릭스, SK텔레콤(017670) 등 빅테크들은 트웰브랩스의 기술력을 눈여겨보고 연이어 투자하며 화제가 되고 있다. 지금까지 트웰브랩스가 투자받은 금액은 1억 700만 달러(약 1530억 원)에 이른다.