LG(003550)그룹이 초거대 인공지능(AI) 모델 엑사원의 차세대 버전에 대한 사내 테스트에 착수했다. 추론 능력 등 각종 기능을 더 고도화 해 연내 출시가 가능하도록 개발 일정을 앞당긴다는 목표다. LG는 초거대 AI 모델의 대표적 한계로 꼽혀왔던 환각현상(할루시네이션)을 최소화하기 위해 첨부 문서를 바탕으로 답변을 제공할 수 있도록 하는 기능을 추가하고 동영상을 포함해 학습 데이터 양과 범주를 대폭 늘렸다.
7일 산업계에 따르면 LG AI연구원은 엑사원3.0에 대한 초도 개발을 마무리하고 최근 자사 직원 일부를 대상으로 사내 테스트를 진행하고 있다. 초거대 모델의 경우 답변의 정확성 외에도 신뢰성, 윤리성 등을 담보하는 것이 중요하기 때문에 직원들의 피드백을 통해 품질을 보완하고 업무 활용성을 극대화한다는 전략이다. 이 모델은 이르면 연내 공개가 이뤄질 것으로 전망된다.
차세대 버전에서 달라지는 점은 사용자가 첨부한 프리젠테이션(PPT)이나 PDF 파일 등 다양한 양식의 문서를 기반으로 답변을 해준다는 점이다. 기존 2.0 버전에서는 모델 구축 과정에서 사전 학습된 데이터나 파인튜닝을 통해 추가로 반영된 데이터만을 기반으로 결과물을 내놨다. 3.0에서는 그때그때 제시되는 문서 내용과 사전학습된 데이터를 함께 고려해 한층 품질 높은 답을 제시할 수 있을 것으로 보인다.
초거대 AI 모델을 연구하는 국내외 주요 기업들은 검생증강생성(RAG) 기술 등을 활용해 문서 참조 기능을 도입하고 있다. 이는 모델이 신뢰할 수 있는 외부 데이터를 활용하도록 하는 기술이다. 이를 통해 AI모델의 대표적 단점인 환각현상을 보완하고 신뢰도를 높일 수 있다. 오픈AI와 네이버 등도 지난해 말 이 기능을 서비스에 도입했다.
다만 엑사원에서는 답변 출처도 함께 제시된다. 예컨대 특정 문서를 첨부해 질문을 했을 때 답변만 주는 게 아니라 특정 페이지의 특정 내용을 참조했다고 근거까지 달아주는 형태다. 생성형언어모델(LLM) 기반 서비스는 정보 검색과 생성의 편의성을 높여준다는 장점에도 불구하고 해당 정보가 어디서 나왔는지에 대한 출처를 알 수 없어 추가적인 검증 과정이 불가피했다. 출처 제시 기능은 이러한 점을 보완하고 사용성을 높여줄 것으로 보인다.
이 기능은 특히 수많은 문서들이 만들어지는 각종 기업과 기관에서 수요가 클 것으로 전망된다. 이미 많은 기업들이 자사 내부 규약, 계약 관계, 업무 프로세스 등을 AI 모델에 연동해 업무 생산성을 높이고 있지만 새로 생성되는 데이터를 통합하는데는 한계가 있다. LG그룹의 한 관계자는 “엑사원은 기업 자체 서버에 구축할 수 있기 때문에 기업들이 기밀 유출 걱정 없이 문서 첨부 기능을 활용할 수 있을 것”이라며 “특히 보안에 민감한 금융, 공공 영역에서 수요를 한층 끌어올릴 수 있을 것으로 보인다”고 전했다.
이전 버전 대비 학습된 데이터 종류와 양도 대폭 늘어난다. 구글의 최신 모델 ‘제미나이’가 구축 단계에서부터 이미지, 동영상 등을 학습해 멀티모달 능력을 강화하고 최근에는 동영상 AI 서비스 기업 런웨이의 ‘젠2(Gen2)’, 오픈AI의 ‘소라(Sora)’ 등 동영상 생성 서비스가 인기를 끌며, 이번 버전에서는 일부 동영상 데이터도 모델 학습에 활용되고 있다. 업계 관계자는 “LG의 동영상 학습량이 다른 서비스만큼 방대하지는 않지만 멀티모달 기능의 중요성이 계속 커지고 있어 향후 관련 투자가 얼마든지 더 이뤄질 수 있을 것”이라고 내다봤다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >