인공지능(AI) 스타트업 업스테이지가 자연어 처리(NLP·Natural Language Processing) 분야 세계 최고 학회 ‘EMNLP 2023’에서 2개 논문이 채택되는 쾌거를 달성했다고 23일 밝혔다.
EMNLP 2023은 Empirical Methods in Natural Language Processing의 약자로 AI 번역과 챗봇, 기계 독해 등 언어 데이터 기반 자연어 처리 접근법과 관련한 연구를 다루는 세계 최고 수준의 학회로 꼽힌다. 구글, 애플, 아마존, 바이두 등 세계 유수의 AI 기업이 참여한다.
이번에 채택된 논문 2편은 한국어 NLP 관련 주제며 박찬준 업스테이지 테크 리드 주도로 임희석 고려대 교수 연구팀과 협업을 통해 진행됐다. 지난해 이 학회에는 3242편의 논문이 제출돼 22%인 715편이 채택됐다.
첫 번째 논문 ‘KEBAP: Korean Error Explainable Benchmark Dataset for ASR and Post-processing’은 한국어 음성 인식 후처리기와 관련한 새로운 벤치마크 데이터셋을 구축한 논문이다. 음성인식 모델의 약점을 평가하고 식별하기 위한 새로운 평가 방법론을 제안한다. 이 논문은 전통적인 평가 방법의 문제점을 지적·극복해 음성과 텍스트 두 수준의 오류를 모두 고려해 모델의 설명 가능성을 향상한 연구라고 회사는 설명했다.
두 번째 논문 ‘CHEF in the Language Kitchen: A Generative Data Augmentation Leveraging Korean Morpheme Ingredients’은 한국어 특성을 살린 새로운 데이터 증강 기법을 제안한 논문이다. 한국어는 영어와 달리 형태소라는 작은 단위로 구성돼 있어 기존 영어 기반의 데이터 증강법을 사용하면 문장 의미가 바뀌거나 자연스럽지 않은 문장이 만들어지는 맹점이 있었다. 논문은 한국어의 특성을 기반한 새로운 데이터 증강 방법론을 통해 한국어 특징을 반영해 자연스러운 문장을 생성·증강하는 방법론을 제시한다.
이 회사는 지난 6월 데이터 중심(Data-Centric) AI 분야에서 가장 권위 있는 워크숍인 ICML 2023-DMLR에서 논문 7편을 발표하며 국내 기업 중 논문이 최다 채택되기도 했다. 업스테이지는 창사 3년 만에 국내외에 AI 논문 100편 발표 하고, 구글 스콜라 랭킹 기준 NLP 분야 컨퍼런스 상위 7개 학회 중 6개 학회에서 모두 논문이 채택됐다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >