"인공지능(AI) 학습을 위해 전체 데이터의 5%만 쓰면 퍼포먼스(성과)가 더 좋아진다는 연구를 내놨습니다."
브라이언 키안 시앙 로 싱가포르국립대 AI연구소 부소장은 28일 서울 중구 신라호텔에서 열린 ‘서울포럼 2025’ '세션 2 두뇌혁명: GPT가 연 생성형 AI 시대'의 특별강연에서 "효율적인 AI를 위해 데이터가 많을 필요가 없다"며 이 같이 설명했다. 이날 로 교수는 △더 적은 데이터로 학습하는 방법 △AI를 확인하는 AI를 주제로 그동안 연구 내용을 요약해 발표했다.
세계 최고 AI연구소 중 하나로 평가받는 싱가포르국립대 AI연구소의 연구 책임자인 로 교수는 상식과 달리 앞으로는 데이터를 얼마나 잘 선별하고 줄이느냐에 따라 AI의 정확도가 더 높아질 수 있다고 했다.
관련기사
로 교수는 "AI 학습에 모든 데이터가 들어가면 노이즈가 발생할 수밖에 없다"며 "또 주어진 과제와 상관 없는 데이터나 중복 데이터 등으로 비효율이 발생할 수밖에 없다"고 설명했다. 이어 "결국 더 적은 데이터로 학습해 더 빠르고 비용을 줄이기 위해 데이터를 더 적게 쓰는 효율적인 학습을 해야 한다"고 강조했다. 이를 위해 중복되거나 목적과 무관한 데이터를 빼는 방법을 고민해야 한다고 덧붙였다.
로 교수는 머신러닝(기계학습)이 아닌 머신언러닝(기계탈학습)도 강조했다. 그는 "2018년 사이버보안 문제가 발생해 학습이 아닌 '탈학습'을 한 적이 있었다"며 "당시에는 큰 주목을 못받았지만 최근 빅테크 AI의 저작권 문제 때문에 이 같은 언러닝 수요가 높아지고 있다"고 현실을 밝혔다. 머신언러닝은 AI 모델의 학습에 사용된 데이터 중 일부에 대해 사후 삭제 요청이 있으면 AI 모델의 학습에 해당 데이터가 사용되지 않았던 것처럼 해당 데이터 영향을 배제하는 기술이다. 여기서 중요한 것은 AI모델의 성능 저하 없이 머신언러닝 고도화를 해야한다는 점이다. 로 교수는 "현재까지는 일부 제한적인 이용자들에 대해서 이 기술을 적용할 수 있는 상황"이라며 "앞으로 과제는 수백만명 이상의 이용자들에게 AI 품질을 유지하면서 AI가 AI를 확인할 수 있는 기술을 유지할 수 있는지가 관건이 될 것"이라고 했다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >