전체메뉴

검색
팝업창 닫기
이메일보내기

AI 신기술 ‘전문가혼합’, 해킹 악용될 수도

구글·딥시크 등 도입한 MoE

KAIST 연구진이 허점 발견

작은 전문가 모델들 분업해 효율↑

전문가 하나만 감염돼도 취약

서울경제DB




구글과 딥시크 등이 도입한 인공지능(AI) 신기술 ‘전문가혼합(MoE)’이 새로운 해킹 통로로 악용될 수 있다는 사실을 국내 연구진이 규명했다.

한국과학기술원(KAIST)은 신승원 전기및전자공학부 교수와 손수엘 전산학부 교수 연구팀이 MoE 구조를 악용해 대규모언어모델(LLM)의 안정성을 심각하게 훼손할 수 있는 공격 기법을 세계 최초로 규명했다고 26일 밝혔다. 연구성과는 정보보안 분야 최고 권위의 국제 학회 ‘애뉴얼 컴퓨터 시큐리티 애플리케이션스 컨퍼런스(ACSAC) 2025’에서 ‘최우수논문상’을 수상했다.

MoE는 ‘전문가’로 불리는 작은 AI 모델 여러 개를 합쳐 LLM을 구성하는 방식이다. 전문가들은 각자 특정 분야 지식을 학습한다. 이용자의 질문이나 명령에 따라 해당 분야 전문성을 가진 전문가가 나서서 답변하거나 명령을 이행하는 분업 방식으로 LLM 효율을 높일 수 있다. 올 초 혁신을 일으킨 딥시크 ‘R1’은 물론 구글 ‘제미나이’ 같은 빅테크 모델도 MoE를 도입했다.



연구팀은 해커가 LLM 내부에 직접 접근하지 않더라도 악의적으로 조작된 전문가 모델 하나만 있어도 이를 활용해 전체 LLM이 위험한 응답을 생성하도록 유도할 수 있다는 사실을 입증했다. 정상적인 AI 전문가들 중 하나만 감염시켜 악성 전문가로 만들기만 한다면 그 전문가가 반복적으로 선택되며 전체 AI의 안전성이 무너지는 허점이 존재할 수 있다는 것이다.

연구팀은 실험을 통해 이 같은 공격 기법이 LLM의 유해 응답 발생률을 기존 0%에서 최고 80%까지 높일 수 있으며 여러 전문가 모델 중 단 하나만 감염돼도 전체 모델의 안전성이 크게 저하됨을 확인했다.

연구팀은 앞으로 AI 모델 개발 과정에서 MoE 모델의 출처와 안전성 검증이 반드시 필요하다고 강조했다. 신 교수와 손 교수는 “효율성을 위해 빠르게 확산 중인 MoE 구조가 새로운 보안 위협이 될 수 있음을 이번 연구를 통해 실증적으로 확인했다”며 “이번 수상은 인공지능 보안의 중요성을 국제적으로 인정받은 의미 있는 성과”라고 말했다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >
주소 : 서울특별시 종로구 율곡로 6 트윈트리타워 B동 14~16층 대표전화 : 02) 724-8600
상호 : 서울경제신문사업자번호 : 208-81-10310대표자 : 손동영등록번호 : 서울 가 00224등록일자 : 1988.05.13
인터넷신문 등록번호 : 서울 아04065 등록일자 : 2016.04.26발행일자 : 2016.04.01발행 ·편집인 : 손동영청소년보호책임자 : 신한수
서울경제의 모든 콘텐트는 저작권법의 보호를 받는 바, 무단 전재·복사·배포 등은 법적 제재를 받을 수 있습니다.
Copyright ⓒ Sedaily, All right reserved

서울경제를 팔로우하세요!

서울경제신문

텔레그램 뉴스채널