지난 2016년 3월 알파고로 세상을 떠들썩하게 했던 딥마인드는 다음해 12월 단일 알고리즘만으로 다양한 게임의 최강자로 등극한 알파제로(AlphaZero)를 발표한다. 몇 달 전에 발표된 알파고제로에서 바둑을 의미하는 고(Go)를 떼버린 알파제로는 게임의 규칙만 알려주면 자신을 상대로 스스로 학습하면서 능력을 발전시킨다. 쇼기(일본식 장기) 챔피언 인공지능(AI) 엘모를 꺾는 데 2시간, 체스 챔피언 AI 스톡피시는 4시간, 바둑 챔피언 AI 알파고제로는 30시간이면 충분했다.
엘모나 스톡피시와 같은 기존 AI들은 전문가가 그 게임에 맞춰 공들여 튜닝한 파라미터나 수작업으로 얻은 특징들에 기반하기 때문에 타 게임에 적용이 불가하고 가능한 모든 경우의 수를 계산하는 탐색 방식을 사용해 아주 높은 연산능력을 요했다. 반면에 알파제로는 완전백지 상태에서 인간 지식의 도움 없이 심층 신경망을 이용한 강화학습 방식으로 자가학습을 하기 때문에 여러 게임에 적용이 가능하고 효율적인 탐색 알고리즘을 사용하므로 상대적으로 낮은 연산량으로 충분했다.
모든 경우의 수 계산 → 효율적 알고리즘 탐색
인간직관력 가진듯 상상초월 전술 보이기도
그 결과 사람이 도저히 생각할 수 없는 묘수를 찾아내기도 하고 최후의 승리를 위해 여러 패를 버리는 과감한 수를 쓰기도 했다. 특히 기존 AI들은 더 좋은 수를 계산하기 어려운 상황에서 명백한 실수를 하기도 했는데 이때도 알파제로는 직관이나 영감을 가진 것처럼 동작했다.
올 1월 딥마인드는 스타크래프트2용 AI 알파스타(AlphaStar)가 유럽 정상급 프로게이머를 꺾었다는 놀라운 소식을 전했다. 스타크래프트와 같은 실시간 전략 게임은 바둑이나 체스와 달리 정찰하지 않으면 상대방의 플레이를 한눈에 파악하기가 어렵다. 서로 교대로 움직이는 것이 아니라 획득한 자원을 바탕으로 병력 생산 및 능력 향상을 시키면서 실시간으로 계속 경기를 하기 때문에 매우 빠른 판단력과 전략이 필요하며 난이도는 상상을 초월한다.
알파스타는 매 순간마다 자신이 승리를 거둘 확률을 계산하고 최적의 결과를 내기 위한 행동을 선택한다. 사람들 간의 경기를 보면서 초기 학습을 한 후 불과 2주간의 여러 알파스타 에이전트 간 리그전을 통해 스스로 게임능력을 향상시키는 새로운 다중 에이전트 강화학습법으로 프로게이머 200년의 훈련량을 얻을 수 있게 됐다. 비록 프로게이머와의 경기에서 압도적인 생산량과 정교한 조작으로 승리를 얻었다는 비평도 있기는 하지만 기발한 전술을 보여주기도 했다. 알파고에서 알파제로까지의 발전 속도를 감안하면 이후 알파스타 역시 경이로운 발전을 보여줄 것이 확실하다.
무패의 게임고수를 만드는 것이 목표가 아니라 여기서 얻어진 기술을 바탕으로 날씨 예측이나 기후변화처럼 현실에서 장시간에 걸쳐 많은 데이터와 변수를 갖는 문제를 해석하거나 단백질 분석처럼 중요하고 근본적인 과학문제 해결에 좀 더 기여하는 범용 AI 개발이 목표라고 하니 기대가 된다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >