최근 글로벌 로봇 시장은 인공지능(AI)이라는 거대한 파도 속에 있다. 챗GPT가 디지털 세상의 언어 장벽을 허물었듯, 이제는 로봇 파운데이션 모델(RFM)이 물리적 세상의 경계를 넘보고 있다. 생성형 AI의 지능을 이식한 피규어(Figure)나 스킬드AI(Skild AI) 같은 실리콘밸리의 기술 기업들이 보여주는 화려한 데모 영상은 금방이라도 로봇이 인간의 모든 노동을 대체할 것 같은 환상을 심어준다. 하지만 장밋빛 전망 뒤에 숨겨진 냉혹한 산업 현장의 진실은 훨씬 더 복잡하고 정교한 기술적 대답을 요구한다.
시뮬레이션을 넘어 에고센트릭 영상의 시대로
최근 미국의 스킬드AI는 시뮬레이션(Sim2Real)을 넘어선 새로운 전략으로 업계를 놀라게 하고 있다. 이들의 핵심은 단순히 가상 세계에서의 학습이 아니라, 방대한 양의 에고센트릭(Egocentric, 1인칭 시점) 영상을 활용한다는 점이다. 액션 레이블이 없는 대규모 영상을 통해 세상의 물리적 법칙과 인과관계를 먼저 학습시킨 뒤 1시간 이하의 실제 액션 데이터를 파인튜닝(Fine-tuning)하여 로봇의 일반화 성능을 극대화하는 방식이다.
이러한 접근은 데이터 기아 상태에 빠진 로보틱스 분야에 중요한 돌파구를 제시한다. 하지만 여전히 한 가지 질문을 하지 않을 수 없다. “데이터가 보여준 방향으로 움직인 뒤 실제 작업이 성공했는지 혹은 실패했는지를 로봇은 스스로 판단할 수 있는가?” 하는 점이다.
성공률 99%보다 중요한 ‘실패 인지(Anomaly Detection)’
우리는 흔히 로봇의 성능을 ‘성공률(Success Rate)’로 평가한다. 최근 모방학습(Imitation Learning)이나 VLA(Vision-Language-Action) 모델의 발전으로 95% 이상의 성공률을 달성하는 사례가 늘고 있다. 여기서 우리는 성공률 99%를 지향할 수도 있다. 하지만 산업 현장에서 정작 중요한 것은 나머지 1~5%의 실패를 로봇이 스스로 인지할 수 있느냐는 것이다.
모방학습 기반의 AI 로봇이 빠지는 가장 큰 함정은 ‘자신이 실패했다는 사실조차 모른 채 동작을 계속하는 것’이다. 이를 로봇 공학에서는 OOD(Out-of-Distribution, 분포 외 데이터) 문제라고 한다. 진정한 피지컬 AI의 지향점은 99%의 성공률에 매몰되는 것이 아니라 실패를 100% 감지하고(Anomaly Detection) 즉각적으로 대응 시나리오(Fallback)를 실행하는 신뢰성을 확보하는 데 있다. 이것이 확보되지 않는다면 AI 로봇은 공장의 생산라인을 멈춰 세우는 가장 위험한 변수가 될 뿐이다.
‘Last 1mm’를 결정짓는 시스템 0: 4kHz의 정밀 제어
최근 Figure AI 등 글로벌 기업들은 로봇의 두뇌를 ‘시스템 1(직관적 실행)’과 ‘시스템 2(논리적 추론)’로 구분한다. 하지만 실제 산업 현장의 정밀 작업에서는 이보다 더 근본적인 계층이 필요하다. 필자는 이를 ‘시스템 0(System 0)’라 부르고 싶다.
시각적 정보에 의존하는 시스템 1이 100~200Hz 수준으로 물체 근처까지 로봇을 안내한다면, 작업의 성패를 결정짓는 마지막 1mm(Last 1mm)는 시각을 배제한 채 촉감과 역감에 의존하는 시스템 0의 영역이다. 여기서 뉴로메카가 강조하는 4kHz(초당 4,000번 연산)의 실시간 제어 기술이 빛을 발한다.
이 계층은 단순한 정밀 제어를 넘어 임피던스 제어(Impedance Control), 강인 제어(Robust Control), 그리고 센서 없이도 외부의 힘을 민감하게 느끼는 센서리스 순응 제어(Sensorless Compliance Control) 등이 융합된 결정체다. 시스템 0는 척수 반사처럼 외부 충돌로부터 인간과 로봇을 보호하는 ‘안전 제어’와, 보이지 않는 좁은 틈새에 부품을 끼워 넣는 ‘정밀 작업’을 동시에 수행한다. 최근 CES 2026 현장에서 이목을 끈 샤르파(Sharpa)의 크래프트넷(CraftNet) 역시 이러한 ‘Last 1mm’의 제어 기술이 작업 성공의 핵심임을 강조하고 있는데, 이는 뉴로메카가 걸어온 길과 일치한다.
로봇 핸드와 제로샷(Zero-shot)의 지향점
로봇의 ‘두뇌’와 ‘신경’이 완성되어도 결국 작업을 수행하는 것은 ‘손(Hand)’이다. 현재의 로봇 핸드는 시각적 지능에 비해 물리적 상호작용 능력이 현저히 떨어진다. 진정한 피지컬 AI라면 학습하지 않은 물체도 즉각적으로 다루는 ‘제로샷(Zero-shot)’ 역량을 갖춰야 한다.
최근 국내외에서 픽앤플레이스(Pick-and-place) 분야의 제로샷 시연이 이어지고 있지만, 이는 시작에 불과하다. 우리가 지향해야 할 목표는 픽킹을 넘어 조립, 삽입, 용접 등 모든 복잡한 스킬이 제로샷으로 가능해지는 RFM의 완성이다. 이를 위해서는 모방학습이 가진 데이터 확장성(Scalability)의 병목 현상을 해결할 혁신적인 전략이 수반되어야 한다. 단순히 유튜브 영상이나 대학원 실험실 수준의 VLA 구현을 넘어, 실제 거친 산업 도메인의 데이터를 어떻게 효율적으로 확보하고 제어 계층과 융합할 것인지가 대한민국의 숙제다.
하드웨어 플랫폼, 대한민국 로봇 산업의 생존 전략
이제 로봇 산업은 ‘뇌(Software)’를 만드는 회사와 ‘몸(Hardware)’을 만드는 회사가 분업화되는 시대로 접어들었다. 미국의 빅테크들이 범용적인 뇌를 선점하고 있다면, 우리는 그 뇌가 가장 잘 작동할 수 있는 ‘신뢰할 수 있는 하드웨어 플랫폼’을 선점해야 한다.
필자가 강조하는 ‘산업용 휴머노이드’가 바로 그 답이다. 하모닉 드라이브 기반으로 0.1mm 이하의 작업 정밀도를 보장하면서, 협동로봇 인증을 받아 안전 펜스 없이 현장에 투입 가능한 휴머노이드형 하드웨어는 전 세계적으로도 희귀하다. 글로벌 AI 기업들에게 뉴로메카의 로봇은 자신들의 고도화된 뇌를 이식하기에 가장 완벽한 ‘신체’가 될 것이다.
AI 기술이 상향 평준화될수록 승부처는 다시 ‘피지컬(Physical)’로 돌아온다. 인공지능이라는 화려한 뇌가 실제 산업의 근육으로 기능하기 위해서는, 보이지 않는 곳에서 4000분의 1초를 다투며 실패를 감지하고 보정하는 시스템 0의 정밀함이 수반되어야 한다. 데이터의 바다를 넘어 100%의 신뢰성으로 향하는 길의 끝에 대한민국 로봇 산업의 미래가 있다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >














