피지컬 AI 기업 리얼월드(RLWRLD, 대표 류중희)가 독자 로보틱스 파운데이션 모델(RFM) ‘RLDX-1’을 공개했다. 회사는 이번 모델이 글로벌 공개 로보틱스 모델 가운데 최고 수준의 성능을 기록했다고 밝혔다.
RLDX-1은 인간 수준의 정교한 손 조작 능력을 구현하기 위해 개발된 ‘Dexterity-First’ 기반 로봇 AI 모델이다. 기존 비전·언어 중심의 VLA(Vision-Language-Action) 모델과 달리, 시각뿐 아니라 힘(토크), 촉각, 접촉 시점, 작업 기억까지 함께 처리하는 것이 특징이다.
리얼월드는 “손재주는 지능 이후에 따라오는 기능이 아니라, 지능이 실제 물리 세계에서 행동하기 위한 핵심 경로”라는 관점에서 모델을 설계했다고 설명했다.
리얼월드 카드픽 데모 (사진 제공: 리얼월드)
엔비디아·파이제로보다 높은 성능
리얼월드에 따르면 RLDX-1은 글로벌 공개 벤치마크 8종에서 엔비디아(NVIDIA)의 GR00T, 피지컬 인텔리전스(Physical Intelligence)의 π0(파이제로) 등 기존 공개 모델들을 모두 앞섰다. 특히 장기·접촉 중심 과제를 평가하는 ‘RoboCasa Kitchen’에서는 70.6점을 기록하며 70점대를 돌파한 첫 VLA 모델이 됐다. 휴머노이드 평가 항목인 ‘GR-1 Tabletop’에서는 58.7점을 기록해 엔비디아 GR00T N1.6 대비 10.7%포인트 높은 성능을 보였다.
실제 로봇 환경에서도 차이를 보였다. 위로보틱스 휴머노이드 ‘ALLEX’를 활용한 커피 따르기(Pot-to-Cup Pouring) 과제에서는 70.8% 성공률을 기록했다. 이는 경쟁 모델들이 30%대 후반 수준에 머문 것과 비교해 약 두 배 수준이다.
핵심 기술은 멀티-스트림 액션 트랜스포머(MSAT) 구조다. 기존 VLA가 모든 데이터를 단일 스트림으로 처리하는 것과 달리, MSAT는 시각·언어·행동·촉각·메모리 등을 각각 독립된 스트림으로 처리한 뒤 통합한다. 이를 통해 모델은 단순히 보는 것을 넘어 접촉 순간을 감지하고, 시간에 따른 물리 변화와 맥락까지 함께 이해할 수 있도록 설계됐다.
배재경 리얼월드 CTO는 “기존 VLA가 구조적으로 다루기 어려웠던 토크 신호와 시간 축의 동적 변화를 처리할 수 있도록 설계했다”고 설명했다.
리얼월드는 제조·물류 현장 중심의 실제 산업 데이터를 기반으로 자체 벤치마크 ‘DexBench’도 함께 공개했다. DexBench는 파지 다양성, 공간 정밀도, 시간 정밀도, 접촉 정밀도, 맥락 인지 등 5가지 영역을 기준으로 손 조작 성능을 평가한다.
회사는 SK텔레콤, LG전자, CJ대한통운, 롯데, KDDI, ANA Holdings 등 한국과 일본 주요 기업들과 협력하며 RX(Robotics Transformation) 프로젝트를 진행 중이라고 밝혔다. 또한 모델 가중치와 학습 코드, 기술 문서를 깃허브(GitHub)와 허깅페이스(Hugging Face)를 통해 공개하며 연구 생태계 확장에도 나선다.
리얼월드는 향후 시각 중심 월드 모델을 넘어, 촉각·토크·로봇 상태까지 시간 축에서 통합적으로 예측하는 ‘4D+ 월드 모델’ 개발로 확장할 계획이다.
류중희 리얼월드 대표는 “픽셀에 담기지 않는 물리 정보는 영상만으로 학습할 수 없다”며 “RLDX-1은 4D+ 월드 모델로 가는 첫 번째 마일스톤”이라고 말했다.
The post “손의 감각까지 학습했다”… 리얼월드, 로보틱스 AI 모델 ‘RLDX-1’ 공개 appeared first on 벤처스퀘어.