Action Data Scaling 문제

LeRobot Dataset 형식의 액션 데이터(Action Data) 예시. 각 관절의 상태(state) 값들이 기록되어 있지만, 인터넷에는 이런 데이터가 자연스럽게 축적되어 있지 않습니다.

핵심 문제

앞선 문서들에서 살펴봤듯이, 많은 사람은 Physical AI와 VLA의 미래를 낙관적으로 바라봅니다. 하지만 아직 해결되지 않은 큰 문제가 있습니다. 바로 데이터 문제입니다.

LLM을 확장해서 VLA가 구현될 수 있을 것 같고, 그렇다면 아주 거대한 노동 시장에 영향을 줄 수도 있습니다. 그러나 VLA가 LLM의 성공 공식을 그대로 따라가기 어려운 근본적인 장벽들이 있습니다:

액션 데이터(Action Data)는 인터넷에 존재하지 않습니다. LLM은 인터넷의 방대한 텍스트 데이터를 활용해 스케일링(scaling)할 수 있었지만, 로봇의 동작 데이터는 인터넷 어디에도 기록되어 있지 않아 바로 스케일링하는 것이 불가능합니다.
평가(Evaluation)는 실물 로봇을 구동해야 합니다. 하드웨어 고장의 위험이나 환경 파괴(예를 들어 접시를 깨뜨리는 것) 위험이 너무 커서, LLM처럼 자동화된 벤치마크를 구축하기 어렵습니다.
그 외에도 본질적인 어려움들이 있습니다. 물리적 지능(Physical Intelligence)에 대한 본질적인 이해 부족, 촉각 센서 구현의 어려움, 손재주 있는(dexterous) 하드웨어 양산의 어려움 등 많은 문제들이 산적해 있습니다.

이 문서에서는 특히 액션 데이터의 부족 문제와 이를 해결하기 위한 다양한 접근법을 다룹니다.

LLM과의 차이점

구분	LLM	VLA
데이터 소스	인터넷 (사실상 무한)	실제 로봇 동작 (제한적)
수집 비용	낮음	높음
평가(Evaluation)	자동화 가능	실물 로봇 구동 필요

표: LLM과 VLA의 데이터 수집 및 평가 방식 비교 — VLA 스케일링이 어려운 근본적인 이유

LLM은 인터넷에 축적된 방대한 텍스트 데이터를 학습에 활용할 수 있었고, 생성된 텍스트의 품질도 자동으로 평가할 수 있습니다. 반면 VLA는 실제 로봇을 움직여 데이터를 수집해야 하고, 동작의 성공 여부도 물리적으로 확인해야 합니다. 이것이 VLA 스케일링의 근본적인 병목입니다.

다양한 액션 데이터 수집 방법

위와 같은 문제를 해결하기 위해 다양한 회사와 연구 집단들은 각기 다른 접근을 시도하고 있습니다. 아래에서 주요 방법들을 살펴보겠습니다.

텔레오퍼레이션(Teleoperation)

텔레오퍼레이션은 사람이 원격으로 로봇을 조종하면서 동작 데이터를 수집하는 방식입니다. 가장 직접적인 데이터 수집 방법이지만, 사람의 노동력이 필요하다는 한계가 있습니다.

1957년: 텔레오퍼레이션의 시작

1957년 텔레오퍼레이션 시스템. 원격 조종 로봇의 역사는 생각보다 깁니다.

원격 조종 자체는 오래된 개념입니다. 다만 Physical AI 시대의 텔레오퍼레이션은 단순히 “원격으로 움직인다”는 의미를 넘어, 로봇의 행동 궤적을 학습 가능한 액션 데이터로 수집한다는 점에서 의미가 다릅니다.

ALOHA

ALOHA 오픈소스 양팔 텔레오퍼레이션 시스템

ALOHA는 Stanford에서 개발한 저비용 텔레오퍼레이션 시스템입니다. ACT(Action Chunking with Transformers) 논문에서 사용되었으며, 하드웨어 설계와 소프트웨어가 모두 오픈소스로 공개되어 연구자들이 쉽게 재현할 수 있습니다. 이 시스템의 공개는 로봇 학습 연구의 민주화에 크게 기여했습니다.

Tesla

Tesla 텔레오퍼레이션 데이터 수집 팀

Tesla는 휴머노이드 로봇 Optimus의 텔레오퍼레이터를 시급 48달러 수준으로 모집한 바 있습니다. 채용 공고에는 5’7″ ~ 5’11″ (약 170~180cm) 신장, 하루 7시간 이상 걷기, 최대 30파운드(약 13.6kg) 하중 운반 가능 같은 조건이 명시됐습니다. 텔레오퍼레이터의 동작이 실제 로봇 데이터에 직접 반영되기 때문에, 생각보다 훨씬 고된 노동이 요구됩니다.

VR 텔레오퍼레이션 시연

실제로 VR 기기를 착용하고 텔레오퍼레이션을 수행해보면, 장시간 지속하는 것이 매우 어렵습니다. VR 헤드셋의 무게와 시야 제한, 컨트롤러를 쥔 상태에서의 반복 동작은 몇 시간만 지나도 심각한 피로와 멀미를 유발합니다. 이것이 텔레오퍼레이션 기반 데이터 수집의 근본적인 병목 중 하나입니다.

UMI 방식 데이터 수집

UMI 데이터 수집 시스템

UMI (Universal Manipulation Interface)는 휴대용 그리퍼를 사용하여 로봇 없이도 조작 데이터를 수집할 수 있는 시스템입니다. 텔레오퍼레이션 장비 없이 사람이 직접 물체를 조작하는 동작을 기록하고, 이를 다양한 로봇에 전이(transfer)할 수 있습니다.

이 접근법의 장점은 로봇 하드웨어 없이도 데이터를 수집할 수 있어 확장성이 크게 높아진다는 점입니다. 실제로는 텔레오퍼레이션보다 더 짧은 시간 안에 더 많은 시도를 기록할 수 있다는 점에서 매력적입니다.

시뮬레이션(Simulation)

NVIDIA Isaac & Cosmos

NVIDIA Isaac GR00T Synthetic Manipulation

NVIDIA Isaac GR00T Synthetic Manipulation은 시뮬레이션 환경에서 합성 데이터(synthetic data)를 생성해 로봇 조작 학습에 활용하는 Blueprint입니다. 실제 로봇 데이터 수집 없이도 다양한 시나리오의 학습 데이터를 대량 생산할 수 있습니다.

시뮬레이션 기반 접근법은 데이터 수집 비용을 크게 낮출 수 있지만, 시뮬레이션과 현실 사이의 격차(sim-to-real gap)를 극복하는 것이 핵심 과제입니다.

HuggingFace 커뮤니티

HuggingFace는 오픈소스 생태계를 통해 커뮤니티 기반 데이터 수집을 추진하고 있습니다. HuggingFace는 LLM 시대의 GitHub처럼 데이터와 모델이 모이는 허브 역할을 하고 있고, 이 성공 공식을 Physical AI에도 그대로 적용하려 하고 있습니다.

핵심은 다음과 같습니다:

Open Source HW, SW: 하드웨어와 소프트웨어 설계를 공개하여 누구나 참여 가능
Data & Model Hub: 데이터셋과 모델을 공유할 수 있는 중앙 허브 제공
Tutorial & Hackathon: 교육 자료와 해커톤으로 커뮤니티 참여 유도

이렇게 허브에 모인 데이터를 활용해 학습한 VLA인 smolVLA는 이 접근법의 가능성을 보여주는 사례입니다.

World Model + IDM

1X World Model Self-Learning

1X는 월드 모델(World Model)과 IDM(Inverse Dynamics Model, 역동역학 모델)을 활용하여 라벨링 없는 비디오 데이터로부터 로봇이 스스로 학습할 수 있는 방법을 연구하고 있습니다. 이 접근법은 액션 라벨 없이도 대규모 비디오 데이터를 활용할 수 있는 가능성을 보여줍니다.

인터넷에는 로봇 액션 데이터는 없지만, 사람의 동작이 담긴 비디오는 무한히 존재합니다. 이 비디오에서 액션을 추출할 수 있다면, 스케일링 문제를 돌파할 수 있을지도 모릅니다.

보다 자세한 내용은 VLM 백본의 한계와 World Model을 참조하세요.

접근법 요약

접근법	주체	설명
텔레오퍼레이션	Tesla, Google, Physical Intelligence, Galaxea	직접 데이터를 수집
Non-Teleop	UMI, Generalist, Sunday Robotics	로봇 없이 Non-Teleop 데이터로 학습 시도
시뮬레이션	NVIDIA	물리 시뮬레이션(Omniverse)과 World Model(Cosmos)로 데이터를 생산, 증강, 평가
커뮤니티	HuggingFace	오픈소스 정신으로 커뮤니티 기반 데이터 수집
World Model	1X, NVIDIA	평가 자동화, VLA 백본 교체, 월드 모델로 합성 데이터 생성
분산 평가	학계	OXE, RoboArena 등
기타	다양함	휴먼 비디오에서 액션 추출, 에고센트릭 데이터 수집 장비 등

표: VLA 스케일링 문제를 해결하기 위한 주요 접근법과 주체들

각 접근법은 저마다의 장단점이 있으며, 아직 어떤 방법이 최선인지 결론이 나지 않았습니다. 앞으로 이 분야의 발전을 주시할 필요가 있습니다.

입문 가이드 완료

여기까지 Physical AI 입문 가이드를 마쳤습니다.

더 깊이 탐색하고 싶다면 Physical AI 입문 가이드로 돌아가거나, 아래 인사이트 에세이를 살펴보세요.

다음으로 읽어볼 문서들

Physical vs Cognitive Intelligence - 물리적 지능에 대한 고찰
VLA & RFM 발전 과정 - VLA와 RFM의 진행 중인 발전 과정
휴머노이드 디자인 - 휴머노이드의 디자인 문제
촉각 센싱 - 촉각은 과연 필요할까?
Teleoperation 방식 - 텔레오퍼레이션으로 데이터 수집
시뮬레이션 & World Model - 합성 데이터와 월드 모델