ALOHA

저가형 오픈소스 양팔 텔레오퍼레이션 플랫폼

ALOHA

Home > Hardware > Arms > ALOHA


Overview

항목내용
정식 명칭A Low-cost Open-source Hardware System for Bimanual Teleoperation
개발 기관Stanford University, UC Berkeley, Meta; Interbotix 암(Trossen Robotics) 기반
주요 연구자Tony Z. Zhao, Vikash Kumar, Sergey Levine, Chelsea Finn
발표RSS 2023
구성Interbotix ViperX-300(6DoF) x 2 (팔로워) + Interbotix WidowX-250(6DoF) x 2 (리더)
총 비용포함 범위(리더/카메라/컴퓨트)에 따라 대략 ~$20k–$32k
크기표준화된 단일 규격 없음(프레임/테이블 구성에 따라 달라짐)
용도VLA 데이터 수집, 양팔 조작 연구, 모방 학습

핵심 의의

1. VLA 연구의 표준 플랫폼

ALOHA는 단순한 하드웨어가 아니라, 현대 로봇 모방 학습 연구의 핵심 인프라로 자리잡았다. 포함 범위에 따라 수만 달러(USD) 수준(대략 ~$20k–$30k+로 자주 인용)에 기존 상용 양팔 로봇($200,000+)과 비교할 수 있는 성능을 제공하여 연구 접근성을 혁신적으로 높였다.

2. ACT (Action Chunking with Transformers) 원조 플랫폼

ALOHA는 ACT 알고리즘 개발을 위해 설계된 플랫폼이다. 단순 행동 복제(Behavior Cloning)의 compounding error 문제를 해결하기 위해, 단일 액션이 아닌 **액션 시퀀스(action chunk)**를 예측하는 혁신적 접근법을 가능하게 했다.

3. Open X-Embodiment 주요 데이터 소스

Google DeepMind가 주도한 Open X-Embodiment 데이터셋(22개 로봇, 100만+ 궤적)에서 ALOHA는 가장 풍부한 양팔 조작 데이터를 제공하는 플랫폼 중 하나이다. RT-X 모델 학습의 핵심 데이터 소스로 활용된다.

4. 오픈소스 생태계

하드웨어 설계도, 소프트웨어, 데이터 수집 코드가 모두 공개되어 있어 전 세계 연구실에서 재현 및 확장이 가능하다.


양팔 조작(Bimanual Manipulation)의 중요성

인간의 양팔 조작은 두 팔의 단순 합 이상의 능력을 발휘한다. 이는 **시공간적 협응(spatio-temporal coordination)**에서 비롯된다.

양팔이 필수적인 태스크

태스크 유형예시
안정화-조작한 팔로 물체 고정, 다른 팔로 나사 체결
협력 운반큰 상자, 트레이 운반
도구 사용빗자루 쓸기, 밀대 밀기
요리재료 섞기, 뚜껑 열기, 주걱으로 볶기
조립지퍼타이 묶기, 체인 조립

협응 패러다임

  • Leader-Follower: 주 팔이 작업을 주도하고, 보조 팔이 지원
  • Synergistic: 양 팔이 동등하게 협력하여 동시 작업 수행

하드웨어 구성

전체 비용 내역

비용은 SKU(예: 5DoF vs 6DoF), 리더 스테이션 포함 여부, 컴퓨트/카메라 구성에 따라 크게 달라지며 일반적으로 수만 달러(USD) 수준입니다.

참고: 비용은 원본 논문Trossen Robotics 가격 기준 (2023). 환율 및 구매 시점에 따라 변동 가능.

ViperX 300 6DoF 사양

사양
자유도6 DoF(암) + 1 DoF(그리퍼)
도달 거리750mm
페이로드750g (50% 확장 시 권장)
모터DYNAMIXEL X-Series
Waist/Shoulder/Elbow/Forearm Roll/Wrist AngleXM540-W270
Wrist Rotate/GripperXM430-W350
통신RS485 (1Mbps), U2D2 인터페이스

카메라 시스템

버전카메라특징
ALOHA (Original)Logitech C922x 웹캠 x 4RGB 480x640 @ 50Hz, 고정 2개 + 손목 장착 2개
ALOHA 2Intel RealSense D405 x 4RGB + Depth, 글로벌 셔터, 넓은 시야각, 좌/우 손목 + 상단/하단 뷰

그리퍼

  • ALOHA (Original): 시저헤드 그리퍼, XL430-W250-T 모터
  • ALOHA 2: 저마찰 레일 설계, XC430-W150-T 모터 (기존 대비 개폐력 10배 감소, 플라스틱 기어 → 저마찰 금속 기어)

텔레오퍼레이션 방식

ALOHA의 텔레오퍼레이션은 백드라이빙(Backdriving) 기반 퍼펫티어링 방식이다.

동작 원리

사용자 → 리더 암 물리적 조작 → 관절 위치 읽기 → 팔로워 암 동기화
  1. 물리적 백드라이빙: 사용자가 리더 암(WidowX)을 직접 손으로 움직임
  2. 실시간 동기화: 리더 관절 위치가 팔로워(ViperX)에 즉시 반영
  3. 데이터 수집: RGB 이미지 + 관절 상태가 동시 기록

핵심 장점

장점설명
직관성사람이 직접 로봇 팔을 움직이는 자연스러운 인터페이스
저지연조이스틱/VR 컨트롤러 대비 낮은 지연
힘 피드백물리적 저항 감지로 섬세한 조작 가능
저비용추가 센서 없이 기존 암의 엔코더만 활용

필요 환경

  • USB3 포트 6개 이상 (로봇 4개 + 카메라 2개)
  • USB 허브 사용 시 연결 불안정 가능성 있음

ALOHA 버전 비교

항목ALOHA (Original)ALOHA 2
발표2023 (RSS)2024
개발Stanford, UC Berkeley, MetaGoogle, Stanford, Hoku Labs
그리퍼시저헤드, 고마찰 (XL430-W250-T)저마찰 레일 설계 (XC430-W150-T)
중력 보상고무밴드패시브 기구학 메커니즘 (기성품 부품)
카메라Logitech C922x 웹캠 x 4Intel RealSense D405 x 4
프레임기본48” x 30” 테이블 + 알루미늄 케이지
소프트웨어ROSROS 2 (50Hz 로깅)
내구성보통향상

Mobile ALOHA로의 확장

Mobile ALOHA는 ALOHA를 **모바일 베이스(AgileX Tracer)**에 장착한 확장 버전이다.

항목내용
베이스AgileX Tracer AGV (~$7,000) - 차동 구동, 최대 속도 1.6m/s, 최대 적재 100kg
전체 비용~$32,000 (온보드 전원 및 컴퓨트 포함)
크기90cm x 135cm, 중량 75kg
이동 방식사용자가 시스템에 물리적으로 연결되어 바퀴 백드라이빙
데이터베이스 속도 + 암 퍼펫티어링 동시 기록
학습50회 시연으로 자율 수행 가능 (co-training으로 성공률 최대 90% 향상)

Mobile ALOHA 학습 태스크 예시

  • 냄비를 캐비닛에 넣기
  • 엘리베이터 호출
  • 의자 밀어넣기
  • 새우 볶기
  • 와인 쏟음 청소
  • 하이파이브

자세한 내용은 Mobile ALOHA 참조.


VLA 연구 활용

ALOHA는 다양한 VLA(Vision-Language-Action) 모델의 핵심 평가/학습 플랫폼이다.

ACT (Action Chunking with Transformers)

항목내용
핵심 아이디어단일 액션 대신 액션 시퀀스(chunk) 예측
아키텍처Conditional VAE + Transformer Encoder/Decoder
문제 해결Compounding error를 k배 감소 (k = chunk 길이)
성능일부 태스크에서 약 10분 시연으로 ~80–90%를 보고(태스크/데이터 조건에 의존)
태스크투명 컵 열기, 배터리 삽입 등 세밀한 양팔 조작

OpenVLA

항목내용
파라미터7B
베이스Llama 2 + DINOv2 + SigLIP
학습 데이터970k 실제 로봇 시연 (ALOHA 포함)
성능RT-2-X (55B) 대비 16.5% 높은 성공률

Physical Intelligence Pi Series

모델특징
Pi-03B PaLiGemma VLM + 300M Diffusion 액션 전문가
Pi-0-FAST토큰화된 액션 출력으로 속도 향상
Pi-0.5이기종 데이터 코-트레이닝으로 오픈월드 일반화

Pi-0은 ALOHA를 포함한 다양한 로봇 플랫폼에서 벤치마크되며, OpenVLA, Octo 등 기존 베이스라인을 큰 폭으로 능가한다.

OpenVLA-OFT

ALOHA에서 7B VLA 정책으로 고주파 언어 기반 제어를 달성. LIBERO 벤치마크에서 97.1% 성공률로 Pi-0, Diffusion Policy 등을 상회.


소프트웨어 생태계

패키지내용
ROS / ROS 2드라이버, URDF, Gazebo 시뮬레이션
MoveIt모션 플래닝 지원
LeRobotHugging Face 로봇 학습 라이브러리 통합
ACT 코드공식 학습/추론 코드 공개

References

논문

프로젝트 사이트

GitHub

하드웨어 구매


See Also