ALOHA
Home > Hardware > Arms > ALOHA
Overview
| 항목 | 내용 |
|---|---|
| 정식 명칭 | A Low-cost Open-source Hardware System for Bimanual Teleoperation |
| 개발 기관 | Stanford University, UC Berkeley, Meta; Interbotix 암(Trossen Robotics) 기반 |
| 주요 연구자 | Tony Z. Zhao, Vikash Kumar, Sergey Levine, Chelsea Finn |
| 발표 | RSS 2023 |
| 구성 | Interbotix ViperX-300(6DoF) x 2 (팔로워) + Interbotix WidowX-250(6DoF) x 2 (리더) |
| 총 비용 | 포함 범위(리더/카메라/컴퓨트)에 따라 대략 ~$20k–$32k |
| 크기 | 표준화된 단일 규격 없음(프레임/테이블 구성에 따라 달라짐) |
| 용도 | VLA 데이터 수집, 양팔 조작 연구, 모방 학습 |
핵심 의의
1. VLA 연구의 표준 플랫폼
ALOHA는 단순한 하드웨어가 아니라, 현대 로봇 모방 학습 연구의 핵심 인프라로 자리잡았다. 포함 범위에 따라 수만 달러(USD) 수준(대략 ~$20k–$30k+로 자주 인용)에 기존 상용 양팔 로봇($200,000+)과 비교할 수 있는 성능을 제공하여 연구 접근성을 혁신적으로 높였다.
2. ACT (Action Chunking with Transformers) 원조 플랫폼
ALOHA는 ACT 알고리즘 개발을 위해 설계된 플랫폼이다. 단순 행동 복제(Behavior Cloning)의 compounding error 문제를 해결하기 위해, 단일 액션이 아닌 **액션 시퀀스(action chunk)**를 예측하는 혁신적 접근법을 가능하게 했다.
3. Open X-Embodiment 주요 데이터 소스
Google DeepMind가 주도한 Open X-Embodiment 데이터셋(22개 로봇, 100만+ 궤적)에서 ALOHA는 가장 풍부한 양팔 조작 데이터를 제공하는 플랫폼 중 하나이다. RT-X 모델 학습의 핵심 데이터 소스로 활용된다.
4. 오픈소스 생태계
하드웨어 설계도, 소프트웨어, 데이터 수집 코드가 모두 공개되어 있어 전 세계 연구실에서 재현 및 확장이 가능하다.
양팔 조작(Bimanual Manipulation)의 중요성
인간의 양팔 조작은 두 팔의 단순 합 이상의 능력을 발휘한다. 이는 **시공간적 협응(spatio-temporal coordination)**에서 비롯된다.
양팔이 필수적인 태스크
| 태스크 유형 | 예시 |
|---|---|
| 안정화-조작 | 한 팔로 물체 고정, 다른 팔로 나사 체결 |
| 협력 운반 | 큰 상자, 트레이 운반 |
| 도구 사용 | 빗자루 쓸기, 밀대 밀기 |
| 요리 | 재료 섞기, 뚜껑 열기, 주걱으로 볶기 |
| 조립 | 지퍼타이 묶기, 체인 조립 |
협응 패러다임
- Leader-Follower: 주 팔이 작업을 주도하고, 보조 팔이 지원
- Synergistic: 양 팔이 동등하게 협력하여 동시 작업 수행
하드웨어 구성
전체 비용 내역
비용은 SKU(예: 5DoF vs 6DoF), 리더 스테이션 포함 여부, 컴퓨트/카메라 구성에 따라 크게 달라지며 일반적으로 수만 달러(USD) 수준입니다.
참고: 비용은 원본 논문 및 Trossen Robotics 가격 기준 (2023). 환율 및 구매 시점에 따라 변동 가능.
ViperX 300 6DoF 사양
| 사양 | 값 |
|---|---|
| 자유도 | 6 DoF(암) + 1 DoF(그리퍼) |
| 도달 거리 | 750mm |
| 페이로드 | 750g (50% 확장 시 권장) |
| 모터 | DYNAMIXEL X-Series |
| Waist/Shoulder/Elbow/Forearm Roll/Wrist Angle | XM540-W270 |
| Wrist Rotate/Gripper | XM430-W350 |
| 통신 | RS485 (1Mbps), U2D2 인터페이스 |
카메라 시스템
| 버전 | 카메라 | 특징 |
|---|---|---|
| ALOHA (Original) | Logitech C922x 웹캠 x 4 | RGB 480x640 @ 50Hz, 고정 2개 + 손목 장착 2개 |
| ALOHA 2 | Intel RealSense D405 x 4 | RGB + Depth, 글로벌 셔터, 넓은 시야각, 좌/우 손목 + 상단/하단 뷰 |
그리퍼
- ALOHA (Original): 시저헤드 그리퍼, XL430-W250-T 모터
- ALOHA 2: 저마찰 레일 설계, XC430-W150-T 모터 (기존 대비 개폐력 10배 감소, 플라스틱 기어 → 저마찰 금속 기어)
텔레오퍼레이션 방식
ALOHA의 텔레오퍼레이션은 백드라이빙(Backdriving) 기반 퍼펫티어링 방식이다.
동작 원리
사용자 → 리더 암 물리적 조작 → 관절 위치 읽기 → 팔로워 암 동기화
- 물리적 백드라이빙: 사용자가 리더 암(WidowX)을 직접 손으로 움직임
- 실시간 동기화: 리더 관절 위치가 팔로워(ViperX)에 즉시 반영
- 데이터 수집: RGB 이미지 + 관절 상태가 동시 기록
핵심 장점
| 장점 | 설명 |
|---|---|
| 직관성 | 사람이 직접 로봇 팔을 움직이는 자연스러운 인터페이스 |
| 저지연 | 조이스틱/VR 컨트롤러 대비 낮은 지연 |
| 힘 피드백 | 물리적 저항 감지로 섬세한 조작 가능 |
| 저비용 | 추가 센서 없이 기존 암의 엔코더만 활용 |
필요 환경
- USB3 포트 6개 이상 (로봇 4개 + 카메라 2개)
- USB 허브 사용 시 연결 불안정 가능성 있음
ALOHA 버전 비교
| 항목 | ALOHA (Original) | ALOHA 2 |
|---|---|---|
| 발표 | 2023 (RSS) | 2024 |
| 개발 | Stanford, UC Berkeley, Meta | Google, Stanford, Hoku Labs |
| 그리퍼 | 시저헤드, 고마찰 (XL430-W250-T) | 저마찰 레일 설계 (XC430-W150-T) |
| 중력 보상 | 고무밴드 | 패시브 기구학 메커니즘 (기성품 부품) |
| 카메라 | Logitech C922x 웹캠 x 4 | Intel RealSense D405 x 4 |
| 프레임 | 기본 | 48” x 30” 테이블 + 알루미늄 케이지 |
| 소프트웨어 | ROS | ROS 2 (50Hz 로깅) |
| 내구성 | 보통 | 향상 |
Mobile ALOHA로의 확장
Mobile ALOHA는 ALOHA를 **모바일 베이스(AgileX Tracer)**에 장착한 확장 버전이다.
| 항목 | 내용 |
|---|---|
| 베이스 | AgileX Tracer AGV (~$7,000) - 차동 구동, 최대 속도 1.6m/s, 최대 적재 100kg |
| 전체 비용 | ~$32,000 (온보드 전원 및 컴퓨트 포함) |
| 크기 | 90cm x 135cm, 중량 75kg |
| 이동 방식 | 사용자가 시스템에 물리적으로 연결되어 바퀴 백드라이빙 |
| 데이터 | 베이스 속도 + 암 퍼펫티어링 동시 기록 |
| 학습 | 50회 시연으로 자율 수행 가능 (co-training으로 성공률 최대 90% 향상) |
Mobile ALOHA 학습 태스크 예시
- 냄비를 캐비닛에 넣기
- 엘리베이터 호출
- 의자 밀어넣기
- 새우 볶기
- 와인 쏟음 청소
- 하이파이브
자세한 내용은 Mobile ALOHA 참조.
VLA 연구 활용
ALOHA는 다양한 VLA(Vision-Language-Action) 모델의 핵심 평가/학습 플랫폼이다.
ACT (Action Chunking with Transformers)
| 항목 | 내용 |
|---|---|
| 핵심 아이디어 | 단일 액션 대신 액션 시퀀스(chunk) 예측 |
| 아키텍처 | Conditional VAE + Transformer Encoder/Decoder |
| 문제 해결 | Compounding error를 k배 감소 (k = chunk 길이) |
| 성능 | 일부 태스크에서 약 10분 시연으로 ~80–90%를 보고(태스크/데이터 조건에 의존) |
| 태스크 | 투명 컵 열기, 배터리 삽입 등 세밀한 양팔 조작 |
OpenVLA
| 항목 | 내용 |
|---|---|
| 파라미터 | 7B |
| 베이스 | Llama 2 + DINOv2 + SigLIP |
| 학습 데이터 | 970k 실제 로봇 시연 (ALOHA 포함) |
| 성능 | RT-2-X (55B) 대비 16.5% 높은 성공률 |
Physical Intelligence Pi Series
| 모델 | 특징 |
|---|---|
| Pi-0 | 3B PaLiGemma VLM + 300M Diffusion 액션 전문가 |
| Pi-0-FAST | 토큰화된 액션 출력으로 속도 향상 |
| Pi-0.5 | 이기종 데이터 코-트레이닝으로 오픈월드 일반화 |
Pi-0은 ALOHA를 포함한 다양한 로봇 플랫폼에서 벤치마크되며, OpenVLA, Octo 등 기존 베이스라인을 큰 폭으로 능가한다.
OpenVLA-OFT
ALOHA에서 7B VLA 정책으로 고주파 언어 기반 제어를 달성. LIBERO 벤치마크에서 97.1% 성공률로 Pi-0, Diffusion Policy 등을 상회.
소프트웨어 생태계
| 패키지 | 내용 |
|---|---|
| ROS / ROS 2 | 드라이버, URDF, Gazebo 시뮬레이션 |
| MoveIt | 모션 플래닝 지원 |
| LeRobot | Hugging Face 로봇 학습 라이브러리 통합 |
| ACT 코드 | 공식 학습/추론 코드 공개 |
References
논문
- Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT, RSS 2023)
- ALOHA 2: An Enhanced Low-Cost Hardware for Bimanual Teleoperation
- Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation
- Open X-Embodiment: Robotic Learning Datasets and RT-X Models
- OpenVLA: An Open-Source Vision-Language-Action Model
- Pi-0: A Vision-Language-Action Flow Model for General Robot Control