ALOHA

Home > Hardware > Arms > ALOHA

Overview

항목	내용
정식 명칭	A Low-cost Open-source Hardware System for Bimanual Teleoperation
개발 기관	Stanford University, UC Berkeley, Meta; Interbotix 암(Trossen Robotics) 기반
주요 연구자	Tony Z. Zhao, Vikash Kumar, Sergey Levine, Chelsea Finn
발표	RSS 2023
구성	Interbotix ViperX-300(6DoF) x 2 (팔로워) + Interbotix WidowX-250(6DoF) x 2 (리더)
총 비용	포함 범위(리더/카메라/컴퓨트)에 따라 대략 ~$20k–$32k
크기	표준화된 단일 규격 없음(프레임/테이블 구성에 따라 달라짐)
용도	VLA 데이터 수집, 양팔 조작 연구, 모방 학습

핵심 의의

1. VLA 연구의 표준 플랫폼

ALOHA는 단순한 하드웨어가 아니라, 현대 로봇 모방 학습 연구의 핵심 인프라로 자리잡았다. 포함 범위에 따라 수만 달러(USD) 수준(대략 ~$20k–$30k+로 자주 인용)에 기존 상용 양팔 로봇($200,000+)과 비교할 수 있는 성능을 제공하여 연구 접근성을 혁신적으로 높였다.

2. ACT (Action Chunking with Transformers) 원조 플랫폼

ALOHA는 ACT 알고리즘 개발을 위해 설계된 플랫폼이다. 단순 행동 복제(Behavior Cloning)의 compounding error 문제를 해결하기 위해, 단일 액션이 아닌 **액션 시퀀스(action chunk)**를 예측하는 혁신적 접근법을 가능하게 했다.

3. Open X-Embodiment 주요 데이터 소스

Google DeepMind가 주도한 Open X-Embodiment 데이터셋(22개 로봇, 100만+ 궤적)에서 ALOHA는 가장 풍부한 양팔 조작 데이터를 제공하는 플랫폼 중 하나이다. RT-X 모델 학습의 핵심 데이터 소스로 활용된다.

4. 오픈소스 생태계

하드웨어 설계도, 소프트웨어, 데이터 수집 코드가 모두 공개되어 있어 전 세계 연구실에서 재현 및 확장이 가능하다.

양팔 조작(Bimanual Manipulation)의 중요성

인간의 양팔 조작은 두 팔의 단순 합 이상의 능력을 발휘한다. 이는 **시공간적 협응(spatio-temporal coordination)**에서 비롯된다.

양팔이 필수적인 태스크

태스크 유형	예시
안정화-조작	한 팔로 물체 고정, 다른 팔로 나사 체결
협력 운반	큰 상자, 트레이 운반
도구 사용	빗자루 쓸기, 밀대 밀기
요리	재료 섞기, 뚜껑 열기, 주걱으로 볶기
조립	지퍼타이 묶기, 체인 조립

협응 패러다임

Leader-Follower: 주 팔이 작업을 주도하고, 보조 팔이 지원
Synergistic: 양 팔이 동등하게 협력하여 동시 작업 수행

하드웨어 구성

전체 비용 내역

비용은 SKU(예: 5DoF vs 6DoF), 리더 스테이션 포함 여부, 컴퓨트/카메라 구성에 따라 크게 달라지며 일반적으로 수만 달러(USD) 수준입니다.

참고: 비용은 원본 논문 및 Trossen Robotics 가격 기준 (2023). 환율 및 구매 시점에 따라 변동 가능.

ViperX 300 6DoF 사양

사양	값
자유도	6 DoF(암) + 1 DoF(그리퍼)
도달 거리	750mm
페이로드	750g (50% 확장 시 권장)
모터	DYNAMIXEL X-Series
Waist/Shoulder/Elbow/Forearm Roll/Wrist Angle	XM540-W270
Wrist Rotate/Gripper	XM430-W350
통신	RS485 (1Mbps), U2D2 인터페이스

카메라 시스템

버전	카메라	특징
ALOHA (Original)	Logitech C922x 웹캠 x 4	RGB 480x640 @ 50Hz, 고정 2개 + 손목 장착 2개
ALOHA 2	Intel RealSense D405 x 4	RGB + Depth, 글로벌 셔터, 넓은 시야각, 좌/우 손목 + 상단/하단 뷰

그리퍼

ALOHA (Original): 시저헤드 그리퍼, XL430-W250-T 모터
ALOHA 2: 저마찰 레일 설계, XC430-W150-T 모터 (기존 대비 개폐력 10배 감소, 플라스틱 기어 → 저마찰 금속 기어)

텔레오퍼레이션 방식

ALOHA의 텔레오퍼레이션은 백드라이빙(Backdriving) 기반 퍼펫티어링 방식이다.

동작 원리

사용자 → 리더 암 물리적 조작 → 관절 위치 읽기 → 팔로워 암 동기화

물리적 백드라이빙: 사용자가 리더 암(WidowX)을 직접 손으로 움직임
실시간 동기화: 리더 관절 위치가 팔로워(ViperX)에 즉시 반영
데이터 수집: RGB 이미지 + 관절 상태가 동시 기록

핵심 장점

장점	설명
직관성	사람이 직접 로봇 팔을 움직이는 자연스러운 인터페이스
저지연	조이스틱/VR 컨트롤러 대비 낮은 지연
힘 피드백	물리적 저항 감지로 섬세한 조작 가능
저비용	추가 센서 없이 기존 암의 엔코더만 활용

필요 환경

USB3 포트 6개 이상 (로봇 4개 + 카메라 2개)
USB 허브 사용 시 연결 불안정 가능성 있음

ALOHA 버전 비교

항목	ALOHA (Original)	ALOHA 2
발표	2023 (RSS)	2024
개발	Stanford, UC Berkeley, Meta	Google, Stanford, Hoku Labs
그리퍼	시저헤드, 고마찰 (XL430-W250-T)	저마찰 레일 설계 (XC430-W150-T)
중력 보상	고무밴드	패시브 기구학 메커니즘 (기성품 부품)
카메라	Logitech C922x 웹캠 x 4	Intel RealSense D405 x 4
프레임	기본	48” x 30” 테이블 + 알루미늄 케이지
소프트웨어	ROS	ROS 2 (50Hz 로깅)
내구성	보통	향상

Mobile ALOHA로의 확장

Mobile ALOHA는 ALOHA를 **모바일 베이스(AgileX Tracer)**에 장착한 확장 버전이다.

항목	내용
베이스	AgileX Tracer AGV (~$7,000) - 차동 구동, 최대 속도 1.6m/s, 최대 적재 100kg
전체 비용	~$32,000 (온보드 전원 및 컴퓨트 포함)
크기	90cm x 135cm, 중량 75kg
이동 방식	사용자가 시스템에 물리적으로 연결되어 바퀴 백드라이빙
데이터	베이스 속도 + 암 퍼펫티어링 동시 기록
학습	50회 시연으로 자율 수행 가능 (co-training으로 성공률 최대 90% 향상)

Mobile ALOHA 학습 태스크 예시

냄비를 캐비닛에 넣기
엘리베이터 호출
의자 밀어넣기
새우 볶기
와인 쏟음 청소
하이파이브

자세한 내용은 Mobile ALOHA 참조.

VLA 연구 활용

ALOHA는 다양한 VLA(Vision-Language-Action) 모델의 핵심 평가/학습 플랫폼이다.

ACT (Action Chunking with Transformers)

항목	내용
핵심 아이디어	단일 액션 대신 액션 시퀀스(chunk) 예측
아키텍처	Conditional VAE + Transformer Encoder/Decoder
문제 해결	Compounding error를 k배 감소 (k = chunk 길이)
성능	일부 태스크에서 약 10분 시연으로 ~80–90%를 보고(태스크/데이터 조건에 의존)
태스크	투명 컵 열기, 배터리 삽입 등 세밀한 양팔 조작

OpenVLA

항목	내용
파라미터	7B
베이스	Llama 2 + DINOv2 + SigLIP
학습 데이터	970k 실제 로봇 시연 (ALOHA 포함)
성능	RT-2-X (55B) 대비 16.5% 높은 성공률

Physical Intelligence Pi Series

모델	특징
Pi-0	3B PaLiGemma VLM + 300M Diffusion 액션 전문가
Pi-0-FAST	토큰화된 액션 출력으로 속도 향상
Pi-0.5	이기종 데이터 코-트레이닝으로 오픈월드 일반화

Pi-0은 ALOHA를 포함한 다양한 로봇 플랫폼에서 벤치마크되며, OpenVLA, Octo 등 기존 베이스라인을 큰 폭으로 능가한다.

OpenVLA-OFT

ALOHA에서 7B VLA 정책으로 고주파 언어 기반 제어를 달성. LIBERO 벤치마크에서 97.1% 성공률로 Pi-0, Diffusion Policy 등을 상회.

소프트웨어 생태계

패키지	내용
ROS / ROS 2	드라이버, URDF, Gazebo 시뮬레이션
MoveIt	모션 플래닝 지원
LeRobot	Hugging Face 로봇 학습 라이브러리 통합
ACT 코드	공식 학습/추론 코드 공개

ALOHA

ALOHA

Overview

핵심 의의

1. VLA 연구의 표준 플랫폼

2. ACT (Action Chunking with Transformers) 원조 플랫폼

3. Open X-Embodiment 주요 데이터 소스

4. 오픈소스 생태계

양팔 조작(Bimanual Manipulation)의 중요성

양팔이 필수적인 태스크

협응 패러다임

하드웨어 구성

전체 비용 내역

ViperX 300 6DoF 사양

카메라 시스템

그리퍼

텔레오퍼레이션 방식

동작 원리

핵심 장점

필요 환경

ALOHA 버전 비교

Mobile ALOHA로의 확장

Mobile ALOHA 학습 태스크 예시

VLA 연구 활용

ACT (Action Chunking with Transformers)

OpenVLA

Physical Intelligence Pi Series

OpenVLA-OFT

소프트웨어 생태계

References

논문

프로젝트 사이트

GitHub

하드웨어 구매

See Also