CraftNet

Sharpa의 촉각 기반 Vision-Tactile-Language-Action (VTLA) 모델

필자의 의견

  • CraftNet은 촉각을 VLA에 본격적으로 통합한 최초의 상용 모델입니다.
  • System 0/1/2 계층 구조가 Figure Helix 02와 유사하지만, 촉각 피드백에 특화된 점이 차별화됩니다.
  • “마지막 1mm” 문제를 해결하기 위한 100Hz 고주파 촉각 제어가 핵심입니다.

핵심 의의

  • 최초의 상용 VTLA: Vision-Tactile-Language-Action, 촉각을 핵심 모달리티로 통합
  • 3단계 계층 아키텍처: System 2(~1Hz) + System 1(~10Hz) + System 0(~100Hz)
  • “마지막 1mm” 해결: 접촉 후 정밀 조작을 위한 고주파 촉각 피드백 루프
  • 합성 촉각 데이터: 시뮬레이션, 텔레오퍼레이션, 인터넷 비디오에 촉각 정보 합성
  • SharpaWave 통합: 1,000+ 촉각 픽셀, 0.005N 민감도의 촉각 손과 결합

Sharpa CES 2026 데모 - North 휴머노이드와 CraftNet


Overview

항목내용
발표2025년
회사Sharpa (싱가포르)
블로그sharpa.com/blogs/news
로봇North 휴머노이드
하드웨어SharpaWave 촉각 손

CraftNet은 Sharpa가 개발한 계층적 Vision-Tactile-Language-Action (VTLA) 모델로, 정밀 조작(fine manipulation)을 위해 설계되었습니다.


Architecture: System 0/1/2

CraftNet은 세 가지 주파수 대역에서 동작하는 계층적 시스템입니다.

CraftNet Architecture

CraftNet 아키텍처: System 0/1/2 계층 구조

System 2 (Reasoning Brain) - ~1 Hz

항목내용
역할태스크 분해, 장기 계획
기반Vision-Language Model
특징오픈소스 VLM 인터페이스
  • 인간 명령을 순차적 서브태스크로 분해
  • 고수준 추론 및 의사결정
  • 인터넷 스케일 데이터로 사전학습된 오픈소스 VLM 활용

System 1 (Motion Brain) - ~10 Hz

항목내용
역할모션 플래닝, 대략적 액션 제어
기반Foundation Model
특징접촉 전 접근 최적화
  • 물체 접근까지의 궤적 계획
  • 공개/비공개 도메인 데이터로 학습
  • System 2의 목표를 실행 가능한 모션으로 변환

System 0 (Interaction Brain) - ~100 Hz

항목내용
역할초고주파 정밀 모터 제어
기반촉각 피드백 모델
특징실시간 접촉 조정
  • 핵심 차별점: 실시간 촉각 피드백 처리
  • 접촉 중 손/손가락 위치 연속 조정
  • 그립, 슬라이딩, 복잡한 조립 태스크 처리

핵심 기술: 촉각 통합

기존 VLA의 한계

기존 VLA는 비전 기반 궤적 생성에 집중하여 세 가지 한계가 있습니다:

  1. 촉각 부재: 힘과 촉각 피드백 없이 비전만 사용
  2. 접촉 후 제어 부재: “마지막 1mm” 조작 불가능
  3. 비현실적 시뮬레이션: 시뮬레이션 데이터의 힘/컴플라이언스 패턴이 현실과 불일치

CraftNet의 해결책

문제해결책
촉각 부재비전과 함께 힘/촉각 피드백 통합
접촉 후 제어System 0의 100Hz 고주파 피드백 루프
데이터 부족합성 촉각 정보로 기존 데이터 강화

데이터 전략

합성 촉각 데이터

CraftNet은 다양한 소스의 데이터를 촉각 정보로 강화합니다:

데이터 소스처리 방법
시뮬레이션비현실적 힘/컴플라이언스 패턴 보정
텔레오퍼레이션고품질 데이터로 System 0/1 공동 학습
인터넷 비디오합성 촉각 정보 추가

비동기 멀티 주파수 추론

  • 세 시스템이 서로 다른 주파수로 독립 동작
  • 시간적 디커플링으로 효율적 연산

Hardware: SharpaWave

CraftNet은 Sharpa의 SharpaWave 촉각 손과 함께 사용됩니다.

스펙

항목스펙
자유도22 DoF (능동)
촉각 기술Dynamic Tactile Array (DTA)
촉각 픽셀손끝당 1,000+
압력 민감도0.005 N
힘 센싱6축
내구성100만 회 그립 사이클
특징모듈식 손가락 교체

Dynamic Tactile Array (DTA)

  • “보면서 느끼는” 비전-촉각 융합 기술
  • 손끝마다 소형 카메라 내장
  • 깃털 터치부터 중량물 조작까지 가능

Hardware: North 휴머노이드

CraftNet이 탑재된 Sharpa의 휴머노이드 로봇입니다.

  • CES 2026에서 공개
  • 완전 자율 탁구 랠리 시연
  • SharpaWave 손 탑재

Sharpa 회사 정보

항목내용
설립2024년
본사싱가포르
R&D상하이
비즈니스마운틴뷰, 미국
수상CES 2026 Innovation Award (로보틱스 부문)

마일스톤

시기이벤트
2024Sharpa 설립
2025.10IROS 2025에서 SharpaWave 시연
2025.10SharpaWave 양산 및 출하 시작
2025.11CES 2026 Innovation Award 수상
2026.01CES 2026에서 North 휴머노이드 공개

다른 계층적 VLA와의 비교

모델System 2System 1System 0촉각
CraftNet~1Hz (VLM)~10Hz (Motion)~100Hz (Tactile)O
Figure Helix 02의미 추론200Hz (Visuomotor)1kHz (Balance)O
GR00T N110Hz (Eagle VLM)120Hz (DiT)-X

References


See Also