1. LLM, AGI, 그리고 Physical AI
LLM을 시작으로 한 AGI race는 인간 혹은 인간 이상의 지능을 구현하는 여정입니다.
2026년 현재, 조만간 달성이 가능할 것으로 보입니다.
그런데 이 지능은 Cognitive Intelligence(인지적인 지능)에 국한됩니다.
- 코딩, 수학, 추론, 연구, 문학…
Physical Intelligence(물리적인 지능)를 푸는 여정은 또 다른 차원의 문제입니다.
ChatGPT가 세상을 바꾸었듯이, Physical AI가 물리적 노동의 세계를 바꿀 것이라는 기대가 있습니다.
2. 최신 데모 살펴보기 (2026.01)
CES 2026
Boston Dynamics Atlas + LBM
이번 CES 의 최고 스타, 보스턴 다이나믹스의 ATLAS과연 이 데모에는 “지능” 이 있을까?
Classical Robotics의 대표 주자 Boston Dynamics도 Physical AI로 전환 중입니다.
- 450M Diffusion Transformer: Toyota Research Institute(TRI)와 공동 개발
- 전신 단일 모델 제어: 보행 + 조작 통합
- 로프 묶기, 천 펼치기 같은 deformable 물체 조작
→ 상세: LBM (Large Behavior Model)
Sharpa CraftNet
Sharpa가 CraftNet과 North 휴머노이드를 공개했습니다.
- VTLA (Vision-Tactile-Language-Action): 촉각을 VLA에 통합한 최초의 상용 모델
- 바람개비 접기, 트럼프 카드 다루기 등 촉각이 필요한 데모를 선보임
- CES 2026 Innovation Award 수상
Figure Helix 02
Figure AI의 Helix 02는 최초의 전신 자율 휴머노이드입니다.
- 4분간 61개 연속 동작: 리셋 없이, 인간 개입 없이
- System 0/1/2 아키텍처: 1kHz까지 고속 제어
- 109,504줄의 C++ 코드를 1천만 파라미터 신경망으로 대체
3. Physical AI란 무엇인가
End-to-end VLA 모델을 기반으로, 과거 rule-based 방식으로는 불가능했던 범용적(Generalist) 물리 작업을 수행하는 AI 시스템
왜 Physical AI가 주목받는가?
과거에 안 됐던 것이 지금은 됩니다.
| 과거 (Classical Robotics) | 현재 (Physical AI) |
|---|---|
| 정해진 동작만 수행 | 다양한 상황에 적응 |
| 빨래 개기 불가능 | 빨래 개기 가능 |
| Deformable 물체 조작 어려움 | 비닐 포장, 로프 조작 가능 |
Classical Robotics vs Physical AI
| 구분 | Classical Robotics | Physical AI (VLA) |
|---|---|---|
| 아키텍처 | 모듈 분리 (인식 → 계획 → 제어) | End-to-end 통합 |
| 학습 | Rule-based + 부분적 ML | 데이터 기반 전체 학습 |
| 일반화 | 훈련 환경에 종속 | Zero-shot 일반화 가능 |
| 지식 | 도메인 특화 | World Knowledge 계승 (LLM/VLM) |
→ 상세: Physical AI의 정의
4. VLA, RFM, LBM 용어 정리
LLM에서 VLA로의 진화
LLM → VLM → VLA
언어 → + 시각 → + 행동
| 용어 | 풀네임 | 설명 |
|---|---|---|
| VLA | Vision-Language-Action | 시각 + 언어 + 행동을 통합한 모델 |
| LBM | Large Behavior Model | Action을 Behavior로 표현. VLA와 동일 |
| RFM | Robot Foundation Model | 로봇을 위한 Foundation Model |
VLA가 특별한 이유
LLM은 상식이 있습니다. 그러니까 VLA도 상식이 있습니다.
- 인터넷의 모든 지식을 학습한 LLM의 World Knowledge를 계승
- 다른 카페에 가도, 신메뉴가 나와도 일을 할 수 있음
- 다양한 모양의 택배가 와도, 다양한 디자인의 옷이 와도 처리 가능
→ 상세: RFM & VLA란 무엇인가
5. 데이터 Scaling 문제
VLA가 LLM의 성공 공식을 그대로 따라가기 어려운 이유가 있습니다.
LLM과 VLA의 차이
| 구분 | LLM | VLA |
|---|---|---|
| 데이터 소스 | 인터넷 (무한) | 실제 로봇 동작 (제한) |
| 수집 비용 | 낮음 | 높음 |
| Evaluation | 자동화 가능 | 실물 로봇 구동 필요 |
해결 시도들
| 접근법 | 주체 | 설명 |
|---|---|---|
| Teleoperation | Tesla, Google, PI | 직접 데이터 수집 |
| 시뮬레이션 | NVIDIA | Omniverse + Cosmos |
| 커뮤니티 | HuggingFace | 오픈소스 협력 |
| World Model | 1X, NVIDIA | 합성 데이터 생성 |
→ 상세: Action Data Scaling 문제
6. VLA & RFM 발전 과정
수렴 진화: System 1/2 아키텍처
2025년, 서로 다른 연구 그룹들이 독립적으로 비슷한 구조에 도달했습니다.
| 시스템 | 역할 | 주파수 |
|---|---|---|
| System 2 | 고수준 계획, 언어/시각 이해 | 7-10 Hz |
| System 1 | 저수준 모터 제어 | 100-200 Hz |
채택한 모델들:
- GR00T N1.6 (NVIDIA)
- Figure Helix (Figure AI)
- Gemini Robotics (Google DeepMind)
수렴 진화: 연속 액션 생성
RT-2의 “Action as Language” (이산 토큰) → Flow Matching / Diffusion (연속 값)
| 모델 | 방식 | 특징 |
|---|---|---|
| π0 | Flow Matching | 50Hz 제어 |
| GR00T N1 | Diffusion Transformer | 듀얼 시스템 |
| SmolVLA | Flow Matching | 450M 경량 |
→ 상세: VLA & RFM 발전 과정
7. Physical vs Cognitive Intelligence
Moravec’s Paradox
“고차원적 추론은 적은 계산을 요구하지만, 저수준의 감각운동 기술은 엄청난 계산을 요구한다.”
| 쉬운 것 (AI 기준) | 어려운 것 (AI 기준) |
|---|---|
| 체스 세계 챔피언 | 주머니에서 열쇠 꺼내기 |
| 바둑 고수 | 접시 설거지하기 |
| 복잡한 수식 작성 | 과일 집기 |
체스 챔피언을 이기는 AI는 1997년에 만들어졌지만, 주머니에서 열쇠 꺼내기는 아직도 잘 안 됩니다.
왜 물리적 지능이 어려운가?
- 진화적 관점: 운동/감각/지각은 ~10억 년, 추상적 사고는 ~수백만 년
- 차원의 문제: 텍스트는 추상화된 저차원, 물리 세계는 고차원 + 실시간 상호작용
- 학습 방식의 차이: 사람은 경험으로 배움, VLA는 주로 모방 학습
→ 상세: Physical vs Cognitive Intelligence
8. Conclusion: 그래도 가능할 것 같다
낙관적인 이유:
- 인간의 노동 중 많은 부분은 꼭 촉각이 없어도 가능
- 로봇은 인간에게 없는 감각(depth 카메라 등)을 추가할 수 있음
- 인간의 신체로는 불가능한 움직임이 로봇은 가능
- 테슬라 FSD가 자율주행에서 보여준 것처럼, 인간과 다른 방식으로 구현 가능
LLM을 통해 많은 것을 배운 인류는 금방 정답을 찾을 것만 같습니다.
더 알아보기
입문 가이드
인사이트
주요 모델
- π0 / π0.5 - Physical Intelligence
- GR00T N1 - NVIDIA
- Figure Helix - Figure AI
- LBM - Boston Dynamics + TRI
- CraftNet - Sharpa