로봇이 마침내 일을 하기 시작했다

요약

  1. Physical Intelligence의 크로스-엠보디먼트 파운데이션 모델이 로보틱스의 GPT-1 순간을 열고 있으며, 제로샷 작업 수행이 현실화되고 있다.
  2. 클라우드 호스팅 모델과 실시간 청킹 기술로 로봇의 온디바이스 연산 부담을 제거하고, 혼합 자율성 시스템으로 실제 배포가 시작됐다.
  3. 로보틱스 창업의 진입 장벽이 낮아지면서 수직형 로봇 회사들의 "캄브리아기 대폭발"이 다가오고 있다.

새로운 로봇공학 스타트업 방정식 (00:00-00:41)

  • [00:00] 로봇 사업을 시작하는 공식 자체가 이미 달라졌고, 앞으로도 계속 바뀔 것
  • [00:06] 변화의 핵심 이유: 초기 비용이 더 이상 그렇게 높지 않음
  • [00:18] 지금이야말로 디지털 세계가 아닌 “원자의 세계(물리 세계)“를 생각하기 시작할 때
  • [00:26] ‘캄브리아기 대폭발’이라는 은유로 로보틱스 분야의 폭발적 확산/다양화를 목표로 제시

“[00:18] 원자의 세계를 생각하기 시작할 때인 것 같습니다.”

소개: 로봇공학의 GPT-1 moment (00:41-03:05)

  • [00:47] 게스트 Quan Vuong — Physical Intelligence 공동창업자
  • [00:51] Physical Intelligence가 로보틱스 AI에서 “GPT-1 순간”을 가져올 연구소가 될 수 있다는 평가
  • [01:06] 미션: “어떤 로봇이든 제어할 수 있는 모델”을 만들어 물리적으로 가능한 어떤 작업이든 수행
  • [01:39] 양파 껍질 비유 — 강력한 기반 모델 → 혼합 자율성 시스템 → 실제 배치 → 점진적 개선
  • [02:17] 어느 날 아침, 어떤 시스템이 완전히 자율적으로 동작하며 큰 가치를 제공하는 상태가 목표
  • [02:35] 로보틱스 문제의 세 가지 기둥: 의미(세맨틱스), 계획(planning), 제어(control)

“[00:54] 분야에서 GPT-1 순간을 가져올 연구소가 될 수도 있다고 생각합니다.”

AI가 로봇공학을 가능하게 한 방식 — RT-2, PaLM-E (03:05-06:17)

  • [03:05] 범용 로봇을 만들겠다는 꿈은 오래됐지만, 지금 “역사적 시점”에 와 있음
  • [03:28] 언어 모델의 상식 지식을 로보틱스로 가져올 수 있음을 처음 시연 → 로봇 특정 데이터 수집 필요성이 크게 감소
  • [04:25] 매우 강력한 비전-언어 모델(VLM)에서 출발해 로봇 데이터로 적응 → VLM 내부 지식이 저수준 행동으로 전이
  • [04:53] RT2 예시: 테일러 스위프트 사진 인식 — 로봇 데이터에 전혀 없는 개념도 수행
  • [05:41] 한 로봇 데이터가 다른 로봇과 그렇게까지 다르지 않을 수 있다는 통찰 → 크로스 엠보디먼트로 연결

“[03:20] 역사적 시점에 와 있다는 점에서 정말 운이 좋다고 느낍니다.”

돌파구: 멀티 로봇 스케일링 — Open-X (06:17-09:12)

  • [06:16] Open-X가 로보틱스에 적용될 수 있는 스케일링 법칙을 처음으로 보여줌
  • [06:22] 단일 하드웨어가 아니라 여러 종류의 하드웨어에 걸쳐 모델을 학습 — 전례 없는 일
  • [07:08] 제너럴리스트 모델 vs 스페셜리스트 모델 비교 실험
  • [07:20] Open-X 결과: 제너럴리스트가 50% 더 우수
  • [08:06] 새 로봇 플랫폼을 제대로 돌리는 데만 1~2년 소요 — 대학원 농담: “박사에 2년 더하고 싶으면 새 플랫폼 다뤄봐라”
  • [08:48] 로보틱스에서 평가(evaluation)가 정말 어려운 문제이며, Open-X는 그 문제를 해결하지 못함

“[07:24] 50% 더 좋았다는 것이었습니다.”

진짜 병목: 데이터 (09:12-13:10)

  • [09:33] 로보틱스 가장 큰 문제는 “데이터 문제” — 언어 분야와 달리 “로봇 데이터의 인터넷”이 존재하지 않음
  • [09:59] 데이터 생성 문제와 데이터 캡처 문제, 두 가지가 한데 묶여 있음
  • [10:46] 미국 GDP 24조 달러 중 10%에 기여할 수 있다면, 데이터 수집에 투자할 충분한 이유
  • [11:12] 크로스 엠보디먼트에 집중 — 여러 로봇 소스의 데이터를 받아들일 준비가 스케일의 핵심
  • [12:25] “두 로봇 플랫폼이 완전히 같은 경우가 없다”는 현실
  • [12:42] 단일 로봇도 시간이 지나면 플랫폼이 드리프트 — 하드웨어 교체, 소프트웨어 변경 등

“[10:03] 하나는 데이터 생성 문제이고, 다른 하나는 데이터 캡처 문제입니다.”

창발: 제로샷 로봇 기술 (13:10-16:01)

  • [13:13] 멀티 로봇 플랫폼 플릿이 있으면 모델이 “일반적인 로봇 제어”라는 더 추상적인 것을 학습
  • [13:27] 대규모 로봇 파운데이션 모델에서 창발적 특성이 나타나기 시작
  • [13:40] 오늘날 제로샷 작업 수행이 가능 — 작년에는 수백 시간의 데이터 수집이 필요했던 작업들
  • [14:55] 아직 ChatGPT 순간에는 도달하지 못했지만, 혼합 자율성 시스템 구축이 가능한 수준
  • [15:32] Weave, Ultra(모두 YC 회사)와의 파트너십 사례 — PI는 주로 연구 조직으로서 최고의 모델에 집중

“[13:40] 예를 들어, 오늘날에는 제로샷으로 작업을 수행하는 것도 가능합니다.”

실제 데모: 세탁물 & 창고 (16:01-22:21)

  • [16:26] Weave 데모: 실제 세탁소 환경에서 다양한 빨래를 접는 시스템 — 사람들이 걸어다니는 동적 배경
  • [16:38] 빨래 접기가 어려운 이유: 관찰 공간이 무한, 의류는 변형 가능, 처음 보는 물체
  • [18:08] 목표 설정 후 약 2주 만에 충분히 좋은 모델과 시스템 확보
  • [18:27] 빨래 접기는 로보틱스의 ‘튜링 테스트’처럼 여겨져 왔음
  • [19:30] Ultra 데모: 4배속, 총 100분 분량의 실제 전자상거래 창고 포장 작업
  • [20:22] 물류 분야 노동력 부족 문제 해결 — 파우치 포장 작업에서 매우 정밀한 동작 필요
  • [21:38] 데모 부스가 아닌 실제 전자상거래 창고에서 실제 주문을 포장하는 운영 환경

“[18:27] 빨래 접기는 로보틱스의 튜링 테스트처럼 항상 여겨져 왔기 때문입니다.”

“[21:54] 이것은 실제 운영입니다.”

로봇공학이 데이터 + 운영 문제가 되다 (22:21-23:16)

  • [22:20] 핵심: “매우 어려운 엔지니어링 문제”를 “운영(ops) 문제”로 전환
  • [22:35] 데이터 수집 시스템을 한번 구축하면 서로 다른 많은 작업에 재사용 가능
  • [22:40] 초점이 “새 작업마다 엔지니어링”에서 “데이터 수집을 어떻게 확장하느냐”로 전환

“[22:20] 매우 어려운 엔지니어링 문제를 운영 문제로 전환한다는 것입니다.”

클라우드 제어 로봇 — 큰 unlock (23:16-29:03)

  • [23:28] 로봇 배치 회사들이 가장 먼저 묻는 것: “로봇에 어떤 연산 유닛을 탑재해야 하느냐” — 비용과 구식화 문제
  • [23:53] PI의 거의 모든 로봇 평가가 실제 데이터센터의 클라우드 호스팅 모델로 수행
  • [24:14] 로봇의 고주파 제어 루프 안에서 API 엔드포인트를 호출하는 구조
  • [24:48] 핵심 통찰: 추론 시간을 제어 루프 안에 숨길 수 있음
  • [25:28] “실시간 청킹(real-time chunking)” — 클라우드 호출 지연이 있어도 동작하도록 추론 설계
  • [26:40] 이 접근이 로봇의 복잡한 스택(RTOS, 큰 연산/전력 요구)을 크게 단순화
  • [28:44] 창업 당시 실제 배포는 5년 뒤라 생각했지만, 2년 만에 이미 결과가 나옴

“[24:05] 모델이 실제로 클라우드에 호스팅되어 있다는 점입니다.”

“[25:33] 저희는 이를 실시간 청킹이라고 부르며,“

오늘날 로봇공학 회사를 시작하는 방법 (29:03-32:33)

  • [29:41] PI를 올리면 “하루 만에 시작할 수 있다”
  • [29:50] 로보틱스가 전통적으로 극도로 수직 통합된 비즈니스 — 자체 하드웨어, 자율성 스택, 안전 인증 모두 필요
  • [30:06] PI가 바꾸려는 것: 커뮤니티가 그 위에 구축할 수 있는 “물리 지능의 기반” 제공
  • [30:37] 수직 로봇 회사 레시피: (1) 기존 워크플로 이해 (2) 기회 식별 (3) 하드웨어와 데이터 수집에 민첩하게 접근
  • [31:11] 모델이 반응형이라 로봇 움직임의 일부 부정확함을 보정 가능 — 비싼 하드웨어 불필요
  • [31:52] 로봇 비즈니스를 시작하는 방정식이 바뀌었고, 변화 속도는 더 빨라질 것

“[29:41] 하루 만에 시작할 수 있습니다.”

다가오는 로봇공학 스타트업의 폭발적 증가 (32:33-43:53)

  • [32:38] 로봇 스택이 분리되면서 차별화 요소에 집중할 수 있게 됨
  • [33:27] 전 세계적으로 수많은 수직 분야에 걸쳐 로봇 회사들의 캄브리아기 폭발이 일어날 것
  • [33:40] 로봇공학 20년 경력자가 아니어도 시작 가능 — 치열함, 빠른 실행, 시스템 통합 능력이 핵심
  • [34:11] 오늘날 산업용 로보틱스는 개인용 컴퓨팅 역사에서 “메인프레임/미니컴퓨터” 단계와 비슷
  • [36:51] PI Zero와 PI 05를 오픈소스로 공개 — 내부 연구팀이 쓰는 사전학습 가중치와 같은 모델
  • [38:13] 모델에 집중한 이유: 로봇을 유용하게 만드는 데 병목이 모델이라고 확신
  • [39:05] PI는 비전통적 회사 — 보통보다 큰 창업팀, 구글 로보틱스 팀 출신 다수
  • [41:51] 대규모 범용 로봇을 지원하는 인프라가 아직 존재하지 않음 — 데이터 수집/관리/어노테이션/평가 모두 직접 구축
  • [42:27] 로봇 회사를 위한 서비스(텔레오퍼레이션, 데이터 수집, 어노테이션) 제공이 엄청난 기회 영역

“[33:30] 전 세계적으로, 그리고 수많은 수직 분야 전반에 걸쳐 로봇 회사들의 캄브리아기 폭발이 일어날 것이라고 믿습니다.”

“[37:05] 같은 모델입니다.”

아직 부족한 것들 (그리고 다음에 올 것) (43:53-49:27)

  • [43:54] 사이드 프로젝트 아이디어: “자동화된 로보틱스 연구 과학자” — 실패 분석 → 가설 → 실험까지 자동화
  • [45:31] 현재 모델의 근본적 한계: 세상에서 행동하고 결과를 보며 학습하는 루프가 부족
  • [45:44] 물리 세계가 어떻게 작동하는지에 대한 근본적 이해가 파운데이션 모델에 빠져 있음
  • [47:12] 프리트레이닝 온콜 역할을 하는 클라우드 스킬 프로토타입 — 런을 베이비시팅하며 조치
  • [47:47] 프로토타입 결과: 컴퓨팅 사용 효율 약 50% 향상 — 단순한 프로토타입에서 엄청난 변화
  • [48:42] 로보틱스가 많이 바뀌었고, 제품 만드는 비용이 극적으로 감소할 것
  • [49:03] 매우 다양한 로보틱스 활용 사례의 폭발을 가능하게 하고 싶다

“[47:49] 전체적으로 약 50% 정도의 컴퓨팅 사용 효율 향상 — 저희에게는 엄청난 변화입니다.”