스탠포드 로보틱스 세미나: 물리 기반 PDE 프라이어를 활용한 로봇 모션 학습

요약

  1. PDE(편미분방정식) 프라이어를 활용해 로봇 모션 플래닝에서 추론 효율, 학습 효율, 확장성을 동시에 달성하는 새로운 접근법 소개
  2. Eikonal PDE를 신경망으로 풀어 이동 시간 함수(가치 함수)를 학습하고, 시간차 학습과 메트릭 학습을 결합해 고차원 로봇 시스템으로 확장
  3. 7~15 자유도 로봇 팔, 다중 모달 조작, 미지의 환경 매핑 등 실제 응용 사례와 기존 방법 대비 훨씬 빠른 학습·추론 시간 달성

모션 플래닝 문제와 접근법

로봇이 시작점에서 목표점까지 제약을 만족하며 이동하는 모션 플래닝은 로보틱스의 핵심 문제다. 발표자는 세 가지 핵심 특성을 목표로 연구를 진행했다.

핵심 목표:

  • [05:05] 추론 효율성: 계획을 가능한 한 빠르게 추론해 실시간 실행 가능
  • [05:14] 학습 효율성: 전문가 시연 없이 모델 학습 비용을 최소화
  • [05:23] 확장성: 높은 자유도, 복잡한 환경, 다중 에이전트까지 적응

기존 방법들의 한계:

  • [06:29] 최적화 기반: 높은 추론 효율이지만 국소 최솟값에 빠지기 쉬움
  • [07:22] 샘플링/이산화 기반: 학습 불필요하지만 추론이 느림
  • [07:54] 데이터 기반(모방/강화학습): 추론은 빠르지만 학습 비용이 매우 높음

“물리학자들이 이런 물리 모델을 제공해 주었는데, 우리는 그것을 무시하고 궤적들을 다시 모으고 있습니다. 왜 그냥 이미 존재하는 것을 사용하지 않습니까?”

PDE 프라이어: Eikonal 방정식

발표자는 물리 기반 PDE 프라이어, 특히 Eikonal PDE를 활용해 세 가지 특성을 모두 달성할 수 있음을 제안했다.

Eikonal PDE의 핵심:

  • [09:15] HJB(Hamilton-Jacobi-Bellman) PDE를 단순화한 형태
  • [09:50] 미지 함수 **T(이동 시간/가치 함수)**와 알려진 함수 **S(제약 함수, 장애물 거리)**로 구성
  • [10:45] PDE를 풀면 파면(wavefront)을 얻어 로봇이 한 지점에서 다른 지점으로 이동 가능
  • [11:03] Fast Marching Method(FFM)는 3차원까지만 확장 가능한 한계

신경망으로 PDE 풀기:

  • [11:35] 신경망을 사용해 고차원에서 Eikonal PDE를 풀 수 있음
  • [12:05] 입력: 로봇 시작 구성(QS), 목표 구성(QG), 환경 인지
  • [12:12] 출력: 이동 시간 함수 T
  • [13:17] 그래디언트 매칭 손실: PDE에 따라 T의 그래디언트가 제약 함수의 역수와 같아야 함

“손실 함수는 신경망의 그래디언트에 대해 정의됩니다. 순전파 출력이 아니라요.”

핵심 혁신: 메트릭 학습과 시간차 학습

초기 모델은 4차원을 넘어 확장되지 않았다. 발표자는 두 가지 핵심 한계를 발견했다.

발견된 한계:

  • [16:20] Eikonal PDE는 해가 여러 개일 수 있어 신경망이 포착하지 못함
  • [16:35] 무작위 샘플링으로 학습 시 연속 구성 간 그래디언트가 제어되지 않음

해결책 1 - 메트릭 학습:

  • [20:23] Eikonal PDE의 해는 측지 거리(geodesic distance)
  • [21:04] 삼각 부등식 등 측지 거리의 성질을 신경망이 만족해야 함
  • [21:42] QS와 QG를 잠재 공간으로 보낸 후 Max 연산 적용
  • [22:02] 해를 구간별로 근사해 다중 해를 모두 포착

해결책 2 - 시간차(TD) 학습:

  • [23:20] Eikonal PDE의 해는 가치 함수이므로 벨만 최적성 원리를 따라야 함
  • [23:57] Q-러닝과 유사하게 시간차 학습 적용
  • [26:18] 이동 시간 그래디언트 방향으로 작은 걸음을 이동해 다음 상태 획득
  • [26:43] 그래디언트 매칭 손실과 TD 손실을 결합해 훨씬 더 좋은 결과

추론 효율성과 성능 비교

개선된 모델은 다양한 고차원 로봇 시스템에서 우수한 성능을 보였다.

7 자유도 로봇 팔:

  • [27:59] 계획 시간 0.07초로 궤적 생성
  • [28:35] MPI-Net과 비슷한 성공률이지만 계획 시간은 훨씬 빠름
  • [29:01] 다층 구조의 복잡한 실내 환경에서도 높은 성공률

고차원 확장:

  • [29:09] 12 자유도 로봇에서 얇은 장애물도 잘 처리
  • [29:18] 15 자유도 대형 로봇이 협소한 방에서 이동하는 과제 해결

가치 함수의 장점:

  • [29:51] MPC, MPPI 등 가치 함수를 사용하는 기존 도구와 통합 가능
  • [30:32] 그래디언트 계산 없이 예측값만 사용하면 더 빠름

학습 효율성: 핵심 성과

학습 효율성에서 기존 방법 대비 획기적인 개선을 달성했다.

MPI-Net과 비교:

  • [30:52] 데이터 수집: 50분 vs 몇 주(MPI-Net)
  • [31:13] 학습 시간: 46분 vs 1주일(MPI-Net)
  • [31:11] GPU: 1대(3090) vs 8대(Tesla GPU)

Gibson 환경:

  • [31:44] 데이터 수집 24초, 학습 9분

최신 모델:

  • [32:55] 12 자유도에서 학습 5분 미만

“PDE 프라이어를 사용하면 학습 효율이 훨씬 높아집니다… 이미 존재하는 것을 왜 사용하지 않습니까?”

조작 문제와 다중 모달 확장

장애물 회피를 넘어 조작 문제로 확장했다.

조작 문제 적용:

  • [36:39] 장애물 거리 대신 제약 매니폴드까지의 거리를 S 함수로 사용
  • [37:01] 문 열기 + 컵 기울이지 않고 옮기기 과제 해결
  • [37:12] 계산 시간 짧고 성공률 높음

다중 모달 문제:

  • [38:39] 컵 세우기 → 붓기, 캐비닛 열기 → 꺼내기 등 여러 제약 전환
  • [38:56] 기저 함수 분해: 각 매니폴드를 기저 함수로 표현하고 결합
  • [39:48] 환경 일부가 변경되면 해당 기저 함수만 재학습

실험 결과:

  • [40:35] 하나의 신경 모델이 문 열기 → 컵 집기(기울이지 않음) → 붓기 연속 수행
  • [40:50] 휴머노이드 로봇으로도 확장해 공간 분해 + 매니폴드 분해 적용

미지의 환경: 도달 시간 필드 매핑

환경을 모르는 상황에서 실시간으로 학습하는 방법을 제안했다.

문제 인식:

  • [41:36] 기존 매핑(점유 지도, SDF)은 모션 플래닝에 적합하지 않음
  • [42:07] 매핑과 모션 플래너 사이에 큰 간극이 존재

해결책:

  • [42:27] 지도를 이동 시간 함수로 직접 학습하면 플래너가 불필요
  • [42:43] 로봇이 환경 탐색하며 깊이 인식으로 제약 함수를 로컬하게 근사
  • [43:07] 데이터가 들어오는 대로 실시간 학습

성능:

  • [43:23] 매핑 시간이 점유 지도의 약 2배였으나 최신 모델에서 40% 단축
  • [43:32] 각 프레임당 학습 1초 미만
  • [44:13] 플러그앤플레이: 미지의 환경에 로봇을 배치하면 스스로 움직임 학습

확장:

  • [44:19] 인핸드 카메라로 6차원 C-공간에서 도달 시간 필드 매핑
  • [44:51] 다중 에이전트 설정에서 HJR PDE로 확장

이 연구는 PDE 프라이어를 활용해 로봇 모션 플래닝의 세 가지 핵심 과제(추론 효율, 학습 효율, 확장성)를 동시에 해결하는 새로운 패러다임을 제시했다. 특히 기존 데이터 기반 방법 대비 학습 시간을 수백 배 단축하면서도 성능을 유지하는 점이 인상적이다.