스탠포드 로보틱스 세미나: 물리 기반 PDE 프라이어를 활용한 로봇 모션 학습

모션 플래닝 문제와 접근법

로봇이 시작점에서 목표점까지 제약을 만족하며 이동하는 모션 플래닝은 로보틱스의 핵심 문제다. 발표자는 세 가지 핵심 특성을 목표로 연구를 진행했다.

핵심 목표:

[05:05] 추론 효율성: 계획을 가능한 한 빠르게 추론해 실시간 실행 가능
[05:14] 학습 효율성: 전문가 시연 없이 모델 학습 비용을 최소화
[05:23] 확장성: 높은 자유도, 복잡한 환경, 다중 에이전트까지 적응

기존 방법들의 한계:

[06:29] 최적화 기반: 높은 추론 효율이지만 국소 최솟값에 빠지기 쉬움
[07:22] 샘플링/이산화 기반: 학습 불필요하지만 추론이 느림
[07:54] 데이터 기반(모방/강화학습): 추론은 빠르지만 학습 비용이 매우 높음

“물리학자들이 이런 물리 모델을 제공해 주었는데, 우리는 그것을 무시하고 궤적들을 다시 모으고 있습니다. 왜 그냥 이미 존재하는 것을 사용하지 않습니까?”

PDE 프라이어: Eikonal 방정식

발표자는 물리 기반 PDE 프라이어, 특히 Eikonal PDE를 활용해 세 가지 특성을 모두 달성할 수 있음을 제안했다.

Eikonal PDE의 핵심:

[09:15] HJB(Hamilton-Jacobi-Bellman) PDE를 단순화한 형태
[09:50] 미지 함수 **T(이동 시간/가치 함수)**와 알려진 함수 **S(제약 함수, 장애물 거리)**로 구성
[10:45] PDE를 풀면 파면(wavefront)을 얻어 로봇이 한 지점에서 다른 지점으로 이동 가능
[11:03] Fast Marching Method(FFM)는 3차원까지만 확장 가능한 한계

신경망으로 PDE 풀기:

[11:35] 신경망을 사용해 고차원에서 Eikonal PDE를 풀 수 있음
[12:05] 입력: 로봇 시작 구성(QS), 목표 구성(QG), 환경 인지
[12:12] 출력: 이동 시간 함수 T
[13:17] 그래디언트 매칭 손실: PDE에 따라 T의 그래디언트가 제약 함수의 역수와 같아야 함

“손실 함수는 신경망의 그래디언트에 대해 정의됩니다. 순전파 출력이 아니라요.”

핵심 혁신: 메트릭 학습과 시간차 학습

초기 모델은 4차원을 넘어 확장되지 않았다. 발표자는 두 가지 핵심 한계를 발견했다.

발견된 한계:

[16:20] Eikonal PDE는 해가 여러 개일 수 있어 신경망이 포착하지 못함
[16:35] 무작위 샘플링으로 학습 시 연속 구성 간 그래디언트가 제어되지 않음

해결책 1 - 메트릭 학습:

[20:23] Eikonal PDE의 해는 측지 거리(geodesic distance)
[21:04] 삼각 부등식 등 측지 거리의 성질을 신경망이 만족해야 함
[21:42] QS와 QG를 잠재 공간으로 보낸 후 Max 연산 적용
[22:02] 해를 구간별로 근사해 다중 해를 모두 포착

해결책 2 - 시간차(TD) 학습:

[23:20] Eikonal PDE의 해는 가치 함수이므로 벨만 최적성 원리를 따라야 함
[23:57] Q-러닝과 유사하게 시간차 학습 적용
[26:18] 이동 시간 그래디언트 방향으로 작은 걸음을 이동해 다음 상태 획득
[26:43] 그래디언트 매칭 손실과 TD 손실을 결합해 훨씬 더 좋은 결과

추론 효율성과 성능 비교

개선된 모델은 다양한 고차원 로봇 시스템에서 우수한 성능을 보였다.

7 자유도 로봇 팔:

[27:59] 계획 시간 0.07초로 궤적 생성
[28:35] MPI-Net과 비슷한 성공률이지만 계획 시간은 훨씬 빠름
[29:01] 다층 구조의 복잡한 실내 환경에서도 높은 성공률

고차원 확장:

[29:09] 12 자유도 로봇에서 얇은 장애물도 잘 처리
[29:18] 15 자유도 대형 로봇이 협소한 방에서 이동하는 과제 해결

가치 함수의 장점:

[29:51] MPC, MPPI 등 가치 함수를 사용하는 기존 도구와 통합 가능
[30:32] 그래디언트 계산 없이 예측값만 사용하면 더 빠름

학습 효율성: 핵심 성과

학습 효율성에서 기존 방법 대비 획기적인 개선을 달성했다.

MPI-Net과 비교:

[30:52] 데이터 수집: 50분 vs 몇 주(MPI-Net)
[31:13] 학습 시간: 46분 vs 1주일(MPI-Net)
[31:11] GPU: 1대(3090) vs 8대(Tesla GPU)

Gibson 환경:

[31:44] 데이터 수집 24초, 학습 9분

최신 모델:

[32:55] 12 자유도에서 학습 5분 미만

“PDE 프라이어를 사용하면 학습 효율이 훨씬 높아집니다… 이미 존재하는 것을 왜 사용하지 않습니까?”

조작 문제와 다중 모달 확장

장애물 회피를 넘어 조작 문제로 확장했다.

조작 문제 적용:

[36:39] 장애물 거리 대신 제약 매니폴드까지의 거리를 S 함수로 사용
[37:01] 문 열기 + 컵 기울이지 않고 옮기기 과제 해결
[37:12] 계산 시간 짧고 성공률 높음

다중 모달 문제:

[38:39] 컵 세우기 → 붓기, 캐비닛 열기 → 꺼내기 등 여러 제약 전환
[38:56] 기저 함수 분해: 각 매니폴드를 기저 함수로 표현하고 결합
[39:48] 환경 일부가 변경되면 해당 기저 함수만 재학습

실험 결과:

[40:35] 하나의 신경 모델이 문 열기 → 컵 집기(기울이지 않음) → 붓기 연속 수행
[40:50] 휴머노이드 로봇으로도 확장해 공간 분해 + 매니폴드 분해 적용

미지의 환경: 도달 시간 필드 매핑

환경을 모르는 상황에서 실시간으로 학습하는 방법을 제안했다.

문제 인식:

[41:36] 기존 매핑(점유 지도, SDF)은 모션 플래닝에 적합하지 않음
[42:07] 매핑과 모션 플래너 사이에 큰 간극이 존재

해결책:

[42:27] 지도를 이동 시간 함수로 직접 학습하면 플래너가 불필요
[42:43] 로봇이 환경 탐색하며 깊이 인식으로 제약 함수를 로컬하게 근사
[43:07] 데이터가 들어오는 대로 실시간 학습

성능:

[43:23] 매핑 시간이 점유 지도의 약 2배였으나 최신 모델에서 40% 단축
[43:32] 각 프레임당 학습 1초 미만
[44:13] 플러그앤플레이: 미지의 환경에 로봇을 배치하면 스스로 움직임 학습

확장:

[44:19] 인핸드 카메라로 6차원 C-공간에서 도달 시간 필드 매핑
[44:51] 다중 에이전트 설정에서 HJR PDE로 확장

이 연구는 PDE 프라이어를 활용해 로봇 모션 플래닝의 세 가지 핵심 과제(추론 효율, 학습 효율, 확장성)를 동시에 해결하는 새로운 패러다임을 제시했다. 특히 기존 데이터 기반 방법 대비 학습 시간을 수백 배 단축하면서도 성능을 유지하는 점이 인상적이다.