모션 플래닝 문제와 접근법
로봇이 시작점에서 목표점까지 제약을 만족하며 이동하는 모션 플래닝은 로보틱스의 핵심 문제다. 발표자는 세 가지 핵심 특성을 목표로 연구를 진행했다.
핵심 목표:
- [05:05] 추론 효율성: 계획을 가능한 한 빠르게 추론해 실시간 실행 가능
- [05:14] 학습 효율성: 전문가 시연 없이 모델 학습 비용을 최소화
- [05:23] 확장성: 높은 자유도, 복잡한 환경, 다중 에이전트까지 적응
기존 방법들의 한계:
- [06:29] 최적화 기반: 높은 추론 효율이지만 국소 최솟값에 빠지기 쉬움
- [07:22] 샘플링/이산화 기반: 학습 불필요하지만 추론이 느림
- [07:54] 데이터 기반(모방/강화학습): 추론은 빠르지만 학습 비용이 매우 높음
“물리학자들이 이런 물리 모델을 제공해 주었는데, 우리는 그것을 무시하고 궤적들을 다시 모으고 있습니다. 왜 그냥 이미 존재하는 것을 사용하지 않습니까?”
PDE 프라이어: Eikonal 방정식
발표자는 물리 기반 PDE 프라이어, 특히 Eikonal PDE를 활용해 세 가지 특성을 모두 달성할 수 있음을 제안했다.
Eikonal PDE의 핵심:
- [09:15] HJB(Hamilton-Jacobi-Bellman) PDE를 단순화한 형태
- [09:50] 미지 함수 **T(이동 시간/가치 함수)**와 알려진 함수 **S(제약 함수, 장애물 거리)**로 구성
- [10:45] PDE를 풀면 파면(wavefront)을 얻어 로봇이 한 지점에서 다른 지점으로 이동 가능
- [11:03] Fast Marching Method(FFM)는 3차원까지만 확장 가능한 한계
신경망으로 PDE 풀기:
- [11:35] 신경망을 사용해 고차원에서 Eikonal PDE를 풀 수 있음
- [12:05] 입력: 로봇 시작 구성(QS), 목표 구성(QG), 환경 인지
- [12:12] 출력: 이동 시간 함수 T
- [13:17] 그래디언트 매칭 손실: PDE에 따라 T의 그래디언트가 제약 함수의 역수와 같아야 함
“손실 함수는 신경망의 그래디언트에 대해 정의됩니다. 순전파 출력이 아니라요.”
핵심 혁신: 메트릭 학습과 시간차 학습
초기 모델은 4차원을 넘어 확장되지 않았다. 발표자는 두 가지 핵심 한계를 발견했다.
발견된 한계:
- [16:20] Eikonal PDE는 해가 여러 개일 수 있어 신경망이 포착하지 못함
- [16:35] 무작위 샘플링으로 학습 시 연속 구성 간 그래디언트가 제어되지 않음
해결책 1 - 메트릭 학습:
- [20:23] Eikonal PDE의 해는 측지 거리(geodesic distance)
- [21:04] 삼각 부등식 등 측지 거리의 성질을 신경망이 만족해야 함
- [21:42] QS와 QG를 잠재 공간으로 보낸 후 Max 연산 적용
- [22:02] 해를 구간별로 근사해 다중 해를 모두 포착
해결책 2 - 시간차(TD) 학습:
- [23:20] Eikonal PDE의 해는 가치 함수이므로 벨만 최적성 원리를 따라야 함
- [23:57] Q-러닝과 유사하게 시간차 학습 적용
- [26:18] 이동 시간 그래디언트 방향으로 작은 걸음을 이동해 다음 상태 획득
- [26:43] 그래디언트 매칭 손실과 TD 손실을 결합해 훨씬 더 좋은 결과
추론 효율성과 성능 비교
개선된 모델은 다양한 고차원 로봇 시스템에서 우수한 성능을 보였다.
7 자유도 로봇 팔:
- [27:59] 계획 시간 0.07초로 궤적 생성
- [28:35] MPI-Net과 비슷한 성공률이지만 계획 시간은 훨씬 빠름
- [29:01] 다층 구조의 복잡한 실내 환경에서도 높은 성공률
고차원 확장:
- [29:09] 12 자유도 로봇에서 얇은 장애물도 잘 처리
- [29:18] 15 자유도 대형 로봇이 협소한 방에서 이동하는 과제 해결
가치 함수의 장점:
- [29:51] MPC, MPPI 등 가치 함수를 사용하는 기존 도구와 통합 가능
- [30:32] 그래디언트 계산 없이 예측값만 사용하면 더 빠름
학습 효율성: 핵심 성과
학습 효율성에서 기존 방법 대비 획기적인 개선을 달성했다.
MPI-Net과 비교:
- [30:52] 데이터 수집: 50분 vs 몇 주(MPI-Net)
- [31:13] 학습 시간: 46분 vs 1주일(MPI-Net)
- [31:11] GPU: 1대(3090) vs 8대(Tesla GPU)
Gibson 환경:
- [31:44] 데이터 수집 24초, 학습 9분
최신 모델:
- [32:55] 12 자유도에서 학습 5분 미만
“PDE 프라이어를 사용하면 학습 효율이 훨씬 높아집니다… 이미 존재하는 것을 왜 사용하지 않습니까?”
조작 문제와 다중 모달 확장
장애물 회피를 넘어 조작 문제로 확장했다.
조작 문제 적용:
- [36:39] 장애물 거리 대신 제약 매니폴드까지의 거리를 S 함수로 사용
- [37:01] 문 열기 + 컵 기울이지 않고 옮기기 과제 해결
- [37:12] 계산 시간 짧고 성공률 높음
다중 모달 문제:
- [38:39] 컵 세우기 → 붓기, 캐비닛 열기 → 꺼내기 등 여러 제약 전환
- [38:56] 기저 함수 분해: 각 매니폴드를 기저 함수로 표현하고 결합
- [39:48] 환경 일부가 변경되면 해당 기저 함수만 재학습
실험 결과:
- [40:35] 하나의 신경 모델이 문 열기 → 컵 집기(기울이지 않음) → 붓기 연속 수행
- [40:50] 휴머노이드 로봇으로도 확장해 공간 분해 + 매니폴드 분해 적용
미지의 환경: 도달 시간 필드 매핑
환경을 모르는 상황에서 실시간으로 학습하는 방법을 제안했다.
문제 인식:
- [41:36] 기존 매핑(점유 지도, SDF)은 모션 플래닝에 적합하지 않음
- [42:07] 매핑과 모션 플래너 사이에 큰 간극이 존재
해결책:
- [42:27] 지도를 이동 시간 함수로 직접 학습하면 플래너가 불필요
- [42:43] 로봇이 환경 탐색하며 깊이 인식으로 제약 함수를 로컬하게 근사
- [43:07] 데이터가 들어오는 대로 실시간 학습
성능:
- [43:23] 매핑 시간이 점유 지도의 약 2배였으나 최신 모델에서 40% 단축
- [43:32] 각 프레임당 학습 1초 미만
- [44:13] 플러그앤플레이: 미지의 환경에 로봇을 배치하면 스스로 움직임 학습
확장:
- [44:19] 인핸드 카메라로 6차원 C-공간에서 도달 시간 필드 매핑
- [44:51] 다중 에이전트 설정에서 HJR PDE로 확장
이 연구는 PDE 프라이어를 활용해 로봇 모션 플래닝의 세 가지 핵심 과제(추론 효율, 학습 효율, 확장성)를 동시에 해결하는 새로운 패러다임을 제시했다. 특히 기존 데이터 기반 방법 대비 학습 시간을 수백 배 단축하면서도 성능을 유지하는 점이 인상적이다.