Pieter Abbeel

UC Berkeley 교수, Covariant 창업자, 로봇 강화학습 선구자

Pieter Abbeel

Home > People > Pieter Abbeel


Profile

항목내용
현직UC Berkeley 교수
회사Covariant 공동창업자 & Chief Scientist
이전OpenAI 연구 과학자 (2016-2017)
PhDStanford University (Advisor: Andrew Ng)
국적벨기에

핵심 기여

  • 로봇 강화학습 선구자: 실제 로봇에서 동작하는 RL 연구의 초기 개척자
  • Inverse Reinforcement Learning: 시연에서 보상 함수 학습
  • Covariant 창업: AI 기반 로봇 피킹 회사, $2B+ 가치
  • OpenAI 초기 멤버: 초기 로봇 연구 주도
  • 다수의 영향력 있는 제자 배출: Chelsea Finn, Sergey Levine 등

Research Timeline

PhD & Early Career (2004-2010)

Stanford - Andrew Ng 지도

YearWorkImpact
2004Apprenticeship Learning via IRLInverse RL 초기 연구
2007Autonomous Helicopter Flight실제 로봇 RL 시연
2008UC Berkeley 교수 부임BAIR 설립 참여

UC Berkeley Professor (2008-present)

BAIR (Berkeley AI Research) 핵심 멤버

YearWorkImpact
2010Learning from Demonstrations시연 기반 학습 정립
2013Deep RL for Robotics딥러닝 + 로봇 RL
2015TRPOPolicy gradient 안정화
2016Benchmarking Deep RLRL 벤치마크 정립

OpenAI (2016-2017)

OpenAI 초기 로봇 연구

YearWorkImpact
2016OpenAI GymRL 표준 환경
2017One-Shot Imitation LearningFew-shot 로봇 학습
2017Domain RandomizationSim-to-Real 핵심 기법

Covariant (2017-present)

AI 로봇 피킹 회사 창업

YearWorkImpact
2017Covariant 창업AI 기반 물류 로봇
2020Covariant Brain범용 로봇 AI 플랫폼
2023RFM-1Robotics Foundation Model
2024$2B+ 가치 평가로봇 AI 스타트업 선두

Major Publications

Inverse Reinforcement Learning

  • Apprenticeship Learning via IRL (ICML 2004) - IRL 초기 연구
  • Maximum Entropy IRL (AAAI 2008)

Deep Reinforcement Learning

  • TRPO (Trust Region Policy Optimization, 2015)
  • GAE (Generalized Advantage Estimation, 2016)
  • Benchmarking Deep RL (2016)

Robotics

  • Autonomous Helicopter Aerobatics (2010)
  • Learning Dexterous Manipulation (2018)
  • Domain Randomization for Sim-to-Real (2017)

Key Ideas

Inverse Reinforcement Learning (2004)

핵심: 전문가 시연에서 보상 함수 R을 학습

기존 RL: R → π (보상 → 정책)
IRL: π* → R (전문가 정책 → 보상 추론)

영향:

  • 로봇이 “왜” 그렇게 행동하는지 학습
  • Imitation learning의 이론적 기반

Domain Randomization (2017)

핵심: 시뮬레이션에서 물리/시각 파라미터를 랜덤하게 변화시켜 학습

시뮬레이션 (다양한 조건) → 실제 로봇 (zero-shot transfer)

영향:

  • Sim-to-Real의 핵심 기법
  • 현재 대부분의 로봇 시뮬레이션 학습에서 사용

Covariant & RFM-1

Covariant (2017-)

  • 미션: 범용 로봇 AI
  • 제품: AI 기반 물류 피킹 로봇
  • 고객: DHL, ABB, Knapp 등
  • 가치: $2B+ (2024)

RFM-1 (2023)

  • Robotics Foundation Model
  • 다양한 물체, 환경에서 일반화
  • 실제 물류 환경 배포

Philosophy & Direction

연구 철학

“로봇이 인간처럼 학습하려면, 인간이 배우는 방식을 이해해야 한다”

연구 방향 변화

  1. 2004-2010: Inverse RL, learning from demonstrations
  2. 2010-2015: Deep RL fundamentals
  3. 2015-2017: Policy optimization (TRPO, GAE)
  4. 2017-현재: 실용적 로봇 AI, foundation models

Students & Mentees

Pieter Abbeel 연구실 출신/협력:

  • Chelsea Finn (Stanford 교수)
  • Sergey Levine (UC Berkeley 교수)
  • Rocky Duan (Covariant)
  • John Schulman (OpenAI, PPO 개발자)
  • 다수의 RL/로봇 연구자

Awards & Recognition

  • ACM Prize in Computing (2021)
  • IEEE RAS Early Career Award
  • IJCAI Computers and Thought Award
  • Sloan Research Fellowship
  • TR35 (MIT Technology Review 35 Under 35)


See Also