NVIDIA Cosmos (World Foundation Model)

NVIDIA의 Physical AI를 위한 세계 파운데이션 모델 플랫폼

핵심 의의

  • Physical AI를 위한 세계 모델 플랫폼: 로봇, 자율주행차, 비디오 분석 AI를 위한 최초의 종합적인 세계 파운데이션 모델 플랫폼
  • 물리 법칙 인식 비디오 생성: 9,000조 토큰, 2천만 시간의 실세계 데이터로 학습하여 물리적으로 그럴듯한 비디오 생성
  • 오픈 모델 생태계: 상업적 사용 가능한 오픈 라이선스로 Tokenizer, Predict, Transfer, Reason 모델 제공
  • Sim-to-Real 격차 해소: Cosmos Transfer로 시뮬레이션과 실제 환경 간의 시각적 도메인 격차 극복
  • GR00T와의 통합: N1.6에서 Cosmos-Reason-2B VLM 채택으로 로봇 추론 능력 강화
  • 산업 전반 채택: 1X, Figure AI, Agility, Waabi, XPENG, Uber 등 주요 기업들이 도입

Overview

NVIDIA Cosmos는 Physical AI 개발을 가속화하기 위한 세계 파운데이션 모델(World Foundation Model, WFM) 플랫폼입니다. 토크나이저, 예측 모델, 전이 모델, 추론 모델로 구성되어 로봇과 자율주행차가 디지털 환경에서 먼저 학습하고 실제 세계에 적용할 수 있도록 지원합니다.

항목내용
최초 발표2025년 1월 6일 (CES 2025)
주요 업데이트2025년 3월 18일 (GTC 2025)
회사NVIDIA
논문arXiv:2501.03575
GitHubnvidia-cosmos
라이선스NVIDIA Open Model License (상업적 사용 가능)
학습 데이터9,000조 토큰 / 2천만 시간 실세계 데이터

Cosmos 제품군

Cosmos 플랫폼은 네 가지 핵심 구성 요소로 이루어져 있습니다:

제품역할버전
Cosmos Tokenizer이미지/비디오를 토큰으로 압축0.1, 1.0
Cosmos Predict텍스트/이미지/비디오에서 미래 프레임 예측1.0, 2.0, 2.5
Cosmos Transfer시뮬레이션→실사 변환, 다중 제어1, 2.5
Cosmos ReasonPhysical AI 추론 VLM1, 2

모델 크기 카테고리

카테고리설명용도
Nano실시간, 저지연 추론 최적화엣지 배포
Super성능과 효율의 균형범용 기준선
Ultra최고 품질과 충실도커스텀 모델 증류

Cosmos Tokenizer

이미지와 비디오를 효율적으로 토큰화하는 신경망 기반 압축 모델입니다.

아키텍처

항목내용
구조대칭적 Encoder-Decoder
시간 설계Causal Temporal Convolution + Attention
전처리2-level Haar Wavelet Transform (4x 다운샘플링)
압축률공간 8x/16x, 시간 4x/8x, 총 최대 2048x

토크나이저 유형

유형코드설명사용 모델
Continuous ImageCI연속 잠재 임베딩 (이미지)Diffusion 모델
Discrete ImageDI이산 토큰 (이미지)Autoregressive 모델
Continuous VideoCV연속 잠재 임베딩 (비디오)Diffusion 모델
Discrete VideoDV이산 토큰 (비디오)Autoregressive 모델

주요 모델

모델압축률용도
Cosmos-1.0-Tokenizer-CV8x8x88×8×8 = 512xDiffusion WFM
Cosmos-1.0-Tokenizer-DV8x16x168×16×16 = 2048xAutoregressive WFM
Cosmos-0.1-Tokenizer-CI8x88×8 = 64x이미지 Diffusion
Cosmos-0.1-Tokenizer-DI8x88×8 = 64x이미지 AR

성능

항목수치
SOTA 대비 압축률8배 향상
SOTA 대비 속도최대 12배 빠름
1080p 최대 길이8초 (단일 A100 80GB)
720p 최대 길이10초 (단일 A100 80GB)
지원 종횡비1:1, 3:4, 4:3, 9:16, 16:9

Cosmos Predict

텍스트, 이미지, 비디오 입력으로부터 미래 프레임을 예측하는 세계 생성 모델입니다.

Cosmos Predict 1.0

Diffusion 모델

모델파라미터입력출력
Cosmos-1.0-Diffusion-7B-Text2World7B텍스트121 프레임
Cosmos-1.0-Diffusion-14B-Text2World14B텍스트121 프레임
Cosmos-1.0-Diffusion-7B-Video2World7B텍스트 + 이미지/비디오120 프레임
Cosmos-1.0-Diffusion-14B-Video2World14B텍스트 + 이미지/비디오120 프레임

아키텍처:

  • Diffusion Transformer (DiT) 기반
  • Self-Attention + Cross-Attention + FFN 인터리브 구조
  • Adaptive Layer Normalization (AdaLN)으로 시간 정보 임베딩
  • LoRA 적용으로 11B→7B 파라미터 36% 감소 (성능 유지)
  • 토크나이저: Cosmos-1.0-Tokenizer-CV8x8x8

Autoregressive 모델

모델파라미터입력출력
Cosmos-1.0-Autoregressive-4B4B이미지 (첫 프레임)32 프레임
Cosmos-1.0-Autoregressive-12B12B이미지 (첫 프레임)32 프레임
Cosmos-1.0-Autoregressive-5B-Video2World5B텍스트 + 이미지/비디오24-32 프레임
Cosmos-1.0-Autoregressive-13B-Video2World13B텍스트 + 이미지/비디오24-32 프레임

아키텍처:

  • Llama3 스타일 GPT 구조 (처음부터 학습)
  • Self-Attention + FFN 인터리브 구조
  • Video2World: T5 임베딩을 통한 Cross-Attention 추가
  • 토크나이저: Cosmos-1.0-Tokenizer-DV8x16x16
  • 해상도: 1024×640

Cosmos Predict 2.5 (2025.10)

최신 세계 시뮬레이션 모델로, Text2World/Image2World/Video2World를 단일 모델로 통합했습니다.

모델파라미터특징
Cosmos-Predict2.5-2B2B엣지 배포 최적화
Cosmos-Predict2.5-14B14B최고 품질

주요 개선점:

  • Flow-matching 아키텍처 채택
  • Cosmos-Reason1 VLM을 텍스트 인코더로 사용
  • 2억 개의 큐레이션된 비디오 클립으로 학습
  • 로봇 액션 시퀀스 조건부 예측 지원
  • 7-카메라 멀티뷰 지원 (자율주행용)

Cosmos Transfer

시뮬레이션 환경을 실사 수준으로 변환하고, 구조화된 입력(세그멘테이션, 깊이, 엣지 등)으로 비디오를 제어하는 모델입니다.

Cosmos Transfer 1 (2025.03)

항목내용
논문arXiv:2503.14492
기반 모델Cosmos-Predict1
아키텍처DiT + ControlNet
제어 블록3개의 Transformer 블록
초기화Zero-initialized Linear Layer

지원 입력 모달리티:

  • 세그멘테이션 비디오
  • 깊이 비디오
  • 엣지 비디오
  • 블러 비디오
  • LiDAR 비디오
  • HDMap 비디오 (자율주행용)

핵심 기능:

  • Spatiotemporal Control Map: 각 모달리티의 시공간적 가중치 조절
  • MultiControlNet: 여러 모달리티 동시 사용 가능
  • Sim-to-Real 변환: 시뮬레이션 영상을 실사 수준으로 변환

Cosmos Transfer 2.5 (2025.10)

Cosmos-Predict2.5 기반의 차세대 전이 모델입니다.

모델기능
Cosmos-Transfer2.5다중 공간 제어 입력 기반 세계 시뮬레이션

Cosmos Reason

Physical AI를 위한 추론 비전-언어 모델(VLM)입니다. 로봇과 AI 에이전트가 인간처럼 추론하여 물리 세계를 이해하고 행동할 수 있도록 합니다.

Cosmos Reason 2 (2025.12)

항목내용
발표2025년 12월 19일 (CoRL 2025)
CES 2026 공개2026년 1월
기반 아키텍처Qwen3-VL
구조Vision Transformer (ViT) + Dense Transformer LLM
컨텍스트 길이최대 256K 토큰

모델 버전

모델파라미터용도
Cosmos-Reason2-2B2B엣지/임베디드 (GR00T N1.6에서 사용)
Cosmos-Reason2-8B8B클라우드/고성능 추론

핵심 기능

기능설명
물리 상식 이해공간, 시간, 기본 물리 법칙 이해
Chain-of-Thought 추론긴 사고 과정을 통한 embodied 결정 생성
시공간 정밀도타임스탬프 기반 정확한 이벤트 추적
객체 탐지2D/3D 포인트 위치, 바운딩 박스 + 추론 설명
원인 분석”왜 일어나는가?”, “다음에 무엇이 일어날까?” 추론

활용 사례

분야활용
로봇 계획VLA 모델의 System 2 (느린 사고) 역할
비디오 분석도시/산업 환경의 대규모 비디오 인사이트 추출
데이터 어노테이션합성/실제 비디오의 자동 라벨링 및 설명

GR00T와의 통합

Cosmos는 NVIDIA GR00T 휴머노이드 로봇 파운데이션 모델과 긴밀하게 통합됩니다.

GR00T N1.6에서의 Cosmos-Reason-2B

항목내용
VLMCosmos-Reason-2B (Eagle2-1B에서 업그레이드)
특징Native Resolution 지원 (왜곡 없는 입력)
효과장면 이해 및 태스크 분해 능력 향상

개선 효과:

  • 기존 Eagle2-1B 대비 2배 큰 VLM으로 시각적 이해 강화
  • 네이티브 해상도 지원으로 이미지 패딩 없이 처리
  • 더 나은 환경 추론과 상황 인식

Cosmos + GR00T 학습 파이프라인

Omniverse (시뮬레이션)

Cosmos Predict (합성 데이터 생성)

Cosmos Transfer (Sim-to-Real 변환)

Cosmos Reason (데이터 라벨링/어노테이션)

GR00T N1.6 (VLA 학습)

Physical AI에서의 활용

로보틱스

회사활용
1XCosmos Predict + Transfer로 NEO Gamma 학습
Agility RoboticsCosmos Transfer + Omniverse 대규모 합성 데이터 생성
Figure AIPhysical AI 데이터 파이프라인
Skild AICosmos Transfer로 합성 데이터셋 증강

자율주행

회사활용
Waabi자율주행 시나리오 생성
XPENG차량 AI 학습 데이터
Uber라이드셰어링 자율주행 연구

타임라인

날짜이벤트
2025.01.06CES 2025에서 Cosmos 플랫폼 발표
2025.01.07arXiv 논문 공개 (2501.03575)
2025.03.18GTC 2025에서 주요 업데이트 발표
2025.03Cosmos-Transfer1 논문 공개 (2503.14492)
2025.06GR00T N1.6에 Cosmos-Reason-2B 통합
2025.10.06Cosmos-Predict2.5, Transfer2.5 출시
2025.12.19Cosmos-Reason2 공개 (CoRL 2025)
2026.01CES 2026에서 Cosmos Reason 2 정식 공개

References

공식 자료

논문

뉴스 및 발표

모델

기술 블로그


See Also

관련 인물

  • Jim Fan - NVIDIA GEAR Lab, Physical AI 연구 리드