长风破浪会有时,直挂云帆济沧海——李白

https://github.com/NVIDIA/cosmos

当世界开始学会观察、推演与想象:走进 NVIDIA Cosmos 的物理智能宇宙

如果说大语言模型让机器学会了“说话”,那么 NVIDIA Cosmos 想做的事情更进一步:它想让机器开始真正“看世界、懂世界、想象世界”。

这不是一个只会盯着文本做续写的系统,而更像是一位正在成长中的世界学徒。它会看图、读视频、理解动作、预测接下来会发生什么,还能把一句文字描述扩展成图像、视频、声音,甚至带着动作轨迹去推演未来。它不只是回答问题,它更像在试图理解现实,并为机器人、自动驾驶、智能基础设施等 Physical AI 场景搭建一个可以练习、推理、模拟、预见的舞台。

NVIDIA 对这个项目的描述非常明确:Cosmos 是一个由世界模型、数据集和工具构成的开放平台,用来帮助开发者构建 Physical AI。
一句话听起来很硬核,但如果换一种更贴近直觉的说法,那就是:Cosmos 正在为机器打造“感知世界的大脑”和“预演未来的想象力”。


Cosmos 是谁

从仓库的 README 和 description 来看,Cosmos 的核心定位非常鲜明:

它是一个 open platform,不是单一模型,也不是一个孤立的推理 API,而是一整套围绕世界模型展开的能力体系。它面向的不是纯文本应用,而是更贴近真实物理世界的智能体,包括:

  • 机器人
  • 自动驾驶车辆
  • 智能基础设施
  • 以及更多需要理解现实、预测变化、执行行动的 Physical AI 系统

也就是说,Cosmos 不满足于让 AI 只会“聊天”。它更想让 AI 学会:

  • 看懂发生了什么
  • 推断下一步会发生什么
  • 根据环境和目标进行规划
  • 生成可用于训练、仿真和决策的数据
  • 让机器在真实部署前,先在模型世界里练习很多遍

从这个角度看,Cosmos 像是一位“造世界的人”。它一边观察现实,一边复制现实,一边理解现实,一边模拟现实。现实世界太昂贵、太复杂、太危险,于是它决定先在数字宇宙里搭一座训练场。


Cosmos 3:这个宇宙里最新的主角

当前仓库重点介绍的是 Cosmos 3,这是 Cosmos 最新的模型家族。

README 里把 Cosmos 3 的能力拆成了两大运行表面:

Surface Inputs Outputs Use Cases
Reasoner Text, vision Text 世界理解、 grounding、物理推理、任务规划、动作预测、具身智能推理、自主系统决策
Generator Text, vision, sound, action Vision, sound, action 世界生成、世界模拟、未来预测、合成数据生成、策略学习、机器人训练

这两位角色非常像一对搭档。

Reasoner 像什么

Reasoner 像一个冷静的观察者。
它看视频、看图像、接收文本问题,然后给出文字回答。

它擅长的事情包括:

  • 视频和图像理解
  • 事件定位
  • 物理常识判断
  • 任务规划
  • 动作预测
  • 2D grounding
  • 情境理解
  • 驾驶场景推理
  • 具身智能推理

你可以把它想象成一位站在现场的分析师。
别人看到的是一个机器人在桌面边晃动手臂,它看到的是:环境约束、物体关系、潜在动作、可能结果、是否符合物理常识。

Generator 像什么

Generator 则更像一个导演兼预演师。
你给它文字、图像、视频、动作,它可以生成新的图像、视频、声音,甚至基于动作去推演未来状态。

它可以做:

  • text-to-image
  • text-to-video
  • image-to-video
  • video-to-video
  • text-to-video with sound
  • image-to-video with sound
  • forward dynamics
  • action policy
  • inverse dynamics

如果 Reasoner 是“懂世界的人”,那 Generator 就是“会造世界的人”。
一个负责理解,一个负责想象;一个负责判断,一个负责生成。两者组合在一起,机器就不再只是一个被动响应器,而像是开始拥有了“先看懂,再推演,再行动”的闭环。


它为什么值得关注

今天很多 AI 项目已经能做到惊艳的文本生成、图像生成、视频生成,但 Cosmos 的野心不只是“内容生成”,而是更贴近真实系统建设的 world model

这里的关键词不是“华丽”,而是“物理世界”。

README 中提到的能力方向,几乎都围绕现实任务展开:

  • world understanding
  • world generation
  • action modeling
  • policy learning
  • robot training
  • autonomous system decision making
  • synthetic data generation
  • future prediction

这意味着 Cosmos 并不是单纯做一个看起来很炫的视频模型,而是在试图解决一个更深的问题:

机器如何在复杂的现实世界里理解环境、预测变化、训练策略,并安全地学会行动。

这也是为什么它特别适合机器人、自动驾驶、智能基础设施这类场景。
因为这些系统不是答错一段文案而已,它们面对的是空间、时间、运动、因果、约束、风险、反馈。

换句话说,Cosmos 不只是让 AI “更聪明”,而是让 AI “更像一个能在现实中做事的存在”。


Cosmos 3 的关键能力,看起来像在给机器装感官和直觉

README 里给出了几个非常关键的能力标签,我觉得每一个都值得单独拿出来说。

1. World understanding

它能分析图像和视频,做字幕描述、时间事件理解、下一步动作预测、空间 grounding、物理合理性判断、因果结果推断。

这就像它不仅会“看”,还开始会“理解为什么”。

一个普通模型也许会说:“画面里有一个机器人。”
而 Cosmos 更想回答的是:

  • 机器人在做什么
  • 这个动作接下来可能导致什么
  • 某个事件大概发生在视频的哪个时间段
  • 当前场景是否符合物理常识
  • 目标对象在图像中的哪里

这已经不是简单的视觉识别,而是在向“场景理解”和“过程推理”迈进。

2. World generation

它可以从文本、图像、视频、动作输入中生成图像、视频、同步声音,以及动作条件下的 rollout。

这意味着它能够把“描述”变成“可视化现实”,也能把“当前状态”推进到“未来状态”。

这很适合做模拟、训练、合成数据、策略验证。
现实世界采集成本高、试错风险大,而在模型世界里,机器可以先把未来演几遍。

3. Action modeling

它支持策略动作预测、逆动力学、前向动力学,覆盖机器人、相机运动、自车运动、自动驾驶等场景。

这部分尤其像是在给模型注入“动作感”。
它不只是看见物体,更会思考:

  • 应该怎么动
  • 刚才是怎么动成现在这样的
  • 如果下一步这样动,会发生什么

当一个模型开始把“感知”与“动作”联结起来,它就越来越接近真正的具身智能。

4. Research and production paths

README 里还特别强调了不同集成路径:

  • Diffusers / Transformers 适合 Python-first 的研究开发
  • vLLM-Omni / vLLM 适合 OpenAI-compatible serving
  • NIM 提供生产级部署路径
  • Cosmos Framework 面向更完整的训练、微调、评估流程

这说明 Cosmos 不是那种只在论文里发光、落地时沉默的项目。
它很清楚开发者分成不同人群:

  • 有人想研究模型
  • 有人想快速做原型
  • 有人想搭服务
  • 有人想做训练和评估
  • 有人只想尽快部署一个可调用的接口

Cosmos 没有把所有人都赶进同一条路,而是像一个成熟的平台那样,给出了多条入口。


Cosmos 3 的模型家族:不是一个人单打独斗,而是一整支舰队

README 里列出了当前的模型家族:

  • Cosmos3-Nano,16B
    紧凑型 omnimodal world model,适合多模态理解、世界模拟、未来预测、动作推理、Physical AI 应用

  • Cosmos3-Super,64B
    前沿级 omnimodal world model,能力更强,适合更高阶任务

  • Cosmos3-Super-Text2Image,64B
    高保真文生图

  • Cosmos3-Super-Image2Video,64B
    强调时间一致性的图生视频

  • Cosmos3-Nano-Policy-DROID,16B
    面向 DROID manipulation and control 的视觉语言机器人策略模型

从命名就能感受到它的角色分工非常明确。
Nano 像敏捷的侦察兵,Super 像重装主力舰,而针对特定场景的模型则像专业作战单位。

这类家族化设计很重要,因为 Physical AI 的需求本来就不是单一的。
有的场景追求推理能力,有的更关心视频生成,有的要做动作策略,有的看重部署效率。Cosmos 没把它们硬塞进同一张脸,而是把它们组织成了一套生态化编队。


支持的生成设定,看得出它不是玩具,而是认真给开发者用的

在生成能力上,Cosmos 3 给出了相当具体的支持范围:

  • 分辨率:256p、480p、720p
  • 长宽比:16:9、4:3、1:1、3:4、9:16
  • 帧率:10、16、24、30 FPS
  • 帧数:5 到 300
  • 精度:BF16 tested
  • 操作系统:Linux
  • GPU 架构:NVIDIA Ampere、Hopper、Blackwell

这些信息看似枯燥,但恰恰说明它的 README 写得非常工程化。
它没有只告诉你“我们很强”,而是直接告诉你:

  • 可以怎么跑
  • 跑到什么规格
  • 在什么硬件上跑
  • 适合什么系统环境

对于开发者来说,这种明确性很珍贵。
它像一个经验丰富的工程师,不跟你空谈愿景,先把规格表掏出来给你看。


输入和输出:它接住的不只是文字,而是更完整的世界片段

Cosmos 3 支持的输入类型包括:

  • Text
  • Text + image
  • Text + video
  • Text + image + action

输入格式包括:

  • 文本字符串
  • JPG / PNG / JPEG / WEBP 图像
  • MP4 视频
  • JSON action array

输出则可以是:

  • 图像
  • 视频
  • 声音
  • 动作状态
  • 文本

这种 I/O 设计非常像一个真正的“多模态世界接口”。

很多模型处理的是“内容”,而 Cosmos 处理的是“场景”和“行为”。
你给它的不只是 prompt,而像是在递给它一小段现实:一张图、一段视频、一串动作、一句任务意图。然后它还给你的,也不只是答案,而可能是未来、结果、声音、轨迹、动作。

它开始像一个数字化实验室,而不只是一个文本补全器。


Generator 的世界:它不只会画图,还会把未来拍成片子

README 里对 Generator 的工作流列得很完整,包括:

  • Text-to-image
  • Text-to-video
  • Text-to-video with sound
  • Image-to-video
  • Image-to-video with sound
  • Video-to-video
  • Video-to-video with sound
  • Forward dynamics
  • Action policy

这份列表里最让我有感觉的,是它把生成和动作建模放在了一起。
这就意味着 Cosmos 的“生成”不是单纯做一个视觉结果,而是在向“模拟世界演化”靠拢。

举个直观的例子:

  • 普通视频生成像是在做一段镜头
  • Cosmos 的 forward dynamics 更像是在预测“如果按这个动作执行,未来画面会变成什么样”

这对机器人训练和策略验证太关键了。
因为机器真正需要的,不是好看的画面,而是“如果我这样做,世界会怎样回应”。

这句话听起来像哲学,其实就是控制系统和具身智能的核心。


Reasoner 的世界:它像在给视频做推理,而不是做描述

README 中给出的 Reasoner 工作流也很丰富:

  • Caption
  • Temporal localization
  • Embodied reasoning
  • Common-sense reasoning
  • 2D grounding
  • Describe anything
  • Action CoT
  • Physical Plausibility Analysis
  • Situation Understanding

这套能力列表有个非常鲜明的特征:
它并不满足于静态识别,而是在努力处理时间、动作、空间、因果与常识。

比如 temporal localization,不只是“视频里发生了什么”,而是“某件事在什么时候发生”。
比如 embodied reasoning,不只是“看到了什么”,而是“下一步应该做什么”。
比如 physical plausibility,不只是“画面像不像”,而是“这件事是否符合物理常识”。

这种能力结构,非常适合通往机器人与自动驾驶。
因为现实世界中的智能,不是背答案,而是不断面对这些问题:

  • 现在是什么状态
  • 接下来会发生什么
  • 什么动作是合理的
  • 哪些结果是不符合物理规律的
  • 哪个目标在什么位置
  • 当前情境意味着什么

Cosmos 的 Reasoner,像是在学习把这些问题串成一条完整的思考链。


它的架构也很有意思:像把“思考”和“生成”装进了一台统一机器

README 提到,Cosmos 3 是一个 omnimodal world model,基于统一的 Mixture-of-Transformers (MoT) 架构。
它结合了:

  • 用于推理的 autoregressive transformer
  • 用于生成的 diffusion transformer

这个设计很有意味。
因为在很多系统里,“理解”和“生成”往往是拆开的,像两个部门各管一摊。
而 Cosmos 更像是把它们安排进同一个组织架构里,让“推理”和“生成”彼此协作。

可以把它想象成一座城市:

  • AR transformer 像城市里的思考中枢,负责判断、组织语言、推理问题
  • Diffusion transformer 像城市里的造景师,负责把想法和条件扩散成图像、视频、声音和动态结果

于是 Cosmos 不只是会说“我理解了”,还会说“我给你演出来”。


快速上手:在真正跑起来之前,它先要求你有通行证

在 Quickstart 里,Cosmos 的第一个动作不是急着炫技,而是提醒你先完成 Hugging Face 认证:

1
uvx hf@latest auth login

这一步很像宇宙入口的通行闸机。
你得先拿到访问模型仓库的权限,才能进入后续世界。

如果你想使用共享缓存或者更大的磁盘空间,还可以设置:

1
export HF_HOME=/path/to/cache

这类提示很接地气,因为大模型环境往往不是“装上就跑”那么简单。
模型体积、缓存位置、驱动兼容、CUDA 版本、依赖关系,都会在你真正开跑前先来一轮现实教育。Cosmos 的 README 很坦率,它没有装作这些问题不存在,而是把它们正大光明地写出来。


用 Diffusers 跑 Generator:这是偏研究与开发者友好的入口

如果你想从 Python-first 的方式体验 Cosmos 3 Generator,README 推荐了 Diffusers 路线。

环境安装示例:

1
2
3
4
5
6
7
8
9
10
11
12
13
uv venv --python 3.13 --seed --managed-python
source .venv/bin/activate
uv pip install --torch-backend=auto \
"diffusers @ git+https://github.com/huggingface/diffusers.git" \
accelerate \
av \
cosmos_guardrail \
huggingface_hub \
imageio \
imageio-ffmpeg \
torch \
torchvision \
transformers

然后就可以直接在 Python 中加载 Cosmos3OmniPipeline

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
import torch
from diffusers import Cosmos3OmniPipeline
from diffusers.schedulers.scheduling_unipc_multistep import UniPCMultistepScheduler
from diffusers.utils import export_to_video

pipe = Cosmos3OmniPipeline.from_pretrained(
"nvidia/Cosmos3-Nano",
torch_dtype=torch.bfloat16,
device_map="cuda",
)
pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config, flow_shift=10.0)

result = pipe(
prompt="A mobile robot navigates a warehouse aisle and stops at a shelf.",
negative_prompt="",
image=None,
num_frames=189,
height=720,
width=1280,
fps=24,
num_inference_steps=35,
guidance_scale=6.0,
enable_sound=False,
add_resolution_template=False,
add_duration_template=False,
generator=torch.Generator(device="cuda").manual_seed(1234),
)

export_to_video(result.video, "cosmos3_t2v.mp4", fps=24, macro_block_size=1)

这段代码最迷人的地方在于,它不像在调一个普通媒体模型,更像是在召唤一个“会做世界片段的导演”。
你写下一句提示词:一个移动机器人穿过仓库货架并停在货架前。
然后模型接过这句话,开始把它变成一段具有时间流动感的视频。

这一刻,文字不再只是文字,而像是一张简短的分镜脚本。


用 vLLM-Omni 跑 Generator:让世界生成走向服务化

如果你想把 Cosmos 3 Generator 放进生产环境,README 推荐用 vLLM-Omni
这条路径的关键意义在于:它让生成能力可以通过 OpenAI-compatible API 暴露出来,服务化、工程化、可集成。

Docker 启动示例:

1
2
3
4
5
6
7
8
9
10
11
12
docker run --runtime nvidia --gpus all \
-v ~/.cache/huggingface:/root/.cache/huggingface \
-v "$(pwd):/workspace" \
-p 8000:8000 \
--ipc=host \
vllm/vllm-omni:cosmos3 \
vllm serve nvidia/Cosmos3-Nano \
--omni \
--model-class-name Cosmos3OmniDiffusersPipeline \
--allowed-local-media-path / \
--port 8000 \
--init-timeout 1800

服务器启动后,可以直接通过接口发起视频生成请求:

1
2
3
4
5
6
7
8
9
10
11
12
curl -sS -X POST http://localhost:8000/v1/videos/sync \
--form-string "prompt=A small warehouse robot moves a blue box across a clean floor." \
--form-string "negative_prompt=blurry, distorted, low quality" \
--form-string "size=1280x720" \
--form-string "num_frames=189" \
--form-string "fps=24" \
--form-string "num_inference_steps=35" \
--form-string "guidance_scale=6.0" \
--form-string "flow_shift=10.0" \
--form-string "seed=0" \
--form-string 'extra_params={"use_resolution_template":false,"use_duration_template":false,"guardrails":true}' \
-o cosmos3_t2v_output.mp4

这就很像你在对一个“世界生成引擎”发起指令。
不是让它写文案,而是让它给你产出一段新的视频世界。

更重要的是,README 还说明了它不仅能做 text-to-video,还支持:

  • text-to-image
  • text-to-video
  • image-to-video
  • video-to-video
  • video with sound
  • action policy
  • inverse dynamics
  • forward dynamics

也就是说,这台服务不是一个单一按钮,而像是一间多功能工作室。
有时候它是剪辑师,有时候是导演,有时候是模拟器,有时候又像一个会预测动作后果的未来播放器。


用 vLLM 跑 Reasoner:它开始像一个真正可用的视觉推理服务

对于 Reasoner,README 给出的生产级推理路径是 vLLM。

安装:

1
2
3
4
uv venv --python 3.13 --seed --managed-python
source .venv/bin/activate
uv pip install --torch-backend=cu130 "vllm==0.21.0" \
"vllm-cosmos3 @ git+https://github.com/NVIDIA/cosmos-framework.git#subdirectory=packages/vllm-cosmos3"

启动服务:

1
2
3
4
5
vllm serve nvidia/Cosmos3-Nano \
--hf-overrides '{"architectures": ["Cosmos3ReasonerForConditionalGeneration"]}' \
--async-scheduling \
--allowed-local-media-path / \
--port 8000

之后,就可以像调用 OpenAI 风格接口一样调用它。

例如在 Python 中:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
import openai

image_url = (
"https://github.com/nvidia-cosmos/cosmos-dependencies/raw/refs/heads/"
"assets/cosmos3/inputs/vision/robot_153.jpg"
)

client = openai.OpenAI(api_key="EMPTY", base_url="http://localhost:8000/v1")

response = client.chat.completions.create(
model=client.models.list().data[0].id,
messages=[
{
"role": "user",
"content": [
{"type": "image_url", "image_url": {"url": image_url}},
{"type": "text", "text": "Caption the image in detail."},
],
}
],
max_tokens=4096,
seed=0,
)

print(response.choices[0].message.content)

这种体验很有意思。
你给它一张图片和一句问题,它不是机械地做识别标签,而是像一个真的在“读图”的观察者,开始组织细致的描述与分析。

如果再进一步接上视频、时间定位、具身推理和物理常识任务,这个服务就会越来越像一个视觉场景理解中台,而不仅是一个图像问答小工具。


用 NIM 跑 Reasoner:最快走向生产的一条路

README 里还提供了一个非常务实的选择:NIM

如果你不想自己折腾太多 vLLM/CUDA 细节,而是希望尽快得到一个生产级、OpenAI-compatible 的 Reasoner 端点,那么 NIM 是更直接的路径。

启动容器示例:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
export CONTAINER_NAME="nvidia-cosmos3-reasoner"
export IMG_NAME="nvcr.io/nim/nvidia/cosmos3-reasoner:1.7.0"
export LOCAL_NIM_CACHE=~/.cache/nim
mkdir -p "$LOCAL_NIM_CACHE"

docker run -it --rm --name=$CONTAINER_NAME \
--runtime=nvidia \
--gpus all \
--shm-size=32GB \
-e NGC_API_KEY=$NGC_API_KEY \
-e NIM_MODEL_SIZE=nano \
-v "$LOCAL_NIM_CACHE:/opt/nim/.cache" \
-u $(id -u) \
-p 8000:8000 \
$IMG_NAME

随后可直接通过 OpenAI 风格接口请求:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
curl -X POST 'http://127.0.0.1:8000/v1/chat/completions' \
-H 'Accept: application/json' \
-H 'Content-Type: application/json' \
-d '{
"model": "nvidia/cosmos3-nano-reasoner",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": [
{"type": "image_url", "image_url": {"url": "https://github.com/nvidia-cosmos/cosmos-dependencies/raw/refs/heads/assets/cosmos3/inputs/vision/robot_153.jpg"}},
{"type": "text", "text": "Describe what is happening in this image in one sentence."}
]}
],
"max_tokens": 256,
"stream": false
}'

这条路径很像是 NVIDIA 在说:
如果你不是来研究底层,而是想把能力尽快装进系统里,那我也给你准备好了入口。

这是一种成熟平台才会有的姿态。
它知道不是每个开发者都想从源码和依赖地狱开始,所以它给了一个相对顺滑的着陆点。


Cookbook 与生态:Cosmos 不只是模型仓库,更像一套完整施工图

Cosmos 的一个很强的信号是,它不是“只有 README”。
整个仓库非常强调 cookbook、backend 选择、环境搭建、训练、评估、推理和生态协同。

共享环境配置里列出了多种后端:

  • Cosmos Framework
  • Diffusers
  • Transformers
  • vLLM
  • vLLM-Omni
  • NIM

这说明它不是让你只能按一种方式理解和使用模型,而是把研究、开发、部署三条线都接上了。

同时,README 里还列出了生态项目:

  • Cosmos Framework
    端到端 Physical AI 框架,用于训练和服务 world models

  • Cosmos Curator
    分布式 Physical AI 数据整理系统,覆盖处理、标注、过滤、去重

  • Cosmos Evaluator
    自动化 Physical AI 评估系统,用于 world generation 和 world reasoning 输出评估

这一整套生态看上去就不再像一个单仓库,而像一支正在建设基础设施的队伍。

如果说单个模型像一名强力选手,那么 Cosmos 系列更像一座正在扩建的工业园区:

  • Framework 负责生产线
  • Curator 负责数据筛选和加工
  • Evaluator 负责质检
  • Cosmos 主仓库负责把世界模型能力组织起来
  • 不同 serving 路径负责把能力送到应用侧

这也是为什么它特别有“平台感”。


它也很诚实:能力强,不代表没有限制

一个让我觉得很加分的地方,是 README 里专门写了 Limitations

Cosmos 3 可能在以下情况下出现问题:

  • 长时间输出
  • 高分辨率输出
  • 复杂物理场景
  • 时间一致性问题
  • 相机或物体运动不稳定
  • 声画不精确对齐
  • 复杂动作与长期物理约束处理不稳定

这段内容虽然不花哨,但很重要。
因为真正做工程的人都知道,一个系统值不值得信任,往往不只是看它最好的时候有多亮眼,更看它是否诚实地告诉你自己在哪些地方还会失手。

Cosmos 没把自己包装成无所不能的神,而更像一个有雄心也有自知之明的探索者。
它在说:我已经能做很多事,但我还在继续成长,尤其是在长期、高复杂度、强物理一致性的任务上,我仍然有进步空间。

这种坦诚,反而让它更像一个可靠的平台。


CUDA、环境和工程现实:宇宙很宏大,落地也很具体

Cosmos 的 README 和 cookbook 里,还有很多非常现实的工程提醒,比如:

  • 推荐 CUDA 13 或 12.8
  • 系统 CUDA 和 PyTorch CUDA major version 要匹配
  • Linux 环境
  • 可能遇到 torch.cuda.is_available() 为 false
  • 可能缺失 libxcb.so.1
  • uv 需要足够新的版本
  • vLLM 和 torch backend 要成对匹配
  • 大模型初始化时间可能很长,要设置 --init-timeout 1800

这些内容像是在提醒开发者:
欢迎来到真实世界。这里只有强大模型还不够,驱动、容器、缓存、依赖、GPU 拓扑、端口配置、权限访问,都会在门口排队迎接你。

但正因为 README 把这些问题写得很清楚,所以 Cosmos 不是那种“论文发布当天看起来无比美丽,真上手时一句文档都没有”的项目。
它知道真正的开发者会被什么问题绊住,于是提前把坑位标出来。这种文档气质,本身就很工程。


它适合谁

如果你问我,Cosmos 最适合什么样的人,我会说,它特别适合下面这些开发者和团队:

1. 想做机器人与具身智能的人

如果你关心的是:

  • 动作建模
  • 策略学习
  • 未来状态推演
  • 世界理解
  • 机器人训练

那么 Cosmos 几乎是直接贴着你的需求写的。

2. 做自动驾驶与复杂场景理解的人

它的时间推理、物理合理性判断、动作链路和视频理解能力,天然与自动驾驶、车端决策、交通场景分析高度相关。

3. 需要合成数据与仿真的团队

真实数据昂贵、标注困难、长尾复杂,而 world generation 与 world simulation 正是合成数据和预训练的重要方向。

4. 既想研究,也想部署的人

Cosmos 最特别的一点,是它不是单纯偏研究,也不是只偏部署。
它同时提供:

  • Python-first 研究入口
  • OpenAI-compatible serving 路线
  • 容器化部署方案
  • Framework 训练与微调能力
  • Cookbook 实例和工程文档

所以它很适合那些不想把研究和工程完全割裂开的团队。


为什么这个项目会让人有“未来感”

Cosmos 最打动人的地方,不是它有多大,而是它试图回答的问题本身就很大。

很多模型在扩展“语言的边界”,而 Cosmos 更像在扩展“机器与现实交互的边界”。

它想让机器:

  • 看见世界
  • 理解世界
  • 描述世界
  • 推理世界
  • 生成世界
  • 预测世界
  • 在世界中行动

这是一条非常宏大的路线。
它让 AI 从“知识处理者”慢慢靠近“现实参与者”。

如果文本模型像是坐在书房里长大的智者,Cosmos 则更像终于走出书房,开始去工厂、仓库、道路、摄像头和机器人现场认识世界的学徒。它会跌跌撞撞,会犯错,会有局限,但它已经不满足于只在纸面上思考问题了。

它想真正进入这个世界。


一个很值得记住的判断

NVIDIA Cosmos 并不是一个只为展示模型能力而存在的仓库。
从 README 的写法、能力划分、后端路线、部署方式、训练生态,到对限制和环境问题的说明,它都在传达同一件事:

这不是一个“会生成”的模型项目,而是一个认真朝着 Physical AI 基础平台迈进的工程体系。

你可以把它看作一扇窗。

透过这扇窗,我们能看到未来的 AI 可能不再只是“写得好、说得顺、画得像”,而是开始真正理解空间、时间、动作、因果和物理规律,开始在模拟与现实之间搭桥,开始为机器人、自动驾驶和智能基础设施提供新的认知底座。

Cosmos 这个名字取得也很妙。
宇宙并不是因为巨大才迷人,而是因为它同时承载了秩序、变化、运动和未知。
而 NVIDIA Cosmos 所做的事情,正像是在给机器建造一个可以学习这些东西的小型宇宙。

在这个宇宙里,模型不只是回答,它开始观察。
不只是观察,它开始推演。
不只是推演,它开始生成。
不只是生成,它开始尝试理解行动与结果之间那条最重要的线。

也许,这就是 Physical AI 最令人着迷的地方:
当机器不再只会处理符号,而开始认真面对真实世界时,智能才真正显得立体起来。


参考的快速启动命令汇总

如果你想快速感受一下 Cosmos 的几个典型入口,可以从下面这些命令开始。

Hugging Face 认证

1
uvx hf@latest auth login

Diffusers 方式安装 Generator 依赖

1
2
3
4
5
6
7
8
9
10
11
12
13
uv venv --python 3.13 --seed --managed-python
source .venv/bin/activate
uv pip install --torch-backend=auto \
"diffusers @ git+https://github.com/huggingface/diffusers.git" \
accelerate \
av \
cosmos_guardrail \
huggingface_hub \
imageio \
imageio-ffmpeg \
torch \
torchvision \
transformers

vLLM 启动 Reasoner 服务

1
2
3
4
5
vllm serve nvidia/Cosmos3-Nano \
--hf-overrides '{"architectures": ["Cosmos3ReasonerForConditionalGeneration"]}' \
--async-scheduling \
--allowed-local-media-path / \
--port 8000

vLLM-Omni 启动 Generator 服务

1
2
3
4
5
6
7
8
9
10
11
12
docker run --runtime nvidia --gpus all \
-v ~/.cache/huggingface:/root/.cache/huggingface \
-v "$(pwd):/workspace" \
-p 8000:8000 \
--ipc=host \
vllm/vllm-omni:cosmos3 \
vllm serve nvidia/Cosmos3-Nano \
--omni \
--model-class-name Cosmos3OmniDiffusersPipeline \
--allowed-local-media-path / \
--port 8000 \
--init-timeout 1800

检查服务模型是否正常加载

1
curl http://localhost:8000/v1/models

结尾

如果你关注的是下一代 AI 会如何真正进入现实世界,那么 NVIDIA Cosmos 是一个很值得认真阅读和上手的项目。

它不像一些项目那样只在单点能力上炫技,而是试图把世界模型、推理、生成、动作、部署、训练、评估这些关键环节串起来,慢慢构成 Physical AI 的基础设施。

它像一个正在扩张中的宇宙。
里面有观察者,有导演,有推理者,有模拟器,也有训练场。
而开发者要做的,不只是围观它发光,而是走进去,拿它来搭建属于自己的世界。

当机器终于不再只会复述世界,而开始理解世界、想象世界、预演世界,Cosmos 的故事,可能才刚刚开始。