cosmos
长风破浪会有时,直挂云帆济沧海——李白
https://github.com/NVIDIA/cosmos
当世界开始学会观察、推演与想象:走进 NVIDIA Cosmos 的物理智能宇宙
如果说大语言模型让机器学会了“说话”,那么 NVIDIA Cosmos 想做的事情更进一步:它想让机器开始真正“看世界、懂世界、想象世界”。
这不是一个只会盯着文本做续写的系统,而更像是一位正在成长中的世界学徒。它会看图、读视频、理解动作、预测接下来会发生什么,还能把一句文字描述扩展成图像、视频、声音,甚至带着动作轨迹去推演未来。它不只是回答问题,它更像在试图理解现实,并为机器人、自动驾驶、智能基础设施等 Physical AI 场景搭建一个可以练习、推理、模拟、预见的舞台。
NVIDIA 对这个项目的描述非常明确:Cosmos 是一个由世界模型、数据集和工具构成的开放平台,用来帮助开发者构建 Physical AI。
一句话听起来很硬核,但如果换一种更贴近直觉的说法,那就是:Cosmos 正在为机器打造“感知世界的大脑”和“预演未来的想象力”。
Cosmos 是谁
从仓库的 README 和 description 来看,Cosmos 的核心定位非常鲜明:
它是一个 open platform,不是单一模型,也不是一个孤立的推理 API,而是一整套围绕世界模型展开的能力体系。它面向的不是纯文本应用,而是更贴近真实物理世界的智能体,包括:
- 机器人
- 自动驾驶车辆
- 智能基础设施
- 以及更多需要理解现实、预测变化、执行行动的 Physical AI 系统
也就是说,Cosmos 不满足于让 AI 只会“聊天”。它更想让 AI 学会:
- 看懂发生了什么
- 推断下一步会发生什么
- 根据环境和目标进行规划
- 生成可用于训练、仿真和决策的数据
- 让机器在真实部署前,先在模型世界里练习很多遍
从这个角度看,Cosmos 像是一位“造世界的人”。它一边观察现实,一边复制现实,一边理解现实,一边模拟现实。现实世界太昂贵、太复杂、太危险,于是它决定先在数字宇宙里搭一座训练场。
Cosmos 3:这个宇宙里最新的主角
当前仓库重点介绍的是 Cosmos 3,这是 Cosmos 最新的模型家族。
README 里把 Cosmos 3 的能力拆成了两大运行表面:
| Surface | Inputs | Outputs | Use Cases |
|---|---|---|---|
| Reasoner | Text, vision | Text | 世界理解、 grounding、物理推理、任务规划、动作预测、具身智能推理、自主系统决策 |
| Generator | Text, vision, sound, action | Vision, sound, action | 世界生成、世界模拟、未来预测、合成数据生成、策略学习、机器人训练 |
这两位角色非常像一对搭档。
Reasoner 像什么
Reasoner 像一个冷静的观察者。
它看视频、看图像、接收文本问题,然后给出文字回答。
它擅长的事情包括:
- 视频和图像理解
- 事件定位
- 物理常识判断
- 任务规划
- 动作预测
- 2D grounding
- 情境理解
- 驾驶场景推理
- 具身智能推理
你可以把它想象成一位站在现场的分析师。
别人看到的是一个机器人在桌面边晃动手臂,它看到的是:环境约束、物体关系、潜在动作、可能结果、是否符合物理常识。
Generator 像什么
Generator 则更像一个导演兼预演师。
你给它文字、图像、视频、动作,它可以生成新的图像、视频、声音,甚至基于动作去推演未来状态。
它可以做:
- text-to-image
- text-to-video
- image-to-video
- video-to-video
- text-to-video with sound
- image-to-video with sound
- forward dynamics
- action policy
- inverse dynamics
如果 Reasoner 是“懂世界的人”,那 Generator 就是“会造世界的人”。
一个负责理解,一个负责想象;一个负责判断,一个负责生成。两者组合在一起,机器就不再只是一个被动响应器,而像是开始拥有了“先看懂,再推演,再行动”的闭环。
它为什么值得关注
今天很多 AI 项目已经能做到惊艳的文本生成、图像生成、视频生成,但 Cosmos 的野心不只是“内容生成”,而是更贴近真实系统建设的 world model。
这里的关键词不是“华丽”,而是“物理世界”。
README 中提到的能力方向,几乎都围绕现实任务展开:
- world understanding
- world generation
- action modeling
- policy learning
- robot training
- autonomous system decision making
- synthetic data generation
- future prediction
这意味着 Cosmos 并不是单纯做一个看起来很炫的视频模型,而是在试图解决一个更深的问题:
机器如何在复杂的现实世界里理解环境、预测变化、训练策略,并安全地学会行动。
这也是为什么它特别适合机器人、自动驾驶、智能基础设施这类场景。
因为这些系统不是答错一段文案而已,它们面对的是空间、时间、运动、因果、约束、风险、反馈。
换句话说,Cosmos 不只是让 AI “更聪明”,而是让 AI “更像一个能在现实中做事的存在”。
Cosmos 3 的关键能力,看起来像在给机器装感官和直觉
README 里给出了几个非常关键的能力标签,我觉得每一个都值得单独拿出来说。
1. World understanding
它能分析图像和视频,做字幕描述、时间事件理解、下一步动作预测、空间 grounding、物理合理性判断、因果结果推断。
这就像它不仅会“看”,还开始会“理解为什么”。
一个普通模型也许会说:“画面里有一个机器人。”
而 Cosmos 更想回答的是:
- 机器人在做什么
- 这个动作接下来可能导致什么
- 某个事件大概发生在视频的哪个时间段
- 当前场景是否符合物理常识
- 目标对象在图像中的哪里
这已经不是简单的视觉识别,而是在向“场景理解”和“过程推理”迈进。
2. World generation
它可以从文本、图像、视频、动作输入中生成图像、视频、同步声音,以及动作条件下的 rollout。
这意味着它能够把“描述”变成“可视化现实”,也能把“当前状态”推进到“未来状态”。
这很适合做模拟、训练、合成数据、策略验证。
现实世界采集成本高、试错风险大,而在模型世界里,机器可以先把未来演几遍。
3. Action modeling
它支持策略动作预测、逆动力学、前向动力学,覆盖机器人、相机运动、自车运动、自动驾驶等场景。
这部分尤其像是在给模型注入“动作感”。
它不只是看见物体,更会思考:
- 应该怎么动
- 刚才是怎么动成现在这样的
- 如果下一步这样动,会发生什么
当一个模型开始把“感知”与“动作”联结起来,它就越来越接近真正的具身智能。
4. Research and production paths
README 里还特别强调了不同集成路径:
- Diffusers / Transformers 适合 Python-first 的研究开发
- vLLM-Omni / vLLM 适合 OpenAI-compatible serving
- NIM 提供生产级部署路径
- Cosmos Framework 面向更完整的训练、微调、评估流程
这说明 Cosmos 不是那种只在论文里发光、落地时沉默的项目。
它很清楚开发者分成不同人群:
- 有人想研究模型
- 有人想快速做原型
- 有人想搭服务
- 有人想做训练和评估
- 有人只想尽快部署一个可调用的接口
Cosmos 没有把所有人都赶进同一条路,而是像一个成熟的平台那样,给出了多条入口。
Cosmos 3 的模型家族:不是一个人单打独斗,而是一整支舰队
README 里列出了当前的模型家族:
Cosmos3-Nano,16B
紧凑型 omnimodal world model,适合多模态理解、世界模拟、未来预测、动作推理、Physical AI 应用Cosmos3-Super,64B
前沿级 omnimodal world model,能力更强,适合更高阶任务Cosmos3-Super-Text2Image,64B
高保真文生图Cosmos3-Super-Image2Video,64B
强调时间一致性的图生视频Cosmos3-Nano-Policy-DROID,16B
面向 DROID manipulation and control 的视觉语言机器人策略模型
从命名就能感受到它的角色分工非常明确。
Nano 像敏捷的侦察兵,Super 像重装主力舰,而针对特定场景的模型则像专业作战单位。
这类家族化设计很重要,因为 Physical AI 的需求本来就不是单一的。
有的场景追求推理能力,有的更关心视频生成,有的要做动作策略,有的看重部署效率。Cosmos 没把它们硬塞进同一张脸,而是把它们组织成了一套生态化编队。
支持的生成设定,看得出它不是玩具,而是认真给开发者用的
在生成能力上,Cosmos 3 给出了相当具体的支持范围:
- 分辨率:256p、480p、720p
- 长宽比:16:9、4:3、1:1、3:4、9:16
- 帧率:10、16、24、30 FPS
- 帧数:5 到 300
- 精度:BF16 tested
- 操作系统:Linux
- GPU 架构:NVIDIA Ampere、Hopper、Blackwell
这些信息看似枯燥,但恰恰说明它的 README 写得非常工程化。
它没有只告诉你“我们很强”,而是直接告诉你:
- 可以怎么跑
- 跑到什么规格
- 在什么硬件上跑
- 适合什么系统环境
对于开发者来说,这种明确性很珍贵。
它像一个经验丰富的工程师,不跟你空谈愿景,先把规格表掏出来给你看。
输入和输出:它接住的不只是文字,而是更完整的世界片段
Cosmos 3 支持的输入类型包括:
- Text
- Text + image
- Text + video
- Text + image + action
输入格式包括:
- 文本字符串
- JPG / PNG / JPEG / WEBP 图像
- MP4 视频
- JSON action array
输出则可以是:
- 图像
- 视频
- 声音
- 动作状态
- 文本
这种 I/O 设计非常像一个真正的“多模态世界接口”。
很多模型处理的是“内容”,而 Cosmos 处理的是“场景”和“行为”。
你给它的不只是 prompt,而像是在递给它一小段现实:一张图、一段视频、一串动作、一句任务意图。然后它还给你的,也不只是答案,而可能是未来、结果、声音、轨迹、动作。
它开始像一个数字化实验室,而不只是一个文本补全器。
Generator 的世界:它不只会画图,还会把未来拍成片子
README 里对 Generator 的工作流列得很完整,包括:
- Text-to-image
- Text-to-video
- Text-to-video with sound
- Image-to-video
- Image-to-video with sound
- Video-to-video
- Video-to-video with sound
- Forward dynamics
- Action policy
这份列表里最让我有感觉的,是它把生成和动作建模放在了一起。
这就意味着 Cosmos 的“生成”不是单纯做一个视觉结果,而是在向“模拟世界演化”靠拢。
举个直观的例子:
- 普通视频生成像是在做一段镜头
- Cosmos 的 forward dynamics 更像是在预测“如果按这个动作执行,未来画面会变成什么样”
这对机器人训练和策略验证太关键了。
因为机器真正需要的,不是好看的画面,而是“如果我这样做,世界会怎样回应”。
这句话听起来像哲学,其实就是控制系统和具身智能的核心。
Reasoner 的世界:它像在给视频做推理,而不是做描述
README 中给出的 Reasoner 工作流也很丰富:
- Caption
- Temporal localization
- Embodied reasoning
- Common-sense reasoning
- 2D grounding
- Describe anything
- Action CoT
- Physical Plausibility Analysis
- Situation Understanding
这套能力列表有个非常鲜明的特征:
它并不满足于静态识别,而是在努力处理时间、动作、空间、因果与常识。
比如 temporal localization,不只是“视频里发生了什么”,而是“某件事在什么时候发生”。
比如 embodied reasoning,不只是“看到了什么”,而是“下一步应该做什么”。
比如 physical plausibility,不只是“画面像不像”,而是“这件事是否符合物理常识”。
这种能力结构,非常适合通往机器人与自动驾驶。
因为现实世界中的智能,不是背答案,而是不断面对这些问题:
- 现在是什么状态
- 接下来会发生什么
- 什么动作是合理的
- 哪些结果是不符合物理规律的
- 哪个目标在什么位置
- 当前情境意味着什么
Cosmos 的 Reasoner,像是在学习把这些问题串成一条完整的思考链。
它的架构也很有意思:像把“思考”和“生成”装进了一台统一机器
README 提到,Cosmos 3 是一个 omnimodal world model,基于统一的 Mixture-of-Transformers (MoT) 架构。
它结合了:
- 用于推理的 autoregressive transformer
- 用于生成的 diffusion transformer
这个设计很有意味。
因为在很多系统里,“理解”和“生成”往往是拆开的,像两个部门各管一摊。
而 Cosmos 更像是把它们安排进同一个组织架构里,让“推理”和“生成”彼此协作。
可以把它想象成一座城市:
- AR transformer 像城市里的思考中枢,负责判断、组织语言、推理问题
- Diffusion transformer 像城市里的造景师,负责把想法和条件扩散成图像、视频、声音和动态结果
于是 Cosmos 不只是会说“我理解了”,还会说“我给你演出来”。
快速上手:在真正跑起来之前,它先要求你有通行证
在 Quickstart 里,Cosmos 的第一个动作不是急着炫技,而是提醒你先完成 Hugging Face 认证:
1 | uvx hf@latest auth login |
这一步很像宇宙入口的通行闸机。
你得先拿到访问模型仓库的权限,才能进入后续世界。
如果你想使用共享缓存或者更大的磁盘空间,还可以设置:
1 | export HF_HOME=/path/to/cache |
这类提示很接地气,因为大模型环境往往不是“装上就跑”那么简单。
模型体积、缓存位置、驱动兼容、CUDA 版本、依赖关系,都会在你真正开跑前先来一轮现实教育。Cosmos 的 README 很坦率,它没有装作这些问题不存在,而是把它们正大光明地写出来。
用 Diffusers 跑 Generator:这是偏研究与开发者友好的入口
如果你想从 Python-first 的方式体验 Cosmos 3 Generator,README 推荐了 Diffusers 路线。
环境安装示例:
1 | uv venv --python 3.13 --seed --managed-python |
然后就可以直接在 Python 中加载 Cosmos3OmniPipeline:
1 | import torch |
这段代码最迷人的地方在于,它不像在调一个普通媒体模型,更像是在召唤一个“会做世界片段的导演”。
你写下一句提示词:一个移动机器人穿过仓库货架并停在货架前。
然后模型接过这句话,开始把它变成一段具有时间流动感的视频。
这一刻,文字不再只是文字,而像是一张简短的分镜脚本。
用 vLLM-Omni 跑 Generator:让世界生成走向服务化
如果你想把 Cosmos 3 Generator 放进生产环境,README 推荐用 vLLM-Omni。
这条路径的关键意义在于:它让生成能力可以通过 OpenAI-compatible API 暴露出来,服务化、工程化、可集成。
Docker 启动示例:
1 | docker run --runtime nvidia --gpus all \ |
服务器启动后,可以直接通过接口发起视频生成请求:
1 | curl -sS -X POST http://localhost:8000/v1/videos/sync \ |
这就很像你在对一个“世界生成引擎”发起指令。
不是让它写文案,而是让它给你产出一段新的视频世界。
更重要的是,README 还说明了它不仅能做 text-to-video,还支持:
- text-to-image
- text-to-video
- image-to-video
- video-to-video
- video with sound
- action policy
- inverse dynamics
- forward dynamics
也就是说,这台服务不是一个单一按钮,而像是一间多功能工作室。
有时候它是剪辑师,有时候是导演,有时候是模拟器,有时候又像一个会预测动作后果的未来播放器。
用 vLLM 跑 Reasoner:它开始像一个真正可用的视觉推理服务
对于 Reasoner,README 给出的生产级推理路径是 vLLM。
安装:
1 | uv venv --python 3.13 --seed --managed-python |
启动服务:
1 | vllm serve nvidia/Cosmos3-Nano \ |
之后,就可以像调用 OpenAI 风格接口一样调用它。
例如在 Python 中:
1 | import openai |
这种体验很有意思。
你给它一张图片和一句问题,它不是机械地做识别标签,而是像一个真的在“读图”的观察者,开始组织细致的描述与分析。
如果再进一步接上视频、时间定位、具身推理和物理常识任务,这个服务就会越来越像一个视觉场景理解中台,而不仅是一个图像问答小工具。
用 NIM 跑 Reasoner:最快走向生产的一条路
README 里还提供了一个非常务实的选择:NIM。
如果你不想自己折腾太多 vLLM/CUDA 细节,而是希望尽快得到一个生产级、OpenAI-compatible 的 Reasoner 端点,那么 NIM 是更直接的路径。
启动容器示例:
1 | export CONTAINER_NAME="nvidia-cosmos3-reasoner" |
随后可直接通过 OpenAI 风格接口请求:
1 | curl -X POST 'http://127.0.0.1:8000/v1/chat/completions' \ |
这条路径很像是 NVIDIA 在说:
如果你不是来研究底层,而是想把能力尽快装进系统里,那我也给你准备好了入口。
这是一种成熟平台才会有的姿态。
它知道不是每个开发者都想从源码和依赖地狱开始,所以它给了一个相对顺滑的着陆点。
Cookbook 与生态:Cosmos 不只是模型仓库,更像一套完整施工图
Cosmos 的一个很强的信号是,它不是“只有 README”。
整个仓库非常强调 cookbook、backend 选择、环境搭建、训练、评估、推理和生态协同。
共享环境配置里列出了多种后端:
- Cosmos Framework
- Diffusers
- Transformers
- vLLM
- vLLM-Omni
- NIM
这说明它不是让你只能按一种方式理解和使用模型,而是把研究、开发、部署三条线都接上了。
同时,README 里还列出了生态项目:
Cosmos Framework
端到端 Physical AI 框架,用于训练和服务 world modelsCosmos Curator
分布式 Physical AI 数据整理系统,覆盖处理、标注、过滤、去重Cosmos Evaluator
自动化 Physical AI 评估系统,用于 world generation 和 world reasoning 输出评估
这一整套生态看上去就不再像一个单仓库,而像一支正在建设基础设施的队伍。
如果说单个模型像一名强力选手,那么 Cosmos 系列更像一座正在扩建的工业园区:
- Framework 负责生产线
- Curator 负责数据筛选和加工
- Evaluator 负责质检
- Cosmos 主仓库负责把世界模型能力组织起来
- 不同 serving 路径负责把能力送到应用侧
这也是为什么它特别有“平台感”。
它也很诚实:能力强,不代表没有限制
一个让我觉得很加分的地方,是 README 里专门写了 Limitations。
Cosmos 3 可能在以下情况下出现问题:
- 长时间输出
- 高分辨率输出
- 复杂物理场景
- 时间一致性问题
- 相机或物体运动不稳定
- 声画不精确对齐
- 复杂动作与长期物理约束处理不稳定
这段内容虽然不花哨,但很重要。
因为真正做工程的人都知道,一个系统值不值得信任,往往不只是看它最好的时候有多亮眼,更看它是否诚实地告诉你自己在哪些地方还会失手。
Cosmos 没把自己包装成无所不能的神,而更像一个有雄心也有自知之明的探索者。
它在说:我已经能做很多事,但我还在继续成长,尤其是在长期、高复杂度、强物理一致性的任务上,我仍然有进步空间。
这种坦诚,反而让它更像一个可靠的平台。
CUDA、环境和工程现实:宇宙很宏大,落地也很具体
Cosmos 的 README 和 cookbook 里,还有很多非常现实的工程提醒,比如:
- 推荐 CUDA 13 或 12.8
- 系统 CUDA 和 PyTorch CUDA major version 要匹配
- Linux 环境
- 可能遇到
torch.cuda.is_available()为 false - 可能缺失
libxcb.so.1 uv需要足够新的版本- vLLM 和 torch backend 要成对匹配
- 大模型初始化时间可能很长,要设置
--init-timeout 1800
这些内容像是在提醒开发者:
欢迎来到真实世界。这里只有强大模型还不够,驱动、容器、缓存、依赖、GPU 拓扑、端口配置、权限访问,都会在门口排队迎接你。
但正因为 README 把这些问题写得很清楚,所以 Cosmos 不是那种“论文发布当天看起来无比美丽,真上手时一句文档都没有”的项目。
它知道真正的开发者会被什么问题绊住,于是提前把坑位标出来。这种文档气质,本身就很工程。
它适合谁
如果你问我,Cosmos 最适合什么样的人,我会说,它特别适合下面这些开发者和团队:
1. 想做机器人与具身智能的人
如果你关心的是:
- 动作建模
- 策略学习
- 未来状态推演
- 世界理解
- 机器人训练
那么 Cosmos 几乎是直接贴着你的需求写的。
2. 做自动驾驶与复杂场景理解的人
它的时间推理、物理合理性判断、动作链路和视频理解能力,天然与自动驾驶、车端决策、交通场景分析高度相关。
3. 需要合成数据与仿真的团队
真实数据昂贵、标注困难、长尾复杂,而 world generation 与 world simulation 正是合成数据和预训练的重要方向。
4. 既想研究,也想部署的人
Cosmos 最特别的一点,是它不是单纯偏研究,也不是只偏部署。
它同时提供:
- Python-first 研究入口
- OpenAI-compatible serving 路线
- 容器化部署方案
- Framework 训练与微调能力
- Cookbook 实例和工程文档
所以它很适合那些不想把研究和工程完全割裂开的团队。
为什么这个项目会让人有“未来感”
Cosmos 最打动人的地方,不是它有多大,而是它试图回答的问题本身就很大。
很多模型在扩展“语言的边界”,而 Cosmos 更像在扩展“机器与现实交互的边界”。
它想让机器:
- 看见世界
- 理解世界
- 描述世界
- 推理世界
- 生成世界
- 预测世界
- 在世界中行动
这是一条非常宏大的路线。
它让 AI 从“知识处理者”慢慢靠近“现实参与者”。
如果文本模型像是坐在书房里长大的智者,Cosmos 则更像终于走出书房,开始去工厂、仓库、道路、摄像头和机器人现场认识世界的学徒。它会跌跌撞撞,会犯错,会有局限,但它已经不满足于只在纸面上思考问题了。
它想真正进入这个世界。
一个很值得记住的判断
NVIDIA Cosmos 并不是一个只为展示模型能力而存在的仓库。
从 README 的写法、能力划分、后端路线、部署方式、训练生态,到对限制和环境问题的说明,它都在传达同一件事:
这不是一个“会生成”的模型项目,而是一个认真朝着 Physical AI 基础平台迈进的工程体系。
你可以把它看作一扇窗。
透过这扇窗,我们能看到未来的 AI 可能不再只是“写得好、说得顺、画得像”,而是开始真正理解空间、时间、动作、因果和物理规律,开始在模拟与现实之间搭桥,开始为机器人、自动驾驶和智能基础设施提供新的认知底座。
Cosmos 这个名字取得也很妙。
宇宙并不是因为巨大才迷人,而是因为它同时承载了秩序、变化、运动和未知。
而 NVIDIA Cosmos 所做的事情,正像是在给机器建造一个可以学习这些东西的小型宇宙。
在这个宇宙里,模型不只是回答,它开始观察。
不只是观察,它开始推演。
不只是推演,它开始生成。
不只是生成,它开始尝试理解行动与结果之间那条最重要的线。
也许,这就是 Physical AI 最令人着迷的地方:
当机器不再只会处理符号,而开始认真面对真实世界时,智能才真正显得立体起来。
参考的快速启动命令汇总
如果你想快速感受一下 Cosmos 的几个典型入口,可以从下面这些命令开始。
Hugging Face 认证
1 | uvx hf@latest auth login |
Diffusers 方式安装 Generator 依赖
1 | uv venv --python 3.13 --seed --managed-python |
vLLM 启动 Reasoner 服务
1 | vllm serve nvidia/Cosmos3-Nano \ |
vLLM-Omni 启动 Generator 服务
1 | docker run --runtime nvidia --gpus all \ |
检查服务模型是否正常加载
1 | curl http://localhost:8000/v1/models |
结尾
如果你关注的是下一代 AI 会如何真正进入现实世界,那么 NVIDIA Cosmos 是一个很值得认真阅读和上手的项目。
它不像一些项目那样只在单点能力上炫技,而是试图把世界模型、推理、生成、动作、部署、训练、评估这些关键环节串起来,慢慢构成 Physical AI 的基础设施。
它像一个正在扩张中的宇宙。
里面有观察者,有导演,有推理者,有模拟器,也有训练场。
而开发者要做的,不只是围观它发光,而是走进去,拿它来搭建属于自己的世界。
当机器终于不再只会复述世界,而开始理解世界、想象世界、预演世界,Cosmos 的故事,可能才刚刚开始。
