cosmos

发表于2026-06-07|更新于2026-06-07

|浏览量:

长风破浪会有时，直挂云帆济沧海——李白

当世界开始学会观察、推演与想象：走进 NVIDIA Cosmos 的物理智能宇宙

如果说大语言模型让机器学会了“说话”，那么 NVIDIA Cosmos 想做的事情更进一步：它想让机器开始真正“看世界、懂世界、想象世界”。

这不是一个只会盯着文本做续写的系统，而更像是一位正在成长中的世界学徒。它会看图、读视频、理解动作、预测接下来会发生什么，还能把一句文字描述扩展成图像、视频、声音，甚至带着动作轨迹去推演未来。它不只是回答问题，它更像在试图理解现实，并为机器人、自动驾驶、智能基础设施等 Physical AI 场景搭建一个可以练习、推理、模拟、预见的舞台。

NVIDIA 对这个项目的描述非常明确：Cosmos 是一个由世界模型、数据集和工具构成的开放平台，用来帮助开发者构建 Physical AI。
一句话听起来很硬核，但如果换一种更贴近直觉的说法，那就是：Cosmos 正在为机器打造“感知世界的大脑”和“预演未来的想象力”。

Cosmos 是谁

从仓库的 README 和 description 来看，Cosmos 的核心定位非常鲜明：

它是一个 open platform，不是单一模型，也不是一个孤立的推理 API，而是一整套围绕世界模型展开的能力体系。它面向的不是纯文本应用，而是更贴近真实物理世界的智能体，包括：

机器人
自动驾驶车辆
智能基础设施
以及更多需要理解现实、预测变化、执行行动的 Physical AI 系统

也就是说，Cosmos 不满足于让 AI 只会“聊天”。它更想让 AI 学会：

看懂发生了什么
推断下一步会发生什么
根据环境和目标进行规划
生成可用于训练、仿真和决策的数据
让机器在真实部署前，先在模型世界里练习很多遍

从这个角度看，Cosmos 像是一位“造世界的人”。它一边观察现实，一边复制现实，一边理解现实，一边模拟现实。现实世界太昂贵、太复杂、太危险，于是它决定先在数字宇宙里搭一座训练场。

Cosmos 3：这个宇宙里最新的主角

当前仓库重点介绍的是 Cosmos 3，这是 Cosmos 最新的模型家族。

README 里把 Cosmos 3 的能力拆成了两大运行表面：

Surface	Inputs	Outputs	Use Cases
Reasoner	Text, vision	Text	世界理解、 grounding、物理推理、任务规划、动作预测、具身智能推理、自主系统决策
Generator	Text, vision, sound, action	Vision, sound, action	世界生成、世界模拟、未来预测、合成数据生成、策略学习、机器人训练

这两位角色非常像一对搭档。

Reasoner 像什么

Reasoner 像一个冷静的观察者。
它看视频、看图像、接收文本问题，然后给出文字回答。

它擅长的事情包括：

视频和图像理解
事件定位
物理常识判断
任务规划
动作预测
2D grounding
情境理解
驾驶场景推理
具身智能推理

你可以把它想象成一位站在现场的分析师。
别人看到的是一个机器人在桌面边晃动手臂，它看到的是：环境约束、物体关系、潜在动作、可能结果、是否符合物理常识。

Generator 像什么

Generator 则更像一个导演兼预演师。
你给它文字、图像、视频、动作，它可以生成新的图像、视频、声音，甚至基于动作去推演未来状态。

它可以做：

text-to-image
text-to-video
image-to-video
video-to-video
text-to-video with sound
image-to-video with sound
forward dynamics
action policy
inverse dynamics

如果 Reasoner 是“懂世界的人”，那 Generator 就是“会造世界的人”。
一个负责理解，一个负责想象；一个负责判断，一个负责生成。两者组合在一起，机器就不再只是一个被动响应器，而像是开始拥有了“先看懂，再推演，再行动”的闭环。

它为什么值得关注

今天很多 AI 项目已经能做到惊艳的文本生成、图像生成、视频生成，但 Cosmos 的野心不只是“内容生成”，而是更贴近真实系统建设的 world model。

这里的关键词不是“华丽”，而是“物理世界”。

README 中提到的能力方向，几乎都围绕现实任务展开：

world understanding
world generation
action modeling
policy learning
robot training
autonomous system decision making
synthetic data generation
future prediction

这意味着 Cosmos 并不是单纯做一个看起来很炫的视频模型，而是在试图解决一个更深的问题：

机器如何在复杂的现实世界里理解环境、预测变化、训练策略，并安全地学会行动。

这也是为什么它特别适合机器人、自动驾驶、智能基础设施这类场景。
因为这些系统不是答错一段文案而已，它们面对的是空间、时间、运动、因果、约束、风险、反馈。

换句话说，Cosmos 不只是让 AI “更聪明”，而是让 AI “更像一个能在现实中做事的存在”。

Cosmos 3 的关键能力，看起来像在给机器装感官和直觉

README 里给出了几个非常关键的能力标签，我觉得每一个都值得单独拿出来说。

1. World understanding

它能分析图像和视频，做字幕描述、时间事件理解、下一步动作预测、空间 grounding、物理合理性判断、因果结果推断。

这就像它不仅会“看”，还开始会“理解为什么”。

一个普通模型也许会说：“画面里有一个机器人。”
而 Cosmos 更想回答的是：

机器人在做什么
这个动作接下来可能导致什么
某个事件大概发生在视频的哪个时间段
当前场景是否符合物理常识
目标对象在图像中的哪里

这已经不是简单的视觉识别，而是在向“场景理解”和“过程推理”迈进。

2. World generation

它可以从文本、图像、视频、动作输入中生成图像、视频、同步声音，以及动作条件下的 rollout。

这意味着它能够把“描述”变成“可视化现实”，也能把“当前状态”推进到“未来状态”。

这很适合做模拟、训练、合成数据、策略验证。
现实世界采集成本高、试错风险大，而在模型世界里，机器可以先把未来演几遍。

3. Action modeling

它支持策略动作预测、逆动力学、前向动力学，覆盖机器人、相机运动、自车运动、自动驾驶等场景。

这部分尤其像是在给模型注入“动作感”。
它不只是看见物体，更会思考：

应该怎么动
刚才是怎么动成现在这样的
如果下一步这样动，会发生什么

当一个模型开始把“感知”与“动作”联结起来，它就越来越接近真正的具身智能。

4. Research and production paths

README 里还特别强调了不同集成路径：

Diffusers / Transformers 适合 Python-first 的研究开发
vLLM-Omni / vLLM 适合 OpenAI-compatible serving
NIM 提供生产级部署路径
Cosmos Framework 面向更完整的训练、微调、评估流程

这说明 Cosmos 不是那种只在论文里发光、落地时沉默的项目。
它很清楚开发者分成不同人群：

有人想研究模型
有人想快速做原型
有人想搭服务
有人想做训练和评估
有人只想尽快部署一个可调用的接口

Cosmos 没有把所有人都赶进同一条路，而是像一个成熟的平台那样，给出了多条入口。

Cosmos 3 的模型家族：不是一个人单打独斗，而是一整支舰队

README 里列出了当前的模型家族：

Cosmos3-Nano，16B
紧凑型 omnimodal world model，适合多模态理解、世界模拟、未来预测、动作推理、Physical AI 应用
Cosmos3-Super，64B
前沿级 omnimodal world model，能力更强，适合更高阶任务
Cosmos3-Super-Text2Image，64B
高保真文生图
Cosmos3-Super-Image2Video，64B
强调时间一致性的图生视频
Cosmos3-Nano-Policy-DROID，16B
面向 DROID manipulation and control 的视觉语言机器人策略模型

从命名就能感受到它的角色分工非常明确。
Nano 像敏捷的侦察兵，Super 像重装主力舰，而针对特定场景的模型则像专业作战单位。

这类家族化设计很重要，因为 Physical AI 的需求本来就不是单一的。
有的场景追求推理能力，有的更关心视频生成，有的要做动作策略，有的看重部署效率。Cosmos 没把它们硬塞进同一张脸，而是把它们组织成了一套生态化编队。

支持的生成设定，看得出它不是玩具，而是认真给开发者用的

在生成能力上，Cosmos 3 给出了相当具体的支持范围：

分辨率：256p、480p、720p
长宽比：16:9、4:3、1:1、3:4、9:16
帧率：10、16、24、30 FPS
帧数：5 到 300
精度：BF16 tested
操作系统：Linux
GPU 架构：NVIDIA Ampere、Hopper、Blackwell

这些信息看似枯燥，但恰恰说明它的 README 写得非常工程化。
它没有只告诉你“我们很强”，而是直接告诉你：

可以怎么跑
跑到什么规格
在什么硬件上跑
适合什么系统环境

对于开发者来说，这种明确性很珍贵。
它像一个经验丰富的工程师，不跟你空谈愿景，先把规格表掏出来给你看。

输入和输出：它接住的不只是文字，而是更完整的世界片段

Cosmos 3 支持的输入类型包括：

Text
Text + image
Text + video
Text + image + action

输入格式包括：

文本字符串
JPG / PNG / JPEG / WEBP 图像
MP4 视频
JSON action array

输出则可以是：

图像
视频
声音
动作状态
文本

这种 I/O 设计非常像一个真正的“多模态世界接口”。

很多模型处理的是“内容”，而 Cosmos 处理的是“场景”和“行为”。
你给它的不只是 prompt，而像是在递给它一小段现实：一张图、一段视频、一串动作、一句任务意图。然后它还给你的，也不只是答案，而可能是未来、结果、声音、轨迹、动作。

它开始像一个数字化实验室，而不只是一个文本补全器。

Generator 的世界：它不只会画图，还会把未来拍成片子

README 里对 Generator 的工作流列得很完整，包括：

Text-to-image
Text-to-video
Text-to-video with sound
Image-to-video
Image-to-video with sound
Video-to-video
Video-to-video with sound
Forward dynamics
Action policy

这份列表里最让我有感觉的，是它把生成和动作建模放在了一起。
这就意味着 Cosmos 的“生成”不是单纯做一个视觉结果，而是在向“模拟世界演化”靠拢。

举个直观的例子：

普通视频生成像是在做一段镜头
Cosmos 的 forward dynamics 更像是在预测“如果按这个动作执行，未来画面会变成什么样”

这对机器人训练和策略验证太关键了。
因为机器真正需要的，不是好看的画面，而是“如果我这样做，世界会怎样回应”。

这句话听起来像哲学，其实就是控制系统和具身智能的核心。

Reasoner 的世界：它像在给视频做推理，而不是做描述

README 中给出的 Reasoner 工作流也很丰富：

Caption
Temporal localization
Embodied reasoning
Common-sense reasoning
2D grounding
Describe anything
Action CoT
Physical Plausibility Analysis
Situation Understanding

这套能力列表有个非常鲜明的特征：
它并不满足于静态识别，而是在努力处理时间、动作、空间、因果与常识。

比如 temporal localization，不只是“视频里发生了什么”，而是“某件事在什么时候发生”。
比如 embodied reasoning，不只是“看到了什么”，而是“下一步应该做什么”。
比如 physical plausibility，不只是“画面像不像”，而是“这件事是否符合物理常识”。

这种能力结构，非常适合通往机器人与自动驾驶。
因为现实世界中的智能，不是背答案，而是不断面对这些问题：

现在是什么状态
接下来会发生什么
什么动作是合理的
哪些结果是不符合物理规律的
哪个目标在什么位置
当前情境意味着什么

Cosmos 的 Reasoner，像是在学习把这些问题串成一条完整的思考链。

它的架构也很有意思：像把“思考”和“生成”装进了一台统一机器

README 提到，Cosmos 3 是一个 omnimodal world model，基于统一的 Mixture-of-Transformers (MoT) 架构。
它结合了：

用于推理的 autoregressive transformer
用于生成的 diffusion transformer

这个设计很有意味。
因为在很多系统里，“理解”和“生成”往往是拆开的，像两个部门各管一摊。
而 Cosmos 更像是把它们安排进同一个组织架构里，让“推理”和“生成”彼此协作。

可以把它想象成一座城市：

AR transformer 像城市里的思考中枢，负责判断、组织语言、推理问题
Diffusion transformer 像城市里的造景师，负责把想法和条件扩散成图像、视频、声音和动态结果

于是 Cosmos 不只是会说“我理解了”，还会说“我给你演出来”。

快速上手：在真正跑起来之前，它先要求你有通行证

在 Quickstart 里，Cosmos 的第一个动作不是急着炫技，而是提醒你先完成 Hugging Face 认证：

1	uvx hf@latest auth login

这一步很像宇宙入口的通行闸机。
你得先拿到访问模型仓库的权限，才能进入后续世界。

如果你想使用共享缓存或者更大的磁盘空间，还可以设置：

1	export HF_HOME=/path/to/cache

这类提示很接地气，因为大模型环境往往不是“装上就跑”那么简单。
模型体积、缓存位置、驱动兼容、CUDA 版本、依赖关系，都会在你真正开跑前先来一轮现实教育。Cosmos 的 README 很坦率，它没有装作这些问题不存在，而是把它们正大光明地写出来。

用 Diffusers 跑 Generator：这是偏研究与开发者友好的入口

如果你想从 Python-first 的方式体验 Cosmos 3 Generator，README 推荐了 Diffusers 路线。

环境安装示例：

uv venv --python 3.13 --seed --managed-python
source .venv/bin/activate
uv pip install --torch-backend=auto \
  "diffusers @ git+https://github.com/huggingface/diffusers.git" \
  accelerate \
  av \
  cosmos_guardrail \
  huggingface_hub \
  imageio \
  imageio-ffmpeg \
  torch \
  torchvision \
  transformers

然后就可以直接在 Python 中加载 Cosmos3OmniPipeline：

import torch
from diffusers import Cosmos3OmniPipeline
from diffusers.schedulers.scheduling_unipc_multistep import UniPCMultistepScheduler
from diffusers.utils import export_to_video

pipe = Cosmos3OmniPipeline.from_pretrained(
    "nvidia/Cosmos3-Nano",
    torch_dtype=torch.bfloat16,
    device_map="cuda",
)
pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config, flow_shift=10.0)

result = pipe(
    prompt="A mobile robot navigates a warehouse aisle and stops at a shelf.",
    negative_prompt="",
    image=None,
    num_frames=189,
    height=720,
    width=1280,
    fps=24,
    num_inference_steps=35,
    guidance_scale=6.0,
    enable_sound=False,
    add_resolution_template=False,
    add_duration_template=False,
    generator=torch.Generator(device="cuda").manual_seed(1234),
)

export_to_video(result.video, "cosmos3_t2v.mp4", fps=24, macro_block_size=1)

这段代码最迷人的地方在于，它不像在调一个普通媒体模型，更像是在召唤一个“会做世界片段的导演”。
你写下一句提示词：一个移动机器人穿过仓库货架并停在货架前。
然后模型接过这句话，开始把它变成一段具有时间流动感的视频。

这一刻，文字不再只是文字，而像是一张简短的分镜脚本。

用 vLLM-Omni 跑 Generator：让世界生成走向服务化

如果你想把 Cosmos 3 Generator 放进生产环境，README 推荐用 vLLM-Omni。
这条路径的关键意义在于：它让生成能力可以通过 OpenAI-compatible API 暴露出来，服务化、工程化、可集成。

Docker 启动示例：

docker run --runtime nvidia --gpus all \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  -v "$(pwd):/workspace" \
  -p 8000:8000 \
  --ipc=host \
  vllm/vllm-omni:cosmos3 \
  vllm serve nvidia/Cosmos3-Nano \
  --omni \
  --model-class-name Cosmos3OmniDiffusersPipeline \
  --allowed-local-media-path / \
  --port 8000 \
  --init-timeout 1800

服务器启动后，可以直接通过接口发起视频生成请求：

curl -sS -X POST http://localhost:8000/v1/videos/sync \
  --form-string "prompt=A small warehouse robot moves a blue box across a clean floor." \
  --form-string "negative_prompt=blurry, distorted, low quality" \
  --form-string "size=1280x720" \
  --form-string "num_frames=189" \
  --form-string "fps=24" \
  --form-string "num_inference_steps=35" \
  --form-string "guidance_scale=6.0" \
  --form-string "flow_shift=10.0" \
  --form-string "seed=0" \
  --form-string 'extra_params={"use_resolution_template":false,"use_duration_template":false,"guardrails":true}' \
  -o cosmos3_t2v_output.mp4

这就很像你在对一个“世界生成引擎”发起指令。
不是让它写文案，而是让它给你产出一段新的视频世界。

更重要的是，README 还说明了它不仅能做 text-to-video，还支持：

text-to-image
text-to-video
image-to-video
video-to-video
video with sound
action policy
inverse dynamics
forward dynamics

也就是说，这台服务不是一个单一按钮，而像是一间多功能工作室。
有时候它是剪辑师，有时候是导演，有时候是模拟器，有时候又像一个会预测动作后果的未来播放器。

用 vLLM 跑 Reasoner：它开始像一个真正可用的视觉推理服务

对于 Reasoner，README 给出的生产级推理路径是 vLLM。

安装：

uv venv --python 3.13 --seed --managed-python
source .venv/bin/activate
uv pip install --torch-backend=cu130 "vllm==0.21.0" \
  "vllm-cosmos3 @ git+https://github.com/NVIDIA/cosmos-framework.git#subdirectory=packages/vllm-cosmos3"

启动服务：

vllm serve nvidia/Cosmos3-Nano \
  --hf-overrides '{"architectures": ["Cosmos3ReasonerForConditionalGeneration"]}' \
  --async-scheduling \
  --allowed-local-media-path / \
  --port 8000

之后，就可以像调用 OpenAI 风格接口一样调用它。

例如在 Python 中：

import openai

image_url = (
    "https://github.com/nvidia-cosmos/cosmos-dependencies/raw/refs/heads/"
    "assets/cosmos3/inputs/vision/robot_153.jpg"
)

client = openai.OpenAI(api_key="EMPTY", base_url="http://localhost:8000/v1")

response = client.chat.completions.create(
    model=client.models.list().data[0].id,
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "image_url", "image_url": {"url": image_url}},
                {"type": "text", "text": "Caption the image in detail."},
            ],
        }
    ],
    max_tokens=4096,
    seed=0,
)

print(response.choices[0].message.content)

这种体验很有意思。
你给它一张图片和一句问题，它不是机械地做识别标签，而是像一个真的在“读图”的观察者，开始组织细致的描述与分析。

如果再进一步接上视频、时间定位、具身推理和物理常识任务，这个服务就会越来越像一个视觉场景理解中台，而不仅是一个图像问答小工具。

用 NIM 跑 Reasoner：最快走向生产的一条路

README 里还提供了一个非常务实的选择：NIM。

如果你不想自己折腾太多 vLLM/CUDA 细节，而是希望尽快得到一个生产级、OpenAI-compatible 的 Reasoner 端点，那么 NIM 是更直接的路径。

启动容器示例：

export CONTAINER_NAME="nvidia-cosmos3-reasoner"
export IMG_NAME="nvcr.io/nim/nvidia/cosmos3-reasoner:1.7.0"
export LOCAL_NIM_CACHE=~/.cache/nim
mkdir -p "$LOCAL_NIM_CACHE"

docker run -it --rm --name=$CONTAINER_NAME \
  --runtime=nvidia \
  --gpus all \
  --shm-size=32GB \
  -e NGC_API_KEY=$NGC_API_KEY \
  -e NIM_MODEL_SIZE=nano \
  -v "$LOCAL_NIM_CACHE:/opt/nim/.cache" \
  -u $(id -u) \
  -p 8000:8000 \
  $IMG_NAME

随后可直接通过 OpenAI 风格接口请求：

curl -X POST 'http://127.0.0.1:8000/v1/chat/completions' \
  -H 'Accept: application/json' \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "nvidia/cosmos3-nano-reasoner",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": [
        {"type": "image_url", "image_url": {"url": "https://github.com/nvidia-cosmos/cosmos-dependencies/raw/refs/heads/assets/cosmos3/inputs/vision/robot_153.jpg"}},
        {"type": "text", "text": "Describe what is happening in this image in one sentence."}
      ]}
    ],
    "max_tokens": 256,
    "stream": false
  }'

这条路径很像是 NVIDIA 在说：
如果你不是来研究底层，而是想把能力尽快装进系统里，那我也给你准备好了入口。

这是一种成熟平台才会有的姿态。
它知道不是每个开发者都想从源码和依赖地狱开始，所以它给了一个相对顺滑的着陆点。

Cookbook 与生态：Cosmos 不只是模型仓库，更像一套完整施工图

Cosmos 的一个很强的信号是，它不是“只有 README”。
整个仓库非常强调 cookbook、backend 选择、环境搭建、训练、评估、推理和生态协同。

共享环境配置里列出了多种后端：

Cosmos Framework
Diffusers
Transformers
vLLM
vLLM-Omni
NIM

这说明它不是让你只能按一种方式理解和使用模型，而是把研究、开发、部署三条线都接上了。

同时，README 里还列出了生态项目：

Cosmos Framework
端到端 Physical AI 框架，用于训练和服务 world models
Cosmos Curator
分布式 Physical AI 数据整理系统，覆盖处理、标注、过滤、去重
Cosmos Evaluator
自动化 Physical AI 评估系统，用于 world generation 和 world reasoning 输出评估

这一整套生态看上去就不再像一个单仓库，而像一支正在建设基础设施的队伍。

如果说单个模型像一名强力选手，那么 Cosmos 系列更像一座正在扩建的工业园区：

Framework 负责生产线
Curator 负责数据筛选和加工
Evaluator 负责质检
Cosmos 主仓库负责把世界模型能力组织起来
不同 serving 路径负责把能力送到应用侧

这也是为什么它特别有“平台感”。

它也很诚实：能力强，不代表没有限制

一个让我觉得很加分的地方，是 README 里专门写了 Limitations。

Cosmos 3 可能在以下情况下出现问题：

长时间输出
高分辨率输出
复杂物理场景
时间一致性问题
相机或物体运动不稳定
声画不精确对齐
复杂动作与长期物理约束处理不稳定

这段内容虽然不花哨，但很重要。
因为真正做工程的人都知道，一个系统值不值得信任，往往不只是看它最好的时候有多亮眼，更看它是否诚实地告诉你自己在哪些地方还会失手。

Cosmos 没把自己包装成无所不能的神，而更像一个有雄心也有自知之明的探索者。
它在说：我已经能做很多事，但我还在继续成长，尤其是在长期、高复杂度、强物理一致性的任务上，我仍然有进步空间。

这种坦诚，反而让它更像一个可靠的平台。

CUDA、环境和工程现实：宇宙很宏大，落地也很具体

Cosmos 的 README 和 cookbook 里，还有很多非常现实的工程提醒，比如：

推荐 CUDA 13 或 12.8
系统 CUDA 和 PyTorch CUDA major version 要匹配
Linux 环境
可能遇到 torch.cuda.is_available() 为 false
可能缺失 libxcb.so.1
uv 需要足够新的版本
vLLM 和 torch backend 要成对匹配
大模型初始化时间可能很长，要设置 --init-timeout 1800

这些内容像是在提醒开发者：
欢迎来到真实世界。这里只有强大模型还不够，驱动、容器、缓存、依赖、GPU 拓扑、端口配置、权限访问，都会在门口排队迎接你。

但正因为 README 把这些问题写得很清楚，所以 Cosmos 不是那种“论文发布当天看起来无比美丽，真上手时一句文档都没有”的项目。
它知道真正的开发者会被什么问题绊住，于是提前把坑位标出来。这种文档气质，本身就很工程。

它适合谁

如果你问我，Cosmos 最适合什么样的人，我会说，它特别适合下面这些开发者和团队：

1. 想做机器人与具身智能的人

如果你关心的是：

动作建模
策略学习
未来状态推演
世界理解
机器人训练

那么 Cosmos 几乎是直接贴着你的需求写的。

2. 做自动驾驶与复杂场景理解的人

它的时间推理、物理合理性判断、动作链路和视频理解能力，天然与自动驾驶、车端决策、交通场景分析高度相关。

3. 需要合成数据与仿真的团队

真实数据昂贵、标注困难、长尾复杂，而 world generation 与 world simulation 正是合成数据和预训练的重要方向。

4. 既想研究，也想部署的人

Cosmos 最特别的一点，是它不是单纯偏研究，也不是只偏部署。
它同时提供：

Python-first 研究入口
OpenAI-compatible serving 路线
容器化部署方案
Framework 训练与微调能力
Cookbook 实例和工程文档

所以它很适合那些不想把研究和工程完全割裂开的团队。

为什么这个项目会让人有“未来感”

Cosmos 最打动人的地方，不是它有多大，而是它试图回答的问题本身就很大。

很多模型在扩展“语言的边界”，而 Cosmos 更像在扩展“机器与现实交互的边界”。

它想让机器：

看见世界
理解世界
描述世界
推理世界
生成世界
预测世界
在世界中行动

这是一条非常宏大的路线。
它让 AI 从“知识处理者”慢慢靠近“现实参与者”。

如果文本模型像是坐在书房里长大的智者，Cosmos 则更像终于走出书房，开始去工厂、仓库、道路、摄像头和机器人现场认识世界的学徒。它会跌跌撞撞，会犯错，会有局限，但它已经不满足于只在纸面上思考问题了。

它想真正进入这个世界。

一个很值得记住的判断

NVIDIA Cosmos 并不是一个只为展示模型能力而存在的仓库。
从 README 的写法、能力划分、后端路线、部署方式、训练生态，到对限制和环境问题的说明，它都在传达同一件事：

这不是一个“会生成”的模型项目，而是一个认真朝着 Physical AI 基础平台迈进的工程体系。

你可以把它看作一扇窗。

透过这扇窗，我们能看到未来的 AI 可能不再只是“写得好、说得顺、画得像”，而是开始真正理解空间、时间、动作、因果和物理规律，开始在模拟与现实之间搭桥，开始为机器人、自动驾驶和智能基础设施提供新的认知底座。

Cosmos 这个名字取得也很妙。
宇宙并不是因为巨大才迷人，而是因为它同时承载了秩序、变化、运动和未知。
而 NVIDIA Cosmos 所做的事情，正像是在给机器建造一个可以学习这些东西的小型宇宙。

在这个宇宙里，模型不只是回答，它开始观察。
不只是观察，它开始推演。
不只是推演，它开始生成。
不只是生成，它开始尝试理解行动与结果之间那条最重要的线。

也许，这就是 Physical AI 最令人着迷的地方：
当机器不再只会处理符号，而开始认真面对真实世界时，智能才真正显得立体起来。

参考的快速启动命令汇总

如果你想快速感受一下 Cosmos 的几个典型入口，可以从下面这些命令开始。

Hugging Face 认证

1	uvx hf@latest auth login

Diffusers 方式安装 Generator 依赖

uv venv --python 3.13 --seed --managed-python
source .venv/bin/activate
uv pip install --torch-backend=auto \
  "diffusers @ git+https://github.com/huggingface/diffusers.git" \
  accelerate \
  av \
  cosmos_guardrail \
  huggingface_hub \
  imageio \
  imageio-ffmpeg \
  torch \
  torchvision \
  transformers

vLLM 启动 Reasoner 服务

vllm serve nvidia/Cosmos3-Nano \
  --hf-overrides '{"architectures": ["Cosmos3ReasonerForConditionalGeneration"]}' \
  --async-scheduling \
  --allowed-local-media-path / \
  --port 8000

vLLM-Omni 启动 Generator 服务

docker run --runtime nvidia --gpus all \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  -v "$(pwd):/workspace" \
  -p 8000:8000 \
  --ipc=host \
  vllm/vllm-omni:cosmos3 \
  vllm serve nvidia/Cosmos3-Nano \
  --omni \
  --model-class-name Cosmos3OmniDiffusersPipeline \
  --allowed-local-media-path / \
  --port 8000 \
  --init-timeout 1800

检查服务模型是否正常加载

1	curl http://localhost:8000/v1/models

结尾

如果你关注的是下一代 AI 会如何真正进入现实世界，那么 NVIDIA Cosmos 是一个很值得认真阅读和上手的项目。

它不像一些项目那样只在单点能力上炫技，而是试图把世界模型、推理、生成、动作、部署、训练、评估这些关键环节串起来，慢慢构成 Physical AI 的基础设施。

它像一个正在扩张中的宇宙。
里面有观察者，有导演，有推理者，有模拟器，也有训练场。
而开发者要做的，不只是围观它发光，而是走进去，拿它来搭建属于自己的世界。

当机器终于不再只会复述世界，而开始理解世界、想象世界、预演世界，Cosmos 的故事，可能才刚刚开始。

相关推荐

2026-02-18

rowboat

节约时间，也就是使一个人的有限的生命，更加有效，而也就等于延长了人的寿命。——鲁迅 Rowboat：把你的工作变成可行动的知识图谱的开源 AI 同事当我们谈论“AI 办公”，大多数产品停留在“问答”和“摘要”层面，很难真正融入你的日常工作流。Rowboat 的思路更激进也更务实：它直接接入你的邮件与会议记录，把每天发生的沟通与决策沉淀成一个长期、可维护的知识图谱；然后用这套“活”的上下文去帮你完成任务，像一个真正的“同事”一样配合你推进工作，而且所有数据都在你的本机，私密可控。项目地址：rowboatlabs/rowboat官网与下载页：Rowboat Labs | Download | Latest Release项目简介：Open-source AI coworker, with memory开源许可：Apache License 2.0 为什么是 Rowboat？Rowboat 的直接目标是让 AI 真正成为你的“同事”：它连接你的邮件与会议笔记，持续构建并维护一套长期记忆的知识图谱它用这些真实上下文去完成任务，而不仅是“聊聊天” 它在你...

2026-02-05

ChatDev

懂得生命真谛的人，可以使短促的生命延长。——西塞罗 ChatDev 2.0（DevAll）：零代码编排多智能体，开发“一切”的平台当多智能体协作从“帮我写个模块”走向“帮我完成一条完整的业务链路”，你需要的就不仅是一个大模型，而是一套能把角色、工具、流程与回放串成体系的“编排平台”。OpenBMB 的 ChatDev 2.0（代号 DevAll）正是这样一款零代码的多智能体协作平台：你无需编程，只用可视化工作流与少量配置，就能快速定义角色、串联工具、执行任务，覆盖从数据可视化、3D 生成，到游戏开发、深度研究、教学视频等丰富场景。仓库：OpenBMB/ChatDev 简述：ChatDev 2.0: Dev All through LLM-powered Multi-Agent Collaboration 许可：Apache 2.0 技术栈：后端 FastAPI + Python（uv 管理），前端 Vite + Vue 3，工作流与运行时模块化组织本文根据项目 README 与文档梳理 ChatDev 2.0 的定位、功能与上手方法，并提供可直接复制的命令与...

2026-07-01

agency-agents

我们全都要从前辈和同辈学习到一些东西。就连最大的天才，如果想单凭他所特有的内在自我去对付一切，他也决不会有多大成就。——歌德 https://github.com/msitarzewski/agency-agents 当一台 Mac 学会倾听之后，FluidVoice 想把说话这件事变回一件自然的事在很多人的电脑生活里，键盘像是一位全年无休的老员工。写邮件靠它，记笔记靠它，改文案靠它，甚至一个灵感刚冒头，也得先敲几下，才能把念头从脑海里捞出来。可语言本来不是这样出生的。人先会说话，才会学会打字。声音本该比键盘更接近思考，也更接近表达最原始的速度。 FluidVoice 正是一个试图把这份自然感重新还给 Mac 的项目。它不是一个把语音简单转成文字的普通工具，而更像是一位住在 macOS 里的听写搭档：你一开口，它就开始认真工作；你停顿，它也不慌不忙地把意思接住；你想写、想改、想控制电脑，它都愿意替你上前一步。更重要的是，它把“本地优先”这件事放在了很靠前的位置：你的声音、音频和转写文本，默认不会离开你的设备，除非你明确选择接入云端 AI 服务。如果要用一句话概括它，那大概...

2026-05-05

daily_stock_analysis

一年之计在于春，一日之计在于晨。——萧绎 https://github.com/ZhuLinsen/daily_stock_analysis 📈《股票智能分析系统》：让自选股每天“自己开口汇报”，把决策仪表盘递到你手上如果你的自选股是一群性格迥异的“打工人”，那每天收盘后，它们最想做的事大概不是装死，而是排队来你面前汇报： “我今天情绪有点飘，主力在撤退，老板你得小心。” “我这边基本面很稳，但新闻有点刺耳，别冲动。” “我站上关键均线了，量能也配合，给我一次证明自己的机会。” ZhuLinsen/daily_stock_analysis 就是专门干这件事的——它是一套基于 AI 大模型的 A股/港股/美股自选股智能分析系统，每天自动分析并把「决策仪表盘」推送到你常用的通知渠道：企业微信/飞书/Telegram/Discord/Slack/邮箱。你不必守在屏幕前盯盘，它会按时“打卡”，把你关心的股票逐只点名，把风险、机会、买卖点位、操作清单都整理好递上来。仓库的自我介绍也很直接： ...

2026-04-08

gallery

敏而好学，不耻下问。——孔子 Google AI Edge Gallery：把大模型请进手机里，让它在离线的掌心里开口说话有些应用天生就像展馆的馆长：灯一亮，门一开，来的人不用懂太多，就能直接上手体验未来。 Google AI Edge Gallery 就是这样的存在——它站在手机端的入口处，礼貌、骄傲、又有点迫不及待地说：来，别光听人讲生成式 AI。把它装进你的口袋里，亲手跑一遍。它的身份很明确：仓库描述（description）：一个画廊，展示 on-device ML/GenAI 用例，让人们可以在本地尝试并使用模型。它更愿意这样自我介绍（README 的主旨句）：Explore, Experience, and Evaluate the Future of On-Device Generative AI with Google AI Edge. 它不是论文、不是 demo 视频、不是“云端调用一次就算用过”。它是一座“随身画廊”——用手机硬件把推理跑起来，把体验交到你手里。它想带你看的第一幅主展作品：在手机上跑开源 LLMAI Edge ...

2026-06-28

openpilot

教学必须从学习者已有的经验开始。——杜威 https://github.com/commaai/openpilot 当一辆车开始学会思考：走进 openpilot 的机器人驾驶世界如果一套软件也有性格，那么 openpilot 大概是那种不爱空谈、喜欢直接上路见真章的工程师。它站在仓库首页，开门见山地介绍自己：openpilot is an operating system for robotics. Currently, it upgrades the driver assistance system on 300+ supported cars.这句描述很短，却像一把扳手，拧开了整个项目最核心的气质——它不是一个小打小闹的汽车脚本，也不是一个只停留在实验室里的概念演示，而是一套面向机器人世界的操作系统，并且已经把能力落到了 300 多款支持车型的辅助驾驶系统升级上。 openpilot 这个名字听起来像“开放领航员”，而它做的事情也确实像一位坐在副驾上、神情专注的数字搭档：它不替你成为驾驶员，却努力把车的感知、判断与辅助控制，训练得更聪明、更稳定、更像一位可靠的协作者。...

阿超

我的名字叫阿超年龄25岁家在北京市职业是软件开发每天最晚也会在八点前回家不抽烟酒浅尝辄止晚上十二点上床保证睡足八个小时睡前写一篇博客再做二十分钟俯卧撑暖身然后再睡觉基本能熟睡到天亮像婴儿一样不留下任何疲劳和压力就这样迎来第二天的早晨健康检查结果也显示我很正常我想说明我是一个不论何时都追求内心平稳的人不拘泥于胜负不纠结于烦恼不树立使我夜不能寐的敌人这就是我在这社会的生活态度