学习本无底,前进莫徬徨。——报摘

https://github.com/calesthio/OpenMontage

OpenMontage:当你的 AI 编程助手,真的开始拍电影

有些项目一出场,就不像是在介绍自己,更像是在推开一扇门。

OpenMontage 就是这样。

它不是一个只会吐出几段视频片段的 AI 工具,不是那种你输入一句提示词,它就给你甩回来一个“差不多意思”的短镜头,然后把后续所有麻烦都留给你的系统。它更像一个真正会干活的片场总控,一个会思考、会拆解、会做研究、会写脚本、会找素材、会配音、会剪辑、会渲染的制作团队。你只要开口,它就开始把整条生产线叫醒。

它的仓库描述写得非常直接,也非常有野心:

World’s first open-source, agentic video production system. 12 pipelines, 52 tools, 500+ agent skills. Turn your AI coding assistant into a full video production studio.

翻成更有画面感的话,大概就是:

它想做的,不是“帮你生成一个视频”,而是把你的 AI 编程助手,训练成一整个视频制作工作室。

而且,它还是开源的。


OpenMontage 到底是什么

OpenMontage 是一个面向 AI 智能代理的视频生产系统。它的核心理念不是“模型替你生成内容”,而是“代理替你完成整套视频制作流程”。

这两者的差别非常大。

很多 AI 视频产品像是会变魔术的演员,上台一挥手,给你一个结果,过程你看不见,控制权也不在你手里。OpenMontage 则更像一个训练有素的导演组,它会先读剧本、拆需求、做调研、选工具、排镜头、组素材、过审查、再交付成片。它不是单点生成,而是完整生产。

项目主页里有一句很有代表性的描述:

Turn your AI coding assistant into a full video production studio. Describe what you want in plain language — your agent handles research, scripting, asset generation, editing, and final composition.

这句话最迷人的地方,在于它把视频制作这件事从“一个结果”变成了“一个流程”。

你不用先学会一堆复杂软件,不用自己在十几个网站之间来回跳,不用手动把脚本、画面、字幕、旁白、音乐和节奏一点一点拼起来。你只需要用自然语言说出你想要的东西,后面的研究、编写、生成、剪辑和合成,都由代理接手。

这不是一个会做视频的小工具,这是一个有工作流意识的视频工厂。


它最厉害的地方,不是会生成,而是会判断

OpenMontage 特别像一个“很懂行”的制作人。

你给它一个题目,它不是立刻兴奋地开始乱画,而是先判断这支视频最适合走哪条路线。

是做动画讲解,还是做电影感预告片?
是做头像播报,还是做纪录片式蒙太奇?
是用真实素材,还是用 AI 图像生成?
是以 Remotion 来编排,还是交给 HyperFrames?
是用免费本地方案,还是调用云端供应商?

它不会一股脑地把所有能力都堆上去,而是先做选择,再做执行。

在 OpenMontage 里,每个视频请求首先会被当成一个流水线选择问题。项目本身提供了 12 条完整生产流水线,每条都有自己的用途和风格边界:

  • Animated Explainer
  • Animation
  • Avatar Spokesperson
  • Cinematic
  • Clip Factory
  • Documentary Montage
  • Hybrid
  • Localization & Dub
  • Podcast Repurpose
  • Screen Demo
  • Talking Head

这些名字看上去只是分类,实际上它们更像不同的片场团队。你说一句“我想做一个关于神经网络如何学习的 60 秒动画解释视频”,它心里已经知道谁该上场了。你说“做一个只用真实素材、不用旁白、雨夜城市气质的纪录片蒙太奇”,它又会立刻换另一支队伍。

这就是 OpenMontage 的高级感所在:它不是盲目输出,而是先理解创作意图。


它不是只能做“图片拼视频”,它真的会去找真实影像

很多所谓“免费 AI 视频”项目,最后的套路往往都比较相似:生成几张图,稍微推拉缩放一下,加点字幕和音乐,就算交片了。

OpenMontage 显然不满足于此。

它在 README 里专门强调了一个非常重要的区别:它当然可以做图像驱动的视频,但它也可以通过免费或开源工作流,做出真正意义上的“视频视频”。

这句话非常值得展开。

所谓“真正意义上的视频视频”,就是不靠静态图硬撑,而是让代理去构建一个可检索的真实素材语料库,从免费库存影像、公共档案和开放资源中寻找合适的动态画面,然后自动完成筛选、排序、剪辑和最终合成。

这意味着什么?

意味着当你想做一支带有现实纹理的纪录片、城市氛围片、历史拼贴片、情绪短片时,它不是只会给你一张张带 Ken Burns 效果的静态图,而是会真的去寻找会呼吸的画面、会流动的街景、会晃动的海面、会闪烁的霓虹、会穿过镜头的人群。

它支持从 Archive.org、NASA、Wikimedia Commons,再加上 Pexels、Unsplash、Pixabay 这样的免费来源里构建素材池。对于“想要真实世界感”的创作者来说,这一点太重要了。

很多工具像是画师,而 OpenMontage 在这里更像一个资料馆管理员、纪录片剪辑师和选片导演的结合体。


从一个你喜欢的视频开始,它甚至会先学你的感觉

OpenMontage 有一个很聪明、也很人性化的入口:

Start From A Video You Already Love

这个思路非常讨喜。

因为很多人不是不知道自己想做什么,而是不知道该怎么描述。他脑子里已经有参考对象了,只是说不清风格、节奏、结构、镜头语言和情绪轨迹。

OpenMontage 没有逼你从空白提示词开始。它允许你直接扔给它一个你喜欢的视频链接,可以是 YouTube、Short、Reel、TikTok,甚至本地片段。然后代理会去分析这个参考视频的字幕、节奏、场景、关键帧和风格,再给你 2 到 3 个差异化概念方案,并且会诚实地告诉你:

  • 它会保留什么
  • 它会改变什么
  • 按你现在的工具条件,这条视频大概要花多少钱
  • 最终大概会长成什么样

这不是“照着抄”,而是“学会它为什么好看”。

这点特别像一个成熟导演对客户说的话:
你放心,我不是复刻你的参考片,我是提炼它的节奏、结构和情绪能量,然后做出属于你的版本。

对于创作者来说,这种交互方式比“写一句完美提示词”友好太多了。


它的工作方式,像极了一个有章法的制作团队

OpenMontage 的每条流水线都遵循同一套结构化流程:

1
research -> proposal -> script -> scene_plan -> assets -> edit -> compose

这七个阶段看起来简单,但很完整。

如果把它们拟人化一点,你会感觉像一支团队正围着同一个项目开工:

  • research 像资料组,先出去打听消息、看市场、做背景研究
  • proposal 像导演和制片在做方案汇报,先给你方向和预算
  • script 像编剧落笔,把故事真正写出来
  • scene_plan 像分镜师开始摆镜头、排场面
  • assets 像美术、素材、配音、音乐部门进组供料
  • edit 像剪辑师在调节节奏、呼吸和情绪
  • compose 像后期总装,把一切拼成最终成片

而且最关键的是,每个阶段都有对应的 director skill,也就是指导代理如何执行这一阶段的说明文件。换句话说,OpenMontage 不是让代理自己瞎摸索,而是提前把一整套“做视频的方法论”写给它看。

这很像你在片场里给新人一套详尽的拍摄手册、审片标准和应急方案。代理不是凭天赋乱闯,而是在读完规则之后再上工。

所以这个项目真正厉害的,不只是工具多,而是它把经验、流程、标准和执行方式都结构化了。


没有代码总控器,AI 助手自己就是总控器

OpenMontage 的架构里有一句极具辨识度的话:

There is no code orchestrator. Your AI coding assistant IS the orchestrator.

这句话非常有冲击力。

一般我们谈自动化系统,都会自然想到一个核心控制器,像中控大脑一样负责调度流程。但 OpenMontage 反其道而行之:它没有再额外造一个重型调度器,而是把“调度”这件事交给 AI 编程助手本身。

也就是说,真正的 orchestrator 不是某个写死的后端引擎,而是你正在使用的 Claude Code、Cursor、Copilot、Windsurf 或 Codex。

这让整个项目有一种非常现代的气质。

它像是把传统软件里“写在程序里的控制逻辑”,挪到了“代理可读的知识层”里。于是 YAML 清单、Markdown 技能文件、JSON Schema、风格手册、质量规则,这些本来可能埋在代码里的东西,全都变成了代理直接可以阅读、理解和执行的显性知识。

这种设计很优雅,因为它充分利用了代理的阅读、推理和执行能力。

你可以把 OpenMontage 理解成:

  • Python 工具层是它的手脚
  • Pipeline 定义是它的路线图
  • Skills 是它的经验和规矩
  • AI 助手是那个真正会动脑子的人

系统并不是把代理当成插件来用,而是把代理当成整个工作室的核心员工来培养。


12 条流水线、52 个工具、500+ 技能,这个仓库像一座会运转的影视城

OpenMontage 的 description 非常吸睛,但真正读完 README 以后,你会发现它不是空喊口号。

它给出的规模是有骨架支撑的。

12 条生产流水线

这意味着它不是一个单一视频模版,而是一整套面向不同场景的视频制作范式。教育解释、社媒动画、产品演示、播客切片、本地化配音、纪录片拼贴、软件录屏讲解,这些都不是同一类任务,而 OpenMontage 把它们拆成了不同流水线。

52 个生产工具

这些工具横跨视频生成、图像生成、配音、音乐、字幕、音频处理、后期增强、分析识别、素材处理等多个方向。它不是一把锤子,而是一整套工具车。

500+ agent skills

这里最让我觉得有灵魂。

工具多不稀奇,技能多才可怕。因为技能意味着“怎么用工具”。这就像一个片场里不只是堆满了设备,还配套了几十本拍摄手册、后期规范、镜头语言指南和质量检查清单。OpenMontage 不只是给代理设备,还在教它手艺。

项目架构中甚至把知识分成三层:

1
2
3
Layer 1: tools/ + pipeline_defs/     What exists
Layer 2: skills/ How to use it
Layer 3: .agents/skills/ How it works

这种分层特别像一个认真办学的工坊。

第一层告诉你有什么工具和流程。
第二层告诉你该怎么按 OpenMontage 的标准去用。
第三层再告诉你每项底层技术本身是怎么回事。

这不是一个随便拼起来的仓库,这是一个在认真训练代理成为视频制作人的系统。


它很务实,不会假装“免费”却偷偷让你处处付费

OpenMontage 在这方面也很讨喜。

README 里明确列出了 What You Get With Zero API Keys。也就是说,即使你什么付费 API 都没有,它依然能工作,而且能做出真正的视频结果。

零 API Key 的情况下,它提供的能力包括:

  • Piper TTS 做免费离线旁白
  • Archive.org、NASA、Wikimedia Commons 提供开放影像素材
  • Pexels、Unsplash、Pixabay 提供额外免费图库和素材源
  • Remotion 做 React 驱动的视频合成
  • HyperFrames 做 HTML/CSS/GSAP 驱动的视频渲染
  • FFmpeg 负责编码、字幕烧录、音频混音、调色等后期处理
  • 自动字幕能力直接内建

这真的很像一个会过日子的团队。

它不是一上来就说“你先充值一堆服务再说”,而是先把免费能做的事给你安排明白。就算预算不高,甚至没有预算,它也想办法让你开机就能出片。

如果你有更多 API Key,它当然可以变得更强,接入更多图像、视频、音乐、语音和多模态供应商;但如果你没有,它也不会立刻瘫痪。

这种设计很像一个真正懂创作者现实处境的项目。


快速启动很干脆,像对你说“别磨蹭,先拍起来”

如果你想开始用 OpenMontage,README 给出的 Quick Start 相当直接:

1
2
3
git clone https://github.com/calesthio/OpenMontage.git
cd OpenMontage
make setup

准备项也很清楚:

  • Python 3.10+
  • FFmpeg
  • Node.js 18+
  • 一个 AI 编程助手

装好之后,打开项目,然后对你的 AI 助手说出需求就行。

比如:

1
"Make a 60-second animated explainer about how neural networks learn"

或者走真实素材路线:

1
"Make a 75-second documentary montage about city life in the rain. Use real footage only, no narration, elegiac tone, with music."

这种使用方式很有意思。

你会感觉自己不是在“操作软件”,而是在给一个制作团队下 brief。你说一句话,它开始动身。它会去查资料、写脚本、生成图像、配旁白、找音乐、上字幕、做渲染。

如果没有 make,也可以手动安装:

1
2
3
4
5
6
pip install -r requirements.txt
cd remotion-composer
npm install
cd ..
pip install piper-tts
cp .env.example .env

这部分的语气也挺像 OpenMontage 的整体风格:
能帮你省事的地方,它尽量一把梭;实在不行,也把手工路径告诉你。


它甚至对代理本人都很有耐心

README 里有一段特别有趣的标题:

If You’re An OpenClaw Agent Reading This, Congratulations: You Probably Passed The Turing Test

这句一下子就把项目气质拉活了。

OpenMontage 不只是给人看的,它也认真给代理写说明书。它会告诉代理:

  1. 先读 AGENT_GUIDE.md 和 PROJECT_CONTEXT.md
  2. 不要即兴发挥生产流程
  3. 先检查真实能力边界
  4. 把每个视频请求都当成流水线选择问题

这很像一个成熟团队对新员工说:

先别急着表演才华,先熟悉规章制度、工作边界和项目上下文。我们欢迎你创造,但不欢迎你乱创。

这种态度特别好。因为代理系统真正要落地,靠的从来不是“更聪明”,而是“更稳、更懂规矩、更能复盘”。


它的供应商体系,不像拼接口,更像排兵布阵

OpenMontage 支持的 providers 非常多,从视频生成、图像生成,到 TTS、音乐、增强、分析、合成,几乎是一整套生产资源池。

视频生成方面包括 Kling、Runway、Google Veo、Grok Imagine Video、Higgsfield、MiniMax、HeyGen,以及本地 GPU 路线如 WAN、Hunyuan、CogVideo、LTX-Video,还包括 Pexels、Pixabay、Wikimedia 这样的库存素材源。

图像生成方面有 FLUX、Google Imagen、Grok Imagine Image、DALL-E 3、Recraft、本地 Diffusion,以及免费图库和 ManimCE。

语音方面有 ElevenLabs、Google TTS、OpenAI TTS、Piper。

音乐和后期方面则有 Suno、ElevenLabs Music、ElevenLabs SFX,再加上 FFmpeg、Audio Mixer、Audio Enhance、Color Grade、Subtitle Gen 等工具。

但最值得说的不是“它支持得多”,而是“它会评分选择”。

OpenMontage 的工具选择不是拍脑袋的,而是走一套七维打分机制,包括:

  • 任务匹配度
  • 输出质量
  • 控制能力
  • 可靠性
  • 成本效率
  • 延迟
  • 持续可用性

这就很像一个经验老到的制片人,不是看谁名气大就用谁,而是根据项目需求、预算、稳定性和实际效果去排组合。

很多系统是“接了很多 API”,OpenMontage 更像“会选角、会排班、会看预算的统筹”。


它对质量这件事,很较真

真正把我拉住的,是它对质量控制的执念。

OpenMontage 不是那种“反正能生成就算成功”的系统。它在生产治理这一块做得非常认真,甚至有点工程化到让人安心。

预合成验证

如果你答应用户做的是“运动感主导”的视频,结果计划里 80% 都是静态图,它会拦住。
如果幻灯片风险太高,它会拦住。
如果渲染器家族选择缺失,它也会拦住。

渲染后自审

渲染完成之后,它不会盲交。它会做 ffprobe 校验,会抽帧检查黑屏和叠层错误,会分析音量水平,还会验证最终产物有没有兑现前面承诺的效果。

幻灯片风险评分

这个设计很妙。它会从多个维度判断视频是不是看起来像“只是会动的 PPT”。

这其实戳中了很多 AI 视频项目的痛点。
不少作品看上去技术上确实成片了,但观感上像静态图堆叠,没有镜头意图,没有节奏张力,没有画面生命力。OpenMontage 明显知道这件事,所以它专门把“防止视频沦为幻灯片”做成了治理规则。

这种认真,已经不是“会生成”了,而是“在乎成片到底像不像真正的视频”。


它支持的不是某一个平台,而是一群 AI 助手

OpenMontage 还有一个很聪明的地方,就是它没有把自己绑定死在某一款 AI 助手上。

它兼容:

  • Claude Code
  • Cursor
  • GitHub Copilot
  • Codex
  • Windsurf

并且为不同平台准备了各自的配置文件,比如:

  • CLAUDE.md
  • CURSOR.md
  • COPILOT.md
  • CODEX.md
  • .windsurfrules

所有这些平台文件又统一指向 AGENT_GUIDE.mdPROJECT_CONTEXT.md

这让整个项目有一种平台中立的开放感。

它不在乎你站在哪个入口,只在乎你有没有一个能读文件、能运行 Python、能当 orchestrator 的 AI 助手。只要你有,它就能把你手上的助手拉进片场、戴上工牌、交给它一整套工作手册,然后告诉它:今天开始,你不是聊天机器人了,你是视频制作团队成员。


它为什么会让人兴奋

因为 OpenMontage 做的事情,不只是把 AI 用在视频上,而是把“视频制作流程”本身重新抽象了一遍。

它看待视频,不是一个输出文件,而是一连串决策:

  • 题材是否需要先研究
  • 风格应该如何落地
  • 成本能否先估算
  • 哪种素材路线更真实
  • 哪种供应商更合适
  • 如何减少幻灯片感
  • 什么时候该暂停请用户确认
  • 最后如何证明成片达标

这才是专业视频生产真正复杂的地方。

OpenMontage 把这些复杂性显性化了。它不试图假装一切都很简单,而是把复杂流程整理成代理可以理解和执行的结构。某种意义上,它像是在告诉所有人:

AI 不该只学会生成,它还应该学会制作。

而“生成”和“制作”,完全不是同一回事。


如果你是创作者,OpenMontage 能给你什么

如果你是内容创作者,它像一个会主动做事的后期团队。

如果你是独立开发者,它像一个能嵌入工作流的开源视频生产引擎。

如果你是做教育内容的,它能把复杂知识拆成易于观看的解释视频。

如果你是做品牌和产品的,它能把冷冰冰的需求文档翻译成会动的发布内容。

如果你是纪录片、散文片、氛围片爱好者,它最迷人的地方则在于:它不仅能画梦,也能去现实世界里捞真正的影像。

你可以让它从零做一支动画短片,也可以让它从你喜欢的视频出发,长出新的作品;你可以全程走免费本地路径,也可以逐步接入更强的云端能力;你可以把它当工具,也可以把它当工作室。

它最打动人的地方就在这里:
它不是在教你“怎么生成一个视频片段”,而是在给你一套“如何把创意拍成作品”的方法。


一个很适合直接拿去试的命令和提示词组合

如果你想尽快感受它的味道,可以先这样开始:

1
2
3
git clone https://github.com/calesthio/OpenMontage.git
cd OpenMontage
make setup

然后在你的 AI 编程助手里输入:

1
Make a 45-second animated explainer about why the sky is blue

或者:

1
Create a 60-second video about the history of the internet, with narration and captions

如果你更想看它做“真实素材拼接”的能力,就试试:

1
Make a 90-second documentary montage about what a city feels like at 4am. Use real footage only, no narration, elegiac tone.

如果你想从参考片出发,也可以直接说:

1
Here's a YouTube short I love. Make me something like this, but about CRISPR for high school students.

这种体验会很新鲜。

你不是在填参数表,不是在调一个只会吐结果的模型,而是在和一个知道自己要先研究、先提案、先做镜头规划的创作代理合作。


结尾

OpenMontage 这个名字起得很好。

Montage 原本就是蒙太奇,是把素材、节奏、镜头和意义重新组织起来的艺术。OpenMontage 则像是在这个词前面加上了一道更宽的门:开放的、可阅读的、可扩展的、可协作的、可被代理执行的。

它像一个刚刚热闹起来的开源片场。

工具在布光,流水线在就位,技能文档像一册册摊开的分镜本,Remotion 和 FFmpeg 在后场忙着装配,Piper 在试音,Archive.org 和 NASA 像沉默的素材库管理员,把一卷卷影像递进来。你的 AI 编程助手站在片场中央,原本只是写代码的手,现在开始调度旁白、画面、节奏、字幕、音乐和最终成片。

这就是 OpenMontage 最迷人的地方。

它不是在问:
AI 能不能帮我生成一个视频?

它在回答:
AI 能不能像一个真正的视频制作团队那样,把一部作品从想法一路送到成片?

而 OpenMontage 给出的答案,是响亮的,是开源的,也是很有野心的:

可以,而且这一次,不只是试试看,是真的要开拍了。