在世界上我们只活一次,所以应该爱惜光阴。必须过真实的生活,过有价值的生活。——巴甫洛夫

Project AIRI:把“数字生命 / AI VTuber”装进你的设备里(Web / 桌面 / 移动端),还能语音聊天、打 Minecraft、玩 Factorio(基于 README + Repo Description)

仓库:https://github.com/moeru-ai/airi
文档站:https://airi.moeru.ai/docs/
在线体验:https://airi.moeru.ai

Repo description(原文):

💖🧸 Self hosted, you-owned Grok Companion, a container of souls of waifu, cyber livings to bring them into our worlds, wishing to achieve Neuro-sama’s altitude. Capable of realtime voice chat, Minecraft, Factorio playing. Web / macOS / Windows supported.

README 的一句话定位(原文):

Re-creating Neuro-sama, a soul container of AI waifu / virtual characters to bring them into our world.
并明确写到:
Heavily inspired by Neuro-sama


0. AIRI 到底是什么?它想实现什么样的“未来感”?

很多 AI 陪伴类产品做到最后,都会落到一个问题上:

  • 聊天很容易(LLM 已经足够强)
  • 但**“一起生活”很难**:语音对话、长时间陪伴、看得见的形象、游戏互动、跨设备、可扩展、还能自托管……

AIRI 在 README 里用很“中二但准确”的表达把目标说出来了:
它要做的是 cyber living being / digital companion / cyber waifu——你可以把它理解成“把虚拟角色带进现实世界的一套容器(soul container)”。

并且它不满足于“能聊”:

But, what about the abilities to play games? And see what you are coding at? Chatting while playing games, watching videos, and is capable of doing many other things.

所以 AIRI 的野心更接近一种“可行动的数字生命”:
能实时语音聊天、能在 Discord/Telegram 里出现、还能去玩 Minecraft / Factorio。


1. 它和常见 AI VTuber 项目有什么不同?README 给出的答案是:从第一天就押注 Web 技术栈

AIRI 的 README 有一段很清晰的“差异化声明”:

Unlike the other AI driven VTuber open source projects, アイリ was built with support of many Web technologies such as WebGPU, WebAudio, Web Workers, WebAssembly, WebSocket, etc. from the first day.

也就是说,它不是“Web 版只是一个 UI”,而是把 Web 作为一等公民(甚至是核心运行时之一)来设计的。

但它也提前回应了一个常见担忧:性能会不会不行?

README 的意思是:

  • 浏览器版更多是展示“浏览器和 webview 能 push 到什么程度”
  • 但不会完全依赖 Web:桌面版默认可以使用 NVIDIA CUDA / Apple Metal(README 里也提到 thanks to HuggingFace & beloved candle project)
  • 取舍是:部分功能用 Web 体系做图形/布局/动画,以及 WIP 的插件系统;需要 TCP、Discord 语音、联机游戏这类“非 Web 强项”的能力,则留给桌面/扩展能力来打开

最终它得到一个很诱人的特性(README 原文强调):

アイリ is capable of running on modern browsers and devices and even on mobile devices (already done with PWA support).


2. “当前进度”一眼看懂:Brain / Ears / Mouth / Body 的模块化人格

AIRI 的 README 用一个很形象的方式列出能力:把系统拆成四个拟人化模块。

2.1 Brain(大脑):能玩游戏、能在社交平台聊天

  • Play Minecraft

  • Play Factorio(WIP,但有 PoC/demo,并指向 moeru-ai/airi-factorio

  • Chat in Telegram

  • Chat in Discord

  • Memory(记忆):

    • 纯浏览器数据库支持:DuckDB WASM | pglite
    • Memory Alaya(WIP)
  • 纯浏览器本地(WebGPU)推理(还在计划中)

2.2 Ears(耳朵):浏览器音频输入 + 语音识别 + 讲话检测

  • Audio input from browser
  • Audio input from Discord
  • Client side speech recognition
  • Client side talking detection

2.3 Mouth(嘴巴):语音合成

  • ElevenLabs voice synthesis

2.4 Body(身体):VRM + Live2D,带基础“生命感”动画

  • VRM support(可控制 VRM)
  • VRM 动画:auto blink / auto look at / idle eye movement
  • Live2D support(可控制 Live2D)
  • Live2D 动画:auto blink / auto look at / idle eye movement

这一段写得非常“产品化”:
它不空谈“我们要做数字生命”,而是把体验拆成你能感知的链路:能听、能说、能动、还能行动(游戏/社交)。


3. 开发与运行:三种 “Stage”,分别对应 Web / 桌面 / 移动端

AIRI 的开发指引在 README 里给得很明确,而且直接给了命令(适合你复制粘贴就跑)。

3.1 通用开发启动

README 写法:

1
2
pnpm i
pnpm dev

并特别提示:

By default, pnpm dev will start the development server for the Stage Web (browser version).

也就是说,默认 pnpm dev = 先从 Web 版开始体验和开发。

3.2 Stage Web(浏览器版)

1
pnpm dev

并给出线上地址(README 原文):https://airi.moeru.ai

3.3 Stage Tamagotchi(桌面版)

1
pnpm dev:tamagotchi

同时 README 提到提供了 Nix 包(Tamagotchi):

1
nix run github:moeru-ai/airi

前提:启用 flakes(README 明确写了 “make sure to enable flakes”)。

3.4 Stage Pocket(移动端)

启动 capacitor web 版本:

1
pnpm dev:pocket

然后 README 给了一段非常“真实开发现场”的输出示例:你需要看 Network 地址里的 <ip>,再把这个 dev server URL 喂给 iOS 工程:

1
CAPACITOR_DEV_SERVER_URL=https://<your-ip-address>:5273 pnpm open:ios

还有一个“容易踩坑但写得很实用”的提示:
如果需要在 pocket 里用无线模式连接 server channel,得用 root 启 tamagotchi:

1
sudo pnpm dev:tamagotchi

然后在 tamagotchi 的 settings/system/general 里启用 secure websocket(README 原文)。

3.5 文档站开发

1
pnpm dev:docs

4. LLM Provider 支持:一口气对接很多家(README 指出由 xsai 驱动)

AIRI README 专门列了 “Support of LLM API Providers (powered by xsai)”:

其中已经支持(README 勾选)包括:

  • OpenRouter、vLLM、SGLang、Ollama
  • Google Gemini、OpenAI、Anthropic Claude
  • DeepSeek、Qwen、xAI、Groq、Mistral
  • Cloudflare Workers AI、Together.ai、Fireworks.ai、Novita、Zhipu、SiliconFlow、Stepfun、Baichuan、Minimax、Moonshot AI、ModelScope、Player2、Tencent Cloud
  • 以及 302.AI(README 标注 sponsored)

也列出了一些 “PR welcome” 的未完成项,例如:

  • Azure OpenAI API
  • AWS Claude
  • Sparks、Volcano Engine 等

这份清单的意义在于:AIRI 的“角色灵魂”并不绑定某一家模型供应商,它更像一个可更换大脑的容器


5. 一个很值得写进博客的亮点:AIRI 不只是一个仓库,它还“生出了一堆子项目”

README 有一节 “Sub-projects Born from This Project”,列了许多衍生项目。这里面有几个一看就很硬核:

  • unspeech/audio/transcriptions/audio/speech 的通用 endpoint proxy(README 说像 LiteLLM,但面向 ASR/TTS)
  • hfup:帮助部署/打包到 HuggingFace Spaces 的工具
  • xsai-transformers:Transformers.js provider(用于 xsAI)
  • tauri-plugin-mcp:与 MCP servers 交互的 Tauri 插件
  • AIRI Factorio / Factorio RCON API / autorio 等一整套“让 AIRI 玩 Factorio”的生态
  • inventory:集中式 model catalog + 默认 provider 配置的后端服务
  • MCP Launcher:像 Ollama 一样的 MCP builder & launcher(README 原话:just like Ollama for models)

README 还给了一个很长的 Mermaid 架构图,把 Core、UI、Stage、Server runtime、STT、Factorio/Minecraft agents、xsAI 等连接起来——如果你打算深入二次开发,这张图本身就像“地图”。


6. 可直接放进文章的“代码/命令案例”(全部来自 README)

6.1 最快跑起来(Web)

1
2
pnpm i
pnpm dev

6.2 桌面版(Stage Tamagotchi)

1
pnpm dev:tamagotchi

或用 Nix(README 原文):

1
nix run github:moeru-ai/airi

6.3 移动端(Stage Pocket + iOS)

1
pnpm dev:pocket

然后:

1
CAPACITOR_DEV_SERVER_URL=https://<your-ip-address>:5273 pnpm open:ios

如果要无线连 server channel(README 提示):

1
sudo pnpm dev:tamagotchi

6.4 文档站

1
pnpm dev:docs

7. 写在最后:AIRI 的迷人之处,是“把 AI 陪伴从聊天框里解放出来”

很多项目把“AI 角色”做成一个 UI;而 AIRI 更像是在做一个“可运行的生命体容器”:

  • 有耳朵(能听)
  • 有嘴巴(能说)
  • 有身体(可见、会动)
  • 有大脑(能思考、能行动、能在游戏/社交平台里存在)
  • 还能跨平台:Web / 桌面 / 移动端,并强调自托管、你拥有(you-owned)

它确实重度受 Neuro-sama 启发(README 原文也很坦诚),但它把目标落到了一个更开放的方向:
让“数字生命”不再只存在于别人的直播间,而是能被你带走、运行在你的设备里。