聪明的人有长的耳朵和短的舌头。——弗莱格

https://github.com/bytedance/UI-TARS-desktop

UI-TARS Desktop：一位“住在你电脑里”的原生 GUI Agent（bytedance/UI-TARS-desktop）

它不是插件、不是脚本、也不是只会说漂亮话的聊天框。
UI-TARS Desktop 更像一位真正“看得见、摸得着、动得起来”的同事：它会盯着你的屏幕认真观察，用自然语言听懂你的意图，然后用鼠标和键盘把事情一步步做完。

它背后站着的是 UI-TARS 与 Seed-1.5-VL/1.6 系列模型——它们像大脑；而 UI-TARS Desktop 则像一双眼睛、一双手，安静地待在你的桌面上，随叫随到。

UI-TARS Desktop is a native GUI agent for your local computer, driven by UI-TARS and Seed-1.5-VL/1.6 series models.

先认识一下它：它是谁、会什么

UI-TARS Desktop 说自己是“native GUI agent”，我觉得它更像一个“认真到有点可爱”的桌面管家：

自然语言控制：你用人话说，它用行动答
截图与视觉识别：它会看屏幕，不靠猜
精确鼠标与键盘控制：它不只会指路，还会亲自点、亲自敲
跨平台支持：Windows / MacOS / Browser
实时反馈和状态显示：它一边干活一边回报进度
私密且安全：强调“完全本地处理”，像把秘密锁进抽屉

它也很爱展示自己的“工作录像”，比如有人让它去 VS Code 里打开自动保存并把延迟改成 500ms；还有人让它去 GitHub 上看看 UI-TARS-desktop 最新的 open issue——它都能“看屏幕 + 动手”完成。

它的“工作方式”：眼睛看到的就是世界，手能伸进任何应用

传统自动化常常需要：

固定控件树
脆弱的 selector
一堆你要维护的脚本

UI-TARS Desktop 则更像人类：
先看，再想，再动手。
当你说“帮我把某个设置打开”，它会先截图观察 UI，再用鼠标键盘完成动作，然后把结果反馈给你。

你不需要告诉它“点哪个 DOM”或“哪个按钮的 id”，你只要把任务说清楚，它就会自己在屏幕里找路。

Quick Start：把它请到你的电脑上

它的 Quick Start 不啰嗦，像在说：“别怕，我很好上手。”

0）准备工作（Prerequisites）

如果你要用 Browser Operator，需要先装好浏览器之一：

Chrome（stable/beta/dev/canary）
Edge（stable/beta/dev/canary）
Firefox（stable/beta/dev/nightly）

另外，它目前对显示器有点“专一”：

目前只支持单显示器
多显示器可能导致部分任务失败

1）下载（Download）

直接去 Releases 页面下载 latest release 的 UI-TARS Desktop。

如果你是 macOS 用户，并且家里有 Homebrew 这位“包管理老管家”，UI-TARS Desktop 也愿意让它来帮忙搬运行李：

1	brew install --cask ui-tars

2）安装（Install）

MacOS

它在 macOS 上的入住流程很像“新员工入职”：

把 UI TARS 应用拖进 Applications 文件夹
在系统设置里给它开权限（它要看屏幕、要能点鼠标，当然得先拿到“通行证”）：

System Settings -> Privacy & Security -> Accessibility
System Settings -> Privacy & Security -> Screen Recording

打开 UI TARS，你就能看到它的界面

Windows

Windows 也可以运行，打开应用即可进入界面（Quick Start 中给出了对应截图展示）。

3）远程操作器（Remote Operator）：它也会“远程出差”，但要注意时间

UI-TARS Desktop 曾经提供 Remote Operator 这类服务（Remote Computer / Remote Browser），但 Quick Start 明确写了一个重要节点：

Remote Operator service will be discontinued on August 20, 2025.
如果你想在免费试用后自建 Remote Computer / Browser Agent，可以看看 Volcano Engine 的 OS Agent Services（文档链接为中文部署入口）。

也就是说：它以前可以“远程出差”，但这条路在 2025-08-20 之后会改变玩法；如果你要继续走远程路线，需要转向自部署/相关服务。

4）本地操作器（Local Operator）：给它配上“模型大脑”，它就能动起来

UI-TARS Desktop 想干活，需要一个能看图、能理解指令、还能输出动作的 VLM（视觉语言模型）后端。Quick Start 给了两条常见路线：

路线 A：UI-TARS-1.5 on Hugging Face Endpoints

它的语气像在递给你一张“部署通行证”：

在 Hugging Face 模型页面右上角点 Deploy from Hugging Face
选择模型 UI-TARS-1.5-7B
按 README_deploy.md 部署好，拿到：
- Base URL
- API Key
- Model Name
打开 UI-TARS Desktop App 的 Settings，填入配置：

Language: en
VLM Provider: Hugging Face for UI-TARS-1.5
VLM Base URL: https:xxx
VLM API KEY: your_api_key
VLM Model Name: xxx

它还会贴心提醒两点（像认真到会把坑提前圈出来的同事）：

Provider 一定要选 “Hugging Face for UI-TARS-1.5”，确保动作解析正确
Base URL 结尾要是 '/v1/'，不要缺

配置完成后：

点按钮开启一个 new chat
输入命令开始一轮 GUI 操作任务

它就会像接到工单一样开始干活。

路线 B：Doubao-1.5-UI-TARS on VolcEngine（火山引擎）

如果你走 VolcEngine，它会让你去控制台页面：

打开 VolcEngine Doubao-1.5-UI-TARS 页面
点右上角 Try（立即体验）
点 API inference（API 接入）
在面板 STEP 1 拿 API Key
在 STEP 2 做认证并切到 OpenAI SDK tab，拿到 Base Url 与 Model name
在 UI-TARS Desktop 的 Settings 填：

Language: cn
VLM Provider: VolcEngine Ark for Doubao-1.5-UI-TARS
VLM Base URL: https://ark.cn-beijing.volces.com/api/v3
VLM API KEY: YOUR_API_KEY
VLM Model Name: doubao-1.5-ui-tars-250328

同样提醒你：

Provider 一定要选 “VolcEngine Ark for Doubao-1.5-UI-TARS”，确保动作解析正确

最后：

在 new chat 前选择你希望的使用场景，再开始对话

它的性格：爱反馈、爱确认、爱把每一步做扎实

你会发现 UI-TARS Desktop 很像一个做事稳的执行者：

它不抢戏：你一句话，它就默默开始“看屏幕、动鼠标、敲键盘”
它不装懂：靠截图与视觉识别确认界面状态
它不偷懒：精确控制输入，按步骤推进
它很在意隐私：强调“完全本地处理”，像是在说“你放心，我不乱跑”

如果把桌面比作一间办公室：
UI-TARS Desktop 就是那个愿意坐到你电脑前、替你完成细碎操作的伙伴——你给它一句明确的指令，它就去把 UI 里的按钮一个个按对，把设置一项项填好，把流程走到最后，然后回头告诉你：“搞定了。”

结语：从“对话”走向“动手”，它把 AI 的脚落在桌面上

很多 AI 让你感觉它懂，但不一定能做。
UI-TARS Desktop 的野心很直接：让 AI 不止会回答，还能在你的电脑上完成任务。

当它认真地看着屏幕、移动鼠标、敲下键盘时，你会突然意识到：
原来“智能助手”这四个字，终于开始有了“助手”的样子。