UI-TARS-desktop
聪明的人有长的耳朵和短的舌头。——弗莱格
https://github.com/bytedance/UI-TARS-desktop
UI-TARS Desktop:一位“住在你电脑里”的原生 GUI Agent(bytedance/UI-TARS-desktop)
它不是插件、不是脚本、也不是只会说漂亮话的聊天框。
UI-TARS Desktop 更像一位真正“看得见、摸得着、动得起来”的同事:它会盯着你的屏幕认真观察,用自然语言听懂你的意图,然后用鼠标和键盘把事情一步步做完。
它背后站着的是 UI-TARS 与 Seed-1.5-VL/1.6 系列模型——它们像大脑;而 UI-TARS Desktop 则像一双眼睛、一双手,安静地待在你的桌面上,随叫随到。
UI-TARS Desktop is a native GUI agent for your local computer, driven by UI-TARS and Seed-1.5-VL/1.6 series models.
先认识一下它:它是谁、会什么
UI-TARS Desktop 说自己是“native GUI agent”,我觉得它更像一个“认真到有点可爱”的桌面管家:
- 自然语言控制:你用人话说,它用行动答
- 截图与视觉识别:它会看屏幕,不靠猜
- 精确鼠标与键盘控制:它不只会指路,还会亲自点、亲自敲
- 跨平台支持:Windows / MacOS / Browser
- 实时反馈和状态显示:它一边干活一边回报进度
- 私密且安全:强调“完全本地处理”,像把秘密锁进抽屉
它也很爱展示自己的“工作录像”,比如有人让它去 VS Code 里打开自动保存并把延迟改成 500ms;还有人让它去 GitHub 上看看 UI-TARS-desktop 最新的 open issue——它都能“看屏幕 + 动手”完成。
它的“工作方式”:眼睛看到的就是世界,手能伸进任何应用
传统自动化常常需要:
- 固定控件树
- 脆弱的 selector
- 一堆你要维护的脚本
UI-TARS Desktop 则更像人类:
先看,再想,再动手。
当你说“帮我把某个设置打开”,它会先截图观察 UI,再用鼠标键盘完成动作,然后把结果反馈给你。
你不需要告诉它“点哪个 DOM”或“哪个按钮的 id”,你只要把任务说清楚,它就会自己在屏幕里找路。
Quick Start:把它请到你的电脑上
它的 Quick Start 不啰嗦,像在说:“别怕,我很好上手。”
0)准备工作(Prerequisites)
如果你要用 Browser Operator,需要先装好浏览器之一:
- Chrome(stable/beta/dev/canary)
- Edge(stable/beta/dev/canary)
- Firefox(stable/beta/dev/nightly)
另外,它目前对显示器有点“专一”:
- 目前只支持单显示器
- 多显示器可能导致部分任务失败
1)下载(Download)
直接去 Releases 页面下载 latest release 的 UI-TARS Desktop。
如果你是 macOS 用户,并且家里有 Homebrew 这位“包管理老管家”,UI-TARS Desktop 也愿意让它来帮忙搬运行李:
1 | brew install --cask ui-tars |
2)安装(Install)
MacOS
它在 macOS 上的入住流程很像“新员工入职”:
把 UI TARS 应用拖进 Applications 文件夹
在系统设置里给它开权限(它要看屏幕、要能点鼠标,当然得先拿到“通行证”):
System Settings -> Privacy & Security -> Accessibility
System Settings -> Privacy & Security -> Screen Recording
- 打开 UI TARS,你就能看到它的界面
Windows
Windows 也可以运行,打开应用即可进入界面(Quick Start 中给出了对应截图展示)。
3)远程操作器(Remote Operator):它也会“远程出差”,但要注意时间
UI-TARS Desktop 曾经提供 Remote Operator 这类服务(Remote Computer / Remote Browser),但 Quick Start 明确写了一个重要节点:
- Remote Operator service will be discontinued on August 20, 2025.
- 如果你想在免费试用后自建 Remote Computer / Browser Agent,可以看看 Volcano Engine 的 OS Agent Services(文档链接为中文部署入口)。
也就是说:它以前可以“远程出差”,但这条路在 2025-08-20 之后会改变玩法;如果你要继续走远程路线,需要转向自部署/相关服务。
4)本地操作器(Local Operator):给它配上“模型大脑”,它就能动起来
UI-TARS Desktop 想干活,需要一个能看图、能理解指令、还能输出动作的 VLM(视觉语言模型)后端。Quick Start 给了两条常见路线:
路线 A:UI-TARS-1.5 on Hugging Face Endpoints
它的语气像在递给你一张“部署通行证”:
- 在 Hugging Face 模型页面右上角点 Deploy from Hugging Face
- 选择模型 UI-TARS-1.5-7B
- 按 README_deploy.md 部署好,拿到:
- Base URL
- API Key
- Model Name
- 打开 UI-TARS Desktop App 的 Settings,填入配置:
- Language:
en - VLM Provider:
Hugging Face for UI-TARS-1.5 - VLM Base URL:
https:xxx - VLM API KEY:
your_api_key - VLM Model Name:
xxx
它还会贴心提醒两点(像认真到会把坑提前圈出来的同事):
- Provider 一定要选 “Hugging Face for UI-TARS-1.5”,确保动作解析正确
- Base URL 结尾要是
'/v1/',不要缺
配置完成后:
- 点按钮开启一个 new chat
- 输入命令开始一轮 GUI 操作任务
它就会像接到工单一样开始干活。
路线 B:Doubao-1.5-UI-TARS on VolcEngine(火山引擎)
如果你走 VolcEngine,它会让你去控制台页面:
- 打开 VolcEngine Doubao-1.5-UI-TARS 页面
- 点右上角 Try(立即体验)
- 点 API inference(API 接入)
- 在面板 STEP 1 拿 API Key
- 在 STEP 2 做认证并切到 OpenAI SDK tab,拿到 Base Url 与 Model name
- 在 UI-TARS Desktop 的 Settings 填:
- Language:
cn - VLM Provider:
VolcEngine Ark for Doubao-1.5-UI-TARS - VLM Base URL:
https://ark.cn-beijing.volces.com/api/v3 - VLM API KEY:
YOUR_API_KEY - VLM Model Name:
doubao-1.5-ui-tars-250328
同样提醒你:
- Provider 一定要选 “VolcEngine Ark for Doubao-1.5-UI-TARS”,确保动作解析正确
最后:
- 在 new chat 前选择你希望的使用场景,再开始对话
它的性格:爱反馈、爱确认、爱把每一步做扎实
你会发现 UI-TARS Desktop 很像一个做事稳的执行者:
- 它不抢戏:你一句话,它就默默开始“看屏幕、动鼠标、敲键盘”
- 它不装懂:靠截图与视觉识别确认界面状态
- 它不偷懒:精确控制输入,按步骤推进
- 它很在意隐私:强调“完全本地处理”,像是在说“你放心,我不乱跑”
如果把桌面比作一间办公室:
UI-TARS Desktop 就是那个愿意坐到你电脑前、替你完成细碎操作的伙伴——你给它一句明确的指令,它就去把 UI 里的按钮一个个按对,把设置一项项填好,把流程走到最后,然后回头告诉你:“搞定了。”
结语:从“对话”走向“动手”,它把 AI 的脚落在桌面上
很多 AI 让你感觉它懂,但不一定能做。
UI-TARS Desktop 的野心很直接:让 AI 不止会回答,还能在你的电脑上完成任务。
当它认真地看着屏幕、移动鼠标、敲下键盘时,你会突然意识到:
原来“智能助手”这四个字,终于开始有了“助手”的样子。
