聪明的人有长的耳朵和短的舌头。——弗莱格

https://github.com/bytedance/UI-TARS-desktop

UI-TARS Desktop:一位“住在你电脑里”的原生 GUI Agent(bytedance/UI-TARS-desktop)

它不是插件、不是脚本、也不是只会说漂亮话的聊天框。
UI-TARS Desktop 更像一位真正“看得见、摸得着、动得起来”的同事:它会盯着你的屏幕认真观察,用自然语言听懂你的意图,然后用鼠标和键盘把事情一步步做完。

它背后站着的是 UI-TARSSeed-1.5-VL/1.6 系列模型——它们像大脑;而 UI-TARS Desktop 则像一双眼睛、一双手,安静地待在你的桌面上,随叫随到。

UI-TARS Desktop is a native GUI agent for your local computer, driven by UI-TARS and Seed-1.5-VL/1.6 series models.


先认识一下它:它是谁、会什么

UI-TARS Desktop 说自己是“native GUI agent”,我觉得它更像一个“认真到有点可爱”的桌面管家:

  • 自然语言控制:你用人话说,它用行动答
  • 截图与视觉识别:它会看屏幕,不靠猜
  • 精确鼠标与键盘控制:它不只会指路,还会亲自点、亲自敲
  • 跨平台支持:Windows / MacOS / Browser
  • 实时反馈和状态显示:它一边干活一边回报进度
  • 私密且安全:强调“完全本地处理”,像把秘密锁进抽屉

它也很爱展示自己的“工作录像”,比如有人让它去 VS Code 里打开自动保存并把延迟改成 500ms;还有人让它去 GitHub 上看看 UI-TARS-desktop 最新的 open issue——它都能“看屏幕 + 动手”完成。


它的“工作方式”:眼睛看到的就是世界,手能伸进任何应用

传统自动化常常需要:

  • 固定控件树
  • 脆弱的 selector
  • 一堆你要维护的脚本

UI-TARS Desktop 则更像人类:
先看,再想,再动手。
当你说“帮我把某个设置打开”,它会先截图观察 UI,再用鼠标键盘完成动作,然后把结果反馈给你。

你不需要告诉它“点哪个 DOM”或“哪个按钮的 id”,你只要把任务说清楚,它就会自己在屏幕里找路。


Quick Start:把它请到你的电脑上

它的 Quick Start 不啰嗦,像在说:“别怕,我很好上手。”

0)准备工作(Prerequisites)

如果你要用 Browser Operator,需要先装好浏览器之一:

  • Chrome(stable/beta/dev/canary)
  • Edge(stable/beta/dev/canary)
  • Firefox(stable/beta/dev/nightly)

另外,它目前对显示器有点“专一”:

  • 目前只支持单显示器
  • 多显示器可能导致部分任务失败

1)下载(Download)

直接去 Releases 页面下载 latest release 的 UI-TARS Desktop。

如果你是 macOS 用户,并且家里有 Homebrew 这位“包管理老管家”,UI-TARS Desktop 也愿意让它来帮忙搬运行李:

1
brew install --cask ui-tars

2)安装(Install)

MacOS

它在 macOS 上的入住流程很像“新员工入职”:

  1. 把 UI TARS 应用拖进 Applications 文件夹

  2. 在系统设置里给它开权限(它要看屏幕、要能点鼠标,当然得先拿到“通行证”):

  • System Settings -> Privacy & Security -> Accessibility

  • System Settings -> Privacy & Security -> Screen Recording

  1. 打开 UI TARS,你就能看到它的界面

Windows

Windows 也可以运行,打开应用即可进入界面(Quick Start 中给出了对应截图展示)。


3)远程操作器(Remote Operator):它也会“远程出差”,但要注意时间

UI-TARS Desktop 曾经提供 Remote Operator 这类服务(Remote Computer / Remote Browser),但 Quick Start 明确写了一个重要节点:

  • Remote Operator service will be discontinued on August 20, 2025.
  • 如果你想在免费试用后自建 Remote Computer / Browser Agent,可以看看 Volcano Engine 的 OS Agent Services(文档链接为中文部署入口)。

也就是说:它以前可以“远程出差”,但这条路在 2025-08-20 之后会改变玩法;如果你要继续走远程路线,需要转向自部署/相关服务。


4)本地操作器(Local Operator):给它配上“模型大脑”,它就能动起来

UI-TARS Desktop 想干活,需要一个能看图、能理解指令、还能输出动作的 VLM(视觉语言模型)后端。Quick Start 给了两条常见路线:

路线 A:UI-TARS-1.5 on Hugging Face Endpoints

它的语气像在递给你一张“部署通行证”:

  1. 在 Hugging Face 模型页面右上角点 Deploy from Hugging Face
  2. 选择模型 UI-TARS-1.5-7B
  3. 按 README_deploy.md 部署好,拿到:
    • Base URL
    • API Key
    • Model Name
  4. 打开 UI-TARS Desktop App 的 Settings,填入配置:
  • Language: en
  • VLM Provider: Hugging Face for UI-TARS-1.5
  • VLM Base URL: https:xxx
  • VLM API KEY: your_api_key
  • VLM Model Name: xxx

它还会贴心提醒两点(像认真到会把坑提前圈出来的同事):

  • Provider 一定要选 “Hugging Face for UI-TARS-1.5”,确保动作解析正确
  • Base URL 结尾要是 '/v1/',不要缺

配置完成后:

  1. 点按钮开启一个 new chat
  2. 输入命令开始一轮 GUI 操作任务

它就会像接到工单一样开始干活。


路线 B:Doubao-1.5-UI-TARS on VolcEngine(火山引擎)

如果你走 VolcEngine,它会让你去控制台页面:

  1. 打开 VolcEngine Doubao-1.5-UI-TARS 页面
  2. 点右上角 Try(立即体验)
  3. API inference(API 接入)
  4. 在面板 STEP 1 拿 API Key
  5. 在 STEP 2 做认证并切到 OpenAI SDK tab,拿到 Base Url 与 Model name
  6. 在 UI-TARS Desktop 的 Settings 填:
  • Language: cn
  • VLM Provider: VolcEngine Ark for Doubao-1.5-UI-TARS
  • VLM Base URL: https://ark.cn-beijing.volces.com/api/v3
  • VLM API KEY: YOUR_API_KEY
  • VLM Model Name: doubao-1.5-ui-tars-250328

同样提醒你:

  • Provider 一定要选 “VolcEngine Ark for Doubao-1.5-UI-TARS”,确保动作解析正确

最后:

  1. 在 new chat 前选择你希望的使用场景,再开始对话

它的性格:爱反馈、爱确认、爱把每一步做扎实

你会发现 UI-TARS Desktop 很像一个做事稳的执行者:

  • 它不抢戏:你一句话,它就默默开始“看屏幕、动鼠标、敲键盘”
  • 它不装懂:靠截图与视觉识别确认界面状态
  • 它不偷懒:精确控制输入,按步骤推进
  • 它很在意隐私:强调“完全本地处理”,像是在说“你放心,我不乱跑”

如果把桌面比作一间办公室:
UI-TARS Desktop 就是那个愿意坐到你电脑前、替你完成细碎操作的伙伴——你给它一句明确的指令,它就去把 UI 里的按钮一个个按对,把设置一项项填好,把流程走到最后,然后回头告诉你:“搞定了。”


结语:从“对话”走向“动手”,它把 AI 的脚落在桌面上

很多 AI 让你感觉它懂,但不一定能做。
UI-TARS Desktop 的野心很直接:让 AI 不止会回答,还能在你的电脑上完成任务。

当它认真地看着屏幕、移动鼠标、敲下键盘时,你会突然意识到:
原来“智能助手”这四个字,终于开始有了“助手”的样子。