page-agent
只要我们能善用时间,就永远不愁时间不够用。——德国诗人歌德
Page Agent
JavaScript in-page GUI agent. Control web interfaces with natural language.
他是谁:住在网页里的 GUI Agent
Page Agent 有点像那种“已经在你页面里租好房子”的小助手——不是浏览器扩展那种住隔壁的,也不是 python 脚本那种在远方给你打电话的,更不是 headless browser 那种披着隐身斗篷在后台乱窜的。
他是那种会直接站在你的网页里,理一理领带,拍拍胸口说:
The GUI Agent Living in Your Webpage. Control web interfaces with natural language.
你对他说一句人话,他就替你把网页界面“按按钮、填表单、点链接、做流程”这类事儿办得明明白白。
他甚至还准备了几个入口,像是在门口举牌指路:
👉 🚀 Demo
👉 📖 Documentation
👉 📢 Join HN Discussion
页面里还有一段演示视频,他不喜欢空口说白话,喜欢“你看,我真的能动”:
✨ Features:他有哪些“招牌本事”
Page Agent 的技能树很清晰,而且每一条都像是他在自夸,但又确实让人心动。
🎯 Easy integration:上岗速度快,入职手续少
他把行李往你网页里一放就能干活:
- 不需要
browser extension/python/headless browser - 只需要页面内的 JavaScript
- 一切都发生在你的网页里
他特别像那种“我不挑环境,只要给我一块地方我就开干”的同事。
📖 Text-based DOM manipulation:不看截图,只看文字和结构
他不走“截屏识图”那条路,他走文本路线:
- 不需要 screenshots
- 不需要多模态 LLM
- 不需要特殊权限
他更像一个懂 DOM、会读页面结构的老派工程师:
“我不靠眼睛看,我靠脑子理解。”
🧠 Bring your own LLMs:你带模型,他带本事
Page Agent 不强迫你只用某一种模型。你想带谁来上班,都行。
🎨 Pretty UI with human-in-the-loop:漂亮,还愿意让你插手
他不是那种“我全自动,你别管”的机器人,他更像“我先做,你来确认”的合作型伙伴。界面好看,也愿意让人参与决策。
🐙 Optional chrome extension:跨页面任务?他也能长出触手
如果你要做多页面、多 tab 的任务,他还可以选配一个 chrome extension,当作“出差装备”:
- Optional chrome extension for multi-page tasks.
💡 Use Cases:他最擅长去哪儿打工
Page Agent 不是那种“什么都能做但什么都做不精”的万金油,他更像一个知道自己价值的职业选手。
SaaS AI Copilot:给你的产品塞一个 AI 副驾驶
他会说:
“我可以让你用几行代码,把 AI Copilot 放进产品里。别让我改你后端,我只在前端就把活干了。”
- Ship an AI copilot in your product in lines of code.
- No backend rewrite.
Smart Form Filling:把 20 次点击变成一句话
在 ERP、CRM、后台管理系统这类地方,他特别来劲——那些“点点点、填填填”的流程,他看着就想替你做完:
- Turn 20-click workflows into one sentence.
- Perfect for ERP, CRM, and admin systems.
Accessibility:让网页会“听人话”
他愿意当无障碍的桥梁,让任何 web app 可以通过自然语言被操作:
- Voice commands
- Screen readers
- zero barrier
Multi-page Agent:跨 tab 的长流程,他也愿意跑腿
配上可选的 chrome extension,他能把触角伸到多个浏览器标���页:
- Extend your own agent’s reach across browser tabs
🚀 Quick Start:让他住进你的网页(他已经迫不及待了)
Page Agent 最喜欢的部分,就是“上岗”。
One-line integration:一行集成,最快体验(用免费 Demo LLM)
他说:“你只要给我一个 script 标签,我就开始动。”
1 | <script src="{URL}" crossorigin="true"></script> |
他还给你准备好了两个镜像地址,像是在递给你两把钥匙:一把全球通用,一把更适合中国网络环境。
| Mirrors | URL |
|---|---|
| Global | https://cdn.jsdelivr.net/npm/page-agent@1.5.6/dist/iife/page-agent.demo.js |
| China | https://registry.npmmirror.com/page-agent/1.5.6/files/dist/iife/page-agent.demo.js |
NPM Installation:正式入职(npm 安装)
如果你想认真把他纳入项目依赖,他会规规矩矩站好:
1 | npm install page-agent |
然后在代码里把他请出来,给他安排模型、地址、钥匙、语言,他就能开始执行你的“人类指令”。
1 | import { PageAgent } from 'page-agent' |
他听到这句 Click the login button 的时候,基本就是一个字:
“懂。”
想要更程序化、更深入的用法?他指了指门牌:
For more programmatic usage, see 📖 Documentations.
🤝 Contributing:他欢迎你来一起打磨性格
Page Agent 不是独行侠,他愿意和社区一起成长:
- 按照 CONTRIBUTING.md 的指引来参与
- 贡献之前请读 Code of Conduct
但他也有明确的原则:
如果你的贡献完全由 bots 或 agents 生成、缺乏实质的人类参与——他会拒绝,并且可能会把机器人账号拉黑。
他像个认真维护秩序的开源项目维护者,语气不狠,但立场很清晰。
👏 Acknowledgments:他承认自己站在巨人的肩膀上
Page Agent 很坦荡,他说自己建立在 browser-use 的优秀工作之上:
This project builds upon the excellent work of browser-use.
并且他强调自己的定位很明确:
PageAgent is designed for client-side web enhancement, not server-side automation.
他把致谢和许可证信息写得很完整,像是郑重鞠躬之后递上一张名片,告诉你:
“我从哪里来,我尊重谁,我遵循什么规则。”
📄 License:他穿着 MIT 的外套
结尾:他希望你把他留在你的网页里
Page Agent 不太喜欢被当成“炫技工具”,他更希望自己变成你产品里那个“会做事”的角色:
- 让用户用一句话完成复杂界面操作
- 让后台系统不再需要一堆点击教学
- 让无障碍能力自然融入交互
- 让 AI 从聊天框走进真正的 GUI 世界
他把最后一句话写得很直白,也很像他的性格:做完事,还会抬头问一句“要不要给我点个赞”。
⭐ Star this repo if you find PageAgent helpful!
