opencode
余生平所作文章,多在三上:乃马上,枕上,厕上也。——欧阳修 OpenCode 全面介绍:开源 AI 编码代理,让“终端与桌面”都能高效写代码 仓库地址:sst/opencode官网与文档:opencode.ai | Docs描述:The open source coding agent.许可证:MIT分支:默认分支为 dev(请注意不是 main) OpenCode 是什么?OpenCode 是一个“开源的 AI 编码代理”,以终端(TUI)为核心体验,同时提供桌面应用(Beta)。它致力于把“AI 助手写代码”的能力变得透明、可控、可扩展,并且不绑定任何一个模型或服务提供商。 与 Claude Code 的对比(摘自 README): 100% 开源 不与某个单一提供商绑定(可用 Claude、OpenAI、Google 或本地模型;官方推荐通过 OpenCode Zen 提供的模型) 开箱即用的 LSP 支持 专注 TUI(对终端体验的深度打磨) 客户端/服务端架构,未来可以在本机运行,通过移动端远程操控等 安装方式大全(YOLO 到包管理器...
genmini-cli
勇气不是没有恐惧,而是克服了恐惧。——尼尔·阿姆斯特朗 Gemini CLI 全面上手:把 Gemini 带进你的终端与编辑器 仓库:google-gemini/gemini-cli文档网站:geminicli.com/docs许可证:Apache 2.0一句话简介:Gemini CLI 是一个开源的“终端优先”AI 代理,让你在命令行中以最短路径调用 Gemini。 为什么选择 Gemini CLI?来自项目 README 的核心卖点: 免费额度友好:个人 Google 账号可达每分钟 60 次、每天 1,000 次请求 强力模型:支持 Gemini 2.5 Pro,具备百万级上下文窗口 内置工具:Google Search grounding、文件操作、Shell 命令、网页抓取(web fetching) 可扩展:支持 MCP(Model Context Protocol)进行自定义集成 终端优先:为“活在命令行里的开发者”设计 开源:Apache 2.0 许可,企业可放心集成与二次开发 换句话说,Gemini CLI 把“从输入提示词到模型...
ai-toolkit
追求梦想的过程,其实就是一场关于自我的修行。——乔治·希尔 AI Toolkit 深度解析:一体化扩散模型训练套件(支持 GUI 与 CLI) 仓库地址:ostris/ai-toolkit项目简介(摘自 README):AI Toolkit 是一个“一体化的扩散模型训练套件”,致力于在消费级硬件上支持“最新的图像与视频扩散模型”,既可运行为 GUI,也可运行为 CLI,并且在易用性的同时力求“功能尽可能全面”。 为什么关注 AI Toolkit?扩散模型(Diffusion Models)在图像、视频生成中的表现出众,但从“玩起来”到“用得顺手”,往往需要处理一堆细节:模型版本兼容、硬件资源局限、训练脚本与参数管理、UI 与 CLI 的协同等。 AI Toolkit 的定位非常干脆: 面向“消费级硬件”(常见的家用或轻量工作站配置); 支持“最新的扩散模型”(图像与视频领域); 既有“图形界面(GUI)”方便上手,也有“命令行(CLI)”便于批量与自动化; “易用”与“全面功能”兼顾。 如果你正在搭建自己的扩散模型训练流程,希望快速上手并保持灵活,AI To...
agent-starter-pack
有信心的人,永远不会失败。——亚伯拉罕·林肯 从零到生产:Google Cloud Agent Starter Pack 全面上手指南 仓库地址:GoogleCloudPlatform/agent-starter-pack官方文档(部署/可观测性/CI/CD):Documentation项目定位:在 Google Cloud 上构建、评估、部署、观测 GenAI Agent 的「生产级模板包」一句话:你专注写 Agent 的业务逻辑,基础设施、CI/CD、可观测、安全都交给 Starter Pack。 为什么是 Agent Starter Pack?如果你正在尝试把 GenAI Agent 从 Demo 推进到生产环境,现实会立刻让人“清醒”: 环境管理、依赖清单、权限配置要标准化; 数据检索、RAG 管线需要可运维可扩展; 部署目标(Cloud Run 或 Vertex AI Agent Engine)需要 CI/CD; 日志、Tracing、监控指标要能看、能做容量评估; 安全与合规、成本控制、评测与回归,...
magentic-ui
每一次挫折都是成功的一部分。——凯瑟琳·梅耶尔 Magentic-UI 深度介绍:微软的人本智能Web Agent,开启高效协作自动化新时代 项目地址:microsoft/magentic-ui主页与技术细节:微软研究 | Magentic-UI官方博客Star:9000+关键词:Agentic UI、AI自动化、浏览器自动操作、计划与并行协作、人机共创、Fara-7B 一、项目简介Magentic-UI 是微软最新开源的人本智能“Web Agent”——一款能解决复杂网页与代码任务、兼顾安全与可控性的AI自动化系统。与市面上很多“全黑盒”自动化代理不同,Magentic-UI崇尚透明、共规划(co-planning)与人机交互,用户能随时介入、审批、引导AI完成任何Web自动化、信息检索、数据监控、或API交互等任务。 一句话总结:你可以像ChatGPT+插件一样命令Agent在网页干活,但你始终拥有主控权与可视化流程。 二、特色功能概览 人类协同规划(Co-Planning):基于对话和可视化编辑器与AI一起定制和审批多步操作计划,让任务变自动,也始...
librepods
把事情做到极致,就是一种美。——杨洪基 解放 AirPods:LibrePods 带你跨越苹果生态,让高阶功能拥抱 Android 和 Linux 原仓库地址:kavishdevar/librepods项目 Star:22,000+许可证:GPLv3描述:AirPods liberated from Apple’s ecosystem. 目录 项目起源 —— 为什么需要“解放 AirPods” 支持设备&兼容性简述 功能一览:不仅仅是“能听歌” 多平台支持:Linux、Android体验 部署与使用(含各平台代码/命令演示) 技术亮点:核心实现解析 进阶玩法:高级定制和解锁额外功能 生态与社区 结语:开源,让硬件不设限 1. 项目起源 —— 为什么需要“解放 AirPods”Apple 的 AirPods 系列(Pro, Max 等)凭借优秀的硬件和降噪表现,俨然成为高端无线耳机用户的首选,但完整的专属功能(比如降噪模式切换、耳朵检测、听力辅助、手势接听、个性化设置等)却被锁定在苹果自家生态(iOS/macOS)中! LibreP...
Handy
行动不一定带来快乐,但无行动则决无快乐。——本杰明·富兰克林 Handy:离线、自由、可扩展的语音转写应用,让你的电脑“更懂你”在语音交互逐步成为主流的今天,很多人却因为隐私、网络不稳定或商业限制无法安心使用语音转写。Handy 选择了一条简单直接又极具意义的路线:完全离线的开源语音转写应用。它不仅免费、开源,还强调可扩展与跨平台体验,是个人创作者、隐私敏感场景以及办公环境的一剂良方。 项目地址:cjpais/Handy 官网主页:https://handy.computer 项目描述:A free, open source, and extensible speech-to-text application that works completely offline. 主语言:TypeScript License:MIT Stars:8,299+ Forks:555+ 关键词:speech-to-text accessibility cross-platform tauri-v2 为什么是 Handy? 完全离线:隐私不外流,内网/弱网环境也能稳定...
PaddleOCR
别人能做到的,我也能做到;别人不能做到的,我更要做到。——韩愈 PaddleOCR:把 PDF/图片“变成结构化数据”的超级通道,助力 AI 更好理解世界在构建 AI 应用时,一个常被忽视但至关重要的环节是“数据入口”:大量信息仍保存在图像、扫描件或 PDF 文档中。如何把这些非结构化内容转化为模型可用的结构化数据?PaddleOCR 给出高效而优雅的答案。 项目地址:PaddlePaddle/PaddleOCR 官网主页:https://www.paddleocr.ai 项目描述:Turn any PDF or image document into structured data for your AI. A powerful, lightweight OCR toolkit that bridges the gap between images/PDFs and LLMs. Supports 100+ languages. 核心语言:Python License:Apache 2.0 Stars:66,119+ Tags:ocr pp-o...
Open-AutoGLM
如果你想要改变世界,先改变你自己。——圣雄甘地 Open-AutoGLM 与 Phone Agent:把“会用手机”的 AI 真正带到你的桌面在移动端的真实世界里,很多任务都需要“看懂屏幕 + 点按滑动 + 输入搜索 + 等待跳转”。Open-AutoGLM 的 Phone Agent 正是为此而生:它基于多模态视觉语言模型(VLM)理解手机屏幕内容,通过 ADB 远程操控设备,自动完成从意图解析到动作执行的完整流程。你只需用自然语言提出需求,例如“打开美团搜索附近的火锅店”,Agent 即会理解当前界面、规划步骤、执行操作、并在敏感场景请求确认或人工接管,保障安全与可控。 仓库地址:zai-org/Open-AutoGLM README(本文内容基于此):README.md 模型下载: AutoGLM-Phone-9B(中文应用优化): Hugging Face ModelScope AutoGLM-Phone-9B-Multilingual(支持英文场景): Hugging Face ModelScope 相关部署参考:与 GLM-4.1V-9B-...
nanoGPT
坚持就是胜利。——游吉祥 nanoGPT:用最简单最快的方式训练/微调中等规模 GPT在大模型成为开发“标配”的今天,很多人都希望能亲手训练或微调一个可用的 GPT。但现实往往是:工程复杂、脚本繁多、动辄几十个开关,令人望而却步。Andrej Karpathy 的开源项目——nanoGPT,则用一句话击中痛点:The simplest, fastest repository for training/finetuning medium-sized GPTs. 项目地址:karpathy/nanoGPT 项目描述:The simplest, fastest repository for training/finetuning medium-sized GPTs. 语言:Python 许可证:MIT Stars:50,711+ Forks:8,492+ 它的目标不是“最全功能”,而是“最小可用且高效”——把训练中等规模 GPT 的路径压缩到极简,既能上手学习,也能作为小团队/个人项目的工程基座。 为什么选择 nanoGPT?...
