世界上最快而又最慢,最长而又最短,最平凡而又最珍贵,最容易被人忽视,而又最令人后悔的就是时间。——高尔基
PageIndex:不建向量库、不切块,用“推理式检索”把长文档读懂读透
当你认真做长文档检索(财报、法规、研究报告、技术白皮书)就会发现:传统向量 RAG 的“语义相似度”不等于真正的“相关性”。很多答案被埋在章节结构里,靠“一页一向量”的相似召回,总是差点意思。
PageIndex 的思路非常直接:灵感来自 AlphaGo,它不是去“比向量”,而是先把文档结构化成一个分层的索引树(像目录,但更适合 LLM 使用),再让模型沿着树做“推理式检索”,以人类专家查阅资料的方式去定位答案。
- 项目仓库:VectifyAI/PageIndex
- 主页与文档:
- 主页:https://pageindex.ai
- Chat 平台:https://chat.pageindex.ai
- MCP 集成:https://pageindex.ai/mcp
- 文档与 Cookbook:https://docs.pageindex.ai
- 项目描述:PageIndex — 面向“Vectorless、Reasoning-based RAG”的文档索引(MIT)
核心理念:用索引树 + 树搜索,模拟人类的查阅路径
传统向量检索偏“相似度”。PageIndex 做的是“相关性”,而且是可解释、可追踪的相关性。它的工作流很简单但很有效:
- 为文档生成一个“Table-of-Contents 风格”的层级索引树(每个节点有标题、页码范围、摘要等)
- 沿着树结构进行推理式检索(Tree Search),一步步缩小范围,定位真正有用的段落或页面
这种方法的优势非常直观:不再 “切块 + 相似度”,而是“按自然结构 + 推理导航”;最终给出的是带页码、带章节的引用,路径清晰、因果明确。
特性亮点
-
无向量库(No Vector DB)
不是按向量相似度查找,而是用文档结构与 LLM 推理做检索 -
不切块(No Chunking)
不把文档硬切成碎块,而是保留自然章节结构,层级清晰 -
类人检索(Human-like Retrieval)
模拟专家查阅路径,以树搜索的方式逐步缩小上下文范围 -
可解释与可追踪(Explainability & Traceability)
检索过程可复盘,引用带页码、带节名,不再是“黑箱相似度”
实战成绩也很亮眼:基于 PageIndex 的金融文档系统在 FinanceBench 上取得 98.7% ���准确率(详见 Mafin2.5-FinanceBench)。
PageIndex 索引树:长文档的一种“结构化记忆”
PageIndex 能把冗长的 PDF,转成一个用于 LLM 的“语义索引树”。你可以把它理解为一个更适合推理的“目录结构”。
示例片段(来自仓库 README):
1 | |
这种结构既可以在本地用开源代码生成,也可以直接通过官方 API 获得。
快速上手(本地运行)
先准备依赖与环境变量:
1 | |
对 PDF 运行 PageIndex:
1 | |
可选参数(从 README 直接摘取):
1 | |
Markdown 支持(用标题层级 # 判断节点级别):
1 | |
在线体验与集成方式
-
Chat 平台(ChatGPT 风格):https://chat.pageindex.ai
直接把长文档丢进去聊天,体验“推理式检索”。 -
MCP 集成:https://pageindex.ai/mcp
把 PageIndex 接入 Claude、Cursor 或任何 MCP 支持的 Agent。 -
API(集成到你的系统):https://docs.pageindex.ai/quickstart
部署选项:
- 自托管(开源仓库本地运行)
- 云服务(Chat 平台 / MCP / API)
- 企业私有部署(联系团队获取方案与演示)
Cookbook 与教程
-
Vectorless RAG(最小示例):
https://github.com/VectifyAI/PageIndex/blob/main/cookbook/pageindex_RAG_simple.ipynb
Colab 打开:
https://colab.research.google.com/github/VectifyAI/PageIndex/blob/main/cookbook/pageindex_RAG_simple.ipynb -
Vision-based Vectorless RAG(无 OCR、直接对 PDF 做视觉推理式检索):
https://github.com/VectifyAI/PageIndex/blob/main/cookbook/vision_RAG_pageindex.ipynb
Colab 打开:
https://colab.research.google.com/github/VectifyAI/PageIndex/blob/main/cookbook/vision_RAG_pageindex.ipynb
多文档检索最佳实践(教程目录):
- Metadata 检索:https://github.com/VectifyAI/PageIndex/blob/main/tutorials/doc-search/metadata.md
- Semantics 检索:https://github.com/VectifyAI/PageIndex/blob/main/tutorials/doc-search/semantics.md
- Description 检索:https://github.com/VectifyAI/PageIndex/blob/main/tutorials/doc-search/description.md
适用场景与价值
-
财务与法律文档
按章节结构检索,给出可追踪页码与段落,满足合规与审查需求。 -
学术与技术报告
长文档的目录结构天然适合“树搜索”,推理式召回更接近真实阅读过程。 -
企业知识库
不再被向量库的“相似但不相关”困扰,检索更可解释,可复盘。 -
Agent 工作流
MCP 接入把 PageIndex 成为“长文档助手”,能与团队工具链互通。
实战参考:金融 QA 基准
PageIndex 支撑的系统(Mafin 2.5)在 FinanceBench 上达到 98.7% 准确率:
这背后的关键,就是“索引树 + 推理式检索”的导航能力,让模型像人一样“翻到正确那一页”。
结语
PageIndex 把长文档检索从“相似度的猜测”转成“结构化的推理”。不用向量库、不做碎片切块,而是沿着目录树去找真正的上下文。对于认真做文档 AI 的团队,它能显著提升检索的“相关性、可解释性与可追踪性”。
现在就把你的 PDF 跑一遍,先在本地生成索引树,再去 Chat 平台感受一下“推理式检索”的手感。长文档真正有价值的内容,应该被正确地找到、被透明地引用,而不是被相似度所“带偏”。
- 仓库:https://github.com/VectifyAI/PageIndex
- 文档与 Cookbook:https://docs.pageindex.ai
- Chat 平台:https://chat.pageindex.ai
- MCP 集成与 API:https://pageindex.ai/mcp · https://docs.pageindex.ai/quickstart