吾十有五而志于学,三十而立,四十而不惑,五十而知天命,六十而耳顺,七十而从心所欲不逾矩。——孔子《论语》
https://github.com/lukas-blecher/LaTeX-OCR
LaTeX-OCR(pix2tex):用 AI 把公式图片秒变 LaTeX 代码的神器!
在学术论文、科技书籍、工程笔记的世界里,数学公式和 LaTeX 几乎是“标配”。但无论是写论文还是搬运资料,遇到图片里的复杂公式,仅靠手工敲 LaTeX,效率低下、易出错。有没有一款“拍照识别公式,秒出 LaTeX 代码”的 AI 工具?LaTeX-OCR(pix2tex),绝对是你不容错过的开源神器!
一、项目简介
- 项目地址:lukas-blecher/LaTeX-OCR
- 官网/演示:https://lukas-blecher.github.io/LaTeX-OCR/
- 一句话简介:pix2tex: Using a ViT to convert images of equations into LaTeX code.
- 主语言:Python
- Star:15850+
- Forks:1265+
- 开源协议:MIT
- 标签:
latex
ocr
math-ocr
deep-learning
transformer
vision-transformer
python
im2latex
二、LaTeX-OCR 能做什么?
- 图片转 LaTeX:一键将公式图片、截图、扫描件等转成可编辑的 LaTeX 代码。
- 高准确率:基于 Vision Transformer(ViT)等 SOTA 深度学习模型,复杂公式识别能力强。
- 支持多种输入输出:图片、PDF、网页、截图均可,输出标准 LaTeX,完美适配论文、笔记、Markdown 等场景。
- 开源免费,易用性强:本地运行,无需上传隐私数据到第三方服务器。
三、核心技术亮点
- ViT(Vision Transformer)加持:采用 transformer 架构,强大的视觉理解与序列建模能力,让公式结构与符号还原度极高。
- 端到端训练:输入图片,直接输出 LaTeX 序列,无需人工规则拆分。
- 大规模数据集微调:用海量公式图片-代码对训练,支持多种符号、嵌套、复杂结构。
- 支持批量识别、剪贴板互通:适合批量处理教材/论文,也方便与常用编辑器配合。
四、快速上手体验
1. 安装与环境准备
首先确保有 Python 3.x 和 CUDA(建议用于 GPU 加速),然后:
1 |
|
2. 命令行识别图片公式
假设你有一张公式图片 equation.png
,只需:
1 |
|
输出:
1 |
|
3. 批量识别/GUI(如支持)
除了命令行,还可结合 demo 网页或第三方 GUI 工具(如 Snip、Notion AI、Obsidian 插件等)批量处理复杂文档。
五、典型应用场景
- 论文搬运:看到 PDF、图片里的公式,想提取出来编辑/复用
- 教材数字化:将扫描版教材/笔记自动转为 LaTeX 电子文档
- 学术笔记整理:手写/板书照片一键变 LaTeX,便于后续排版和分享
- AI 辅助标注/批量数据处理:研究者开发自定义公式识别、数据集生成
六、代码案例:集成到你自己的 Python 工具链
你可以直接用该项目的 Python API 在自己的脚本中批量识别图片:
1 |
|
七、社区与生态
- 高活跃度开源社区:1.5w+ Star,持续维护、问题响应及时
- 支持 Discussions 讨论与新特性建议
- 丰富的数据集与模型权重:方便二次训练、定制化开发
- 兼容多平台:可集成 VSCode、Jupyter、Notion、Obsidian 等编辑器
八、总结
LaTeX-OCR(pix2tex)大大提升了数学公式数字化的效率,是学术、工程、教育领域的 AI 助手。无论你是论文作者、学生、科研教师,还是极客开发者,这个项目都能帮你节省无数手敲公式的时间,让创作更专注于内容本身。如果你还没用过,赶快体验一下吧!
项目主页:https://github.com/lukas-blecher/LaTeX-OCR
在线演示:https://lukas-blecher.github.io/LaTeX-OCR/
Star 15850+,让 AI 为你的学术效率加速!