LaTeX-OCR

2025-10-22

python

吾十有五而志于学,三十而立,四十而不惑,五十而知天命,六十而耳顺,七十而从心所欲不逾矩。——孔子《论语》

https://github.com/lukas-blecher/LaTeX-OCR

LaTeX-OCR(pix2tex):用 AI 把公式图片秒变 LaTeX 代码的神器!

在学术论文、科技书籍、工程笔记的世界里,数学公式和 LaTeX 几乎是“标配”。但无论是写论文还是搬运资料,遇到图片里的复杂公式,仅靠手工敲 LaTeX,效率低下、易出错。有没有一款“拍照识别公式,秒出 LaTeX 代码”的 AI 工具?LaTeX-OCR(pix2tex),绝对是你不容错过的开源神器!


一、项目简介

  • 项目地址lukas-blecher/LaTeX-OCR
  • 官网/演示https://lukas-blecher.github.io/LaTeX-OCR/
  • 一句话简介:pix2tex: Using a ViT to convert images of equations into LaTeX code.
  • 主语言:Python
  • Star:15850+
  • Forks:1265+
  • 开源协议:MIT
  • 标签latex ocr math-ocr deep-learning transformer vision-transformer python im2latex

二、LaTeX-OCR 能做什么?

  • 图片转 LaTeX:一键将公式图片、截图、扫描件等转成可编辑的 LaTeX 代码。
  • 高准确率:基于 Vision Transformer(ViT)等 SOTA 深度学习模型,复杂公式识别能力强。
  • 支持多种输入输出:图片、PDF、网页、截图均可,输出标准 LaTeX,完美适配论文、笔记、Markdown 等场景。
  • 开源免费,易用性强:本地运行,无需上传隐私数据到第三方服务器。

三、核心技术亮点

  • ViT(Vision Transformer)加持:采用 transformer 架构,强大的视觉理解与序列建模能力,让公式结构与符号还原度极高。
  • 端到端训练:输入图片,直接输出 LaTeX 序列,无需人工规则拆分。
  • 大规模数据集微调:用海量公式图片-代码对训练,支持多种符号、嵌套、复杂结构。
  • 支持批量识别、剪贴板互通:适合批量处理教材/论文,也方便与常用编辑器配合。

四、快速上手体验

1. 安装与环境准备

首先确保有 Python 3.x 和 CUDA(建议用于 GPU 加速),然后:

1
2
3
git clone https://github.com/lukas-blecher/LaTeX-OCR.git
cd LaTeX-OCR
pip install -r requirements.txt

2. 命令行识别图片公式

假设你有一张公式图片 equation.png,只需:

1
python predict.py --img_path equation.png

输出:

1
\int_{-\infty}^{\infty} e^{-x^2} dx = \sqrt{\pi}

3. 批量识别/GUI(如支持)

除了命令行,还可结合 demo 网页或第三方 GUI 工具(如 Snip、Notion AI、Obsidian 插件等)批量处理复杂文档。


五、典型应用场景

  • 论文搬运:看到 PDF、图片里的公式,想提取出来编辑/复用
  • 教材数字化:将扫描版教材/笔记自动转为 LaTeX 电子文档
  • 学术笔记整理:手写/板书照片一键变 LaTeX,便于后续排版和分享
  • AI 辅助标注/批量数据处理:研究者开发自定义公式识别、数据集生成

六、代码案例:集成到你自己的 Python 工具链

你可以直接用该项目的 Python API 在自己的脚本中批量识别图片:

1
2
3
4
5
6
7
8
from pix2tex import LatexOCR
import cv2

model = LatexOCR()
img = cv2.imread('equation.png')
latex_code = model(img)
print(latex_code)
# 输出:\int_{a}^{b} f(x)\,dx

七、社区与生态

  • 高活跃度开源社区:1.5w+ Star,持续维护、问题响应及时
  • 支持 Discussions 讨论与新特性建议
  • 丰富的数据集与模型权重:方便二次训练、定制化开发
  • 兼容多平台:可集成 VSCode、Jupyter、Notion、Obsidian 等编辑器

八、总结

LaTeX-OCR(pix2tex)大大提升了数学公式数字化的效率,是学术、工程、教育领域的 AI 助手。无论你是论文作者、学生、科研教师,还是极客开发者,这个项目都能帮你节省无数手敲公式的时间,让创作更专注于内容本身。如果你还没用过,赶快体验一下吧!

项目主页:https://github.com/lukas-blecher/LaTeX-OCR
在线演示:https://lukas-blecher.github.io/LaTeX-OCR/
Star 15850+,让 AI 为你的学术效率加速!