企业花了几百万建 AI 知识库，结果 AI 在一本正经地胡说——根源在这里

一家金融公司，耗时半年，把十年的研报和合规文档全部接入 AI 问答系统。

上线第一天，有人问：“这份合同的违约条款是什么？”

AI 给出了一个听起来完全合理的答案。但那个答案，是错的。

不是模型的问题。模型没变笨。是它拿到的"原材料"从一开始就坏了。

RAG 系统里有一个环节，所有人都默认它没问题，但它正在悄悄把你的 AI 变成一个自信的骗子——文档解析。

你可能从来没意识到，PDF 有多难读

说一个很多人不知道的事：PDF 格式天生不是给机器读的，它是给打印机读的。

PDF 里没有"标题"，没有"段落"，没有"表格"。它存的是：在坐标 (120, 340) 这个位置，放一段 12pt 的 Helvetica 字体文字。每个字都是有坐标的独立浮动对象。

所以当你用常见的 Python 库解析一份双栏 PDF，你很可能得到：左栏第一行 + 右栏第一行 + 左栏第二行 + 右栏第二行……两栏文字交叉混在一起。

你把这堆乱文送进大模型，大模型会给你一个听起来非常有条理的答案——因为它很擅长从乱文里"脑补"出逻辑。

这才是真正可怕的地方：它不会告诉你它读错了，它只会用错误的信息，给你一个自信满满的回答。

商业方案（Adobe API、LlamaParse）需要把文件传到云端，有数据合规问题，按页收费成本不低。

开源 Python 库速度慢，对扫描件无能为力，复杂排版基本抓瞎。

核心矛盾是：解析文档需要真正理解文档的空间结构，但大多数工具只是在顺序读取字符流，根本不懂"这几个字在空间上属于同一列"。

没有人用足够快的语言，认真地把空间重建这件事做好。直到 liteparse 出现。

LlamaIndex 团队用 Rust 从头写了一个文档解析器。

核心技术：空间文本重建（Spatial Text Parsing）。

它不是顺序读字符，而是先识别出每个字的坐标，然后在一个二维坐标系里重建整个页面的空间布局。

双栏 PDF？识别出两列的边界，分别提取，按正确顺序拼合。表格？根据行列坐标还原单元格结构，不再错位。

这是一个范式级的差异——不是改进，是换了一种思路。

加上内置 Tesseract OCR（扫描件开箱即用）、支持 DOCX/XLSX/PPTX 等格式、Python/Node.js/WASM 多种接入方式、完全本地运行无需上传数据……

今天它在 GitHub 单日涨了 925 颗星。这是 2026 年今日全平台最高单日涨幅。925 颗星背后，是 925 个开发者在同一天意识到——他们也踩过这个坑。

模型能力每六个月翻一倍。但如果地基是坏的，楼建得越高，倒得越惨。

liteparse 是免费的，开源的，今天就能用。

如果你的团队正在做 RAG 系统，或者已经在跑了——现在去检查一下你的文档解析环节。不检查，你不会知道那里是不是已经在悄悄生产垃圾。