力压群雄：谷歌 Gemini 2.5 Pro 成首款完全理解 PDF 布局的 AI 模型，可精确引用

35 0 0

GoodNav 4 月 22 日报道，最新研究表明，谷歌的 Gemini 2.5 Pro 模型能够准确解析 PDF 文件的视觉结构，实现精确的视觉引用功能，成为第一款完全理解 PDF 布局的人工智能模型。

值得注意的是，谷歌在 3 月 25 日首次向付费用户和开发者发布了 Gemini 2.5 Pro 的实验版本，仅四天后，便通过免费 Web 应用向全球用户开放了该功能。

Gemini 2.5 Pro 能够提取 PDF 文档中的文本内容，并理解其视觉布局，如图表、表格及整体排版。

谷歌在开发者文档中说明，该模型具备“原生视觉”（Native Vision）能力，可以处理最多 3000 个 PDF 文件（每个文件限制为 1000 页或 50MB），并拥有 100 万 token 的超大上下文窗口，未来有计划扩展至 200 万 token。

AI 初创企业 Matrisk 的联合创始人 Sergey Filimonov 对 Gemini 2.5 Pro 在 PDF 视觉引用方面的卓越表现给予了高度评价。

Filimonov 指出，传统文本分割方法会破坏用户与原始文本的视觉连接，使其难以直观验证信息来源。甚至在 ChatGPT 中，点击引用后只会下载 PDF，迫使用户自行判断模型是否存在“幻觉”，这严重削弱了用户的信任。

过去，引用文档内容往往只能通过高亮显示大段无关文本，精准度极低。而 Gemini 2.5 彻底改变了这一局面，它不仅能够将提取的文本片段映射回原始 PDF 的准确位置，还能以前所未有的精度定位具体句子、表格单元甚至图像。

这种技术突破为用户提供了清晰的视觉反馈。例如，当询问房屋费率变化时，系统能直接高亮显示文档中相关数据（如 15.4% 的费率变化），同时标注其来源依据。

这种清晰度和互动性是现有工具无法比拟的。Gemini 2.5 不仅优化了现有流程，还开启了全新的文档交互模式。

力压群雄：谷歌 Gemini 2.5 Pro 成首款完全理解 PDF 布局的 AI 模型，可精确引用

相比之下，Gemini 2.5 以 0.804 的 IoU（交并比）精准度远超其他模型，如 OpenAI 的 GPT-4o（0.223）和 Claude 3.7 Sonnet（0.210），展现出惊人的空间理解能力。

Gemini 2.5 的潜力不仅限于文本定位。它还可以从 PDF 中提取结构化数据，并明确标记每个数据的来源位置，从而解决因数据来源不明确导致的下游决策信任问题。

力压群雄：谷歌 Gemini 2.5 Pro 成首款完全理解 PDF 布局的 AI 模型，可精确引用

文章版权归作者所有，未经允许请勿转载。

GoodNav.net

1.6K

GoodNav.net

1.2K

GoodNav.net

720

GoodNav.net

110

GoodNav.net

1.6K

GoodNav.net

1.5K

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...