力压群雄：谷歌 Gemini 2.5 Pro成首款完全理解PDF 布局的AI模型，可精确引用

2025年04月22日 11:36:39 来源：IT之家

　　最新报告指出，谷歌旗下的 Gemini 2.5 Pro 模型能准确解析 PDF 文档的视觉结构，实现精准的视觉引用功能，成为首款能完全理解 PDF 布局的 AI 模型。

　　IT之家注：谷歌于 3 月 25 日向付费用户和开发者发布 Gemini 2.5 Pro 实验模型，仅隔 4 天时间，谷歌便通过免费 Web 应用向全球用户开放。

　　Gemini 2.5 Pro 不仅能提取 PDF 文档中的文本内容，还能理解其视觉布局，包括图表、表格和整体排版。

　　谷歌在开发者文档中表示，该模型具备“原生视觉”(Native Vision)能力，支持处理最多 3000 个 PDF 文件(每个文件上限为 1000 页或 50MB)，同时拥有 100 万 token 的超大上下文窗口，未来计划扩展至 200 万 token。

　　AI 初创公司 Matrisk 的联合创始人 Sergey Filimonov 特别赞扬了 Gemini 2.5 Pro 在 PDF 视觉引用上的表现。

　　Filimonov 指出，传统的文本分割方法会切断用户与原文的视觉联系，导致无法直观验证信息的来源。甚至在 ChatGPT 中，点击引用也只能下载 PDF，迫使用户自行判断模型是否“幻觉”，这严重损害了用户信任。

　　过去，引用文档内容往往只能高亮大段无关文本，精准度极低。Gemini 2.5 彻底改变这一现状，它不仅能将提取的文本片段映射回原始 PDF 的确切位置，还能以前所未有的精度锁定特定句子、表格单元甚至图像。

　　这种技术突破为用户提供了直观的视觉反馈，例如在询问房屋费率变化时，系统能直接高亮文档中相关数据(如 15.4% 的费率变化)，并标注来源依据。

　　这种清晰度和交互性是现有工具无法企及的。Gemini 2.5 不仅优化了现有流程，更开启了全新的文档交互模式。

　　相比之下，Gemini 2.5 以 0.804 的 IoU(交并比)精度大幅领先其他模型，如 OpenAI 的 GPT-4o(0.223)和 Claude 3.7 Sonnet(0.210)，展现出惊人的空间理解能力。

　　Gemini 2.5 的潜力远不止于文本定位。它还能从 PDF 中提取结构化数据，同时明确标注每个数据的来源位置，解决下游决策中因数据来源不明而产生的信任障碍。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

即时

第十四代英特尔® 酷睿™ 处理器(代号Raptor Lake S Refresh)采用了先进的Intel 7制程工艺。