OCR PDF

直接在浏览器中识别扫描版或图片型 PDF 中的文字。 将无法搜索的页面转换为可搜索 PDF,也可以按需将识别后的文字导出为 .txt 文件,并可选择在保存前查看 OCR 结果。 适合扫描件、照片生成的 PDF,以及看得见文字但无法选中复制的文档。 全部过程都在你的设备上运行,无需上传,无需账号,也不会在服务器保存文件。

输入: PDF(.pdf)
OCR: 识别扫描文字
所有处理都直接在你的设备上完成

使用前了解

此工具专为扫描 PDF 和纯图片页面设计。 它会识别页面中可见的文字,保留原始页面外观,并可在页面背后添加隐藏的可搜索文字层。OCR 准确率会受扫描质量、语言选择、页面清晰度和原始版式影响。

  • 输入: PDF 文件(.pdf)。
  • 输出: 默认生成可搜索 .pdf,也可同时导出识别后的 .txt 文本。
  • 最适合: 扫描件、照片型 PDF、传真风格文档,以及没有可选中文字的 PDF。
  • 语言选择很重要: 如果你知道文档主要语言,手动选择通常比自动检测更准确。
  • 隐私: 你的 PDF 不会离开设备,不会上传到 FileYoga 服务器。

对扫描 PDF 运行 OCR

添加一个 PDF,选择 OCR 设置,识别文字,然后保存可搜索结果。
将 PDF 文件拖放到这里
或点击选择文件
支持 .pdf 文件。 文件会在你的浏览器中处理,不会上传到服务器。

OCR 的工作原理

OCR PDF 使用光学字符识别技术,检测扫描版或图片型 PDF 页面中的文字。 它可以通过在原始页面上添加隐藏文字层来创建可搜索 PDF,也可以将识别出的内容导出为纯文本,方便复制或编辑。

简单来说,OCR 就是从图片中读取文字。 如果你的 PDF 来自扫描件或图片,文字看起来可读,但实际上无法被选中或搜索。 OCR 会分析每一页,从视觉上识别字母、文字和词句,并把它们转换为设备可以理解的真实文本。

这与普通的 PDF 转文本 工具有所不同。 如果 PDF 本身已经包含可选中文字,PDF 转文本可以直接快速提取。 只有当 PDF 没有真实文字层、页面只是图片时,才需要 OCR,例如扫描件、照片或保存为 PDF 的纸质打印文档。


适合什么时候使用这个工具

当页面上看得见文字,但你无法在 PDF 中搜索、高亮或复制这些文字时,OCR 会很有用。

  • 将扫描的纸质文档转换为可搜索 PDF。
  • 识别手机扫描并保存为 PDF 的文字内容。
  • 从无法正常复制的纯图片 PDF 中恢复文字。
  • 从旧报告、信件、发票或归档文件中提取可读文字。

需要从已经包含可选中文字的 PDF 中提取文字?请使用 将 PDF 文字提取为纯文本。 需要页面图片而不是 OCR 文本?可以试试 将 PDF 页面转换为图片。 只想先处理部分页面?可以使用 提取选定 PDF 页面为新 PDF

分步操作:如何对 PDF 运行 OCR

让 PDF 变得可搜索,只需几步:

  • 添加你的 PDF。 将文件拖放到上方区域,或点击从设备中选择文件。
  • 选择 OCR 语言。 使用自动检测,或手动选择文档主要语言。
  • 选择页面范围。 对全部页面运行 OCR,或手动点击选择指定页面。
  • 选择输出格式。 默认选择可搜索 PDF,也可以按需同时导出文本文件。
  • 选择是否显示文本预览。 如果想在页面下方查看识别文字,可以开启预览。
  • 开始 OCR。 工具会在你的浏览器中处理页面,并在本地生成结果。

输出内容包含什么

  • 可搜索 PDF: 页面外观保持不变,同时添加隐藏的识别文字层,以便在兼容的 PDF 查看器中搜索、高亮和复制。
  • 文本文件: 将识别出的内容导出为纯 .txt 文件,方便复用、清理或粘贴到其他地方。
  • 可选预览: 如果想检查 OCR 质量,可以在保存前显示识别文本预览。

OCR 通常不会像可编辑文档那样完美还原原始排版。它更适合文字识别、搜索、复制和基础文本恢复。

隐私、限制以及这个工具如何处理你的文件

FileYoga 遵循一个简单原则: 你的文件始终由你掌控。 OCR 会在你的浏览器本地运行,因此你的 PDF 不会上传到 FileYoga 服务器。

仅在本地处理

OCR 会在你设备上的浏览器中完成。你的 PDF 不会上传,输出文件也会在你的本地生成。

不保存隐藏副本

当你清除文件或关闭标签页后,工具会停止使用你的 PDF,也不会在服务器上保存副本。

没有人为限制

没有付费墙,也没有配额限制。实际限制来自你的设备速度、浏览器内存、页数和扫描质量。

无需注册账号

无需登录即可使用。打开页面,运行 OCR,保存结果,完成后直接离开即可。

获得更好效果的小技巧

  • 如果你知道文档的主要语言,建议手动选择 OCR 语言。
  • 高对比度、端正、清晰的扫描件,通常比模糊、倾斜或有阴影的页面识别效果更好。
  • 如果 PDF 很大或设备较慢,可以只对需要的页面运行 OCR。
  • 如果准确率很重要,保存前建议开启识别文本预览进行检查。
  • 如果 OCR 后的可搜索 PDF 变大,可以之后再压缩 PDF。
  • 多语言文档如果不同页面以不同语言为主,可能需要分批运行 OCR。

问题排查

  • OCR 很慢: 大型 PDF、高分辨率页面和大量扫描页需要更长时间,因为每一页都要在浏览器中分析。
  • 识别质量较差: 扫描件可能模糊、分辨率低、倾斜、噪点多,或拍摄光线不好。
  • 自动检测选择了错误语言: 重新运行 OCR,并手动选择主要语言以提升准确率。
  • 可搜索 PDF 看起来没有变化: 这是正常的。可见页面通常保持原样,只是在背后添加隐藏的可搜索文字。
  • 部分文字错误或缺失: 装饰字体、手写体、表格、印章、低对比度和混合语言都会降低 OCR 准确率。
  • PDF 出错: 文件可能已损坏、加密、过于复杂,或对浏览器来说太大;请用桌面 PDF 软件重新保存后再试。

常见问题