扫描下来的 PDF 文件如何做文字修改(OCR)?【转】 - niya的日志 - 网易博客

来源:百度文库 编辑:神马文学网 时间:2024/04/30 14:53:01

扫描下来的 PDF 文件如何做文字修改(OCR)?【转】

电脑 2009-01-02 16:24:20 阅读2568 评论0   字号: 订阅

简介

PDF 是 Adobe 便携式文档格式(Portable Document Format)的简称,PDF 以“文本+图像”的格式,保留了原文件的细节信息如:字体格式,版式和图片色彩等,且质量清晰、容量较小、可以多页合成一个文件,所以非常适宜网上传输,公司内部共享。

由于 PDF 格式是 Adobe 公司开发的,所以经常用 Acrobat Reader 或 Acrobat 软件打开,但无论是 Reader 还是 Acrobat,都无法修改 PDF 文件里面的内容。Acrobat 仅比 Reader 多了调用扫描仪、添加一些元素等功能而已。

本文主要介绍如何通过第三方软件将 PDF 格式进行转换以使得内容可以随意修改的方法。

方法介绍

我们主要通过“MicrosoftOfficeDocumentImaging”这个 Office 的组件进行格式转换和文字识别。这个组件集成在微软的 Office XP 和 Office 2003 下,并且为默认安装组件,若您的电脑中没有它,建议放入微软的 Office 光盘安装。如何判断自己的电脑已经安装上了这个组件呢?就是看控制面板里的打印机文件夹下是否有了一个名为“MicrosoftOfficeDocumentImaging”的打印机图标。

此组件最后会将 PDF 格式转换成 Word 格式,即可在 Word 中编辑修改了。转换识别后原稿还需要重新排版和校对。

操作步骤

  1. 确保电脑上已经正确安装了如下软件:Acrobat 或 Acrobat Reader、Office XP 或 Office 2003(带有 Microsoft Office Document Imaging 组件)。

  2. 用 Acrobat 或 Acrobat Reader 软件将已有的或扫描进来的 PDF 文件打开,然后点击“文件”菜单下的“打印”,打印机名称选择 “MicrosoftofficeDocumentImageWriter” 。如图 1选择“MicrosoftofficeDocumentImageWriter”虚拟文件打印机所示。此打印机将输出一个后缀名为MDI的虚拟打印文件。

    图 1: 选择“MicrosoftofficeDocumentImageWriter”虚拟文件打印机

    点击“确定”按钮按钮后将输出一个 MDI 文件且自动打开了 MicrosoftOfficeDocumentImaging 组件界面。如果没有自动打开,可以依次点击“开始”→“程序”→“MicrosoftOffice”→“MicrosoftOffice 工具”,打开此组件。

  3. 在 MicrosoftOfficeDocumentImaging 窗口中依次点击“工具”→“将文本发送到 Word ”菜单,出现如图 2 将原稿发送到 Word 所示界面:

    图 2: 将原稿发送到 Word

    注 : 勾选上“在输出时保持图片版式不变”,这样可以最大程度保留原稿格式。

  4. 点击“确定”按钮后会有 OCR 的提示,如图 3 OCR 提示所示:

    图 3: OCR 提示

  5. 点击“确定”按钮后开始 OCR 过程,如图 4 OCR 识别所示:

    图 4: OCR 识别

  6. 识别完成后会自动打开 Word,您的原稿就会在 Word 中并且可以自由编辑了。

扫描下来的 PDF 文件如何做文字修改(OCR)?【转】 - niya的日志 - 网易博客 图片型PDF文件的OCR方法 图片型PDF文件的OCR识别方法 图片型PDF文件的OCR识别方法1 图片型PDF文件的OCR识别方法2 用摄像头进行文字扫描 - 刘览爱我中华的精彩的日志 - 网易博客 使用 PDF 文件应掌握的基本知识 - 农民工的日志 - 网易博客 引用 如何修改注册表 - 成靖的日志 - 网易博客 引用 实用的photoshop修改文字、图片教程 - 彩云滇的日志 - 网易博客 如何重建控制文件 - 无法无天耗的日志 - 网易博客 引用 文件如何加密 - bzh123456的日志 - 网易博客 (收藏)如何上传Flash(swf)文件到博客 - 三月飞春雪的日志 - 网易博客 (转)如何做类的回调函数 - Amadeus的日志 - 网易博客 PDF解密工具 - Louie的日志 - 网易博客 如何做T+0 - Sincerity的日志 - 网易博客 如何做泡菜 - 厦门十三郎的日志 - 网易博客 演讲用的PPT文件应该怎么做? - 王凌潇的日志 - 网易博客 教你如何做首页和日志导航(有代码) - 芳芷香惠的日志 - 网易博客 如何做首页和日志导航(有代码) - 芳芷香惠的日志 - 网易博客 (收藏) 如何给日志做封面 - 三月飞春雪的日志 - 网易博客 引用 如何去除图片上的文字 - 梦中读你的日志 - 网易博客 如何清除图片上的文字 - 理睬的日志 - 网易博客 引用 引用 如何去除图片上的文字 - 梦中读你的日志 - 网易博客 如果你身边有人胃不好,抄下来有用处... (转) - ︵.天下第一家的日志 - 网易博客