PDF的转换

来源:百度文库 编辑:神马文学网 时间:2024/04/27 17:04:42

PDF的转换方法 全集
文字此问题需分为两部分来解决:
一、如果PDF文档本身由WORD转成:
网上巳有很多这方面的论述,请参阅:
http://www.knowsky.com/4419.html
也可用其它PDF转Word工具,如:“PDF转Word工具”
http://www.cqforest.com/soft/12136.htm
二、如果PDF文档本身由扫描文件转成,用上面的方法就无效了。那就需要分几步来完成:
1,先将PDF转为图片:
可用:“Galcott PDF Converter”软件将PDF转为图片格式
http://www.jfdown.com/SoftView/SoftView_17738.html
2,再用OCR软件识别、校对:
推荐使用“汉王OCR2.5”
ftp://software@211.147.168.80/pic/hwdoc.rar
虽然汉王巳出了5300、5800、6800,但真正完全破解的只有汉王OCR2.5,用它的批文件处理模式可进行自动识别,然后再校对。
3,输出到文本:
完成识别校对后,可用我先前发的“OCR助手”软件
http://www.czzyy.com/personal/wyx/download/OCRPlus.exe
删除多余的换行符并合并导出为单个文本文件。
4,在WORD中作最后的修饰。
经过他人尝试,发现可以利用Office 2003中的Microsoft Office Document Imaging组件来实现PDF转WORD文档,也就是说利用WORD来完成该任务。方法如下:
用Adobe Reader打开想转换的PDF文件,接下来选择“文件→打印”菜单,在打开的“打印”窗口中将“打印机”栏中的名称设置为“Microsoft Office Document Image Writer”,确认后将该PDF文件输出为MDI格式的虚拟打印文件。
注:如果没有找到“Microsoft Office Document Image Writer”项,使用Office 2003安装光盘中的“添加/删除组件”更新安装该组件,选中“Office 工具 Microsoft DRAW转换器”。
然后,运行“Microsoft Office Document Imaging”,并利用它来打开刚才保存的MDI文件,选择“工具→将文本发送到Word”菜单,在弹出的窗口中选中“在输出时保持图片版式不变”,确认后系统会提示“必须在执行此操作前重新运行OCR。这可能需要一些时间”,不管它,确认即可。
注:对PDF转DOC的识别率不是特别完美,转换后会丢失原来的排版格式,所以转换后还需要手工对其进行排版和校对工作。
以上仅在word2003中可用,其他版本没有Microsoft Office Document Image Writer。