超星转换pdf的好方法

来源:百度文库 编辑:神马文学网 时间:2024/03/28 16:39:05
在网上经常下载电子书,有些是exe的有些是超星的,也有些是pdf的,由于我喜欢在手机上看书,所以最喜欢的还是txt格式的,所以经常进行些转换,对于扫描的书有时还进行ocr,前一段时间在http://stronghorse.yeah.net 找到了几个非常不错的处理程序,推荐给大家,他主页也有很多相关的文章,很不错,建议多读读。他开发的Pdg2Pic.zip和FreePic2Pdf.zip应该上目前最好的超星转换pdf的方法了。速度飞快,比虚拟打印的方法要快很多很多,并且没有图象损失。

http://www.comicer.com/stronghor ... niKillEBook_chn.zip       一个专门针对基于IE内核电子书的反编译软件,可以在不知道电子书具体文件格式的情况下,反编译电子书的内容。但是内部对功能进行了限制,只能反编译HTML内容,不能反编译电子书中的图片、动画、css、js、音乐等。反编译结果可以是原始的HTML文件,也可以直接存为文本文件,方便转换成PDA、手机电子书格式。如果确实需要反编译动画、css、js、音乐等,可以参阅《用JavaScript获取网页中的js、css、Flash等文件》。
动机: 在发表《常见电子书格式及其反编译思路》的时候,我出于某些考虑,没有发表配套的应用程序KillEBook和IECracker,结果很多人给我来信,向我索要这两个工具,让我烦不胜烦。无论如何,这两个工具是不能外传的,所以我将KillEBook的功能进行了限制,删掉了使用IE的非公开接口反编译图片、动画、css、js、音乐等的功能,仅仅保留了HTML反编译功能,就成了这个可以公开发表的miniKillEBook。

http://www.comicer.com/stronghorse/software/exe/Pdg2Pic.zip   这种超星的转换方法速度飞快,并且不像那种虚拟打印的方式分辨率不会下降。
将PDG文件转成图像文件(包括TIFF、JPG、PNG),具有下列特色:
转换过程不占用系统剪贴板,因此在转换时,不影响用户在前台的正常工作。
在打开目录时自动对PDG文件进行格式统计,并报告结果。
可以自动将文件按封面、前言、目录、正文、附录的顺序排列,也可以手动调整。
提供预览功能,在转换前可以先浏览PDG图像和PDG文件信息。
如果转换过程中出现错误,将给出错误日志,便于定位有问题的PDG文件。
PDG文件的扫描DPI自动转存入TIFF、PNG文件,便于在转换成PDF文件时指定页面大小。
如果检查发现PDG文件是纯正的JPG文件,将不进行任何转换,直接将PDG复制为JPG;黑白PDG文件转存为采用CCITT G4压缩的TIFF文件,以获取高压缩比;灰度/彩色PDG重新压缩为有损的JPG或采用JPEG压缩的TIFF文件,或无损压缩的PNG文件 ,或JPEG 2000(JP2)文件(质量系数为100%时,JPEG 2000为无损压缩,否则为有损压缩)。
与FreePic2Pdf配合,能够自动生成PDF多级书签;能够在PDF文件中自动生成三段页码:封面、版权页用大写英文字母,目录页用小写罗马字母,正文页用阿拉伯数字;能够将BookInfo.dat作为文本添加到PDF文件中,并用其中内容填写PDF的Document Properties,包括Title、Author、Subject、Keyword。
能够将PDG文件直接OCR成文本文件。OCR引擎为微软Office 2003所带的Microsoft Office Document Imaging (MODI)。OCR时自动跳过封面、书名、版权、目录页。
Pdg2Pic基于超星浏览器的Pdg2控件实现,因此运行时需要在本地机上先安装超星浏览器,或注册一个能用的Pdg2.dll。本软件对超星浏览器3.8的支持没有问题,其它版本的超星浏览器没有试过。

PDG文件是超星公司电子图书的专有格式,需要用超星公司的专用浏览器才能阅读。本人无意对超星公司的版权进行任何形式的侵犯,也不希望任何人用本工具从事侵权活动。如果需要浏览PDG电子书,请通过购买点卡等方式,以合法的途径获得。本软件假定用户通过合法的手段获得PDG文件,只是由于希望能够在比超星浏览器更好、更方便的浏览器上阅读,并且不对转换出来的文件进行扩散的情况下,才需要将PDG文件转换成图像文件。


动机: 测试我自己的一些想法,详见《PDG转图像、PDF的若干方法》、《PDG转PDF注定会文件膨胀、质量下降吗?》、《用Pdg2Pic、TextForever实现批量OCR》。



http://www.comicer.com/stronghorse/software/exe/FreePic2Pdf.zip  
将图像文件(包括TIFF、JPG、PNG、GIF、BMP、JPEG 2000)合并、转换成PDF文件的软件:
对有损/无损压缩的JPEG 2000、有损压缩的JPG文件及采用JPEG/OJPEG算法压缩的TIFF文件,直接将原始数据流嵌入PDF文件,避免因为重新压缩而造成图像质量下降;对无损压缩的图像文件,黑白图像解码后压缩为JBig2(有损或无损)或CCITT G4,其它解码后压缩成ZIP数据流嵌入PDF文件。
支持多页TIFF和多帧(动画)GIF,每页或每帧算一幅图像。
可以指定生成的PDF文件的页面大小(除A4、B5等,还支持国内常用的32开、16开、大32开)及页边距。如果不指定页面的纸张大小,可以指定页面的固定宽度(长度随图像大小伸缩),避免连续阅读时因为页面宽度变来变去而影响阅读。
支持通过接口自动生成多级书签、分段页码、添加文本页、设置PDF的Document Properties。
接口文件可以用于新生成的PDF,也可以用于已有的PDF,包括往已有的PDF上加书签、从PDF取书签等。
软件基于开源代码实现,运行时不需要任何第三方软件或控件的支持。当然如果要浏览制作出来的PDF文件,必须安装Adobe PDF Reader等PDF阅读软件。