PDG科普篇

来源:百度文库 编辑:神马文学网 时间:2024/04/29 00:09:30
事先声明:
1、本文仅代表我自己的个人观点,没有必要争论:如果发现硬伤,欢迎指正;如果仅仅是有不同意见,请自己另写一篇去。
2、本文可以转载,但是必须注明转自读书园地,并注明原作者为strnghrs,并且不能对原文作任何删改,否则视为非法盗版。
3、本文写作过程中得到coolman的指正,在此表示感谢!
==========================================================================
新手初到园地,大概最心烦的就是与PDG相关的各种专有名词,包括图像版、文字版、清晰版、大图版、快速版、6xH等等,本文对此作一个简要说明,希望能起到扫盲的作用。
我个人认为,其实上面说的几个概念关系并不复杂,可以用下面的示意图(此图为strnghrs原创,版权所有,盗用必究)说明:
PDG文件
┏━━━━━━━━┻━━━━━━━━┓
图像版PDG             文字版PDG
(文件名无下划线)         (文件名带下划线)
┏━━━━━━━━┻━━━━━━━┓         ┃
清晰版      快速版     大图版    有人说好,有人不要
┃        ┃       ┃    可能采用各种加密格式,
追求的目标     淘汰的目标   比快速版强  解密后是图文混排的PDF
常为02H、04H   常为05H、AxH、6xH  非加密
解密后是CCITT、JPG  解密后是DjVu  JPG、PNG改名,原版ssreader不认PNG
当然对新手来说这个图理解起来有点困难,下面就加以详细解释。建议在看下文的时候,注意对照此图,以加深理解。
在早期PDG还处于“老子的队伍才开张”的时代,PDG文件都是用扫描后的图像文件产生的,骨子里还是一种图像格式,用官方浏览器ssreader打开后不能搜索、选择、复制文字,要想获得文字信息只能选择OCR。这样的PDG通常称为图像版PDG。
图像版PDG由于是从原书扫描成的,因此完全忠实于原书,包括版式、字体、插图等。但是图像文件毕竟太大,会给服务器、网络出口造成压力,而且不能直接搜索、复制文字也不便于使用,因此后来采用OCR引擎对扫描图像进行文字识别,再经ZIP压缩、按PDG文件格式加密封装等步骤后,出炉了一种骨子里是图文混排的PDF文件的PDG。这种PDG文件在ssreader里阅读时,能够直接搜索、选择、复制其中的文字,放大显示时文字也不会出现锯齿,因此被称为“文字版PDG”,以区别以前的图像版PDG。而在文件名上二者也有区别:图像版PDG文件名是6位,没有下划线;文字版PDG文件名长度不固定,中间有下划线。
到目前为止,没有任何一家OCR引擎敢保证自己的识别率是100%,事实上,我很怀疑未来有任何一家正常的软件公司敢下这样的保证。因此传统上认为文字版PDG不如图像版PDG靠得住,可能会因为OCR的差错而出现错别字,影响阅读、引用。这就是为什么在园地很多人求书时指明不要文字版PDG的原因。不过从我个人的实际经验看,早期纯靠OCR生成的文字版PDG确实存在一些问题,但是后期某些文字版PDG是直接用从出版社获得的原始排版文件生成的,没有OCR环节,不仅没有什么错别字(原书有错的除外),而且完全体现原书版式,还是很值得收藏的。当然,这样的高质量文字版PDG只能靠运气,赶上了就有,赶不上也没办法。
文字版PDG虽然文件短小,但OCR毕竟是一个费时、费力的活儿,把所有书籍全变成文字版PDG显然不太现实。因此为了减轻服务器和网络的压力,在图像版PDG中又出现了清晰版、快速版的区别。换句话说,文字版PDG是不分什么清晰版、快速版的。
按照常规定义,采用300 DPI扫描得到的PDG称为“清晰版”,采用150 DPI扫描得到的称为“快速版”。由于DPI差了一倍,对于同一页书,清晰版的长、宽是快速版的2倍,文件长度当然也要大一些,但是文字、插图会更清晰。在园地区别清晰版与快速版的常规做法是:用ssreader打开,如果按100%显示就是快速版,按50%显示就是清晰版。这种鉴别方法武断了一点,不过在大多数情况下还算有效。而在ssreader内部是这样进行区分的:如果图像宽度超过1200像素,则认为图像是按300 DPI扫描的,否则认为是按150 DPI扫描的。这种区分显然忽略了16开版与32开版的差异。
快速版由于文件大小比清晰版小得多,其清晰度虽然比清晰版差,但通常情况下也不至于因此而造成太大的阅读障碍,因此在某段时期内在园地广为流行,甚至有人声称“宁要快速版,不要清晰版”。但是好景不长,在快速版的真面目被进一步揭开以后,很快就成了“过街老鼠”,如今在园地再无老鸟敢要快速版,以前收藏的快速版PDG也都成了鸡肋:为了追求较高的压缩比,快速版PDG全部采用有损DjVu压缩,而快速版本身的清晰度就不是太好,在DjVu有损压缩时,可能会将笔画残缺的相似字识别为同一个字,造成错别字。相比之下,清晰版全部采用无损CCITT G4压缩,完全忠实于原著。有人曾在园地贴出过实际的PDG文件并进行对比:同一页的清晰版没有错别字,而快速版就出现错别字。
不论是清晰版还是快速版,对于文字页面都按照黑白二值图像进行存储,无法在其中加入灰度或彩色的水印。为了解决“疯狂的盗版问题”,在lr、dx等服务器上就出现了“大图版”这种图像PDG格式:将清晰版PDG缩图,加入水印,存为JPG或PNG格式,但是文件扩展名还是PDG,就是所谓的“大图版PDG”了。因此,所有大图版PDG都是带水印的,虽然水印图案可能不同。大图版有大、中、小三种尺寸,大尺寸的大图版与快速版的面积差不多,但更清晰,而且因为是从清晰版PDG转换过来,转换过程中采用的JPEG、PNG(其实是ZIP)压缩也不会产生错别字,因此在快速版遭到唾弃后,园地大多数人的求书要求是:能有清晰版就要清晰版,没有清晰版就要大图版。沦落到快速版、文字版的多半都有迫不得已的理由,如新手最常见的理由就是“穷”(求书指定清晰版需要更多的币币),有些人则是为了节省磁盘空间(快速版、文字版的文件长度通常比大图版、清晰版更小)。
新手初到园地,在没有见识过真正清晰版的情况下,容易把“看起来很清晰”的大图版当作“清晰版”,在求书区曾经有人为此打过笔墨官司。其实大图版如果没有被做过手脚,还是很容易区别的:
1、如上所说,所有大图版都带水印,而清晰版无水印。最常见的水印是篆刻有“好学近乎知”的印章,此外还有不常见的星星图案等,甚至有人帖出来过用近似于《午夜凶铃》剧照的MM彩照做水印的大图版PDG。当然,这些水印基本上都可以通过图像处理淡化甚至去除。
2、大图版通常是供IE在线浏览,IE支持JPG、PNG,但是官方原版ssreader 4.0只支持JPG,不支持PNG。因此纯文字页面的大图版PDG文件,用原版ssreader 4.0通常是打不开的,只能用园地发布的修改版ssreader,或第三方浏览器如UnicornViewer、ComicsViewer才能打开。鉴别图像格式的另一个方法是用免费的Pdg2Pic打开疑似大图版文件所在文件夹,这个软件会自动检查PDG文件的数据压缩算法。在文件没有被人做过手脚的情况下,如果左下方文件信息显示“PNG”则是大图版,显示“DjVu”是快速版,显示“CCITT”是清晰版,显示“JPG”则不确定。不过随着园地众多格式转换软件的发行,也会有人重新对文件进行处理,造成上述方法的误判。
3、大尺寸的大图版和快速版的画面尺寸差不多大,但是比清晰版还是小得多,而且文字看起来发“晕”(快速版缩图时造成的柔化),没有清晰版锐利。不过这个要有比较才会鉴别。
4、清晰版如果有彩色插图,转为大图版后多半会变成灰度图像,这个也要有比较才能鉴别。因此如果求的是带彩色插图的书,我都会指明只要清晰版,当然求书代价也会相应提高。
由于求书人对清晰版的不懈追求,而且清晰版的出价通常比快速版、大图版更高,因此也出现了一些“伪高清”:把大图版或快速版,甚至是文字版转为图像,然后放大到清晰版的尺寸,再经过某些图像处理,用老鹰或coolman提供的PDG压缩软件,采用CCITT算法压成00H或02H PDG,貌似清晰版的“伪高清”就出炉了。这种伪高清虽然不能把灰度插图再变回彩色,但是看上去没有水印,用原版ssreader能够正常打开,用Pdg2Pic检查时“格式”栏显示的也是CCITT,而尺寸也是清晰版的尺寸,因此对于新手来说很难鉴别,在求书应助时也曾有人为此打过笔墨官司。我个人的看法:伪高清的制作过程注定是有损的,因此制作再精良的伪高清,与真正的清晰版也不能完全等同。不过如果伪高清是从大图版制作出来的,而且原书页面上没有插图,处理后的视觉效果也足以“乱真”,碰到这样的“高仿”也算运气。而如果是从快速版或文字版制作出来的,不论制作技术如何高超,都属于绝对不能原谅的JS行为,因为如前所述,快速版、文字版PDG本身就是不可信的。
至于经常有人提到的00H、02H、6xH等数字,指的都是PDG文件的加密格式代号:早期V1版PDG文件加密比较弱,很快就被人破解,然后D版盘卖得到处都是。为了对付D版,PDG文件定义了全新的V2版格式,所采用的加密技术也不断在更新换代。从大版本看,V2版PDG经历了0xH(包括00H、01H、02H、03H、04H、05H)、1xH(包括11H、12H、13H、14H、15H、16H、17H、18H、19H、1AH、1BH、1CH、1EH)、28H、AxH(包括AAH、ABH、ACH)、6xH(包括64H、65H、66H、67H、68H)几个时代。如果想了解每一版PDG详细的加密算法,可以阅读cheming先生的大作《吵醒文件加密方式说明v1.5》。
需要说明的是,对加密格式的判断要结合PDG文件的版本信息才能判断准确。早期曾经有人在园地发行过一些不成熟的格式检查软件,忽略了PDG版本,机械地按照文件头第16字节处的信息判断加密算法。结果经常有人用这样的软件检查后就惊呼“又有新的PDG加密格式了”,徒增笑柄。现在流行的PdgThumbViewer、Pdg2Pic,及老鹰、coolman的格式检查软件,均避免了这样的错误。
目前6xH可以说代表了PDG文件加密技术的最高成就,成为官方打击D版PDG的利器,因此也受到了最为广泛的关注。但实际上,在PDG文件服务器上是不会有6xH格式存在的:高版本的官方原版ssreader会组合登录用户名、本地硬件信息(通称机器码)等生成加密密钥,在下载的时候,会用加密密钥对下载到的PDG文件进行加密,在本地生成6xH文件。因此,用一台机器下载到的6xH文件,换一台机器就不能读了——两台机器的机器码不一样。解决的办法包括:
1、用cheming的Pizza、老鹰的coffee、coolman的魔术师解密。
2、不用官方原版ssreader下载。如前所述,6xH是原版ssreader下载后在本地生成的。可供选择的软件包括修改版ssreader(去掉6xH加密环节)、BE等。
3、用官方原版ssreader阅读或下载,但是对网络数据流进行截流,获得加密前的原始PDG。
除了上面说的机器码限制外,PDG中还可能有时间限制:如果用官方原版ssreader阅读本地保存的带时间限制的PDG文件,在超过规定期限后,ssreader就会自动对文件进行破坏。而在文件到期前把它解密掉,也常常成为在园地购买Pizza、coffee、魔术师等解密软件,或刻苦努力翻旧贴,研究报文、嗅探、截流等技术的理由。
带时间限制的PDG虽说有点定时炸弹的感觉,好歹在有效期内还能在本地阅读,而某些镜像服务器上的AxH则只允许在线浏览,不允许下载阅读:用官方原版ssreader下载AxH到本地后,会立刻对文件进行不可恢复的破坏,破坏后的文件用格式检查软件检查通常显示为FFH格式,因此在园地FFH也是“死亡”的代名词。解决的办法就是别用原版ssreader下载,改用截流、第三方下载软件或修改版ssreader。不过到现在为止,我见过的AxH全部都是快速版,看过就删了。
对于没有做过手脚的图像版PDG,PDG的加密格式与图像清晰度密切相关:早期清晰版通常是02H、04H,而快速版是05H,因此早期在园地也用加密格式代号来辨别清晰版与快速版,02H因此成为追捧的对象。不过自从老鹰、coolman发布PDG加密软件后,可以任意更改PDG的加密代号,这招就常常失灵了。
所有格式里比较特殊的是00H,即不加密的格式。这种格式当然也不会有时间、机器码限制。除早期的服务器外,目前新的PDG服务器上已经很难找到这种格式。但不论是清晰版还是快速版,经Pizza、coffee、魔术师解密后都成为00H。图像版00H可以用原版ssreader正常阅读,而且由于在阅读的时候不再需要花时间进行解密,因此显示速度可能比未解密的快那么一点点。不过如果文字版PDG被解密成了00H,用原版ssreader就不能阅读了,因为它认为这世上本不该有未加密的文字版PDG。目前00H的文字版PDG只能用园地提供的高版本UnicornViewer,或老鹰、coolman提供的ssreader增强插件才能阅读。
但是无论如何,现在用官方原版ssreader从sslib下载到的6xH,多半都是快速版(据说很久以前有过清晰版,现在也不排除漏网之鱼的可能)——为了减轻服务器压力,新版官方ssreader在下载sslib时,会自动选择从存放快速版的服务器上下载,这就是为什么经常有人问“用ssreader在线浏览很清晰,下载后再看就不清晰”的原因。而用官方ssreader从主站下载,则可能得到6xH的清晰版,并且这种6xH不受有效期限制(机器码限制还是有的)——听起来不错,可惜主站的书实在少了点。至于解决的办法,前面已经说过了。
所以现在园地新手的迫切愿望,最优先的当然是能够看到不受限制的00H的清晰版,退而求其次就是大图版,实在不行也要摆脱6xH的时间、机器码限制,从此过上安宁、快乐的幸福生活。