pdf书籍快速转换为doc格式标准文本

来源:百度文库 编辑:神马文学网 时间:2024/04/29 02:29:45
当我试图将pdf文件转为doc格式时,遇到了两个棘手的问题:一是似乎在pdf文件天性保守,只允许选取当前页内的文本,跨页选择无效;二是将选定内容复制粘贴到word程序中后,会出现太多多余的回车,每行都有一个,想要不想要都有,该加不该加的全加。
有没有这样一种方法,不需第三方软件支持,也不必经过复杂的步骤,简单几步,就能轻松实现完美转换?经过反复试验,我找到了这种方法。操作步骤如下:
1、复制pdf文本。打开要转换的pdf文件,在菜单栏依次选择“视图”→“连续”,使文件内容可以跨页选取;用鼠标选取所需内容,或按下ctrl+a组合键选中全部文本;按下ctrl+c组合键复制所选内容。
2、粘贴到word文件。打开word程序,按下ctrl+v组合键,将剪贴板中的文本粘贴到新文件中。
3、转换应保留的回车。这时文本中的回车有三种类型,第一种是每行都有的,完全多余,需要删除,其特征是前面一般没有表示语句结束的标点符号;第二种是每段末尾的,应该保留,其特征是每个回车前面一般都有句号、问号、省略号、叹号、右双引号等表示段落终结的标点符号;第三种是章节标题后的,也要保留,有的特征不明显,有的则被设为与正文不同的字体。首先要做的就是根据第二、三种的特征,将这两类回车替换成其他符号,以免执行第4步时被误删。
①按下ctrl+h组合键打开“查找和替换”对话框,在“查找内容”处输入“。^p”,在“替换为”处输入“。^l”,其中“^p”代表回车,“^l”代表人工换行符,然后单击“全部替换”按钮,即可将全部以“。”结尾的回车符换成人工换行符。再用同样的方法,替换掉分别以问号、省略号、叹号、右双引号结尾的回车。
②打开“查找和替换”对话框,在“查找内容”处输入“^p”,依次单击“高级”→“格式”→“字体”,打开字体选择对话框,选取文本标题所用的字体,单击“确定”; 在“替换为”处输入“^l”;单击“全部替换”。这样即可将所有以指定字体显示的标题后面的回车替换为人工换行符。如果标题字体与正文相同,则可根据其他独特标志以类似方法替换,此不赘述。
4、删除所有回车。打开“查找和替换”对话框,在“查找内容”处输入“^p”,“替换为”处不输入任何内容,直接单击“全部替换”,则全部回车都被替换为“空”,即全部删除。
5、还原要保留的回车。打开“查找和替换”对话框,在“查找内容”处输入“^l”,“替换为”处输入“^p”,单击“全部替换”,则全部拟保留的回车都被恢复。
如果还嫌麻烦,我们也可以使用word提供的“宏”操作功能,将一系列的操作录制成可以一次按键、自动执行的“宏”命令,以减少重复工作。操作步骤是:
①单击word菜单栏“工具”→“宏” →“录制新宏”,弹出“录制宏”的对话框;
②单击“键盘”工具图标,按下你将指定给这个宏的快捷键,依次单击“指定”和“关闭”按钮;
③执行从2至5的全部操作;
④单击页面左上方“停止”小窗口中的正方形按钮(停止录制),新宏录制完毕。
这样,下次需要在word中转换粘贴来的pdf文本时,只需要打开空白文件,按下刚才指定的快捷键,一切就全OK了。这样整个操作就简化成了两个步骤:一是复制pdf文档内容,二是在word程序中执行宏操作。