Free OCR----把图形文档里的文字抠出来

来源:百度文库 编辑:神马文学网 时间:2024/05/16 22:17:57
通常我们要想把图片中的文本转换成可编辑的文字,用现在的扫描仪就可以帮我们解决问题,因为一般的扫描仪都有叫OCR的功能(OCR是英文Optical Character Recognition的缩写,一字就是光学文字识别)。可是,如果我们手头没有扫描仪,或者我们需要扫描的图片内有扫描仪不支持的语言种类,怎么办?这里有一个应急的办法,虽不完美,但胜于无。而且不需要任何投资,不需要软件安装,甚至连登记注册都不需要。这是一个免费的“云”服务,在当前,“云”计算机渐渐成为流行趋势时,你只要有一台可以上网的电脑,通过浏览器,举手之劳即可。
这个提供OCR功能的网站地址是:www.free-ocr.com
要使用它提供给我们的OCR功能很简单,打开浏览器,来到这个网站后,先找到你需要处理的图片、照片等文档上传,文档类型为JPG、GIF、TIFF、BMP文档类型。还有大家很常用的PDF文档类型。把文档选中后,再按提示输入验证字符,然后就可以把文档上传了,他转换的速度是很快的,几乎在上传接束后立刻就会在上方的结果框里给出经过识别转换后的文字。
需要注意的是,这个网站提供的免费服务也有一些限制,只接受体积大小不超过2MB的文档,图片像素不能高于5000,1小时之内最多处理10份文档,PDF文件目前只处理第一页等,所以如果你的PDF文件不止一页的话,别忘了先把他们分割一下。
目前他们的光学识别引擎支持几乎所有的欧洲语言和部分以字母为基础的亚洲语言,如印尼语、越南语等,还不支持中文、韩文、日文等一笔画构成的文字识别,这是美中不足的地方。
jun     20072010