OCR 是Optical Character Recognition(光学字符识别)的简称。

这项技术最早起源于1920年,那时全球第一项OCR专利技术是在德国发行的。现在这项技术主要应用于将文档扫描成文字。如果你把图片里的文字扫描出来,或者把文档里面的文字扫描出来使用并编辑的话,那么这项技术就少不了。

在这篇文章里,将向大家推荐3款免费的在线OCR服务,它们提供的功能极为广泛并且质量也不错。

 

OnlineOCR

这项服务可以从PDF文件和图片文件中识别出文字或者字符,并把它们转换成其他的文件格式,比如PDF和word文件格式。源文件的格式,像表格,分栏,项目符号,图表等都会保留。最后一项功能就是基于web的OCR服务。你可以无需注册便可以使用这项在线的OCR服务,然而会有一点点的限制:你所上传的单个文件大小不得大于1MB,识别语言也只能按默认的设置-英语,并且不能修改, 输出格式也只有纯文本格式。

如果你注册的话,你可以选择多种识别语言,且可以一次上传多个总大小不大于 30MB的文件。如果你有5个积分的话,那么一个积分可以上传一张图片文件(单张或者多张)还可以识别多张图片。

如果你一个积分都没有的话,你可以把 Demonstration mode 打上勾,看一下扫描后的文档预览即可。当然你也可以购买积分,起步价是6美分/页。

free-online-ocr-text-recognition-01

我用了一封信测试了一下这个服务。把信拍摄成照片,并且有很明显的折痕。然而,格 式和文字识别的都非常棒。不行的是,这项服务不支持手写体文字。

free-online-ocr-text-recognition-02

 

NewOCR

Free Online OCR这项服务使用简单,上传没有数量无限制,图片文件大小不超过5MB,PDF文件大小不超过20MB。当上传一个文件进行字符识别的时候,为了优化识 别结果你需要先选择一种语言与旋转文档。对了,这项服务也不须注册。

不幸的是,识别之后的文档所有的格式都会丢失,并且它还不能识别手写体。更差劲的是,在我的测试文档中,有一部分的头部都跑到底部了。因此,这项服务比较适用于纯文本,比如当你需要把一个旧文档打印到新纸上时,这项服务就比较适用了。

free-online-ocr-text-recognition-03

 

Free OCR推荐

Free OCR 接受2MB的图片和PDF文件,并且它只识别PDF文件的第一页。你可以选择识别文档的语言,优化识别的结果。此外你每小时只可以上传10张图片。虽然支 持多栏文字,然而识别的结果仍然是纯文本,也就是说所有的格式都将丢失。这项服务也不需要注册。

free-online-ocr-text-recognition-04

虽然这项服务比较流行,但在我的测试中表现都不怎么好。许多字符适用其他的在线OCR 服务可以完美识别,但是它却一点都不能识别。显然,之前提到的页面折痕对Free OCR来说是个很大的问题。此外,一些文字都是随机显示的,可能他们扫描带格式文本的技术不怎么好吧。

free-online-ocr-text-recognition-05

 

Karl写过一篇有关Free OCR的更加详细的文章。可以参考一下这篇文章,学习如何获取质量比较好的扫描结果吧。《 C使用Free OCR在线将图片转换成文本》。

如果你正在寻找更多有关基于web的OCR服务,可以看看这里: WeOCR

正如你所理解的那样,使用在线的OCR服务对快速将比较脏的文档识别来说比较管用。如果你需要扫描多个文档,并且需要带格式的扫描,我推荐你下载安装OCR软件。

这里有两篇文章你可以参考一下:

 

百度OCR

http://apistore.baidu.com/astore/toolshttpproxy?apiId=vsy8&isAworks=1