当各大出版社开始积极与Google进行全面数字版书籍合作时,Google已经静悄悄地将“魔掌”伸向了这些纸媒的命脉,不知不觉中启动OCR软件开发工作。
Google在几个月前,静悄悄地向开源合作伙伴们发布了一款新OCR识别引擎--事实上,是重新发布--这款名为Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。然而,HP不久便决定放弃OCR业务,Tesseract也从从此尘封。
数年以后,HP意识到,与其将Tesseract束之高阁,不如贡献给开源软件业,让其重焕新生--2005年,Tesseract由美国内华达州信息技术研究所获得,并求诸于Google对Tesseract进行改进、消除Bug、优化工作。
在修复了最重要的数个漏洞后,Google两个月前认为,Tesseract OCR已经足够稳定,可以重新以开源软件方式发布。
目前,Tesseract OCR功能依旧十分羸弱:只支持英文,尚不包括版面分析模块,处理多栏内容纰漏甚多,甚至对彩色文档的识别率也存在识别率下降问题。然而,Tesseract已经成为目前精确最高的开源OCR工具,性能远强于其他开源同类软件。
Google开发人员在Blog里向HP的开源决定表示致敬。
故事远没有结束,Google已经开始在网站上招聘高级OCR技术工程师,值得我们注意的是,Google在这段招聘启示下写道:“Google currently "reads" almost every web page in the world. Come help us read all the printed material as well!”(Google现在已经能够“阅读”世界上几乎所有网页,你的到来将让Google阅读所有印刷信息!)
HP的Tesseract失败了,原因很简单--OCR开发成本高,市场小,竞争激烈。
Google的Tesseract呢?
Google拥有最精英的工程师们,Google拥有不断扩充的版权PDF资源,Google拥有强大的搜引擎网络平台支持,最重要的--Google将免费提供Tesseract,将无偿开放API和开源内容,让所有用户轻易使用,让所有程序员能够驻足所为。
可以预见的是,如果Google继续推动Tesseract OCR的开发,Google将有足够的能力全面改写文字保存的方式,将有能力建造起一个完善、共享、合法的数字书籍系统,推动整个人类社会的信息化进程。
然而,我们也应该充分认识到数字化书籍进程所面临的困难以及相关一系列社会、政治、经济、法律因素,况且与我们关系最为密切的中文OCR技术开发要复杂得多。
星星之火可以燎原,我们且观且待,视Google未来如何解决印刷品数字化所面临的诸多难题。
买车必搜!网易汽车产品库全新上线