当前位置: 行情首页 >> 硬件 >> 硬件新品 >> 密谋OCR!Google将扼住纸

  • 密谋OCR!Google将扼住纸媒命脉
  • 2006-9-1 11:22:34 杭州电脑数码城 转载来源:驱动之家
  • 当各大出版社开始积极与Google进行全面数字版书籍合作时,Google已经静悄悄地将“魔掌”伸向了这些纸媒的命脉,不知不觉中启动OCR软件开发工作。

    Google在几个月前,静悄悄地向开源合作伙伴们发布了一款新OCR识别引擎--事实上,是重新发布--这款名为Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。然而,HP不久便决定放弃OCR业务,Tesseract也从从此尘封。

    数年以后,HP意识到,与其将Tesseract束之高阁,不如贡献给开源软件业,让其重焕新生--2005年,Tesseract由美国内华达州信息技术研究所获得,并求诸于Google对Tesseract进行改进、消除Bug、优化工作。

    在修复了最重要的数个漏洞后,Google两个月前认为,Tesseract OCR已经足够稳定,可以重新以开源软件方式发布。

    目前,Tesseract OCR功能依旧十分羸弱:只支持英文,尚不包括版面分析模块,处理多栏内容纰漏甚多,甚至对彩色文档的识别率也存在识别率下降问题。然而,Tesseract已经成为目前精确最高的开源OCR工具,性能远强于其他开源同类软件。

    Google开发人员在Blog里向HP的开源决定表示致敬。

    故事远没有结束,Google已经开始在网站上招聘高级OCR技术工程师,值得我们注意的是,Google在这段招聘启示下写道:“Google currently "reads" almost every web page in the world. Come help us read all the printed material as well!”(Google现在已经能够“阅读”世界上几乎所有网页,你的到来将让Google阅读所有印刷信息!)

    HP的Tesseract失败了,原因很简单--OCR开发成本高,市场小,竞争激烈。

    Google的Tesseract呢?

    Google拥有最精英的工程师们,Google拥有不断扩充的版权PDF资源,Google拥有强大的搜引擎网络平台支持,最重要的--Google将免费提供Tesseract,将无偿开放API和开源内容,让所有用户轻易使用,让所有程序员能够驻足所为。

    可以预见的是,如果Google继续推动Tesseract OCR的开发,Google将有足够的能力全面改写文字保存的方式,将有能力建造起一个完善、共享、合法的数字书籍系统,推动整个人类社会的信息化进程。

    然而,我们也应该充分认识到数字化书籍进程所面临的困难以及相关一系列社会、政治、经济、法律因素,况且与我们关系最为密切的中文OCR技术开发要复杂得多。

    星星之火可以燎原,我们且观且待,视Google未来如何解决印刷品数字化所面临的诸多难题。

    dir

    买车必搜!网易汽车产品库全新上线

竟价广告:

    业界行情新闻声明事项:

    • ☉本网转载出于传递更多信息之目的,并不意味着赞同其观点或证实其内容的真实性!
    • ☉如其他媒体、网站或个人从本网下载使用,必须保留本网注明的“稿件来源”,并自负版权等法律责任。如对稿件内容有疑议,请及时与我们联系.
    • ☉如本网转载稿涉及版权等问题,请作者在速来电或来函与杭州电脑数码城网联系.
    • ☉本站网址:http://www.ititt.com/投诉邮箱:ititt@163.com