鲁班RPA

首页 >> 行业资讯 >>行业动态 >> 非结构化数据的获取——OCR
详细内容

非结构化数据的获取——OCR

时间:2022-04-15     【转载】

数据获取的相关技术—光学字符识别符


在应用过程中,RPA 通常在第一个数据获取环节就会遇到难题,如给机器人输入的是一份扫描件或者一张图片。如何来处理?这就需要光学字符识别(OCR)技术。

 

光学字符识别符

所谓光学字符识别(Optical Character Recognition,OCR)技术,是指基于电子设备(如扫描仪或数码相机)扫描件的文字,通过 OCR 技术检测扫描件上暗、亮的模式以确定文字的形状,然后用字符识别方法将形状翻译成文字的过程。整个过程是首先需要对纸质文本资料进行扫描,然后对图像文件进行分析处理,最后获取文字及版面信息。


由于企业员工在办理业务过程中,仍然需要与真实的物理世界打交道,小到发票识别、文档识别、银行卡和身份证的识别,大到广告、海报的识别,而 RPA 却不能直接读取这些图像信息,因此需要借助 OCR 技术。另外,如果遇到需要识别远程桌面或无法获取本地桌面的字段的情况,也需要借助 OCR 技术来识别。例如,财务领域的自动化应用中,经常需要利用 OCR 技术对发票进行识别和处理。

 

传统的OCR 技术还需靠人工来判断和校正,特别是对于手写文字、印章、套打、压盖等,识别率不高。虽然 OCR 技术已经发展多年,也在金融机构的票据中心、单证中心、财务共享中心得到广泛使用,但直到今天,人工介入的环节还是不可避免。人工介入的环节如何更少,人工介入后的处理如何更便捷,才是自动化领域专家需要考虑的问题。

 

111.png


在自动化领域,我们主要通过两个方向来解决 OCR 的识别率问题。一个是技术方向,一个是业务方向。


技术方向

    即通过人工智能技术与 OCR 技术相结合的方式来提升识别率,特别是对于特殊文字的识别,如手写、压盖等。智能字符识别(Intelligent Character Recognition,ICR)这个名词也因此而产生。


    大多数 ICR 都带有一个自学习系统,借助于机器学习(ML)和卷积神经网络(CNN)技术,自动更新识别库,并通过前期对大量字符集进行标注和训练,逐步形成所需要的神经网络模型。另外, ICR 还可以通过配置不同的识别引擎并相互校验的方式来进行识别。每个引擎都会被赋予选择性投票权以确定字符的可信度。因为各种识别引擎的专长是不一样的,有的善于识别数字,有的善于识别英文,有的善于识别中文等。所以,用户需要根据识别的内容类型自动选择识别引擎或配置不同引擎的投票权重。


业务方向

    除技术方向外,另一个就是业务方向,即利用业务管理手段来帮助 OCR 提高识别率。例如,采用统一的高拍仪或扫描仪按照规范来获取图像,而避免个人手机拍摄因为手机的差异、拍摄角度和光线的差异导致识别率降低。例如,加入预校验功能,即事先排除那些低识别率的扫描件,直接转入人工处理,而避免流程进入大批量处理后,再由人工处理。例如,采用在需要比对的系统用户界面上直接附着已经切割好的图像切片,这样就避免了用户的双屏来回切换以寻找对比要素的过程。类似的业务调整和管理手段还有很多,最终目的都是希望减轻业务人员的工作量,提高工作质量和效率 。

   

最后,如果企业仍然觉得 OCR 技术难以实现和掌握,还可以利用一些互联网公司提供的云端服务,如腾讯云的文字识别提供了身份证、名片、银行卡、车牌、行驶证、驾驶证、营业执照、通用手写体、通用印刷体的识别,并提供了后付费和预付费两种计费模式;百度云的文字识别还提供了网络图片、火车票、出租车票的识别。利用云服务的 OCR 每次识别的费用相对较低,如果企业对信息识别量不大,也可以考虑利用云服务结合 RPA 来一起使用。


如果对RPA的相关课程感兴趣,可以关注我们的微信公众号-艾塔科技,查看有关RPA课程的培训视频,也可以在公众号中查看我们往期的视频内容,更好地了解RPA。也可以关注我们本订阅号,实时了解更多资讯。

 艾塔科技.png

微信扫一扫,关注“艾塔科技”官方公众号

RPA.png


微信扫一扫,关注“RPA数字化劳动力”官方公众号


×