基于OCR技术的财务凭证数字化管理的应用研究

发表时间:2021/7/2   来源:《中国电力企业管理》2021年3月   作者:董学润
[导读] 传统的财务凭证主要依靠人工进行管理,对每张凭证的标记、排序归档、查阅等工序均需花费大量的人力和时间。纸质版的凭证比较薄弱,常因使用频繁和保存时间过久产生破损,导致信息的丢失。本文引入标准数字化管理模式,研制与建立一种新型的基于OCR技术的财务凭证数字化管理系统。

中国电力财务有限公司华东分公司   董学润

摘要:传统的财务凭证主要依靠人工进行管理,对每张凭证的标记、排序归档、查阅等工序均需花费大量的人力和时间。纸质版的凭证比较薄弱,常因使用频繁和保存时间过久产生破损,导致信息的丢失。本文引入标准数字化管理模式,研制与建立一种新型的基于OCR技术的财务凭证数字化管理系统。从而解决传统财务凭证管理方法所存在的问题,大幅提高了财务人员的工作效率、降低了财务凭证的管理风险,具有非常重要的实用意义。
关键字:财务凭证;OCR技术 ;数字化管理;
        1 引言
        传统的财务凭证管理主要是依靠人工。例如财务人员在工作中需要审核公司某一阶段的财务信息,则需要先挨个去找对应的财务凭证簿,然后再一一翻阅,非常的费时费力,而且财务凭证这类纸质资料都是使用频率较高的文件,经过长时间的保存容易产生破损,会导致信息的丢失。而且每次的查阅与归还都非常的麻烦,容易在归还时顺序摆放错误,增加了后期查阅的难度。通过研制与建立一种新型的基于OCR技术的财务凭证数字化管理系统,能有效解决传统财务凭证管理方法所存在的问题。
        因此随着互联网技术的发展,当前财务凭证的存储方式需要由传统的纸质版向电子化过度。目前将纸质版凭证数据化大多使用扫描技术来实现,扫描技术分为高速扫描和低速扫描。其中低速扫描速度慢而且容易卡纸,使用起来效率特别低,而高速扫描更符合现代社会办公的需求。高拍仪是今年很热门的产品,也叫做速影仪或者速拍仪,节能环保,且体积小便于携带,非常适合移动办公,一秒就可以将纸质凭证资料扫描到电脑,大大减少了扫描的时间, 效率非常高。并且它还能进行拍照、录像裁边扶正等操作,非常适合本财务凭证数字化管理的应用研究。
        2 OCR技术简介
        OCR,英文全称Optical Character Recognition,中文叫做光学字符识别。是指用计算机技术和光学技术将纸质版资料上的文字信息识别出来,转换成电子文档的格式以供计算机读取进行相关的操作。OCR一般分为图像处理以及文字识别。图像处理将通过拍摄仪存储到计算机的图像进行一系列的预处理操作,其中包括降噪、灰度化、二值化、倾斜矫正、文字切割等步骤;图像预处理过后,后期将通过文字检测和文本识别来提取文字。
        OCR的技术路线如图1所示:

        图1  OCR的技术路线
        在此次财务凭证数字化管理应用的预处理过程中,先进行识别文本排版方向,按照大致方向统一调整为一种方向的操作,再根据预设值判断文字间隔,控制文本衔接,并通过仿射变换进行倾斜矫正,并进行膨胀处理以防止文本切割时造成疏漏的问题。在文字检测过程中,DMPNet?(Deep Matching Prior Network)采用非矩形四边形的候选锚定框进行检测。通过Monte-Carlo方法计算标注区域与矩形候选框和旋转候选框的重合度后重新计算顶点坐标,得到非矩形四边形的顶点坐标。在文本识别的过程中,利用CRNN模型。以CNN特征作为输入,双向LSTM进行序列处理从而提升了文字识别的效率,也提升了模型的泛化能力。先由分类方法得到特征图,之后通过CTC对结果进行翻译得到输出结果。
        3 系统技术路线及方案
        3.1 技术线路
        (1)使用POI将凭证信息导入至系统
        (2)高拍仪拍摄获取高质量的凭证图像
        (3)OCR识别提取凭证编号及日期信息
        (4)使用OpenCV定位提取二维码,ZXing解析二维码信息
        (5)系统生成凭证数字档案
        3.2 技术方案
        方案一:
        首先由财务人员使用科密书籍拍摄仪多组凭证(一张凭证可附带多张票据)后上传至指定目录;其次财务人员使用财务凭证数字化系统选择目录进行自动识别;然后人工校对识别结果,正确则上传归档,否则修正后上传;最后系统生成凭证数字档案。
        方案二:
        首先财务人员使用整合至财务凭证数字化系统扫描文件界面进行文件的扫描(扫描方式为扫描一张凭证后,依次扫描其附带的票据);其次上传识别文件,进行人工校对;最后上传归档,系统生成凭证数字档案。
        4硬件系统构成
        基于OCR技术的财务凭证数字化管理系统所涉及的硬件主要有财务凭证资料、高拍仪、服务器、电脑。硬件系统结构如图2所示:


 
        图2  硬件系统结构图
        高拍仪主要负责扫描上传,拍摄高质量的凭证、凭证附件信息,如报销单、发票等,将图片放置在指定目录。服务器端使用OCR技术识别凭证的凭证编号及日期、发票二维码内容、扫描文档的文字信息,并将所识别提取的文字信息整理成json字符串的格式存储下来,供应用系统提取解析。其中涉及的技术难点主要是定位并识别票据等附件中的条码信息(上传整张票据图片,需定位二维码位置并提取识别,同时需避免二维码污损、褶皱造成的影响)。计算机负责运行财务凭证管理系统,以进行软件系统各个功能的操作。
        5 软件系统的设计与实施
        财务凭证数字化软件系统主要包括凭证数据管理模块、扫描上传归档模块、凭证影像管理模块。
        5.1凭证数据管理模块
        由于凭证都是书本装的,并非一页一页散装的,每本凭证簿都有若干页记账凭证,每页记账凭证下又会附带若干张票据。因此要求用户先手动创建需扫描的凭证簿,再进行扫描上传。关键逻辑流程如图3所示:

图3  系统关键逻辑流程图
        解析OCR结果方法逻辑:
        1.对凭证期间(yyyy年MM月)、凭证起始号/终止号、本册是第no.册(可能提取不出来)进行提取。
        2.根据能提取的凭证簿信息跟手动创建已存在的凭证簿进行匹配,若能查询到有唯一的凭证簿与OCR凭证簿封面匹配,则匹配成功,将后续识别的凭证关联到此凭证簿编号;否则,将OCR识别的凭证封面vb_status置为-1,表示未匹配到手动创建的凭证簿。(此举是防止财务人员扫描了未创建的凭证簿,造成凭证簿和凭证的关联关系出现中断)
        对于重复上传的凭证封面和凭证图片处理逻辑如下:
        对于已确认的图像重复上传,直接跳过不进行任何处理;对于未确认的图像,若关键信息识别完整,则进行对图像进行更新;若关键信息不完整,则对相应表中信息及图像进行更新。
        对于重复上传的附件,因其无明显、统一的关键字,无法进行细化处理,将直接关联到最新识别的凭证上。
        凭证数据管理模块-凭证簿定义功能界面如图4所示:

        图4  凭证簿定义功能界面
        凭证数据管理模块-凭证档案界面如图5所示:

        图5  凭证档案界面
        另外,该凭证档案部分设计了数据导入功能,以便工作人员对从SAP系统导出的记账凭证信息进行录入工作,大大提高了工作效率。具体流程图如图6所示,操作界面如图7所示。

        图6  凭证信息导入操作流程图

        图7  凭证信息导入操作界面
        5.2凭证扫描上传归档模块
        扫描上传归档模块是通过OCR文字识别技术对印刷体的财务凭证进行文字识别,将其上面的信息转换为json格式,以便将信息导入相应的系统中,然后系统通过对json格式的财务凭证信息进行解析和关键信息摘取,取识别到的凭证编号为被扫描的财务凭证图片的文件名,最终经人工审核系统自动识别录入的信息是否有误,并确认归档,存储至数据库。模块流程如图8所示:功能界面如图9所示:

        图8 财务凭证信息识别模块流程图

        图9  系统自动识别录入的凭证信息归档界
        5.3凭证影像管理模块
 该模块就是每本录入系统的凭证簿对应的影像图档,也可理解为扫描版电子凭证簿。具体功能界面如图10、11所示:

        图10  凭证影像管理功能界面

        图11  凭证影像管理功能界面

         6总结与展望
         6.1 总结
        基于OCR技术的财务凭证数字化管理的应用研究,实现了企业财务凭证信息化管理的方式,且起到节能环保和资源共享的效果,有利于纸质财务凭证的长期保存,并且操作便捷、自动分类组合,大大提高了工作效率。具体效果如下:
        (1)资源共享:由于该应用是基于Web服务设计的,所以支持异地浏览、编辑等特点,适应现代社会人们的工作风格。
        (2)长期保存:纸质的财务凭证都比较薄、材质脆弱,而且使用频率高,经过长时间的使用往往会出现破损现象,产生数据丢失的风险,而电子版可以实现长期保存,保障了财务凭证信息的安全。
        (3)操作便捷:系统自动识别凭证信息,工作人员只需确认是否存在识别偏差问题,便可进行批量归档。并且检索迅速,操作简便。大大提高了财务人员的工作效率。
        6.2 展望
        经过软件实施落地一段时间后,用户反馈该软件提供了较高的便利和良好的使用体验;实践表明,基于OCR的财务凭证数字化管理系统有效地简化了财务人员的工作流程,大大提升了工作效率,为企业节约了管理成本。为后续软件功能的扩展提供了良好的基础,比如对财务凭证单据的费用信息进行标准化管理,设计审计功能:如月度汇总、年度汇总、账目审核等等。 通过此次基于OCR技术在财务凭证数字化管理方面的应用研究,可以将OCR技术应用于更多类型的凭证、证件以及其它纸质办公资料的管理上。
        总之,此次基于OCR技术在财务凭证数字化管理的应用研究为企业纸质资料数字化管理尽了一份力,相信经过我们的不断努力,会让企业数字化管理越来越好。  
参考文献:
[1]谈进球,谭钧鸿,郭子山.基于OCR技术的实验室合同评审资料信息化管理的应用研究[J].中国纤检,2019(10):74-77.
[2]彭国雯. 基于深度学习的场景文字检测算法的融合技术研究[D].河南大学,2019.
[3]张烽. 基于倾斜目标检测技术的快消品识别研究与应用[D].湖南大学,2019.

投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: