公路工程内业资料OCR识别准确率研究 索琳 谢建文

发表时间:2021/7/28   来源:《基层建设》2021年第14期   作者:索琳 谢建文
[导读] 目前公路工程项目施工管理中一直使用着纸质文档,无论在生成方面,还是在保存和检索利用方面,纸质文档的管理手段都十分落后

        山东高速信息集团有限公司  山东济南  250014
        摘要:目前公路工程项目施工管理中一直使用着纸质文档,无论在生成方面,还是在保存和检索利用方面,纸质文档的管理手段都十分落后,严重制约了工程文档管理水平的提高。而随着OCR识别技术的发展,OCR技术在公路工程内业资料电子化中的应用将具有重大的意义。公路工程内业资料质检表分为评定表、质检表(同监理监抽表)、施工记录表,试验报告表这几类表格,每类表格中选取一张代表性的表格进行OCR识别。为提高纸质文件数字化效率,改善工程建设档案利用方式,针对OCR识别技术进行应用与研究,现对内业资料代表性手写文字和通用印刷体文字测试用例进行测试,以进行针对不同形式的内业资料OCR识别准确率研究。
        关键词:公路工程;内业资料;OCR;识别准确率


        1 概述
        OCR技术的中文全称为光学字符识别技术,是通过光学输入方式将文字信息转化为图像信息,然后再利用文字识别技术将相关图像信息转化为可供计算机输入的形式,便于档案信息的录入与使用。从目前的情况来看,OCR技术已经成为了档案技术领域不可或缺的重要技术水平之一,实现了全文字识别模式下的档案扫描工作,有效地促进了我国档案数字化的发展,并为其未来的发展与突破开启了全新的篇[1]。不仅如此,OCR技术在档案工作中的使用,既实现了档案的数字化建设,也为档案信息数据的查询工作提供了必要的技术支撑,是档案数字化进程中的核心技术之一,也是不可或缺的一环。
        2公路工程纸质档案存在的问题
        目前公路工程项目施工管理中一直使用着纸质文档,无论在生成方面,还是在保存和检索利用方面,纸质文档的管理手段都十分落后,严重制约了工程文档管理水平的提高。
        第一,纸质文档无法适应现代工程管理的需要在生成方面公路工程项目施工文档的管理大多停留在计算机制表、手工填写、复印机复印和人工立卷的水平,生成过程几乎都是手工操作,内业人员的工作强度大且效率低。由于手工填写错误而返工造成了大量人力、物力和时间的浪费。此外,工程文档是对工程施工过程及其信息的记录,其生成的及时性和准确性直接关系到工程文档的质量。当文件材料与工程施工不同步时,就容易出现编造工程资料的现象,无法反映工程的实际,失去保存的意义。另一方面,工程文档所记录的信息作为工程项目管理者进行判断和决策的主要依据之一,其真实性、时效性、完整性对决策的正确性有很大的影响。这就要求将施工过程中产生的大量信息及时准确地进行整理分析并反馈,为管理者决策提供依据,而这一工作靠人工整理分析而不借助现代计算机信息处理技术显然是不可能满足决策需要的。
        第二,纸质文档给档案保管工作带来了巨大的压力。纸质文档的保存不仅要占用较大的空间,而且防潮、防霉、防虫、防尘、防火工作的难度较大[2]。随着我国经济的飞速发展,交通基本建设步伐日益加快,公路工程文档的数量剧增与档案馆库房容量有限的矛盾日益突出。因此,尽快实现公路工程文档的信息化,减少纸质文档的存放量,缓解档案保管工作压力的任务十分紧迫。
        第三,纸质文档给档案的检索利用带来诸多不便。工程文档的作用一是“事后查证 ”;二是“回溯研究”,为日后的公路工程建设工作提供服务[3]。长期以来,一直沿用的手工检索和提供文档资料,检索效率较低,使公路工程文档无法得到有效的利用。因为,公路工程建设要查询的信息,往往不是几份文件或几条信息,而是需要某一方面的全部资料,而文档管理人员要从浩繁的工程文档中把这些资料一次提供出来,需要较长的时间,而且还不能保证一份不漏,再者手工检索的准确率也不能有效地得到保证[4]。因此,目前公路工程档案的利用率很低,其主要原因是检索手段的落后,无法适应现代经济建设的快节奏[5]。
        因此,推进公路工程内业资料电子化势在必行。而随着OCR识别技术的发展,OCR技术在公路工程内业资料电子化中的应用将具有重大的意义。
        3公路工程内业资料OCR识别测试
        3.1选用表格及测试方法
        公路工程内业资料质检表分为评定表、质检表(同监理监抽表)、施工记录表,试验报告表这几类表格,每类表格中选取一张代表性的表格进行OCR识别。主要对选取的表格手写版本和通用印刷体版本进行识别测试:
        测试一:对水准仪测量记录表手写版和通用印刷体版进行识别准确率测试与对比;
        测试二:对施工原始记录表手写版和通用印刷体版进行识别准确率测试与对比;
        测试三:对试验检测记录表进行识别准确率测试与对比;
        测试四:对公文进行识别准确率测试;
        测试五:对审批批复文件进行识别准确率测试。
        3.2判断标准
        本次评测的标准,主要判断能否识别出文字区域,并对文字区域内的文字进行准确识别,统计识别准确率。



        4测试结果分析
      

识别样表
手写版识别准确率
通用印刷体识别准确率
水准仪测量记录表
36%
80%
施工原始记录表
55.38%
81.54%
试验检测记录表
28.13%
78.57%
公文
99.47%
审批批复文件
97.78%

        通过实验结果统计可以看出,对于易识别的通用印刷体公文、审批批复文件,OCR识别准确率以及单次识别可用率均在97%以上。但是对于通用印刷体记录表,在OCR识别准确率上则表现一般,识别过程仍然存在不少问题:小数点识别效果不佳、存在乱码情况、部分数字因为字符结构相似存在混淆识别情况、数据有效数字超过正常范围等;针对这两种形式的资料,后续对识别结果进行规则库约束以及人工核对,从而完成质量控制。对于手写版记录表格,OCR识别准确率较差。总体而言,在本次测试中,通用印刷体版本整体识别准确率较好;手写数字与日期因为存在字迹粘连、模糊、潦草等情况,整体识别率较低;在印章干扰、特殊字符和与特殊字符相似文字的识别方面,手写版本和通用印刷版本识别准确率均有所下降。
        5结论
        OCR技术在目前互联网及人工智能迅速发展的趋势下,有了飞速的发展。到目前为止,OCR技术已经发展到可以对通用印刷文字进行高精度的识别,包括生僻字在内的情况。但是,对于公路工程内业资料领域,OCR识别结果仍应和规则库约束、人工核对来实现识别质量控制,尤其是对情况比较复杂的手写内业资料,OCR识别整体准确率仍然偏低。但随着OCR识别技术的发展,以及公路工程内业资料电子化的进程的加快,OCR识别技术必然将会在公路工程内业资料管理领域得到更加广泛的应用。
        参考文献:
        [1]肖 坚. 基于学习的 OCR 字符识别[J].计算机时代,2018(7):48-51.
        [2]冯雪.纸质档案数字化中需要注意的几点问题[J].办公室业务,2016,(8).
        [3]吴军.扫描文档图像的处理方法的研究和应用[D].山东师范大学,2015
        [4]林晓帆,丁晓青,吴佑寿.手写数字识别的原理及应用。档案学研究,2004(2):11-13
        [5]迟春佳.OCR 技术及其在高校图书馆信息资源数字化建设中的应用[J].中国科技信息,2007(7):95-96.

投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: