基于自然语言处理技术的电网招标资料查重系统应用--中国期刊网

字体：大中小

首页> 原创作品> 正文

基于自然语言处理技术的电网招标资料查重系统应用

发表时间：2020/12/31 来源：《科学与技术》2020年26期作者：汤力杜洁李芹王菁

[导读] 招投标是电力项目建设的重要环节。但是由于近年来电力项目申报数量多，

        汤力?杜洁?李芹?王菁
        云南电网有限责任公司信息中心,云南省,昆明市,650217
        摘要：招投标是电力项目建设的重要环节。但是由于近年来电力项目申报数量多，很容易发生重复申报的现象，除了影响项目的进度外，也会影响电网公司的经济效益。因此，必须要对招标资料进行查重，杜绝重复申报。传统的查重方法通常存在效率低、准确性差等问题，不能满足电网公司的使用需要。本文提出了一种基于自然语言处理技术的招标资料查重系统，运用了中文分词、主体建模等技术，可以支持全文检索、资料查重等功能，实际应用中速率快、准确度高，具体推广应用价值。
        关键词：自然语言处理技术；招标资料；查重系统

1.电网招标资料查重系统的关键技术
1.1词权重计算技术
    在电网招标资料中，不同词语的重要程度存在很大差异。词权重计算，就是根据各类词语的重要程度，为其赋予不同的权重，这样才能让最终的查重结果更加真实、有效。例如，招标资料中包含一些高频率的词语，或是专业术语，应当赋予相对较高的权重。计算词语权重是运用统计学的知识，也就是用文本的统计信息（如词频、词之间的同现频率等）计算词语的权重，大部分的统计方法都基于香农信息学理论：如果特征项在所有文本中出现的频率越高，那么它所包含的信息熵也就越少；如果特征项只在少量文本中有较高的出现频率，那么该特征项就会拥有较高的信息熵。其中熵是不确定性的衡量，不确定性越高，熵越高。TF-IDF算法是计算词语权重的典型代表，在准确提取特征词汇等方面有着明显的优势。
1.2中文分词技术
    计算机在识别并理解文档内容的过程中，无法理解整个句子的含义，只能先将句子拆分成最小的单元，即原子词汇。然后再利用特定的算法，检测词汇的重复率。中文分词是基于自然语言处理技术的查重系统的核心技术之一，目前常用的分词方法有多种，较为常见的是机械式分词、统计式分词。其中，基于统计的分词方法中，比较典型的算法是N元文法模型（N-gram模型），该模型基于这样一种假设，第N个词的出现只与前面N–1个词相关，而与其他任何词都不相关，整句的概率就是各个词出现概率的乘积。N-gram模型通过计算N个词汇组成序列的概率值来衡量分词方案的合理性。
2.系统运行流程
2.1全文检索流程
    工作人员登录Web界面后，在检索栏中输入想要检索的内容，可以是某个关键词，也可以是某个语句，然后点击全文检索。系统接收到检索指令后，第一步是进行中文分词，同时在系统后台开始加载LSI主题模型。利用该模型完成相似度分析，最终在Web界面上输出检索结果。
2.2主题模型训练流程
    电网招标资料查重系统主要有全文检索和资料查重两个功能。为了保证两个功能的顺利实现，在完成系统设计后，还要对运行流程进行调试和训练，用于检测流程是否顺畅、功能是否实现。主题模型训练流程如下：系统自动调用招标资料库中存储的各类文档，并检测文档的存储格式。将所有格式的电子文档，去掉图片、表格以后，统一转化为txt.格式。完成格式转化后，依次进行中文分词、TF-IDF转换、LSI主题建模等。最后将建立的模型，保存到计算机的硬盘中。当需要执行全文检索或资料查重时，可以直接调用相应的模型，完成检索和查重。具体流程如图1所示。

图1   主题模型训练流程
2.3招标资料查重流程
    当工作人员将一份新的招标资料录入该系统时，该系统首先识别该资料的文件格式，如果属于PDF或Word格式，第一步进行格式转换，统一转换为TXT格式。然后开始中文分词，在这一过程中系统同时在后台加载LSI主题模型。模型加载完成后，自动对已经完成中文分词的招标资料进行相似度分析。新的招标资料同时进行备份，并将备份文件纳入到招标资料库中，实现资料库的数据更新。完成相似度分析后，将分析结果在Web界面上展示，工作人员可以根据使用需求选择打印出来。
3.系统软件架构
    电网招标资料查重系统的软件部分共分为4个单元，具体功能为：（1）招标资料库单元，用于存放电网公司以往产生的招标资料。以资料产生年限作为划分依据，方便相关人员查找、调用。（2）文本相似度分析单元。作为该系统的关键部分，具体又可以分为中文分词、主题建模等功能。首先识别待检测的招标资料，然后与资料库中已有的文件进行对比，对比结果即为文本相似度，同时生成相似度报告，以便于相关人员对招标资料的重复部分进行修改。（3）Web界面。该系统的人机交互界面，管理员需要获取权限后才能登陆Web界面，并完成招标资料查询、上传、下载等具体操作。（4）模型管理。支持对LSI主题模型的构建、修改和调用等操作。
4.应用效果
    为了验证基于自然语言处理技术的招标资料查重系统的实际应用效果，选取了一台Windows 10 64位操作系统，8G内存，3.20GHz双核CPU计算机进行测试。其中，当文档数量为1000个时，中文分词时间为28秒，主题建模时间为45秒，招标资料的查重时间为1.2秒；当文档数量为5000个时，中文分词时间为160秒，主题建模时间为184秒，招标资料查重为1.3秒；当文档数量为10000个时，中文分词事件为314秒，主题建模时间为352秒，招标资料查重为1.5秒。根据测试数据可知，随着资料数量的增加，无论是中文分词消耗的时间，还是主体建模需要的时间，都会同步增加，呈正相关；但是查重所需时间变化不大，应用效果良好。
        结语：电网公司现行的资料查重方法无论是在查重所需时间，还是查重结果准确性方面，仍然存在一些不足。本文提出的一种基于自然语言处理技术的查重系统，除了可以高效率、精准性的完成招标资料查重外，还具有全文检索等功能，进一步提高了系统的适用性。利用Web界面，管理人员可以很方便的完成主题模型的更新、调用，保证了该系统可以根据电网公司招标资料查重需要，不断的进行优化，解决招标项目重复申报等问题，切实维护了电网公司的综合效益。

参考文献：
[1]郭蕾.基于自然语言处理的英语翻译计算机智能评分系统设计[J].现代电子技术,2019(04):158-160.
[2]徐琳宏,丁堃,林原,等.基于机器学习算法的引文情感自动识别研究--以自然语言处理领域为例[J].现代情报,2020(01):124-125.