网络爬虫技术在大数据审计中的应用

发表时间:2021/9/6   来源:《科学与技术》2021年12期4月   作者:  魏嘉玮 许兴雀
[导读] 最近一些年来,审计领域的一个焦点就是财务核销的研究和应用,怎样获得审
       魏嘉玮  许兴雀  
       
       广东电网有限责任公司中山供电局  广东 中山  528400
       
       摘要:最近一些年来,审计领域的一个焦点就是财务核销的研究和应用,怎样获得审计需要的有关数据,成为了财务核销的重点环节。信息化时代,有庞大的数据量且类型多种多样的核销数据,这就让传统审计方式无法持续高效的将核销任务完成,大数据技术使审计方法实现了创新。在财务核销领域中有效应用大数据技术,可以实现财务核销质量及效率的有效提升,并能降低财务核销成本,进而可将原来财务核销方式中不能对非结构化数据进行有效处理的弊端进行规避。鉴于此,文章详细论述了在数据财务核销中对网络爬虫技术的有效有效应用,旨在可以为行业人士提供有价值的参考和借鉴,进而更好的为行业的稳定、健康发展助力。
       关键词:网络爬虫技术;财务核销;应用

       前言:在大数据背景下,被审计单位数据量的快速增长和数据类型的日益复杂,使审计工作面临着巨大的挑战,传统的财务核销方法已经遇到了技术瓶颈,已经不能适应社会经济发展的需要。
       1财务核销大数据采集分析
窗体顶端
       1.1财务核销大数据类型
       相比于传统审计模式,财务核销存在着很大的不同性,通常,传统财务核销模式按照被核销单位的有关信息,对其真实性进行验证,而财务核销为一类实时审计,主要强调的是核销人员对企业内、外部数据进行主动获取,一般情况下,企业内部的业务数据都是被审计单位提供的,而外部数据来源是被核销单位,客户、税务、银行、法律、物流、供应商等,并由审计人员挖掘、分析。
       如今,审计大数据可分为两大类:一种是结构化数据,由数字、货币、日期等明确定义的数据类型组成,便于检索。此类数据通常在数据库中进行存储,如,企业ERP系统中的生产、财务及销售数据等,另一类是非结构化数据,指的是那些如文本、办公文档、图片等不方便使用数据库二维逻辑表现的数据,对审计人员来讲,非结构化的数据类型是需要的外部数据。
1.2核销数据采集方法
1.2.1直接拷贝读取
       核销人员需要对自己需要的核销数据进行预先判断,之后结合被核销单位应用的用友及金蝶等财务软件特点,通过软件数据库的预置指令,提取并转换审核员需要的数据,并使用Excel等格式进行保存。
1.2.2开放数据互联(ODBC)
       若核销人员及被核销方应用的是对接数据库,就可利用有关数据访问结构访问被核销单位应用的业务系统数据库,之后还原数据并把它转出,这样可让这部分数据被核销人员进行直接应用。
       1.2.3中间文件采集
       主要是审核员与被核销方就数据格式达成一致,被核销方根据自身要求将其相关数据如文本文件格式转换为一致的格式,这种格式可以直接读取大多数数据库,以免两个不同数据库之间对接出现问题。
1.2.4网上采集
       除被核销单位或上级审计机关提供的相关资料外,审计人员还需向被核销单位获得相应的工商、税务、工业、媒体等公共资料,同时要开展各类核销分析,这部分数据并非提供的结构化数据,审计人员应使用切实可行的方式从网上搜集。
如今,上面的三类方式为采集审计数据应用的方式,通常依靠一定的数据库基础,可以获取的信息大多是基于被核销单位的,最后一种在线采集数据的方法很难实现,因缺乏统一的技术及方式,会耗费大量经验及时间,在一定程度上使核销人员审计分析范围得以限制,并让核销证据率无法达到预期,这在很大程度上使核销风险得以提升。核销人员在财务核销背景下执行核销程序时,不可把重点只放在内部数据上,相反,我们应该从网络公共数据中获得全面的信息,然而,这部分信息大多以网页和其他格式存在,核销人员无法直接分析,为此,在提出文本时,网络爬虫技术可捕获网页上的信息,并将其整理成相应的格式,此种方式可让核销人员便于从海量数据中找到核销线索,进而充分发挥出核销分析程序的作用。


2网络爬虫在核销大数据采集中的应用
网络爬虫技术可以称之为网络蜘蛛,它是根据设置的规则自动获取网页内容的程序脚本。如今,网络爬虫技术在互联网上逐渐被广泛应用,它可以按照不同的程序代码设置相应指令,这样可以从网页中自动获取任何权限的信息。在程序启动并设置程序后,网络爬虫可以从ERL连续获取用户所需的内容,直至满足停止条件为止,然后分类整合处理抓取到的数据,用户可按照自己的查询需要,从中选择自己需要的数据,利用网络爬虫可以使大数据分析拥有更高质量的数据源。
通过网络爬虫技术执行审计分析程序时,通常会分为下面几步:1)锁定目标。按照财务核销目标对想要获得的目标数据进行获取,并清楚这部分数据分布的主要网页是什么。2)目标网页分析。若要高效率抓取有关数据,则应该分析目标网页的结构,主要为数据访问路径和路基。3)数据抓取。通过选择一个好的软件来执行命令,最后将获得的数据结果进行保存。4)数据分析。利用上述程序得到的数据开展清洗,进而得到目标数据,能够根据如Excel分析、SQL查询、数据可视化等相关数据实施进一步分析、确认及扩展。
       通过网络爬虫技术实现审计分析程序的原理,从被财务核销单位外部得到更加高质量且更充分的财务核销数据,这部分数据相比于设计单位所提供的数据更为可靠,新数据能够同被财务核销单位提供的内部数据做对比,这样可有助于财务核销人员将财务核销范围扩大,进而找到更多有关线索,进而使财务核销证据更为可靠且充分。
       财务核销人员进行财务核销最重要、最关键的过程就是获取相关的财务核销数据。在大数据时代之前,常用的财务核销数据采集方法可以归纳为以下四种类型:1)直接复制。当财务核销者应用数据库系统和被审计单温应用系统一样时,能根据具体实况判断出财务核销工作需要的审计数据,根据被财务核销单位财务软件应用特点,通过软件设定好的提取指令对有关财务核销数据进行提取,接着把它们保存成后期工作所需的格式。2)通过中间文件采集。3)通过0DBC接口采集。若被财务核销单位同财务核销者应用的数据库间可以互为对接,那么后期工作中便可进行直接应用。4)利用备份/恢复的方式采集。在数据库系统中将备份数据还原为数据库格式,并对财务核销数据进行分析,传统的数据采集方法可能无法充分发挥财务核销的应用潜力。在实际审计工作中,相当一部分企业没有建立健全的数据存取共享机制,这就导致财务核销的优势得到了极大的发挥,使得审计人员难以全面、细致地收集工作所需的财务核销数据,从而产生一定的财务核销风险。
       网络爬虫技术可以充分收集被财务核销单位以外的公共数据,其操作思路如下:⑴确定目的。结合财务核销目标确定审计工作需要的数据。⑵分析页面结构。分析对象有数据访问的逻辑、路径。⑶爬虫抓取数据,获得需要的数据。上述分析完成后,使用相关网络爬虫软件采集以上数据。⑷分析核查获得的数据。根据网络爬虫得到的数据,进行数据集成和数据预处理的基础工作,使后续工作直接使用,从而实现对财务核销数据的全面有效分析
结束语:
       总而言之,为应对大数据时代下被财务核销单位海量的数据,财务核销人员有诸如网络爬虫等大数据技术可供使用,善用这些技术可帮助财务核销人员应对不同种类的财务核销业务,并在财务核销程序中的各流程节约成本、提高效率。财务核销单位应正视大数据时代审计工作面临的挑战和机遇,积极培训财务核销人员掌握多种财务核销技术,以期对解决各类财务核销难题做到游刃有余。
窗体底端
       参考文献:
       [1]秦荣生.大数据、云计算技术对审计的影响研究[J].审计研究,2014(6).
       [2]刘国城,王会金.财务核销平台构建研究[J].审计研究,2017(11).
       [3]韦玮.精通Python网络爬虫[M].北京机械工业出版社,2017.
       [4]陈伟,SmieliauskasW.大数据环境下的电子数据审计:机遇、挑战与方法.计算机科学.2016(1)
       [5]陈伟,WallySmieliauskas.大数据环境下基于数据可视化技术的电子审计方法.中国注册会计师.2017(1)
       [6]王思齐.大数据技术在现代企业审计中的应用分析[J].现代经济信息,2019,(17):200.
       [7]封智韬,王文健.大数据在消防审计当中的应用[J].消防界(电子版),2019,5(10):13+15.
       [8]郑瑞娟.大数据分析技术在财险审计中的运用[J].时代经贸,2019,(16):36-37.

投稿 打印文章 转寄朋友 留言编辑 收藏文章
您可能感兴趣的其他文章
•   林业...
•   ...
•   ...
•   ...
•   ...
•   铁...
•   ...
•   电...
•   设...
•   ...
•   给...
•   电...
更多>>
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: