菏泽市政务网络技术中心
【创新*经验*总结】
关键词:数据治理,数据获取,数据ETL,数据共享
本篇文章记录了菏泽市政务网络技术中心-自成立承接政务服务/行政审批服务的系统管理和技术运维2年多来工作经验,将数据治理与数据管理中相关前沿技术的运用和工作创新进行了总结梳理与举例说明,对政务服务和行政审批系统管理、数据治理、大数据共享与应用具有重要的参考意义。
引言
数据治理并不是一个新词,最初企业中的数据治理是相对简单的。几乎所有被治理的数据,都是在企业内部的事务处理系统中生成,与现在相比,数据量较低,数据类型、IT环境也比较单一。随着IT技术的整体发展,特别是大数据时代的到来,数据治理的“担子”变得越来越重。菏泽市行政审批服务局机构改革职能划转的同时,各部门的业务信息系统的使用权也随之划转,各部门自建信息系统存在网络环境配置、数据交换格式、数据库差异、登录方式等天然屏障,如何有效数据治理,实现从前端事务处理系统、后端业务数据库到终端的数据分析,从源头到终端再回到源头形成一个闭环负反馈系统是一个全国性难题。
从目的来讲,数据治理就是要对数据的获取、处理、使用。传统解决这种问题有统一双方数据对接和人力手工跨系统数据维护两种方式。传统数据对接方式有成本高、周期长的缺陷。然而人力手工处理大量的数据从安全、效率、准确率的角度看都不是一个最好的选择。经过2年来的探索实践菏泽市政务网络技术中心形成了一套以自动化软件操作机器人、多线程网络爬虫、API接口共享、可视化ETL工具为核心,快速实时采集挖掘系统数据,形成多源数据共享池,支持后续各种应用落地、实现的解决方案。
网络蜘蛛/爬虫和自动化软件操作机器人破除数据壁垒
医疗机构、医生、护士主题的行政审批系统系统多基于C/S架构,且要求UK登录验证和短信验证,网络爬虫和POST技术在此种情形下会失效。自动化软件操作机器人这一新兴的人工智能技术可以从模拟人工操作的角度完成信息烟囱的破除,其工作原理是基于计算机操作系统的工作桌面,自动识别UI、从而完成预先设定的工作流程。自动化软件操作机器人部署周期快,并且而不受制于各信息系统底层IT基础设施。相比人工操作从安全、效率、准确率的角度都是优于人工操作的,对数据获取的质量起到了更好的保障作用。
基于传统的分布式多线程网络爬虫技术,在自动记录和构建种子库、保持登录方式等方面进行改进。将设计好的网络蜘蛛应用于爬取已获得授权网站的数据,对数据进行解析、整理、入库与导出。利用分布式多线程爬虫技术对时效性、时限性要求强的政务服务网上能力检测等应用场景可实现相关数据高效采集和检测,为全市政务服务网上能力建设保驾护航。以政务服务网上申报功能检测工作为例,传统方法每次排查8万事项需20个工作日,新方法可将工作时限压缩至1个工作日。
商事登记多系统数据实时采集、清洗、入库、交互
政务服务和行政审批业务系统数据源分散、割裂、格式各异,post技术的优势即是可以在不打破原有数据的基础上,构建连接各类自建信息系统的数据共享通道,让各自独立而封闭系统中的核心数据“安全流动”。采集到数据库后通过可视化的 ETL 工具(tableau)将数据从来源端经过抽取 (extract)、转换 (transform)、加载 (load) 至目的端的过程,目的是将散落和零乱的数据集中存储起来。
菏泽市政务网络技术中心利用POST技术和tableau可视化ETL工具应用到工商系统,降低了工商数据对接门槛,变被动为主动,实现了直接将所需数据留存到本地数据库,真正实现无障碍跨系统共享数据实时协同应用,后期亦可灵活快速响应信息系统数据变动及需求变动。
合理安排数据共享交换,解决跨行业查询数据困难
数据共享包括组织内部和组织之间的数据共享,共享方式也分为库表、文件和 API 接口三种共享方式,库表共享比较直接粗暴,文件共享方式通过 ETL 工具做一个反向的数据交换也就可以实现。菏泽市政务网络技术中心使用 API 接口共享方式,在这种方式下,能够让中心数据仓库保留数据所有权,把数据使用权通过 API 接口的形式进行了转移。API 接口共享可以使用 API 网关实现。菏泽市政务网络技术中心技术人员综合运用上述方法,自主搭建综合查询检索服务。服务工作人员和办事群众,局域网环境下可实现对工商、医疗、社保、信用等多行业数据高效查询,只需输入查询条件,即可实时返回查询结果。
目前,菏泽市政务网络技术中心已完成全市个体和企业营业执照信息(128余万条)、排污许可企业信息(1147条)、医疗机构和医生护士信息(6.9万条)、全省社会团体和民办非企业信息(7.7万条)、全市交通行业企业数据(9600条)等的搜集工作。向市大数据共享平台提供危化品经营企业信息、医疗连锁零售机构信息等15大类行业许可数据107万条。
总结与展望
数据治理不只是技术问题,更是一个管理问题。例如大家常见的项目管理系统只是一个工具,如何让项目管理工具与项目管理思想相匹配才是项目管理系统实施过程中的最大挑战,也才能发挥最大的效果。数据治理也是同样的道理。
信息化建设正从以应用为中心向以数据为中心转变的关键时期,组织也逐步认识到数据的巨大价值,但低质量的数据和复杂的数据应用手段,让数据价值发掘的效果大大降低,甚至,会让组织决策层丧失数字化转型的信心。只有做好数据治理,把多行业、多主题的数据大规模整合、分析、运用,才能让数据活起来,才能对政务服务和政府决策有意义。
打通各部门与行业数据,是信息化手段助力政务服务和行政审批第一步,接下来菏泽市政务网络技术中心将充分利用团队技术优势,在大数据分析、智能软件机器人、秒批秒办、知识图谱等高级数据应用领域投入研发精力,数据驱动全面助力政务服务和行政审批。