基于BI技术的工程项目履约数据治理方法研究

发表时间:2020/12/17   来源:《工程管理前沿》2020年25期   作者:吴辛遥
[导读] 数据治理的定义是对数据资产管理行使权力和控制的活动集合。其最终目的是挖掘数据价值
        吴辛遥
        浙江华东工程数字技术有限公司 浙江省杭州市 311122
        一、背景介绍
        1.1.数据治理
        数据治理的定义是对数据资产管理行使权力和控制的活动集合。其最终目的是挖掘数据价值,推动业务发展,实现盈利。
        数据治理平台是以元数据为基础,实现数据的产生、存储、迁移、使用、归档、销毁等环节的数据生命周期管理。实现数据从源到数据中心再到应用端的全过程管理,为用户提供了准确便捷的工程项目履约数据信息。数据治理平台也包括数据标准,数据质量。
        数据治理分为四个阶段
        第一阶段,梳理工程项目履约数据信息,构建工程项目的数据资产库。首先要清楚工程项目的数据模型、数据关系,对工程项目履约数据形成业务视图、技术视图等针对不同用户视角的展示。
        第二阶段,建立管理流程,落地数据标准,提升数据质量。从工程项目履约角度梳理质量问题,紧抓标准落地。
        第三阶段,直接为用户提供价值。本阶段依赖于前两个阶段的建设,为用户提供方便的获取数据的途径。
        第四阶段,为工程项目履约提供数据价值。通过多种手段对多种来源的数据进行分析,形成工程项目履约知识图谱,体现数据的深层价值。
        通过这4个阶段的建设,建立起工程项目履约全过程的数据质量管控平台,以用户为中心,由用户使用数据并通过用户的使用优化数据质量,既达到了数据治理的目标,也最大限度的发挥了数据的价值。
1.2.研究现状
        华东院踏上信息化、数字化道路目前已有近20年的历史,工程项目管理系统也自运行来积累了十余年的项目履约数据,成功建立起了履约数据平台、总包绩效考核等统计模块,在数据治理上已经有一定的技术及数据的积累。
        但目前也有一些问题的存在,例如系统运行期间,由于对用户的输入没有约束,导致数据缺失、数据重复、数据错误、数据不可用等脏数据现象;由于项目自身需求,寻找外委服务商,导致数据无法贯通、信息无法交流的信息孤岛现象;由于数据不断积累,目前的查询数据库及业务数据库为同一个,导致的查询效率低下现象。这些都是数据治理的道路上需要解决的问题。
二、BI技术研究
        商业智能(Business intelligence, BI) 最早由GartnerGroup于1996年提出。定义为:商业智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。通常可以理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。
        BI技术目前已经有一系列成熟的解决方案,通常包含以下内容方面:数据仓库、数据集市、数据挖掘。
2.2.1.数据仓库
        数据仓库(Data Warehouse)是数据库的一种概念上的升级,可以说是为满足新需求设计的一种新数据库,而这个数据库是需容纳更多的数据,更加庞大的数据集,从逻辑上讲数据仓库和数据库是没有什么区别的。
        数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支撑的战略集合,主要是用于数据挖掘和数据分析,以建立数据沙盘为基础,为消灭消息孤岛和支持决策为目的而创建的。
        数据仓库包含以下这些特点:
        面向主题:是企业系统信息中的数据综合、归类并进行分析的一个抽象,对应企业中某一个宏观分析领域所涉及的分析对象。
        数据集成:数据仓库的数据是从原有分散的数据库中的数据抽取而来的。
        不可更新:从数据的进入到删除的整个生命周期中,数据仓库的数据是永远不变的。
        随时间不短变化:数据仓库的数据是随着时间变化而不断增加新的数据。
        数据仓库会进行结构分层、简化每一层的逻辑。通过大量的预处理来提升应用系统的查询速度,提升用户体验。
2.2.数据集市
        数据集市(Data Mart),也叫数据市场,是一个从操作的数据和其他的为某个特殊的专业人员团体服务的数据源中收集数据,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体的一个数据仓库。
        数据集市的数据通常是从企业范围的数据仓库,或者是更加专业的数据仓库中抽取出来的。数据集市建立的重点就在于它迎合了专业用户群体的特殊需求,包括分析、内容、表现,以及易用方面。
        数据集市是企业级数据仓库的一个子集,是小型的、面向部门或工作组级的数据仓库,不同的数据集市可以按业务的分类来组织,也可以按照数据仓库的主题或数据的地理分布来组织。
        数据集市的数据结构通常被描述为星型结构或者雪花结构,由一个事实表及多个维度表组成。其数据结构设计中最核心的技术就是维度建模:即采用某种直观的标准框架结构来表现数据,并且允许进行高性能存取。每个维度模型都由具有复合键的某个表(事实表)和一系列小型表(维度表)组成。每个维度表中都有一个主键,它精确对应着事实表中复合键的某个组成部分。
2.3.数据挖掘
        数据挖掘是一种商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。简而言之,数据挖掘其实是一类深层次的数据分析方法。因此,数据挖掘可以描述为按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。
        人工智能、数据库技术、概率与数理统计是数据挖掘技术的三大支柱。包括:人工神经网络、决策树、遗传算法、近邻搜索算法、规则推理、模糊逻辑等。
三、数据治理的方法研究
        利用BI技术辅助数据治理的方法研究主要包含三个部分:通过建立数据仓库来解决信息孤岛和清理脏数据、通过建立数据集市来提高查询效率、建立数据挖掘模型来提升数据价值。
3.3.1.数据仓库的建立
        本文将对面向对象的数据模型设计理念进行研究,通过数据模型的建立,进行数据仓库的搭建,同时在过程中进行脏数据的清理。
        工程项目管理的履约数据来源于不同的业务系统,例如:工程项目管理系统、财务系统、市场经营系统等。数据内容包括:项目基本信息、合同基本信息、项目收入、项目支出、分包商、总包商、项目质量管控、项目进度管控等。针对以上数据特征,可以建立起对应的概念模型及主体类。
       
        对实体类进行归类和细化,形成具体的主题逻辑模型,建立实体对象,形成数据库表原型(部分实体)。例如:项目信息:
        
     
        建立起数据仓库的实体类及数据模型之后,就可以进行数据处理(ETL),来解决脏数据、信息孤岛问题。ETL的主要流程调度为:
        (1)数据的抽取(extract),即将不同业务系统中的不同数据进行整合。
        对与数据仓库的同构数据库可直接建立链接服务器,进行直接传输。对异构数据库可采用ODBC连接或者导出为excel或者txt文件之后,再进行导入。对未存在系统的文件,可转为为特定格式的Excel或者txt文件进行导入。
        并且如果原系统数据量较为庞大,可以选择进行增量更新的操作,加快效率。
        从而解决信息孤岛问题。
        (2)数据的清洗、转换(Clearning , Transform),即对抽取后的脏数据(缺失数据、重复数据、错误数据、不可用数据)进行过滤,再经由具体的业务单位确认、修正。
        之后进行不一致数据转化、数据颗粒度转换、具体业务规则计算,形成正确的、有效的、可用的数据。
        (3)加载(load),最终将经过抽取、清洗、转换之后的数据载入数据仓库,供于后续的数据集市、数据挖掘。
3.2.数据集市的建立
        在完成数据仓库基础上,可以根据不同的业务需求,整理出不同的统计维度,从而进行进一步的数据集市的建立。
        数据集市的模型设计基于分析数据存储模型,一般采用星型模型,即多个小的维度表,围绕一个大的事实表。而针对项目履约具体的业务需求进行分析,对所需指标、维度进行组合,可以形成一个个事实表和维度表。下面将介绍部分事实表和维度表。
        
      
(1)维度表
        可以分析出的维度表包括:项目信息特征、币种、日期-年季月日、合作伙伴信息特征等。数据库表设计如下图3.2-2所示:
        
       
(2)事实表
        可以分析出的事实表包括:项目收款记录、项目付款记录、合作伙伴基本信息、项目基本信息等。数据库表设计如下图3.2-3所示:
        
        图3.3-3 部分事实表数据库表结构图
        根据以上事实表和维表结合,就能够支持不同应用的报表的生成。使用报表工具或者其他方式,基于分析数据存储模型,就可以自动生成各种客户分析报表,同时,还可以在维度上做钻取和汇总。
3.3.数据挖掘的具体应用
3.3.1 数据挖掘对项目履约过程中环境因素的分析
        通过对相似环境下相似项目的进行分类聚合,形成环境和项目履约情况的关系映射。从而分析出什么样的环境适合什么类型的项目。进而优化之后的项目承接、项目履约的决策,判断在特定环境下是否合适该项目,以及项目履约过程中会碰到的问题。
3.3.2 数据挖掘对项目履约过程中政策因素的分析
        通过对不同时期,不同地点的不同政策下影响的不同类型项目的进行分类聚合,形成政策和项目履约情况的关系映射。从而分析出政策对项目履约的影响。进而加强企业的判断,在政策发布或更改的初期提前预测到后续的发展,提升项目履约的质量。
3.3.3 数据挖掘对项目履约过程中不同风险因素的分析应用
        通过对不同类型项目发生的不同类型的风险的进行分类聚合,形成风险因素和项目履约情况的关系映射。从而分析出不同类型的项目分别容易发生不同类型的风险。加强对容易发生的危险因素的预防,提升项目履约过程中的安全保障。
四、结论与展望
        本文对BI技术进行的初步的研究,并结合华东院项目履约具体的管控需求,进行了理论上的实现过程设计。通过数据仓库、数据集市的建立,解决目前系统中存在的信息孤岛、脏数据等问题,加强数据的治理。再通过数据挖掘模型的建立,形成具体的统计图表,将数据以更直观的方式展现给院管理层,使管理者能充分掌握目前项目履约具体情况、并利用这些情况对项目发展进行宏观决策和微观调整,提升数据的价值。随着项目履约数据的不断累计、BI技术的不断发展,华东院的项目履约情况信息化管理需要从传统的报表分析层次,发展到更上一层的数据分析和数据挖掘阶段,这是一个新的契机,也是需要我们更进一步研究和探索的工作。
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: