钱奕融 李怡勇
航天工程大学,北京 101416
摘要:本文通过分析国内外大数据质量研究文献,从大数据基本内涵、质量管理等方面入手,结合项目管理理论,分析项目管理在大数据质量管理中的应用。研究发现,项目管理应用于大数据管理可以提升大数据质量,同时大数据技术也可应用于项目管理起到数据分析整理的做用。
关键词:大数据质量;项目管理;质量管理
1 引言
近年来,随着通信技术的变革与高速发展,以及数字信息浪潮的到来,特别是4G通信网络服务在全国的推广普及和5G通信技术商用化逐步布局展开,人、机、物三元世界正高度融合,产生的各种信息呈爆炸式增长、数据模式复杂化程度急剧增加[1]。大数据基本特性从最初的3V[2]发展到到4V[3]、5V[4],它的基本概念直到现在在学术界如何详实准确的描述还没有达成广泛地共识,但这些已无法阻挡大数据技术在政府政策、产业技术等领域的发展。尤其自2015年起,我国陆续出台《促进大数据发展行动纲要》《关于加快推进“互联网 + 政务服务”工作的指导意见》《关于积极推进“互联网 +”行动的指导意见》等政策性文件,预示着我国大数据产业迎来了重要的发展机遇期。而这一切都需要确保准确、全面、高质量的数据,做好大数据质量管理才能保证基于由此衍生的分析的精度和准确度。所以大数据的数据质量管理是大数据不可忽视的重要环节。
2 大数据质量问题分析
目前来看大数据的项目应用大部分是一种运营商为了满足客户不同需求基于大数据技术提供的信息服务类项目,所以要对大数据项目的质量管理进行研究,我们首先就需要明确信息服务类项目质量的定义。目前在学术界得到广泛认可的信息服务类项目质量的定义有几种:
国外方面,沃特·阿曼德·休哈特(Walter A. Shewhart)在他的研究中指出,影响项目质量有两个方面,一个是从客观上讲,项目质量是一个客观实在,独立于人而存在;另外一个方面主观上来说,项目质量与客观存在影响人的感官等因素所带来的思考或感受有关[5]。
爱德华·费根鲍姆(Edward Albert Feigenbaum)认为项目质量是服务受众的一种对项目需要达到什么目标的决心,这里需要明确,这种决心不是项目工程师的决心,也不是一种项目组的营销决策,更不是一般的管理决策。它基于以下几点:一是项目服务受众对所购产品或服务的以往的经验,二是服务受众对于项目质量所表述的或潜在的需求,三是项目最后需要达成或可能需要达成的目标,四是客观可操作有相关衡量标准或依据服务受众主观的感受进行衡量,五是项目质量始终是市场竞争中的重要指标[6]。
国内方面,魏铮认为信息服务是一个运动的发展的活动,质量评价应该包含全过程,即质量的评定不只在服务结果,在服务的过程中之中也应有质量的评价[7]。徐纲红认为信息服务的质量评价是信息的使用者对享受的信息服务得到的评价[8]。通过这些研究,我们可以得出这样的结论,大数据质量作为信息服务类项目的质量,其主要包含两个方面,一是主观的质量,即服务对象对服务质量的期望;另一方面是客观质量,即项目的过程平台、项目的产出等客观实在。
围绕这两点,如何更好地做好大数据质量管理。近年来,国内研究者们做了大量的探索,冯登国等人对大数据服务中信息安全和用户隐私问题进行了探讨[11];费仕忆就大数据应用平台的构建进行了概述与评价,指出平台构建的过程中可能会出现的问题,如数据的采集、存储、处理、传输、共享与安全等,并根据分析创见性的提出了一种大数据平台的系统架构,并进行了相关验证研究[12];王利平提出大数据服务作为一个项目,根据项目管理的全面质量管理理念,探索应用项目管理的PDCA循环管理方法,并在金融大数据项目质量管理中进行验证 [13];宗威、吴峰从流程、技术和管理的视角讨论了企业数据质量的挑战、重要性及应对措施[14];莫祖英认为数据质量在大数据的处理中,占有极其重要的地位,并根据大数据的特征,将大数据质量细分为三个方面,分别是原始质量、过程质量和结果质量[15] ;李建中、王宏志等从大数据特点分析出大数据质量问题可能产生的原因,即大数据的特性:数据规模性大、高速性和多样性等特点[16];金莲、黄沈滨等则从技术的角度探讨了大数据的数据清洗问题,基于 Hadoop 设计并实现了一个大数据云清洗系统,通过 Mapreduce 计算模型检测并修复数据质量问题[17]。 2014 年中国电子技术标准化研究院编制的《大数据标准化白皮书》中,将元数据质量、质量评价和数据溯源三大数据质量问题列为近期急需研制的标准,体现出国家高度重视大数据质量标准研究。
3 项目管理理论在大数据项目中的研究现状
项目管理理论最早在第二次世界大战后期的美国被提出。一般情况下指项目的管理者,在有限的资源下,通过有效地计划、组织、领导与控制,对项目的全部内容进行有效的管理。
最近这些年,国内研究者对项目管理理论在大数据项目的应用进行了探索,比如:
王鹏宇在2010的研究中对于大数据项目基础设施建设进行了探讨。在基础建设项目中引入成熟的项目管理理论,可以有效地调高机房的产品质量,提高效率。确保数据在此运行平稳,减少故障率,从物理角度提高大数据项目的质量[19]。
郑劼在研究中认为,提高项目质量可以从三个方面着手:一是一定要把项目管理的思想贯彻到项目建设和运行的方方面面;二是做好管理经营,完善流程,向管理要质量、要效果,三是合理看待不利条件,采取各种方法,提高项目质量[20]。
潘巍、刁立欣、罗岳峰等人则主要从沟通方面讨论了,项目过程中如果建立很好的沟通渠道和机制,能够有效减少错误的发生,提升内部凝聚力,减少外部阻力,提高产品质量、客户满意度。[21、22、23]
经过总结发现,国内对于项目管理理论在大数据项目的中的研究还很少,对于如何提高大数据项目的质量,主要分析对象多是项目基建、项目建设等方面,关系的问题主要是项目组运行,项目完成进度,对于大数据项目客户很关注的数据质量的提高分析的少。
4 研究述评与启示
通过对大量国内外大数据质量和项目管理相关文献的梳理、综述,可以发现:
首先,大数据作为一个前沿新兴的领域,国内外对于它的研究很多,但目前仍没有就大数据概念达成共识,也没有能够清晰阐释大数据质量本质,对于它的探索远远不够。项目管理作为第二次世界大战后期发展起来的重大新管理技术之一。
虽然他的提出时间早于大数据,相关理论更加厚实丰富,但依旧处在探索发展阶段。两者相结合的研究更是处于理论初期,探索空间巨大。
其次,我们不难发现信息质量是大数据质量的关键因素。项目管理中的全面质量管理、PDCA循环管理、全流程管理、六西格玛等管理理论能很好的应用于信息管理,并大幅提升信息质量管理效益,提高大数据质量,进而确保大数据项目的成功性。同时项目管理的众多模型对于大数据企业更好地提供服务有着很好的指导作用。相对的大数据的应用也能更好地提升项目管理的分析、评估的效益与准确度,提升结论准确度与可信值。
5 结语
最后,虽然项目管理理论在大数据质量管理中的应用能够提高大数据信息质量,但是大数据的多样性导致其出现错误的根源复杂,加之大数据在存储和通信过程中造成的错误,可能出现多种类型错误混合并相互影响,甚至因为信息错误导致项目管理失效的情况。目前,虽然有学者提出采取并行化技术实施数据质量管理,为数据清洗设计线性亚线性的算法等解决方案,但如何加强大数据信息的纠错、容错机制,是下一步提升大数据质量的探索方向之一。
参考文献:
[1] Lohr S. The change of big data[N]. New York Times, 2012-02-11.
[2] Laney D. 3D data management: Controlling data volume, velocity and variety[J]. META Group Research Note, 2001, 6: 70.
[3] Gantz J, Reinsel D. Extracting value from chaos[J]. IDC iView,2011, 1142(2011): 1-12.
[4] Gudivada V N, Baeza-Yates R, Raghavan V V. Big data: Promises and problems[J]. IEEE Computer, 2015, 48(3): 20-23.
[5]Shewhart W A. Economiccontrolofquality of manufacture product[J],1933.
[6]Feigenbaum A V. TOTAL QUALITY CONTROL[M]/Total quality control. 1991.
[7]魏铮.信息服务质量探析[J].图书情报工作,2003(4):68-71.
[8]徐纲红.信息用户服务质量——层次性期望与满足[J].图书馆杂志,2004,23(1):33-36
[9] The data quality benchmark report-Experian Data Quality,2016.
[10] M.Gudipati,S.Rao,N.D.Mohan,N.K.Gajja.Big Data:Testing Approach to Overcome Quality Challenges [J].In-forsys Labs Briefings,2013,11(1):65-73.
[11]冯登国,张敏,李昊.大数据安全与隐私保护[J].计算机学报,2014,37(1):246-258.
[12]费仕忆.Hadoop大数据平台的传统数据仓库的协作研究[D].东华大学,2014.
[13]王利平.全面质量管理在互联网金融大数据项目中的应用浅析[J].现代经济信息,2015(12).
[14]宗威,吴锋.大数据时代下数据质量的挑战[J].西安交通大学学报(社会科学版),2013,05:38-43.
[15]莫祖英.大数据质量测度模型构建[J].情报理论与实践,2018,41(03):11-15.
[16]李建中,王宏志,高宏.大数据可用性的研究进展[J].软件学报,2016,27(7):1605-1625.
[17]金连,王宏志,黄沈滨,高宏.基于Map-Reduce的大数据缺失值填充算法[J].计算机研究与发展,2013,S1:312-321.
[18]戚安邦.现代项目管理[D].北京:对外经贸大学出版社,2001.
[19]王鹏宇.项目管理在IDC机房建设中的应用研究[D].合肥工业大学,2010
[20]郑劼.基于项目管理的高校开放式大型机房管理研究[D].浙江工业大学,2014
[21]潘巍.论项目管理中的冲突与沟通管理[D].北京邮电大学,2010
[22]刁立欣.SDCP 项目跨部门沟通问题与对策研究[D].华东理工大学,2014
[23]罗岳峰.IT项目管理中的沟通管理评估与改进机制研究[D].上海交通大学,2011
[24]张新国,向绍信.大科学时代背景下科研项目进度优化研究[J].科技管理研究,2014.18
作者简介
钱奕融(1990-),男,硕士研究生,研究方向:软件开发的项目管理,
李怡勇(1982-),男,博士,副教授,研究方向:联合作战指挥。