从数据仓库到大数据平台在工业制造领域的应用

发表时间:2021/1/13   来源:《科学与技术》2020年第27期   作者:吴娜
[导读] 随着DT时代的来临,越来越多的企业开始使用大数据工具来替代传统的数据仓库
        吴娜
        中国商用飞机有限责任公司  上海 200000
摘要
        随着DT时代的来临,越来越多的企业开始使用大数据工具来替代传统的数据仓库,随着数据多样性的发展,数据仓库这种模式显得越来越难以支持灵活的探索和分析需求,利用大数据强大的计算能力,直接将数据服务于应用,缩短传统数据仓库的中间建模与数据处理(ETL)过程。
        建设工业制造领域内的大数据服务平台,首先满足现有数据仓库存储和数据计算的瓶颈问题,实现对现有数据仓库的迁移与集成;解决目前数据仓库采集、存储、处理瓶颈问题和提供数据共享访问的负荷问题。后续会对数据服务逐步进行更深层次的扩展,通过低延时性的大数据平台,聚集更多非机构化数据,支撑高效的数据服务,实现数据“越用越多”的价值闭环,建立统一的可持续运行的大数据平台。

前言
        数据仓库长期以来一直是企业 IT 架构的重要组成部分。传统数据仓库的局限性日益凸显,难以适应新技术带来的市场变革,传统的数据仓库在采集、存储、处理等方面的瓶颈,越来越不能满足需求。遇到的主要问题有:
(1)存储成本较高,保留全量数据的目标难以实现;
(2)集群管理复杂、计算资源有限,缺乏统一的管理接口及水平扩展能力;
(3)随着数据规模、用户规模的不断增加,实时分析无法满足;
(4)常用的数据分析挖掘工具处理全量数据时间过长;
(5)缺乏对半结构数据和非结构化数据的支持能力;
(6)数据仓库可扩展性受限;
(7)缺乏数据应用与算法实现的共享平台;
        基于目前行业发展现状,我们急需大数据平台。

1.大数据平台处理框架
        数据管理与服务平台整体采用Lambda架构进行建设。该架构提供了在工业制造领域的数据批处理和近实时处理。Lambda架构能应对各种数据负载的可水平扩展架构的实现方法,满足平台的建设需求。
        总体架构如图:

   平台将基于Lambda架构来进行建设,包括:源数据层、数据获取层、消息层、数据摄取层、批处理层、快速处理层、服务层、数据存储层、数据管理层和数据应用层。
(1)数据获取层:从源数据层的各种数据源获取数据,数据获取层必须非常灵活,能
适应多种数据模式,同时支持快速连接机制,无缝地推送所有转换过的数据消息到数据平台中。批量获取可以选用sqoop, informatica, datax等,实时获取可以选用flume与kafka结合实现。
(2)消息层:主要负责接收实时数据和发布实时数据。平台将使用Kafka提供统一接
口服务,用作接收实时数据并发布实时数据,保证消息传递的安全性。
(3)数据摄取层:主要负责消费消息层中的消息。对消息做适当的处理,从中提取期
望的信息,然后传输给Lambda层供其处理。
  该层可以使用Flume(Kafka Source),Kafka Consumer,Spark-Kafka connector等实现。
(4)批处理层:该层用于对平台已提取数据进行批量处理计算。
?存储不变的持续增长的数据集。
        在数据管理与服务平台一期,需将相关业务数据批量导入到批处理层进行存储;同时实时数据会不断流入到批处理层进行存储。数据集的存储可选用Hadoop的HDFS。
?针对全量数据集进行预计算。
        预计算可以有效利用资源,改善实时查询的性能,我们需要预先知道查询需要的数据,在批处理层安排执行计划,定期对数据进行批量处理。预计算可以用Hadoop和Spark。
(5)快速处理层:主要负责处理实时数据,生成增量结果。
        通过Flink,Storm或Spark Streaming将采集到的实时数据进行存储,存储可选用Mysql,HDFS,Hbase。
(6)服务层:主要负责对数据进行合并,基于计算规则来对相关数据的处理结果进行合并生成最终结果集。这些数据集经过服务层向外提供服务,支持预期的格式定义。
(7)数据存储层:主要负责对所有数据的分布式存储,采用HDFS,Hbase,Mysql等进行
存储。支持以批量模式或近实时模式处理海量数据,以灵活、可扩展的方式支持多种数据结构的存储。
    3.数据的分层主题分类
    数据平台是企业数据的汇聚地,数据存储总体原则需要一个统一化的数据分层架构,它与传统的ETL不同,我们采用ELT的数据架构,总体分为分成ODS层,DWA层和TDM层。
  (1)贴源数据层ODS
        对业务系统的数据进行采集、汇聚等处理,尽可能保留原始业务流程数据,与业务系统基本保持一致,仅做简单整合、非结构化数据结构化处理或者增加标识数据日期描述信息,不做深度加工。
  (2)统一的应用数据层DWA
        统一的应用数据层与传统的数据仓库功能基本一致,对历史业务过程数据进行建模存储,对来源于业务系统的数据进行重新组织,按照业务流程方便操作的方式来组织数据,从业务易理解的视觉来重新组织,定义的指标、维度,业务域按统一规范建立。     
(3)标签数据层TDM
        这一层是充分体现大数据能力,面向对象建模,形成对象的全域标签体系,为下一阶段数据的深度分析和数据挖掘应用做准备。
             
3.迁移数据仓库具体实施
        基于工程里涉及到的图纸、技术文件等工程数据的应用场景,整合数据仓库Oracle数据,将相应的数据经过批处理,汇聚到贴源数据层,并在这个基础上,根据应用场景的业务需求和逻辑关系,对平台摄取的数据进行批量处理计算,同时在将数据资源开放之前,提供对数据资源进行一定的标签化处理,最终输出需要的模型数据或指标数据。
   平台充分考虑服务化的思想原则,从开始的组件化集群转变为服务化集群,将多个大数据组件进行统一封装和管理,将多个复杂的操作进行了统一的抽象,对外提供标准的接口,以服务的形式呈现,实现平台服务化。
    该项目对外提供了数据服务转型升级。通过试点应用,数据库(表)存储容量减少了20%,性能提升了30%,新业务的开发速度比原来提升了20%,有效提升了数据管理的效率。

4.结束语
   为满足数据的发展和应用的需求,规划并构建的大数据平台,结合业务实际场景需求,有效的地解决了数据仓库的迁移,借助大数据的核心技术,提供了数据整体的解决方案,打造了以统一调度为基础、以数据处理为中心、以满足业务需求为目标的新型大数据平台。降低了数据采集对资源的占用,大幅度提高了数据采集的效率和资源利用率。

参考文献
【1】黄宜华.深入理解大数据 2014,(4):13-21
【2】Jean Paul Isson.大数据分析 2014,(3)268-271
【3】Tom White.Hadoop权威指南 2018(6)
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: