(中国铁路呼和浩特局集团有限公司信息技术所 内蒙古呼和浩特市 010050)
摘要:铁路信息中心的建立在我国起步较晚,成立于1975年,经过四十多年的发展,铁路信息化水平有一个质的飞跃,完成了从无到有,从有到过渡的好,特别是近年来,随着高速铁路的质量,仿佛一夜之间,成为电力铁路信息化在中国,大量的覆盖信息系统的广泛使用,如:营销管理,客货运输组织有自己的体系,它也使铁路货物运输现代化水平得到了前所未有的提高。目前铁路信息化建设主要应用系统除了上面提到的“12306客户服务系统,总铁门户”,还包括铁路运输管理信息系统(蒂姆斯)、运输(fom)生产计划系统、铁路车辆管理信息系统(CMIS),铁路客票销售和储备系统(采购经理人指数),等等,这些系统,由于发展的时间,不同的开发平台,开发架构,基本不能进行统筹规划,各业务切段界限明显。
关键词:铁路;Hadoop;信息化;
一、Hadoop分布式系统
随着数据容量、数据维度的爆炸式增长,传统模式的数据处理方式已经难以满足数据分析、业务处理等在处理效率、响应速度等方面的要求,在这种情况下,大数据与云计算的概念便应运而生。在铁路领域,全国铁路数据同样满足了容量巨大、维度复杂的特点,同时铁路行业对业务响应的要求也满足了价值丰富、响应快速的特性,这些均说明大数据与云计算的方式在该领域同样适用。但是当前我国铁路还停留在传统的数据存储形式,系统设计与实现也停留在传统模式中,因此将大数据、云计算等先进的技术应用于铁路运输领域是十分必要的。Hadoop是一个能够对大量数据进行分布式处理的软件框架,能够使用户在不了解分布式底层的情况下,开发分布式程序,充分利用集群的威力高速运算与存储数据。与常规系统相比,Hadoop采用并行执行机制,大大提高了运算效率。并且Hadoop在检验应用层,处理异常错误等方面充分考虑了“硬件故障是常态而非异态”的理念,利用集群实现了高容错率的特性。通过Hadoop集群视图不难发现,在Hadoop架构中,存在大量的数据节点,每个数据节点都被管理节点按照某种规则分配一定的任务。在这种情况下,所有节点(或者所有活跃节点)进行并行运算,用以解决复杂的大数据问题。我国铁路有6000多个铁路车站,且在铁路运输中的作用各不相同,这就造成了铁路数据存储、业务处理方面存在操作困难、反应迟缓等问题。以车站为单位作为数据节点,或按照某种方式将车站进行分类形成节点区域恰恰能够满足Hadoop架构中的数据节点(DateNode)要求。同时,我国铁路行业现行管理机制较为集中,在中国铁路总公司层面建立相应的名字节点(NameNode)能够保证核心部门对全国铁路运输状况进行统筹规划与管理。
二、Hadoop技术及其在铁路信息化建设中的运用
1.分布式文件系统(HDFS)。分布式文件系统处于Hadoop平台的最底层,其允许计算机的异构,支持集群,但对于计算机要求却不高,其横向扩展的能力较强,可以实现随时增减数据节点而不影响服务,主要是通过高效的分布式算法,实现存储的分布和数据访问,还可以访问分布在多个计算机服务器,具体特性分析如下:(1)具有较高的容错性。集群节点很多,如果哪一个节点发生问题,系统故障率非常高,为了确保数据稳定性,如果实施数据的分别存储,就相当于在很多个节点上进行了备份,如此即使哪一个节点出现问题,也不会造成系统数据的丢弃。作为用户可以进行备份的自定义,包括数量、策略等等,系统进行备份分布和自动校验,发现错误还可以重新进行备份,后台也会进行一致性的检测。
(2)具备较高的数据吞吐量。分布式算法最大的优势就是在实施访问时,系统会按照网络最近原则和数据量最小原则自动匹配数据库的访问,由于备份数据较多,很多的副本也可以作为数据进行读取,其速度将是传统数据存储的几倍。在存储大型文件时,系统会将大文件切割成小的文件包,自动存储在多个服务器中,在实施访问时,系统可以从多个服务器一同读进,带宽大大增加,也有效避免了数据的拥堵,服务器和硬盘的数据吞吐量可以实现数倍的提升。(3)具备较高的可扩展性。Name Node服务器的主要职责是分配数据存放的信息集,Data Node服务器主要职责是实现数据的分布存放,如果需要对系统容量进行扩充,只要进行Data Node服务器的扩充即可,系统可以实现自动的匹配,其分布式算法也会自动嵌入新的Data Node服务器。
2.分布式数据库(Hbase)。作为一个相对开放的数据库,更多的是列的数据库,而不是关系型的数据库,设计目标主要是解决理论与现实的局限。具有如下优势:①具备高性能性。高性能主要体现在高速的读写上,数据存入进行了切割,那么用户进行访问时,其请求也自然被自动分散至不同的服务器,虽然一个服务器的能力是有限的,但大量的服务器,其功能却是惊人的。②具备高度的可扩展性。其扩展性可以体现为线性水平扩展,主要原因:a.其是基于列的存储,相对独立,访问及数据查询也仅仅涉及到列族。b.劣族数据累积到一定程度,系统会自动进行数据的切分,并分配存放被切分的数据块,如此数据将被扩散至多个服务器上,理论上可以实现海量数据的存放。③具备高度的可用性。阐述其具备自动容错和复制的能力,就是指即使服务器系统出现故障,系统也能实现日志的恢复,恢复性数据一旦被写入成功,该数据就会作为持久数据进行复制和冗余,系统的可用性将会得到保障。
3.分布式计算框架(Map Reduce)。作为分布式并行框架,可以对海量数据实施处理分析,与传统的数据相比,其处理主要包含结构化、半结构化和非结构化,相关数据的处理可以达到PB级别,传统的计算方法根本无法达到,Map Reduce模型的主要原理是:将数据计算区分为并行的Map任务以及Reduce汇总任务两个方面,前者主要用于处理Key/Value的数据,将中间结果输出到存储设备,最后由Reduce任务对相同的值进行合并生成结果。其可以处理的任务有很多,诸如:图像数据、音视频数据、文本数据等等,该分布式计算框架采取创新构架的方式,实施低成本服务器的储存,实现低成本的海量数据处理,实现了更为高效和便捷的算法来计算和处理大规模数据。综合以上,其核心优势如下:如果一个节点发生问题,可以实现预定次数的任务重试,即使失败也不影响计算整体水平;支持节点的削减和增加,实施动态化的可拓展性;自动实现任务的调度,有效增加带宽;可以根据任务优先实现资源的分配,支持交互式任务;实现资源的有效调度,有效防止资源的浪费,实现资源利用最大化。以上三点对于铁路信息化建设作用巨大,其基本特性与当前铁路系统特点高度的契合,比如访问速度要求,服务器数据多方备份、应急反应能力、容错能力以及服务器扩容不影响服务等问题,都可以得到很好的解决,所以其针对铁路系统的短板弱项,解决问题的针对性也很强。
总之,Hadoop技术在铁路信息系统中的运用,较好的解决了铁路信息化建设过程中出现的一系列重点和难点问题,其较好的实现了分布式数据信息的统筹,较好的实现了大数据的存储难题和读取以及扩容难题,使得铁路信息化建设向前迈进了一大步,有效提升了铁路服务质效和工作效率,改善了铁路运行环境,具有较好的社会效益和经济效益。
参考文献
[1]王峰.中国铁路信息化建设与展望.2018.
[2]张钧航.浅谈Hadoop技术在铁路信息化建设中的作用研究.2019.