浅谈Hadoop技术在铁路信息化建设中的作用--中国期刊网

字体：大中小

首页> 原创作品> 正文

浅谈Hadoop技术在铁路信息化建设中的作用

发表时间：2020/6/29 来源：《电力设备》2020年第5期作者：李震

[导读] 摘要：铁路信息中心的建立在我国起步较晚,成立于1975年,经过四十多年的发展,铁路信息化水平有一个质的飞跃,完成了从无到有,从有到过渡的好,特别是近年来,随着高速铁路的质量,仿佛一夜之间,成为电力铁路信息化在中国,大量的覆盖信息系统的广泛使用,如:营销管理,客货运输组织有自己的体系，它也使铁路货物运输现代化水平得到了前所未有的提高。

        （中国铁路呼和浩特局集团有限公司信息技术所内蒙古呼和浩特市 010050）
        摘要：铁路信息中心的建立在我国起步较晚,成立于1975年,经过四十多年的发展,铁路信息化水平有一个质的飞跃,完成了从无到有,从有到过渡的好,特别是近年来,随着高速铁路的质量,仿佛一夜之间,成为电力铁路信息化在中国,大量的覆盖信息系统的广泛使用,如:营销管理,客货运输组织有自己的体系，它也使铁路货物运输现代化水平得到了前所未有的提高。目前铁路信息化建设主要应用系统除了上面提到的“12306客户服务系统,总铁门户”,还包括铁路运输管理信息系统(蒂姆斯)、运输(fom)生产计划系统、铁路车辆管理信息系统(CMIS),铁路客票销售和储备系统(采购经理人指数),等等,这些系统,由于发展的时间,不同的开发平台,开发架构,基本不能进行统筹规划，各业务切段界限明显。
        关键词：铁路；Hadoop；信息化；
        一、Hadoop分布式系统
        随着数据容量、数据维度的爆炸式增长，传统模式的数据处理方式已经难以满足数据分析、业务处理等在处理效率、响应速度等方面的要求，在这种情况下，大数据与云计算的概念便应运而生。在铁路领域，全国铁路数据同样满足了容量巨大、维度复杂的特点，同时铁路行业对业务响应的要求也满足了价值丰富、响应快速的特性，这些均说明大数据与云计算的方式在该领域同样适用。但是当前我国铁路还停留在传统的数据存储形式，系统设计与实现也停留在传统模式中，因此将大数据、云计算等先进的技术应用于铁路运输领域是十分必要的。Hadoop是一个能够对大量数据进行分布式处理的软件框架，能够使用户在不了解分布式底层的情况下，开发分布式程序，充分利用集群的威力高速运算与存储数据。与常规系统相比，Hadoop采用并行执行机制，大大提高了运算效率。并且Hadoop在检验应用层，处理异常错误等方面充分考虑了“硬件故障是常态而非异态”的理念，利用集群实现了高容错率的特性。通过Hadoop集群视图不难发现，在Hadoop架构中，存在大量的数据节点，每个数据节点都被管理节点按照某种规则分配一定的任务。在这种情况下，所有节点（或者所有活跃节点）进行并行运算，用以解决复杂的大数据问题。我国铁路有6000多个铁路车站，且在铁路运输中的作用各不相同，这就造成了铁路数据存储、业务处理方面存在操作困难、反应迟缓等问题。以车站为单位作为数据节点，或按照某种方式将车站进行分类形成节点区域恰恰能够满足Hadoop架构中的数据节点（DateNode）要求。同时，我国铁路行业现行管理机制较为集中，在中国铁路总公司层面建立相应的名字节点（NameNode）能够保证核心部门对全国铁路运输状况进行统筹规划与管理。
        二、Hadoop技术及其在铁路信息化建设中的运用
        1.分布式文件系统（HDFS）。分布式文件系统处于Hadoop平台的最底层，其允许计算机的异构，支持集群，但对于计算机要求却不高，其横向扩展的能力较强，可以实现随时增减数据节点而不影响服务，主要是通过高效的分布式算法，实现存储的分布和数据访问，还可以访问分布在多个计算机服务器，具体特性分析如下：（1）具有较高的容错性。集群节点很多，如果哪一个节点发生问题，系统故障率非常高，为了确保数据稳定性，如果实施数据的分别存储，就相当于在很多个节点上进行了备份，如此即使哪一个节点出现问题，也不会造成系统数据的丢弃。作为用户可以进行备份的自定义，包括数量、策略等等，系统进行备份分布和自动校验，发现错误还可以重新进行备份，后台也会进行一致性的检测。

期刊文章分类查询,尽在期刊图书馆

（2）具备较高的数据吞吐量。分布式算法最大的优势就是在实施访问时，系统会按照网络最近原则和数据量最小原则自动匹配数据库的访问，由于备份数据较多，很多的副本也可以作为数据进行读取，其速度将是传统数据存储的几倍。在存储大型文件时，系统会将大文件切割成小的文件包，自动存储在多个服务器中，在实施访问时，系统可以从多个服务器一同读进，带宽大大增加，也有效避免了数据的拥堵，服务器和硬盘的数据吞吐量可以实现数倍的提升。（3）具备较高的可扩展性。Name Node服务器的主要职责是分配数据存放的信息集，Data Node服务器主要职责是实现数据的分布存放，如果需要对系统容量进行扩充，只要进行Data Node服务器的扩充即可，系统可以实现自动的匹配，其分布式算法也会自动嵌入新的Data Node服务器。
        2.分布式数据库（Hbase）。作为一个相对开放的数据库，更多的是列的数据库，而不是关系型的数据库，设计目标主要是解决理论与现实的局限。具有如下优势：①具备高性能性。高性能主要体现在高速的读写上，数据存入进行了切割，那么用户进行访问时，其请求也自然被自动分散至不同的服务器，虽然一个服务器的能力是有限的，但大量的服务器，其功能却是惊人的。②具备高度的可扩展性。其扩展性可以体现为线性水平扩展，主要原因：a.其是基于列的存储，相对独立，访问及数据查询也仅仅涉及到列族。b.劣族数据累积到一定程度，系统会自动进行数据的切分，并分配存放被切分的数据块，如此数据将被扩散至多个服务器上，理论上可以实现海量数据的存放。③具备高度的可用性。阐述其具备自动容错和复制的能力，就是指即使服务器系统出现故障，系统也能实现日志的恢复，恢复性数据一旦被写入成功，该数据就会作为持久数据进行复制和冗余，系统的可用性将会得到保障。
        3.分布式计算框架（Map Reduce）。作为分布式并行框架，可以对海量数据实施处理分析，与传统的数据相比，其处理主要包含结构化、半结构化和非结构化，相关数据的处理可以达到PB级别，传统的计算方法根本无法达到，Map Reduce模型的主要原理是：将数据计算区分为并行的Map任务以及Reduce汇总任务两个方面，前者主要用于处理Key/Value的数据，将中间结果输出到存储设备，最后由Reduce任务对相同的值进行合并生成结果。其可以处理的任务有很多，诸如：图像数据、音视频数据、文本数据等等，该分布式计算框架采取创新构架的方式，实施低成本服务器的储存，实现低成本的海量数据处理，实现了更为高效和便捷的算法来计算和处理大规模数据。综合以上，其核心优势如下：如果一个节点发生问题，可以实现预定次数的任务重试，即使失败也不影响计算整体水平；支持节点的削减和增加，实施动态化的可拓展性；自动实现任务的调度，有效增加带宽；可以根据任务优先实现资源的分配，支持交互式任务；实现资源的有效调度，有效防止资源的浪费，实现资源利用最大化。以上三点对于铁路信息化建设作用巨大，其基本特性与当前铁路系统特点高度的契合，比如访问速度要求，服务器数据多方备份、应急反应能力、容错能力以及服务器扩容不影响服务等问题，都可以得到很好的解决，所以其针对铁路系统的短板弱项，解决问题的针对性也很强。
        总之，Hadoop技术在铁路信息系统中的运用，较好的解决了铁路信息化建设过程中出现的一系列重点和难点问题，其较好的实现了分布式数据信息的统筹，较好的实现了大数据的存储难题和读取以及扩容难题，使得铁路信息化建设向前迈进了一大步，有效提升了铁路服务质效和工作效率，改善了铁路运行环境，具有较好的社会效益和经济效益。
        参考文献
        [1]王峰.中国铁路信息化建设与展望.2018.
        [2]张钧航.浅谈Hadoop技术在铁路信息化建设中的作用研究.2019.