广东东软学院 广东省佛山市 528225
摘要:数据挖掘技术能够将用户的数据进行统计,整合用户信息,将信息数据转向网络化的方向。其中,数据容错技术可以实现规划系统数据、调整运行方向的目的,进而将数据更好地规划整合。
关键词:大数据时代;数据挖掘;容错技术
引言
数据挖掘近年来也引起信息产业界的极大关注,各行各业的人们迫切需要从大量数据中提取或转换为有用的信息和知识,并将获取的知识和信息广泛应用于各类领域。由于分布式存储系统中节点数量宠大,不断增长的海量数据需要被安全可靠存储,常常会产生各类意外故障,导致数据节点失效情况频繁,采用容错技术可以避免部分存储节点失效的情况下,数据仍然能够正常读取和下载,因此,容错技术成为大数据挖掘处理中不容忽视的重要技术。
1数据挖掘技术
从数据库的数据中,能够非平庸地获取未知的和隐式的、且未发掘出的有用信息。这里的非平庸指要有某种水平的自动性和智能型。另一个常用术语“数据库知识”和“数据挖掘”长时间被同时运用。数据库中的知识发现就是从数据中辨别出高级处理过程,过程具备新奇的、有效的、潜在的和能被人理解的模式。从定义上讲,数据是指一个集合,可以描述事物的特征,是提取的原材料,来自有意义的模式。需要寻找这些原材料,利用某种准则来找。通过规则来发现和理解数据的内在含义,当获取数据库中的信息时,用户可以得到帮助。要想得到知识通常需要多次反复,通过对知识学习方法的改进和相关数据的再处理,不断提升学习效率。
2数据挖掘技术特征
首先是流行性高。数据挖掘技术具有较大的流动性,其信息处理的方式较为灵活,能更好地实现数据信息的分析及整合,进而提升数据挖掘的工作效率。在大数据发展的背景下,较大的数据信息量,也为数据挖掘提出了技术上的难题,促进数据挖掘的转型与发展。相对比于传统的数据运行模式,数据挖掘能够实现数据整理手段的现代化,提升数据信息的工作效率。其次是种类多。数据种类的增加有利于对相关数据信息的整合,人们在使用现代化信息技术时,数据信息的种类随之增加。数据挖掘过程中,互联网信息与智慧设备的联通,也产生了大量的数据,丰富了数据信息,完善了数据整理体系。最后是处理数据量大,价值度低。随着人们对新媒体技术使用的增加,数据信息也在不断地增长,进而增加数据挖掘的信息,形成其处理数据量大的特点。同时,数据信息总量的提升还增大了数据库的基数和密度,将其信息库的总值扩至最高,这就会导致数据信息中有价值的信息被降低,由此增加数据信息处理的难度,增大数据挖掘的工作量。
3大数据的数据挖掘中容错技术
3.1异常处理
数据容错技术利用对数据异常处理的手法进行分析,实现异常情况的分级化处理,对相关的损失及误差做出预判并加以解决。Python系统能将数据异常信息进行规划整合,形成数据信息异常信息库,当数据信息系统出现其信息库中的异常情况时,系统就会做出相应的提示并给出解决信息。Python的运行中要将其运行代码做出合理化预判,通过对于运行代码的试运行寻找相应的问题,进而将数据系统进行规范化处理,降低信息系统数据漏洞带来的危害。Try…expect语句的使用为Python系统的运行提供了根本的保障,是数据异常处理的基本信息结构形式,其运行主要通过try字句中的代码来进行数据信息的分析,同时通过expect信息进行异常的捕捉,二者间相互配合,共同完成数据异常处理的检测。进行数据容错异常处理时,还需将数据信息系统中出现的数据库进行词频统计,对于数据系统出现的词条进行归档及检索处理。大数据中数据库具有信息量大的特点,因而需将数据信息进行关键词的分类形成词频,来将数据库进行整合。
3.2Python技术下的数据预处理
在进行数据挖掘之前,首先要做的一步是对已有数据进行预处理。数据预处理指的是对数据进行初步处理,把脏数据(即影响结果准确率的数据)处理掉,否则很容易影响最终的结果。如果连初始数据都是不正确的,那么就无法保证最后的结果的正确性。只有对数据进行预处理,保证其准确性,才能保证最后结果的正确性。常见的数据预处理方法包括缺失值处理、异常值处理和数据集成。其中异常值产生的原因往往是数据在采集时发生了错误,如在采集数字66时发生了错误,误将其采集成660。在处理异常值之前,需要先发现这些异常值数据,往往可以借助画图的方法来发现这些异常值数据。在对异常值数据处理完成之后,原始数据才会趋于正确,才能保证最终结果的准确性。
3.3异常捕捉与处理
Python提供多种异常处理机制的基本原理是:
3.3.1尝试运行代码
如果没有问题就正常执行,如果发生错误就采用容错机制尝试去捕捉和处理。
3.3.1使用try...except语句这是异常处理结构中最基本的结构形式,其中try子句中的代码块包含可能会引发异常的语句,而except子句则用来捕捉相应的异常。例如数据采集代码
Num1=eval(input("inputfirstnumber"))
Num2=eval(input("inputsecondnumber"))
当采集的数据为非数值类型,程序面临崩溃。可改进为以下代码来实现代码容错
Try:
Num1=eval(input("inputfirstnumber"))
Num2=eval(input("inputsecondnumber"))
Except:Print("输入非数字,请重新输入!")
3.3.2使用try...except...else语句
如果try中的代码出现异常并且被except语句捕捉则执行相应的异常处理代码,如果try中的代没有引导异常,则执行else块的代码。例如数据采集代码
WhileTrue:
x=input("inputfirstnumber")
Try:
x=int(x)
ExceptExceptionase:
Print("error")
Else:
Print("Youmustinput{0}".format(x))
Break
3.3.3使用try...except...finally语句
无论try中的代码是否发生异常,finally子句中的代码总会得到执行。例如下面代码,如果try子句的异常没有被except语句捕捉和处理,或者except子句或else子句中的代码出现异常,无论是否发生异常,finally子句中的代码总能被执行。
Defdiv(a,b):
Try:
Print(a/b)
ExceptZeroDivisionError:
Print("Thesecondargumentcannobe0")
finally:
Print("-1")
结语
总之,以当今智能系统故障诊断的事实需要为依据,在故障诊断范畴中引入了数据挖掘理论,尝试着能迅速有效地完成对复杂设施诊断的办法,来弥补传统故障诊断的不足之处。作为一种新兴起的技术工具,将数据发掘运用到系统故障诊断,可以发现很多故障数据中隐藏的准则。在工程诊断范畴当中,具备宽广的运用前景。数据挖掘技术虽然已经有了很多的研究成果,但是在大型设备生产和应用领域中,数据挖掘技术仍是设施故障诊断系统运用钻研中的一个新的研讨热点。
参考文献:
[1]袁静.面向设备故障诊断的数据挖掘关键技术研究与实现[D].西安:西安电子科技大学,2012.
[2]杨一展.数据挖掘技术在故障诊断中的应用研究[D].西安:西安电子科技大学,2008.
[3]基于中软国际的软件工程专业实践条件和实践基地建设项目,(2019年教育部第一批产学合作协同育人项目项目编号:201901071013)