陈猛 洪伟
中共河南省委党校信息管理部 郑州 450000
摘 要 本文提出一种集成贝叶斯分类器的数据流入侵检测模型,目的是在适应概念漂移的前提下,利用多个时间段的数据学习生成多个贝叶斯分类器,检测入侵行为。为了提高分类器的构建速度和准确率,可以使用卡方检验先对数据进行特征缩减等预处理,达到优化目的。
关键词 入侵检测;贝叶斯分类器;数据流;卡方检验
1 引言
当今社会已进入网络时代,网络安全和信息安全日益重要,如何保障计算机系统的安全,防范网络入侵攻击受到各界的重视。入侵检测技术可以准确地在海量的网络事件中将正常事件和异常事件区分出来,保护系统免受攻击,其本质上是一个分类问题。
数据流环境下,数据的分布会随着时间的更迭而发生变化 (即概念漂移[1])。如何在海量的数据流中选择出充分的数据并训练出分类模型以进行有效地预测,正是数据流入侵检测所要解决的难点。
本文提出一种集成贝叶斯分类器的数据流入侵检测模型,该模型首先使用卡方检验对数据流中不同时间段的数据进行特征缩减等预处理,然后使用不同时间段的训练样本构造多个贝叶斯分类器,利用集成分类器进行分类检测。
3.3 特征选择
为了降低数据维度,减少建模的时间,提高入侵检测的准确度,我们可以在数据预处理的过程中,从给定的数据集中选择包含信息较多,对建模影响较大的相关特征进行特征选择。
卡方检验作为一种假设检验方法,常用于检验某个连续变量分布是否与理论分布一致,也常用于独立性或相关性检验。它的基本思想是统计样本理论值与实际值的偏离程度。其基本公式:
6总结
本文提出一种利用卡方检验优化集成贝叶斯分类器用于数据流入侵检测的方法,该方法对不同时间段的数据先根据卡方检验进行特征缩减等预处理,然后在多个时间段上学习生成贝叶斯分类器,并集成各个贝叶斯分类器,检测入侵行为。通过特征缩减,生成贝叶斯分类模型更加快速、准确率更高。
参考文献
[1] G Widmer, M Kubat. Learning in the presence of concept drift and hidden contexts. Machine Learning, 23:69-101
[2] 范明, 刘孟旭, 赵红领. 一种基于基本显露模式的分类算法. 计算机科学 Vol.31 No.11, pp211-214, 2004.11
[3] Saurabh M,Neelam S.Intrusion Detection Using Na?ve Bayes Classifier with Feature Reduction[J] Procedia Technology,2012,4(01):119-128