网 络 安 全
2009.136
基于数据挖掘的智能入侵检测系统研究
步新玉 刘东苏
西安电子科技大学 陕西 710071
摘要:入侵检测系统是网络安全体系的重要一环。数据挖掘能从大量的、有噪声的、随机的数据中提取出有用的信息,
而代理技术可使入侵检测系统具有清晰的系统结构、良好的可扩展性和可移植性。本文对数据挖掘技术和智能检测代理在入
侵检测系统中的应用进行研究,提出了一个基于数据挖掘、Agent技术的入侵检测系统框架。
关键词:入侵检测:数据挖掘;移动代理;支持向量机
0 引言
入侵检测系统能够及时的发觉入侵行为并能及时做出响
应,它通过对计算机网络或计算机系统中的若干关键点收集
信息并对其分析,从中发现网络或系统中是否有违反安全策
略的行为和被攻击的对象。入侵检测的软件和硬件的结合构
成了入侵检测系统。从数据源上可以将入侵检测系统分为三
种:主机入侵检测系统、网络入侵检测系统、分布式入侵检
测系统。
入侵检测主要包括数据收集、特征提取、行为分类和报
告及反应四个阶段。数据收集主要是收集主机和网络的数据
源,是进行入侵检测的基础。由于收集的原始数据十分庞大
并且包含许多冗余信息,特征提取便显得十分重要。特征提
取是提取数据中的反映行为状态的特征函数,去掉冗余信息。
行为分类是对特征提取的数据进行分析,判断当前行为是否
为入侵行为,它是入侵检测中最重要的一步。报告及反应是
对入侵行为做出的响应。
代理(Agent)是随着人工智能技术和网络技术发展产生的。
Agent代理技术具有功能的连续性、自主性、适应性, 能够连
续不断地感知外界及自身状态的变化, 并自主产生相应的动
作。在入侵检测系统中, 利用Agent 的推理机制及多Agent之
间的协同工作方式,可以完成知识库更新,模型过程描述, 动
态模型识别等功能。通过代理技术还可以实现对环境变化的
适应,充分利用网络资源,减轻服务器主机的工作负担。在分
布式入侵检测系统中引入Agent技术,每个代理是一小段程
序,只负责监控系统的某一方面,多个代理可以更加有效工
作。代理之间相互独立,可动态地加入系统或从系统中移出,
使系统具有良好的可移植性,同时又对网络系统和主机的资
源占用较低,减少了出现网络传输瓶颈的可能性。
1 数据挖掘在入侵检测系统中的应用
入侵检测模型的建立方式包括手工编码和机器学习两种。
早期的基于知识的入侵检测系统需要安全领域专家首先将攻
击行为和系统弱点进行分类,针对检测类型监测类型选择统
计方法,然后人工进行代码输入,建立相关的检测规则和模
式。由于网络系统的复杂性和新的攻击方法的层出不穷,专
家知识显得缺乏足够的精确性和完备性,导致了系统的漏报
率和误报率的增加,检测的有效性不高。由于专家规则和统
计方法通常需要特定的系统环境的支撑,当环境改变,需要
制定新的规则,导致了系统的可扩展性差。而且,随着网络
规模的日益扩大,入侵检测系统需要分析的数据量十分庞大,
仅靠专家的人工分析十分困难。
面对如上的困难,如何建立具有较强的精确性、有效
性、可扩展性的入侵检测系统成为入侵检测领域中的重要研
究课
题
快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题
。哥伦比亚大学Lee等人提出以数据为中心的思想,
利用数据挖掘在有效利用信息方面的优势,将入侵检测视为
一类数据分析过程,研究审计数据建模的可行性和有效性,
并构建出检测模型。与此同时,哥伦比亚、纽约州立大学、
佛罗里达理工学院相继将数据挖掘引入入侵检测进行研究。
与国外相比,国内这方面的起步较晚,并且国内对入侵检测
系统的研究更多的偏重于理论,实现的较少,只有少数的入
侵检测软件问世。如上海金诺公司的kids3.3入侵检测系统、
中联绿盟的“冰之眼”。这方面的理论研究有:①数据挖掘
方法中的聚类算法应用于入侵检测系统中,提高了系统检测
的效率。②采用移动代理技术和P2P结构的入侵检测系统,
避免了当前分布式入侵检测系统存在的单点失效和传输瓶颈
的问题,提高了系统自身的安全性和各节点的协同检测能
力。③基于人工免疫原理,利用移动代理技术设计了一个更
加可靠的入侵检测模型。引入可印数字水印技术保护代理之
间传输的免疫数据,保证了各个代理节点之间记忆代理的安
全通信。
2 基于数据挖掘的智能入侵检测系统
2.1 系统的整体设计
针对现有分布式入侵检测系统组件之间依赖程度大、网
作者简介:步新玉(1982-),男,西安电子科技大学,研究方向:信息系统与信息安全、电子商务。
刘东苏(1964-),男,西安电子科技大学副教授,研究方向:信息系统与信息安全、电子商务。
2009.1 37
网 络 安 全
络负载重、系统的适应能力差以及入侵检测系统的智能性差
等问题,提出了一个基于数据挖掘的智能入侵检测系统模型。
构成该模型的组建主要是由代理组成,代理间功能相对独立,
同时可以根据环境的变化灵活、智能的完成任务,具有学习
性、知识性、自主性和相互合作性。系统采用数据挖掘技术
实现入侵检测系统的智能化,当出现新的攻击方法时,系统
能识别入侵并自动扩充规则库,实现系统的自主学习。
在这个入侵检测系统中,主要采取数据挖掘技术对事件
序列数据进行处理,挖掘出正常和异常行为规则,并构建出
规则库以及实现规则库的扩充,在此基础上实现入侵检测。
对系统采集得到的数据先做一个初步的预处理过程,生成可
用于数据挖掘的训练数据。接着对训练数据使用K-MEANS
聚类算法对训练数据做进一步的预处理。预处理一方面可以
减少构造支持向量的时间,另外聚类的目的就是把数据分成
多个族,进而分析各个族中数据的特性。然后用SVM训练算
法对已经标出分类结果的数据集进行训练。训练出的SVM分
类器用于实时的入侵行为的检测。
2.2 基于数据挖掘的智能入侵检测系统模型的
设计
图1是基于数据挖掘的智能入侵检测系统模型示意图。
该系统采用了多Agent结构,由数据采集Agent,检测Agent,
数据挖掘Agent,通信Agent四部分构成。系统的工作原理:
数据采集Agent收集本地系统的数据和通过该节点的数据包,
存入本地数据库。然后对数据进行过滤、格式转换等预处理,
再送入数据挖掘Agent进行分析,所得到的规则存入规则库。
并通过通信Agent将新的规则发送给各个检测Agent和各个网
络节点,使规则信息得到同步。检测Agent负责检测任务,既
可以独立也可以通过通信Agent与其它检测Agent协作完成检
测任务。系统响应部件根据检测Agent得出的结果做出响应,
并把信息反馈给规则库。
图1 基于数据挖掘的智能入侵检测系统模型的设计
系统的各个模块功能如下:
(1)数据采集Agent
数据采集Agent主要负责采集流经主机网络适配器端口
的网络数据包并存入本地数据库。它是防止数据包流失的关
键,也是入侵检测的基础。作为系统的底层组件,它们没有
交互行为,只负责处理自己所在受控主机的数据包。
(2)数据挖掘Agent
数据挖掘Agent是基本的挖掘单元。可以使用各种挖掘算
法进行对数据的分析。在此系统中应用聚类和支持向量机算
法对数据进行分析,从中提取有关行为特征和规则,建立异
常模式和正常行为轮廓,从而建立检测模型,并存入规则库
中。应用支持向量机算法的优势在于它是一种基于小样本的,
高推广能力的算法,这就解决了海量数据下系统学习能力差
的问题。
(3)通信Agent
通信Agent是基本的通信单元,是数据传输的中介。通信
Agent负责记录检测Agent、本地数据库和数据挖掘Agent的
信息,并负责与其他通信Agent的联络。通信Agent主要分为
两种类型,一种是基于网络的通信Agent,分布在网络各个节
点处,负责与其它基于网络的通信Agent的通讯。另一种是基
于主机的通信Agent,负责主机内部各个模块之间的通信以及
与基于网络的通信Agent的通讯。
(4)检测Agent
检测Agent是基本的检测单元,负责系统的检测任务,可
以独立的完成监测任务,也可以通过通信Agent与其他检测
Agent协作完成监测任务。
这个入侵检测系统框架, 因为采用多Agent结构, 充分的
利用了代理的优势,使系统的可扩展性,可移植性增强;数
据挖掘技术的引入,使入侵检测系统具有自主学习、实时扩
充规则库的能力。总的来说, 这个基于数据挖掘技术的入侵检
测系统框架, 可以分布在网络中任意数目的主机上, 实现数据
收集、入侵检测和实时响应的分布化, 具有分布式体系结构、
灵活的代理体系和实时的学习功能等特点。
3 结束语
随着网络技术和网络规模的不断发展, 入侵检测系统在计
算机网络安全体系中发挥着日趋重要的作用。本文作者创新
点在于引入了一个基于数据挖掘的智能入侵检测系统模型框
架, 重点论述了数据挖掘、Agent技术在IDS的应用。数据挖
掘技术的引入,使入侵检测系统具有学习能力, 这使IDS在入侵
检测的同时进行学习并及时地扩充规则库, 从而提高入侵检测
系统的自适应性和扩展性, 及入侵检测的效率和准确性。不过
这个系统模型仅仅是个早期的模型,还有许多不足的地方,
还需要进一步的改进和完善。我们下一步的工作是:增加入
侵响应方式和预警技术的协同处理。
参考文献
[1]厉剑.入侵检测系统分析.网络通信与安全[J].2007.
[2]饶鲜,李斌,杨绍全.支持向量机在入侵检测中的应用[J].计算
机
工程
路基工程安全技术交底工程项目施工成本控制工程量增项单年度零星工程技术标正投影法基本原理
与设计.2007.
[3]苏辉贵,傅秀芬,李志清等.基于数据挖掘技术的智能入侵检
测模型[J].微计算机信息.2007.