变精度粗神经网络数据融合方法研究(可编辑)
变精度粗神经网络数据融合方法研究
大连海事大学
硕士学位论文
变精度粗神经网络数据融合方法的研究
姓名:周琳琳
申请学位级别:硕士
专业:应用数学
指导教师:桑琳
20100601中文摘要
摘要
自上世纪七十年代美国研究声纳信号理解系统后,数据融合技术作为一门新 兴的交叉学科产生并迅速发展起来了。多传感器数据融合就是对来自多个传
感器
的观测数据进行多方面、多层次的综合处理。然而,当今世界的飞速发展对
数据
融合技术提出了更高的要求,众多学者纷纷投入研究不完备信息系统的数据
融合
技术,并使之成为该领域新的研究方向。
理论是上世纪八十年代波兰数学家.提出的一种
粗糙集
用于不确定知识
分析
定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析
的数学工具。其主要思想是在保持分类能力不变的情况下,
利用等价类,通过属性约简和决策规则提取,从而达到简化知识的目的。而通过
,是数
大量神经元互相连接而成的人工神经网络
据处理领域的又一个重要方法。它是模仿生物神经系统而发展起来的,具有非线
性映射能力、自适应学习能力和容错能力。
本文以目标识别为背景,基于互补的思想,将变精度粗糙集和神经网络
相结合,构造出基于变精度粗集.网络的数据融合模型,并用于多传感器信息
系统中的不完备数据处理。所做的主要工作如下:
从经典粗糙集入手,介绍了粗糙集理论的基本概念及其在数据融合中的应用,
并利用区分矩阵进行属性约简,得到决策规则。接着,引入多数包含关系对粗糙
集模型进行拓展,定义了一种变精度粗糙集模型,对传统的区分矩阵进行了改进,
得到一种新的变精度粗集下的区分矩阵,并进行属性约简。然后,针对多源数据
具有高维的特点和网络在解决此类问题中的缺陷,我们学习了网络的结
构,并研究了该网络的学习算法。最后,在分析粗糙集和神经网络优缺点的基
础
上,研究了基于变精度粗糙集理论和网络相结合的数据融合方法:先利用变 精度粗糙集对多源数据进行属性约简,得到决策规则后输入至网络进行训
练。
从而大大缩减了网络的输入规模,提高了整个融合系统的效率。 关键词:数据融合;目标识别:粗糙集:不完备信息系统:神经网络英文摘要 .晰廿 /
. . ,.
.
. .
,
, .,
, ?
.
: .
, ., .
, , .
英文摘要, 蚋】
,
,.
,
:
; .
; ; ;
:
押【
;大连海事大学学位论文原创性声明和使用授权说明
原创性声明
本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果,
撰写成博士/硕士学位论文
銮精廑担弛经圈终数量融金友选的盟究:一。除论文
中已经注明引用的内容外,对论文的研究做出重要贡献的个人和集体,均已在文
中以明确方式标明。本论文中不包含任何未加明确注明的其他个人或集体已经公
开发表或未公开发表的成果。本声明的法律责任由本人承担。
学位论文作者签名:
学位论文版权使用授权书
本学位论文作者及指导教师完全了解大连海事大学有关保留、使用研究生学
位论文的规定,即:大连海事大学有保留并向国家有关部门或机构送交学位论文
的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将本学
位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或
扫描
等复制手段保存和汇编学位论文。同意将本学位论文收录到《中国优秀博硕士学
位论文全文数据库》中国学术期刊光盘版电子杂志社、《中国学位论文全文
数据库》中国科学技术信息研究所等数据库中,并以电子出版物形式出版发行
和提供信息服务。保密的论文在解密后遵守此规定。
本学位论文属于:
保密口在??年解密后适用本授权书。
不保密口 请在以上方框内打“?
论文作者签名:
导师签名.蜜毒许
日期: 年 月 日变精度粗神经网络数据融合方法的研究
引 言
一般而言,某一目标有反映其不同属性的多个特征参量,目标识别玛
技术就是利用传感器测量、获取反映目标事物的原始数据,并从中抽
取反映目标属性的特征向量,再利用计算机将特征向量和目标库中
标准
excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载
的特征向
量进行匹配,最终确定目标类型。随着科技的不断发展和社会的全面进步,以信
息技术为先导的高科技战争对目标识别技术的需求愈加强烈,而探测、预警、侦
查、监视等等都需要目标识别技术作为其支撑。另外,在自动化生产、医疗诊断、
身份认证、复杂系统控制等民用领域,该技术也作出了很大的贡献。正是如此巨
大的军事应用价值和民事应用前景,奠定了目标识别技术作为一项探索性极强的
战略性前沿课题,在国内外学术界、工程界举足轻重的地位。
在目标识别中,提取的特征向量跟传感器的性能有关。当传感器的性能降低
时,、目标识别的性能也随之降低。随着现代环境愈加复杂化,目标呈现出多变的
状态,可观测性降低。如果仍采用传统的单一传感器进行目标识别,总会产生某
些缺陷。为了得到可靠的识别结果,途径之一就是利用多传感器系统来识别目标,
对多源信息进行综合处理??多传感器数据融合便是这样一种技术。
实际上,多传感器数据融合在人类和其他生物系统中很是常见。自然界的人
和动物感知客观世界,本能地通过多种感觉器官眼睛、鼻子、舌头、耳朵和四
肢获取关于周围事物的信息图像、气味、味道、声音和触觉,然后将这些信
息输入大脑进行综合加工处理,得到对周围事物的一种感知。多传感器数据融合
就是对生物综合处理复杂问题的一种模拟。
基于多传感器的数据融合能够扩展时间、空间的覆盖范围,排除干扰物体的
欺骗,将来自多个传感器的测量数据进行综合分析处理,最终获取关于目标的准
确特征。这对我国国民经济发展和国防军事建设具有十分重要的战略意义和社会
效益。
.
作为信息科学的一门新兴学科,数据融合技术最早源于上世纪年代的军事
领域。近些年来,随着科技的不断进步,传感器性能得到了很大的提高,这极大引言
地促进了多传感器数据融合技术的发展。如今,多传感器数据融合已经成为
跨学科的实践性技术,在医学、机器人、复杂工业控制、空地交通管制、海洋监
视与导航等领域得到了广泛的应用。
国外对数据融合的研究起步较早。年,在国防部的大力资助下,美国海
军研究机构开展了对多个连续声纳信号处理系统的研究,从而拉开了数据融合研
究的序幕。年代末,“融合”以此频频出现在公开出版的各种文献中。进入
年代后,各国军方对多传感器数据融合的青睐逐渐加深,尤其是美国,于年
成立了数据融合专家组,对有关技术工作做专门指导; 年,又将数据融合技
术列为年代重点发展的二十项关键技术之一,且为最优先发展的类【】;自
年以来,美国每年都要投入一定的资金用于数据融合技术的开发研究:年,,
成立,总部
国际信息融合学会
设在美国,每年一次的国际学术大会在此举行,来自世界各国的专家云集于此,
共同探讨最新研究成果。此外,法国“马尔萨”防控指挥系统的火力协调中心就
是利用了数据融合技术;德国的“豹坦克计划也采用该技术;英、德等欧洲五
国还协议联合开展“多传感器信号与综合系统’’计划。其他例如加拿大的场景生
成环境仿真、性能评估;以色列的机遇多传感器目标算法测评;英国的
海军知识库作战控制系统等等。
国外有关数据融合技术的代表性专著有:.和的《多传感器数据
融合》【】、的《多传感器信息融合中的数学技术》【、和的《雷
达数据处理》、和等人的《跟踪与数据关联》【】和《多目标多
传感器跟踪原理与技术》【】、的《多目标跟踪及在雷达中的应用》【】,
以及主编的《多传感器多目标跟踪:方法与进展》【】等。
与西方发达国家相比,我国在数据融合研究领域的起步相对较晚:上世纪
年代初,才开始数据融合技术研究;到年代末期,才出现有关多传感器数据融
合研究的报道;直到年代中期,尤其是海湾战争以后,数据融合技术才真正引
起有关部门的重视,军方组织和一些重点高校开始广泛开展这一技术的研究工作。
清华大学、国防科技大学、北京航空航天大学、中科院电子所、信息产业部
所、
变精度租神经网络数据融合方法的研究
所等单位积极开展多传感器目标跟踪、定位、识别、融合与态势评估、威胁评
估领域的研究应用,并出现了一些理论研究成果。
国内关于数据融合方面的代表性学术专著和译著有:康耀红等人的《数据融
合理论及应用》【、刘同明等人的《数据融合技术及应用》【、周宏仁等人的《机
动目标跟踪》【、杨靖宇的《战场数据融合技术》【】、张兰秀等人的《跟踪和数
据互联》与《水下信号和数据处理》等。尽管如此,我国对数据融合的研究仍仅
停留在算法改进、知识表示方面,在理论研究和实际应用方面,与发达国家相比
仍然存在着很大的差距,这就需要我们共同努力,进一步加强研究力度,赶超发
达国家。
进入新世纪以后,世界呈现出日新月异的变化。随着传感器技术、计算机技
术、通讯技术、人工智能技术等的蓬勃发展,更多更有效的数据融合方法不断涌
现,并被广泛应用于军事和非军事领域。有专家预测,数据融合技术的发展前景
是极为广阔的,但是未来需要发展具有自适应学习能力的数据融合技术,来适应
环境的动态变化。因此有必要将两种或多种数据融合方法结合起来,建立新的模
型,这样不仅可以扬长避短,还能得到更好的融合效果。
本文以目标识别为背景,主要研究不完备信息系统下的多传感器数据融合方
法。多传感器测得的数据往往带有随机性和不确定性,难以为人们所利用。因此,
近年来许多处理不精确、不一致数据的方法纷纷涌现,如贝叶斯推理技术、人工
神经网络、模糊逻辑、粗糙集理论等等。另外,将两种或多种方法相结合进行数
据融合也是一种发展趋势,本文就是采用粗糙集和神经网络相结合的技术,
设计
领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计
了一种不完备信息系统下的数据融合模型。
神经网络是应用较为普遍的一种数据融合方法,它将神经元按照预定的标准
链接起来,具有较强的非线性逼近能力、容错性和推广能力。但是,由于神经网
络自身的缺陷,即处理信息时并不能降低输入空间的维数,结果导致网络结构复
杂化,训练时间大大延长。粗糙集理论的出现为解决这个难题带来了希望。粗糙
集理论也是数据融合的方法之~,它能够对不完整、不精确数据进行分析推理,
发现其中的内在联系,并剔除冗余数据,推导出最小规则。本文首先利用变精度引言
粗糙集方法作为神经网络的前端处理器,进行属性约简,剔除那些对分类贡献甚
微的属性,从而达到了对输入空间降低维数的目的。提取决策规则后,采用目前
应用较为广泛的网络。确定网络的隐层数及隐层节点数,并定义节点之间的
连接权值,构建出一种基于变精度粗糙集的神经网络数据融合模型。
论文安排如下:
引言:阐述了本文的研究背景及意义,概述了数据融合的国内外研究现状及发
展前景,最后对本论文各章节的内容作出安排。
第一章:数据融合技术概述。介绍了数据融合的基本概念,融合的层次、体系
结构以及融合的算法,为后面的研究工作奠定理论基础。
第二章:粗糙集理论基础。介绍了粗糙集在数据融合中的应用,主要是属性约
简和决策规则获取,提出一种利用区分矩阵进行属性约简的算法。然后对经典粗
糙集进行扩充,提出了变精度粗糙集。
第三章:不完备信息系统下的粗糙集研究。分析了不完备信息系统中常见的三
种粗糙集拓展模型??容差关系、非对称相似关系和限制容差关系。然后,提出
一种改进的变精度粗糙集区分矩阵,并用之进行属性约简。
第四章:基于变精度粗集和神经网络的数据融合系统。针对神经网络难以处理
高维数据的问题,首先,用变精度粗糙集作为网络的前端处理器进行属性约
简,获取规则,再将规则数据输入网络中训练,最后,用仿真验证了融合模
型的可行性和有效性。
第五章:回顾与展望。总结了论文的主要研究成果,并指出下一步要研究的问
题。
变精度粗神经网络数据融合方法的研究
第章数据融合概述
.数据融合的基本概念
数据融合在不同应用领域中的定义往往有所区别,即使它的主旨是同一的。数
、
据融合 通常也称为多传感器数据融合.
信息融合 、证据合成、观测资料综合处理【厶,此外,例如归
并、合成、协同、整合、聚合、多源管理【】、多源协调【引、多源预测和控制【】等
等的术语或多或少也和数据融合含有相似的含义。
数据融合涉及的领域很广泛,因此很难给出一个准确一致的定义。
和将数据融合定义为一个从众多传感器中获得数据,然后产生一个特定状
态向量的最优估计的过程【。与之相似,和幽【】对数据融合的定义进行
了推广:融合就是将多源信息进行整合,以产生对实体目标的具体、综合、统一
的描述。、和】给出数据融合的定义如下:在不同种类证
据的基础上,对各种未知事物的探测和识别。通过这样一种方式对探测结果进行
分析,以便提供对行动或方案意义的局部和整体评估,并在这些评估的基础上作
出适当的回应。显然,这个定义源于军事应用领域,并在包括目标搜索、识别和
决策的人工智能领域得到了很好的应用。
综上,数据融合就是将多源信息和数据进行检测、分析、整合、评估,剔除
其中的冗余信息和不精确、不一致信息,最后获得更为准确、有意义的估计结果。
.数据融合的层次
数据融合在不同的层次等级都可能发生,而且它是以应用为导向的。通常,
将多源传感器的数据融合过程分为三个层次:数据层融合、特征层融合和决策层
融合。在实际应用中,往往根据具体情况综合考虑,采用其中一种或几种联合的
融合机构。
..数据层融合
,是该模型中最低层级的融
数据层融合也称为像素级融合.
合。在数据层融合方法中,首先对从各传感器测量得到的原始数据例如:从成第章数据融合概述
像传感器得到的像素精度进行融合,以产生高层次的特征向量例如:图像中
的边,并进行判断识别,如图.所示。
由于并未对融合前的传感器数据进行任何加工处理,所以数据层融合能够提
供其他层次融合不能提供的原始现场信息,融合性能较佳;但是,需处理的数据
量过大,会占用计算机很多空间,处理时间也很长,代价较高。同时,各传感器
原始信息具有不稳定、不一致的缺点,在融合过程中较易出现错误。
图.数据层融合
...特征层融合
在特征层融合中,首先对各个传感器观测得到的原始数据分别完成特征提取,
得到各自的特征矢量,然后再以智能的方式将特征矢量进行融合、识别,最终获
得更多关于目标的特征描述例如:图像中的轮廓,如图.所示。
在这一层融合中,关键是提取一致的、有意义的信息,去除那些无用的、容易
产生矛盾的信息。该层级的融合所占用的空间不大,但是在特征提取过程中丢失
了部分信息,因此融合的准确度较数据层融合有所降低;同时,用特征矢量表示
传感器信息不仅能降低处理过程的复杂性,而且对提高处理结果的稳定性有一定
的帮助。特征层融合是数据层融合与决策层融合的折中,兼具它们的优点。
变精度粗神经网络数据融合方法的研究
图.特征层融合
...决策层融合
决策层融合是最高层级的融合。在这种方法中,首先对各传感器测量得到的原
始数据进行预处理、特征提取与识别,得到对目标的初始判断和说明,再对判断
结果按照一定的准则和标准进行高层次的融合例如:通过匹配轮廓与知识库中
信息的物体识别,最终得到关于目标的一致性描述,即全局性最优决策,如图.
所示。
决策层融合的优点是不会占用很大的计算空间,运算量小,即使某个传感器出
现错误也能继续处理数据;但是由于各个传感器对原始测量数据进行的是最一般
的处理,因此整个融合精度不高,比前两个层级融合的精度都要低。
图.决策层融合
.第章数据融合概述
.数据融合的体系结构
由于环境的复杂多变,单一传感器已无法适应融合的高标准、高要求,而多传
感器数据融合技术能够整合来自多个数据库的信息,以此获得改进的更具体的结
果,这大大提高了系统的检测性能,弥补了单一传感器检测信息的不足。
根据传感器与融合中心的通信渠道关系,经典的数据融合系统结构可分为三大
类:集中式、分布式、混合式【。
‘
..集中式融合.
在集中式融合结构中,各传感器测量得到数据后不作任何处理,直接传输到集
中处理中心进行融合,得到全局估计,如图.所示。各传感器之间互不影响,且
处理中心拥有完整的原始数据,并且可以充分利用它们。因此,整个系统的融合
性能较好;但考虑到要传输全部信息,计算空间无疑加大,这对计算机的存储容
量产生了较高的要求:而且,一旦集中处理中心出现问题,整个系统就瘫痪。因
此,一般不采用这种方式。
图.集中式融合结构
...分布式融合
在分布式融合结构中,各传感器在获得测量数据后,不是先将数据传输至集中
处理中心,而是在各自的局部处理中心进行局部融合,得到对目标事物的局部估
计,再把局部处理结果传输至融合中心,由融合中心完成全局估计,如图.所
变精度粗神经网络数据融合方法的研究
示。根据各传感器与融合中心有无反馈信息,可将分布式融合分为有反馈的分布
式融合和无反馈的分布式融合。
与集中式融合相比,分布式融合对计算机融合中心所需的存储容量要求并不那
么高,这加快了融合速度,而代价就是损失了完整的原始信息。
图.分布式融合结构
...混合式融合
混合式融合结构是前两种融合结构的优化组合,融合中心既包含来自各传感器
的原始数据,又包含原始数据的局部处理结果。混合式融合结构可有多种变换形
式:如:总体采用集中式,局部采用分步式;也可以总体采用分步式,局部采用
集中式;还可以是集中式和分步式的交叉等等,要根据实际问题加以判断选择。
由于混合式融合结构是一种综合结构,兼具了另两种结构的优点,虽然结构较
为复杂,但系统的稳定性加强,普遍应用于大型工程中。
第章数据融合概述
图.混合式融合结构
.
.数据融合的方法
作为一种综合处理多源信息的智能方法,多传感器数据融合的研究应用已相当
广泛。尽管有许多专家根据各自的实际提出了许多有效的数据融合算法,但迄
今为止,还很难给出一个关于数据融合算法统一规范的分类。前面提到数据融合
可分为三个层级:数据层融合、特征层融合和决策层融合。一般而言,不同的融
合层级对应不同的融合算法。下面一一列举之:
数据层融合中最常见的算法包括加权平均法、算术平均法、卡尔曼滤波、
数据关联、小波分析、贝叶斯推理技术等等。
是求混合冗余信息的加权平均值,
加权平均法
以此作为融合值。这里的权重由数据信号的估计方差决定【,调整权重的工作量
很大。
贝叶斯推理技术【是以概率论知识为基础,使用先验概率对传感器
数据进行融合,将最后的输出规则作为系统决策。但是该方法的不足是需要大量
的实验才能得到各传感器关于目标的先验概率分布,而且只有当多个假设和多个
条件独立时才有效。
用于特征层融合的方法有模板法、人工神经网络法、聚类分析法和基于知
变精度粗神经网络数据融合方法的研究
识的系统等等。
模板法的思想较为简单、直观。它首先利用先验信息将已知空间划分为不同的
区域,分别表示不同的类别,再将各传感器的观测信息与已知模板对比、匹配,
看其是否被模板支持。
人工神经网络 是仿效人脑信息处理特性而产生的
一种网络技术。每个处理单元神经元按照一定的方式与其他神经元互相链接,
完成信息的处理、传递功能。一个人工神经网络通过对输入端数据的非线性变化,
在输出端生成输出矢量,即把多传感器的测量数据转换成对目标事物的属性说明,
这样就完成了数据融合的过程。人工神经网络的优点非常明显,在数据融合领域
的应用非常广泛,这在后面的章节中会详细介绍。
决策层融合常用的方法有.证据理论、专家系统、模糊逻辑和粗糙集理
论等等。
是以隶属度
函数
excel方差函数excelsd函数已知函数 2 f x m x mx m 2 1 4 2拉格朗日函数pdf函数公式下载
和模糊规则为解除,用
模糊逻辑方法
矿一语句来表达知识,以此实现基于多值逻辑的数据融合功能。
是由.教授在上世纪年代提出的
粗糙集方法
一种新的处理不确定、不一致信息的数学工具。针对知识库,粗糙集理论使用等
价关系信息空间进行知识划分,通过知识约简,导出决策规则。
总之,多传感器数据融合不是单一的技术,而是涉及多个传统学科、多
个应用领域的新理论、新方法。目前,数据融合技术的研究仍存在许多不足,正
处在不断地发展完善中。现在多考虑将两种或多种数据融合算法进行结合,取长
补短,综合处理信息,以达到更好的融合效果。第章粗糙集理论基础
第章粗糙集理论基础
粗糙集理论是由波兰数学家.于年提出的一种新的处理模糊和不 确定性知识的数学工具,其主要思想是在保持分类能力不变的前提下,通过
知识
约简,导出问题的决策或分类规则。目前,粗糙集理论已成为信息科学领域的
研
究热点之一,并成功地应用于人工智能、过程控制、决策分析、模式识别与
分类
等领域。为了便于后面的阐述,先介绍经典粗糙集理论粗糙集模型的 基本概念。
.
经典粗糙集理论概述‘蚓
..知识和知识库
定义.设?是我们感兴趣的对象组成的有限集合,称为论域。任何子 集?,称为中的一个概念或范畴。为规范化起见,我们认为空集也是一个 概念。【,中的任何概念族称为关于的抽象知识,简称知识。 警察侦破案件必须分辨出哪些人员是嫌疑人,哪些人员不是:医生给病人看 病,必须诊断出病人患了哪种病??这些根据事物的特征属性将之分类的方 法都可以看成某种“知识”。
定义.
,五?彩,
一个划分定义为:缈墨,五,...,以;五
五、一,对于?『,,,,...,以;.【厂。【,上的一族划分称为关于
。
的一个知识库
设灾是上的一个等价关系,/表示犬的所有等价类构成的集合,【】矗表 示包含元素?的尺等价类。
定义.若 ,:囝,贝.中所有等价关系的交集也是一个
等价关系满足自反性、对称性和传递性,称为尸上的不可区分 关系,记为,且有吲帅。胁
变精度粗神经网络数据融合方法的研究
这样,/简记为/表示砌在上导出的划分,称为【厂的尸基本知 识基本集,的等价类称为知识尸的基本概念或基本范畴。如果?, 则称为关于的初等知识,的等价类为知识的初等知识或初等范畴。 事实上,基本范畴是由初等范畴的交集构成的。
..不精确范畴、近似和粗糙集
设,是上的一个等价关系,当能表达成某些基本范畴的并时, 称是尺可定义的;否则称石是尺不可定义的。可定义集也称作尺精确集,而 。
不可定义集也称作尺非精确集或尺粗糙集
现在,我们使用两个精确集来近似地定义粗糙集,即粗糙集的上近似 和下近似 。
定义.给定知识库,,对于每一个子集?和一个等价关系 ?,定义如下两个子集:
下近似集:
.
丛?/,
上近似集:
.
?/?
也可用下面的等式表达:
.
蹦?凡彳,
.
肘?矗厂、?
矗丛称为的正域,即根据知识判断中肯定属于的元素组 成的集合;矗一面称为的尺负域,即根据知识判断中肯定不属 于的元素组成的集合;锄。肷一丛称为的尺边界域,即根据知识判 断【,中既不肯定属于,又不肯定属于一即的元素组成的集合; 麟,即根据知识尺判断中可能属于的元素组成的集合, 如图.所示。第章粗糙集理论基础
??? 的近似
二二二的上近似
图租糙近似
定理.
为可定义集当且仪当星;
?为粗糙集当且仅当肼?星。
也可将鐾描述为中的最大可定义集,将研描述为含有的最小可定义集。近似
精度
边界域的存在导致了集合范畴的不精确性。边界域越大,集合范畴的 精确性越低。而精度可以更准确地表达这一点。
定义由等价关系定义的集合的近似精度为:
五
啦卜胤,
其中.,表示集合并的基数。
精度口。提供了一种粗糙集与目标集近似程度的测量方法。明显的对每 一个和?量,有。。当上、下近似集相等即边界域为空集时,变精度粗神经网
络数据融合方法的研究
口,集合是可定义的;相反地,当下近似集为空集时,精度% 无论上近似集为多少;当口时,集合是尺不可定义的。
当然,其他的一些量度也可用来定义集合石的不精确程度。例如,用精度 口的一种变形??集合的尺粗糙度来定义:
.
风,
集合的粗糙度与精度恰恰相反,它表示的是集合的知识的不完全程度。 ..信息系统和决策表
定义.形式上,四元组,,是一个知识表达系统,其中
毛,屯,??,‰:对象的的非空有限集合,称为论域;
彳:属性的非空有限集合;
兰圪,圪是属性口的值域;
专是一个信息函数,它为每个对象的每个属性赋予一个信息值,即 厂:
?,?,,?圪。知识表达系统也称为信息系统,通常也用,来 代替以么,儿力。如果,,则称信息系统,么为一个决
策表,其中为条件属性集合,为决策属性集合。
定义.令,定义属性子集尸的一个不可区分关系:
.
伽印,?×?只厂五口厂,口,
也就是说,如果五,?,则和具有相同的属性值,称和是不可区 分的。
在不同的决策环境中,相同的属性对决策的输出却有不同的影响,属性依赖 度可以很好地说明这种影响,它不依赖于决策者的先验知识。 定义.当决策属性对条件属性的依赖度
.
扣枷訾
时,我们称是?七?度依赖于的,记作。。第章粗糙集理论基础 由定义可知,?。表示由导出的决策类/的正域覆盖了知识库的 %个元素。当时,称完全依赖于;当时,称粗糙部分
依赖于;当后时,称完全独立于。。也记为。
同时,在一个决策系统中,不同的属性或属性集所占的地位不一定相同, 这就对对象的分类产生了不同的影响。为了衡量条件属性的重要性,我们的
方法
是从表中删除一些属性,然后考察没有这些属性后系统所产生的分类变化。若分
类变化很大,就说明该属性重要度很大,反之说明很低。
定义.属性子集.量关于的重要性定义为:
.
%’一%一
特别地,当’时,属性关于的重要性为:
.
%一舷洒,
属性的重要性是相对而言的,它依赖于属性集和。
.粗糙集在数据融合中的应用
下面介绍粗糙集理论在数据融合中的应用,主要是属性约简和决策规则的获
取。属性约简可以大大降低输入空间的维数,而规则获取可以得到数据分类的规
则,以便于更好地理解知识。
..属性约简
在知识库中,属性知识并不都是同等重要的,某些属性是冗余的,而某
些属性却能代表整个知识库的信息,因此,需要对决策系统进行约简。所谓属性
约简‘嘲,就是在不丢失信息的前提下,以最简单的形式表示决策属性集对条件
属性集的依赖性。求属性约简就是求所有保持和决策属性的依赖性相同的最
小条
件属性子集。属性约简是粗糙集理论的主要内容之一,对此,人们进行了大量
的
研究弘。
定义.令尺为上的一族等价关系,,.?,如果
.
一,,
则称,.是尺中不必要的即冗余的:否则称,.是尺中必要的。 变精度粗神经网络数据融合方法的研究
如果每一个,?都是尺中必要的,则称月为独立的;否则称尺为依赖的。 定义.令尸?,如果是独立的,且,则称是的一
个约简,用表示。显然,犬的约简并不是唯一的。的所有约简的交集组 成的集合称为的核,记作,即。
定义.令尸和是上的等价关系族,?,如果
.
%,
则称是中不必要的;否则称是中必要的。涮可简记为
。
如果中的每一个都是必要的,则称是独立的或相对于独立。 定义.设&只是上的等价关系族, ,是的约简当且仅
当是尸的的独立子族,。的约简简称为相对约简。
中所有必要的等价关系构成的集合称为的核,简称相对核,记为。 来表达知识有许多优点,特别是它能够
利用区分矩阵
更容易地计算约简与核。
定义.设,,,力是一个决策表,刀,的区分矩阵是一个拧×靠 矩阵,其任一元素为:
.
口工,口?彳厂五口?/,口
因此,是区别对象工和的所有属性的集合。
,用?
下面我们引入一个布尔函数,称其为区分函数
表示。对每个属性口?,指定一个布尔变量“’’。若瑾, ,...’口。?, 则指定一个布尔函数
,用?口,来表示;若口,,则指定
布尔常量为。布尔区分函数?可定义如下:
.
???口五
第章粗糙集理论基础
区分函数?有如下性质:函数?的极小析取范式中的所有合取式是属性集彳
的
所有约简。换句话说,约简是满足能区别由整个属性集区别的所有对象的属
性极
小子集。
定义.如果曰?彳是满足条件
.
、,?, 口毛?
的极小子集关于包含,则曰是彳的一个约简。 核是区分矩阵中所有单个元素组成的集合,即 .
口?彳口,口,其?
对于决策表,,,,、,其中为条件属性集, 为决策属性集,我们可以用类似的方法计算其相对约简和相对核。
定义.决策表的区分矩阵是一个×疗矩阵,其任一元素为
.
口’毛口?厂毛口?/,口且缈毛,
对于五,国毛满足
?且,
或者
工芒.,
或者
且工, 。
决策表的区分函数?.定义为
.
?‘??口‘毛。
‘,
区分函数?‘有如下性质:函数?.的极小析取范式中的所有合取式是的所有
约简。
定义.如果’?是满足条件
.
,口’五?, 口’五?变精度粗神经网络数据融合方法的研究 的极小子集关于包含,则,是的约简相对约简。
核相对核是决策表的区分矩阵中所有单个元素组成的集合,即 .
训口,其中毛?。
下面介绍利用区分矩阵的属性约简基本算法。首先构造出区分矩阵,在此基
础上得到区分函数,然后对区分函数进行化简,使之成为吸取范式。则每个合
取
子式都是约简。
约简算法:
输入:一个决策表,,,门,其中,,,为条件
属性集,为决策属性集。
输出:相对约简坨如。
;
计算决策表的区分矩阵:口’毛棚,?,
求得决策表的区分函数:?’??口,;
“,
利用吸收率等公式化简区分函数,使之成为一个吸取范式。那么其中的每 个合取子式均为约筒;
输出。
..决策规则获取
前面提到,通过属性约简,我们可以获得属性约简集;然后,根据一定的标 准对约筒后的数据进行整理,表示成更容易理解的规则形式,便于决策使用。
决
策规则的提取过程也是粗糙集理论的核心问题之一。
定义.设,,,是一个决策表,,,其中为
条件属性集,为决策属性集。令五、‘分别表示/和/中的各个等价类, 跏墨、分别表示对等价类五、巧的描述,即等价类墨巧对于各条 件决策属性的特定取值。决策规则定义如下:
.
五巧?,
%:一,
第章粗糙集理论基础
舰啪觥姻私砒曾,鹏删。
/,时,吩是确定的;当/,时,%是不确定的。
.变精度粗糙集
粗糙集理论的中心问题是分类分析。粗糙集模型【】的一个局限性是它 所处理的分类必须是完全正确的或肯定的,因为它是严格按照等价类来分类
的,
因而它的分类是精确的,亦即“包含或“不包含,而没有某种程度上的“包含 或“属于。粗糙集模型的另一个局限性是它所处理的对象是已知的且从 模型中得到的所有结论仅仅适用于这些对象集。但在实际应用中,往往需要
把从
小规模对象集中得到的结论应用于大规模对象集上去。
针对经典粗糙集理论的缺陷, .教授【】于年提出了变精度粗糙集,。是经典
模型的扩
模型
充,它在基本粗糙集模型的基础上引入了‖?‖.,即允许一定程度的错误 .等
分类率存在。当‖时,粗糙集模型是模型的一个特例。
人【】将‖定义为分类正确率,取值范围为.。当‖时,模型蜕化 为经典模型。在实际应用中,我们按照不同的实际情况来选取‖的大小,以此 控制误差。
..
多数包含关系
定义.设和是论域中的两个非空子集。如果对于每一个?有 ?,就称包含,记作。令
.,
,】川工
:妻譬三,
其中表示集合的基数。,表示把集合归类到集合中去的正确分类
比例,称为集合关于集合】,的相对正确分类率。那么被错误归类的元素数目
为
,×。为方便起见,在此给定给定‖?.,】,即‖为允许的最小正确 分类率。变精度粗神经网络数据融合方法的研究
为:
定义.令.‖?,多数包含关系
,
,,铮,聊?‖。 .
“多数”要求隐含着与中的公共元素的数目大于中元素数目的%。 瞧
显然,,当且仅当,表示集合包含在集合当中,即集合是集 合】,的子集。
..
模型中的近似集
定义.设,为近似空间,其中为非空有限集合,月为上的等价关 系,/巨,最,...,为的等价类或基本集构成的集合,对于任意?,义 关于近似空间,尺的‖下近似为:
口
.
,
墨,?/
或者
.
岛彳?/,?仍,
&也称为‖正域,记为,理解为将【,中的对象以不小于正确率‖分到 中的集合。
的‖上近似为:
.
馁?/一‖
理解为由那些以大于正确率‖不能分到~中的【,中对象组成的集合。 工的口边界域为
.
,%五?/一‖,所
理解为由大于‖既不能分到又不能分到一的对象组成的集合。 的‖负域为
/‘,彳?‖ .
理解为将中的对象以大于正确率‖分到的补集~中的集合。 易知,随着正确率‖的减小,的正域和负域将逐渐扩大,边界域将逐渐缩小; 反之,随着正确率‖的增大,的正域和负域将逐渐缩小,而边界域将扩大。集 第章粗糙集理论基础
称为的绝对边界。
定义.为了描述集合被近似空间,中的基本集近似分类的程度,定 义夕精度为:
.
础以柳醐,
夕精度表示集合相对于正确率夕的近似描述的不精确性。 ..属性的近似依赖性
属性的近似依赖性是粗糙依赖性思想的推广。设,彳,,是一个决策表, , 彳为条件属性集和决策属性集。,表示由’决定的不可区分 关系,关系的等价类的集合称为条件类,用表示,关系的等价 类的集合称为决策类,用/表示。
定义.决策属性集与条件属性集的‖依赖性定义为
矧
们哗产,
其中,,,夕口‘,表示关于条件属性的‖正域。,,‖
衡量了论域中的元素根据正确率‖能够分类到一定决策类的比例。对于一致
的
信息系统,无论夕取何值,,‖始终为。而对于不一致的信息系统, ,‖会发生变化,并且系统的不一致程度越大,,,‖越小。并且,‖的 取值大小对,,‖影响也很大。一方面,在某个取值区间内,,,‖是 不变的;另一方面,随着‖的增大,能够被分类的元素比例减小,即,,‖减 小;反之,‖减小,能够被分类的元素比例增大,即,‖增大,但是被误分 类的元素也随之增多。
定义.条件属性关于决策属性的‖约简即近似约简是的一个子 集,,‖,且满足:变精度粗神经网络数据融合方法的研究 ,,‖厂,.,,‖,,‖;
从,,‖中去掉任何一个属性都不能使式成立。
‖核为所有‖近似约简的交集,即,,‖,,卢。
对于一个决策规则置寸,一般可以用置信度和覆盖度两个指标来
评价
LEC评价法下载LEC评价法下载评价量规免费下载学院评价表文档下载学院评价表文档下载
,分 别定义如下:
置信度:
.
%吲
覆盖度:
.
如
置信度反映了规则条件满足时结论成立的可能性。当%时,说明条件满足 时,结论有多种可能。覆盖度反映了同时满足规则条件和结论的对象在满足
结论
的对象中所占的比例。若其过小,说明规则不够具有代表性。通常,我们希望
得
到的是置信度高且覆盖度高的规则集。第章不完备信息系统下的粗糙集研究 第章不完备信息系统下的粗糙集研究
.
引言
近年来,由教授提出的经典粗糙集理论在知识获取方面取得了很大的 成功。但是,经典粗糙集理论主要是建立在完备信息系统上,以等价关系为基
础
进行属性约简和规则提取。因此,它要处理的决策表必须是完备的,即所有的属
性值必须是可知的。然而,在各种实际应用的数据库中,属性值缺失的情况是经
常发生的,此时的信息系统就是不完备的。而造成研究对象属性值缺失的原因主
要有以下几种【】:
由于数据采集设备、传输介质和存储介质的故障,以及一些人为因素造成
的原因,使得某些对象的属性值无法获取:
知识获取的成本太高,代价太大;
系统要求在知识获取之前就作出分析、判断,即系统的实时性要求高。
属性值的缺失给信息系统研究带来了很大的影响:首先,系统中少了许多有
用的信息,其次,系统表现出的不确定性更加突出,而确定性则相应减少,这使
得知识获取过程陷入了困境,此时如果还用基于等价关系的经典粗糙集理论来处
理就肯定不行了。毫无疑问,这大大限制了粗糙集理论的实用性发展。因此,对
不完备信息系统处理方法的研究逐渐成为新的研究热点之一,国内外对不完备信
息系统的研究成果主要有.】。本章在研究不完备信息系统的基础上,提出了一
种不完备信息系统下的变精度粗糙集模型,用它作属性约简。
.不完备信息系统的相关概念
定义.一个信息系统,,,,其中是对象的非空有限集合;
是属性的非空有限集合;是属性值的集合,即艇一圪,这里圪是属性的值
域;厂是专的一个信息函数,它为每个对象在每个属性上赋予一个值,即
属性值。如果至少有一个属性,使得圪含有空值,则称是一个不完备信息系统,
记为;否则它是完备的。变精度粗神经网络数据融合方法的研究
。
我们用符号“?’’来表示某些对象属性值的缺失即空值
如果,且,为条件属性集,为决策属性集,则称为
不完备决策系统或决策表。
.不完备信息系统中的粗糙集模型拓展
通常有两种方法来处理不完备信息系统阳:一是通过某些途径例如:数据补
齐将不完备信息系统转换为完备信息系统的非直接方法,该方法也称数据替换
【】;二是在不改变不完备信息系统的前提下直接处理,获取知识;其基本患想是
将经典粗糙集理论进行拓展,将等价关系推广到非等价关系。目前常见的有相容
关系、非对称相似关系和限制容差关系等等,但是,这些方法都有各自的缺陷,
下面来一一介绍。..容差关系
.】提出了基于容差关系的粗糙集拓展模型,其主要思想是赋予 信息表中没有值的元素一个“”值,这是一个可以与任意己知属性值相同的
值,
它确实存在,只是被遗漏而已,
,且厂、刀,
定义.】令不完备信息系统,,,厂,其中
为条件属性集,为决策属性集,刀?么是具有遗漏属性值的子集,记遗漏值为 “宰’’。容差关系为:
.
,?×?,工宰,?
进一步地,令弓工?,?曰,表示与可能不可区分的对象的
最大集合,即的相容类。集合在容差关系’下的上、下近似集定义如下: .
上近似集:一石?乃广、?乃工?;
下近似集:
.
??.工??瓦?彳。
与完备信息系统俗中类似,上近似集表示可能属于的元素的集合、下近似集
表
示肯定属于的元素的集合。
不难发现,在容差关系下,没有任何明确相同的已知属性值,或只有极个别第
章不完备信息系统下的粗糙集研究
相同的已知属性值的对象容易被误判于同一个容差类中,即归为同一类,无
法区
分。这种过于宽松的要求正是容差关系的缺陷所在。 .
..非对称相似关系
例等人提出了基于非对称相似关系的拓展模型,他们认为信息表 中的空值是不存在、不允许比较的值,造成这种现象的原因是由于知识的不
精确
或对象无法用已知的属性来描述。
定义.【】不完备信息系统,,彳,矿,,其中,,
口,则非对称相似关系定义为:
.
,?×?,工擘
它表示工关于召非对称相似关系于,记为磷。非对称相似关系也简称为相似 关系。
定义.在此基础上定义两个非对称相似集合如下:
.
咒?,,
表示与非对称相似的对象集合;
.
墨。?,工
表示与之非对称相似的对象集合。
继而,.给出了对象集基于非对称相似关系的上、下近似集:
上近似集:
.
?.、?聘墨:
下近似集:
.
?墨.工?。
也就是说,如果对象非对称相似与集合中的某个对象工,则该对象可能属于
类;如果对象与之非对称相似的对象都包含于集合,则对象工肯定属于
类。
通过比较发现,非对称相似关系下得到集合的上、下近似是容差关系下得到
的上、下近似的改进,但其把大部分属性值相同,仅有稍许属性值未知或不同的
对象判为不同类,这种极端苛刻的情况就是非对称相似关系的缺陷。变精度粗神经网络数据融合方法的研究..限制答差关系
王国胤教授‘伽提出了基于限制容差关系的粗糙集拓展模型。该模型是针对容差
关系过于宽松和非对称相似关系过于严谨的弱点,介于两者之间的一种折中的方
法。
,.且 彩,
定义.【】令不完备信息系统,,矿,,其中
,弓?口?拳,则限制容差关系定义为:
妣?
?,幸
.
名乞???宰?木。
基于限制容差关系的限制容差类厶??三。那么,
的上、下近似集为:
上近似集:
.
酗??:
.
下近似集:刍???彳
可以看出,容差关系和非对称相似关系是对不可区分关系进行扩充的两个极 端,而限制容差关系刚好介于两者之间。例如,设五口,簟,幸,毒,恐木,,宰,
木,
在容差关系下,对象而和而是不可区分的,但是它们的已知属性值中没有任
何一
个是相同的;而在限制容差关系下,对象五和屯是可以区分的。又如, 口,,,,宰,儿口,,,,,在非对称相似关系下,对象和儿是可以区 分的,但是明显看出它们的大部分属性值都相同;而在限制容差关系下得出
这两
个对象是不可区分的,从直观上判断可知用限制容差关系得到的结果更为合理。
.不完备信息系统下的变精度粗集模型
..
变精度区分矩阵及‖近似约简选取原则
.基于变精度区分矩阵的属性约简
对于不完备信息系统,由于属性值的遗漏、缺失,导致了系统的不确定性和第章不完备信息系统下的粗糙集研究
噪声。因此,我们对传统的区分矩阵进行扩展,定义一种变精度区分矩阵,以提
高系统处理噪声数据的能力。
,且
定义. 对于不完备决策信息系统,,,,其中,用多数包含关系定义区分矩阵聊,其中
‖?毛,【,】?』,,】?口
薯,【』】口‘/,【,】
‘,【薯】口/,【五】口
葺,,】?口 ,,,】?口 。
。
.
%? ?薯??
.薯,【。】?口,。口
‘,【山口 【山?口
,,【一】口?,【薯】?口
薯,【?】?口 ?,【?】口
其中,?口.;表示论域中所有与在关系下相容的元素组成的集
合,即的相容类;【】表示在决策属性所形成的划分下的等价类;
,【】.就是上一章.节中定义的多数包含关系。也就是说,当由条件属性
决定的两个对象薯、,的相容类同时划入任何一方由决策属性决定的等价类中
的正确分类率同时大于或小于规定的误差控制率口时,我们说这两个对象不可区
分,则它们对应的区分矩阵中的元素为;否则,它们对应的区分矩阵中的元素
就为这两个对象属性值不同的属性集合。
定义.假设给定一个决策表和它的区分矩阵,如定义.所示。那么区分
矩阵对应的区分函数定义如下:
.
?全【惕,‖孵??囝
新的区分矩阵、区分函数在属性约简和数据的逻辑推理上比传统的区分矩阵、
区分函数有着更为明显的优势。它不仅可以进行增量式计算、分布式计算和并行变精度粗神经网络数据融合方法的研究
计算,更适合数据量较大的情况,而且在计算过程中避免了重复劳动,减少了计
算量。
下列命题是成立的:
命题如果’譬是满足条件。,?,,?囝的极小子集,则 。是的近似约简相对约简;
命题近似约简的核‖.核是区分矩阵中由单个条件属性组成的区分矩阵
原始的并集。即:
.
,‖口?:。,口,,?
下面给出基于区分矩阵的变精度粗糙集属性约简算法: ,
,为条件属性
输入:一个决策表,,,,其中,
集,为决策属性集。
输出:相对约简阳如
;
计算决策表在多数包含度阈值为‖时的区分矩阵:碍, ’’
、 ’/一
求得决策表的区分函数:会镌,』;
利用吸收率等公式化简区分函数,使之成为一个吸取范式。那么其中的每个
合
取子式均为约简;
输出。
.‖近似约简选取原则及规则集阈值稳定性
变精度粗糙集对噪声数据有一定的容错性,可以通过设置阈值‖来进行调节。
在现有的变精度粗集模型的各种研究中,‖值大部分都是作为先验知识引入的。
到目前为止,还没有科学的衡量阈值‖的标准,而且在某些实际应用中,专家也
很难确定合适的‖值。
‖值的自主选择在变精度粗糙集模型的知识约简和学习的过程中是非常重要
的,文献主要是通过研究决策表的相对可辨识性给出求值的方法,不需要专
家经验,直接通过数据集自身完成‖阈值范围的计算和选择。第章不完备信息系统下的粗糙集研究
一般情况下对变精度粗糙集阈值‖的选取应考虑以下因素:
阂值‖的选择使得分类质量尽可能大,出现错分类的样本数据尽可能少;
阈值‖有最大上界;
选择的阈值‖使约简包含的尽量少的属性;
根据以上讨论,现提出~个‖近似约简的选取原则:
根据设定的下限值/,,‖,计算出所有,,‖,,‖
时的‖近似约简;
在上一步得到的所有有约简中,选取出错分类样本数不大于某个阂值的‖
近似约简;
再在上一步选取出的‖近似约简中,找出和全体属性具有最相似‖取值 区间的近似约简,并去掉那些分类异常的约简;
找出具有最短长度的‖近似约简。
对于确定的约简属性,,‖和‖值可以产生确定的粗糙规则集。但如果 ‖发生变化,粗糙规则集则可能发生相应的改变。为此,根据置信度.和覆 盖度.要高的原则,我们要确定‖在什么范围内变化时,生成的规则集不发 生改变。‖的这一变化范围就称为阈值稳定区间。
对于每个决策类?/?,,令
柳
?可咖删即,,吲
峋
如呻吲刊删懈,,以唧?
取,九,%.甜,,【‖一砀,.】,则‖的稳定