李德仁院士_空间数据挖掘和知识发现的理论与方法 (PPTminimizer)

李德仁院士_空间数据挖掘和知识发现的理论与方法 (PPTminimizer)null空间数据挖掘和知识发现的理论与方法空间数据挖掘和知识发现的理论与方法李德仁院士武汉大学测绘遥感信息工程国家重点实验室二零零五年三月二十五日武汉主要内容主要内容1. 引言 2. 空间数据挖掘和知识发现的框架 3.数据场和云模型及其应用 4.Rough集理论及其应用 5.空间数据聚类 6.长江三峡宝塔滑坡监测数据挖掘 7.归纳学习及其在空间数据挖掘中的应用 8.基于空间统计学的自动影像搜索 9.总结与展望1. 引言1. ...

null空间数据挖掘和知识发现的理论与方法空间数据挖掘和知识发现的理论与方法李德仁院士武汉大学测绘遥感信息工程国家重点实验室二零零五年三月二十五日武汉主要内容主要内容1. 引言 2. 空间数据挖掘和知识发现的框架 3.数据场和云模型及其应用 4.Rough集理论及其应用 5.空间数据聚类 6.长江三峡宝塔滑坡监测数据挖掘 7.归纳学习及其在空间数据挖掘中的应用 8.基于空间统计学的自动影像搜索 9.总结与展望1. 引言1. 引言数据挖掘和知识发现(DMKD)的发展简况起源于从数据库发现知识(KDD)，定义为“从数据中发现隐含的、先前不知道的、潜在有用的信息的非平凡过程”（1991）。 Fayyad等（1996）曾对KDD和数据挖掘(Data Mining)重新定义和加以区分。人们习惯上把DM和KDD合起来使用，称为DMKD。对关系数据库和事务数据库的DMKD研究已取得很多进展，并有商用软件问世。1. 引言1. 引言DMKD一般主要发现广义、分类、关联、预测等四类知识。目前国际DMKD大会以及亚太DMKD会议每年举行一次。1997年1月，国际DMKD杂志创刊。我国对DMKD的研究稍晚，目前已十分活跃。1993年国家自然科学基金首次支持该领域的研究项目。作者在1994年提出了从GIS数据库发现知识的建议（SDM&KDD)。1. 引言1. 引言遥感和GIS对空间数据挖掘和知识发现的需求数据海量---信息不足---知识贫乏从GIS和影像数据库发现知识用于遥感图像解译从属性数据库发现知识用于GIS的智能化空间分析 2.空间数据挖掘和知识发现的理论与技术框架2.空间数据挖掘和知识发现的理论与技术框架数据、信息和知识空间数据挖掘和知识发现的定义和特点发现状态空间理论从空间数据库可发现的知识类型空间数据挖掘和知识发现的方法空间数据挖掘金字塔（Pyramid of Spatial Data Mining）空间数据挖掘金字塔（Pyramid of Spatial Data Mining）数据、信息和知识空间数据挖掘和知识发现的定义和特点空间数据挖掘和知识发现的定义和特点空间数据挖掘和知识发现的定义空间数据挖掘和知识发现（SDMKD）是从空间数据库中提取隐含的、用户感兴趣的空间的和非空间的模式和普遍特征的过程。 SDMKD的特点需要确定数据挖掘的粒度需要对图形和影像数据进行处理、分析和特征提取发现状态空间理论发现状态空间理论针对关系数据库的三维发现状态空间面向属性的操作: 对属性之间关系的认识和发现面向宏元组的操作: 对各宏元组之间一致性和差异性的认识和发现；面向知识模板的操作: 是属性值从微观到宏观的操作，使知识模板上升到抽象级别更高的知识模板。针对空间数据库的四维发现状态空间面向空间尺度的操作：是对空间数据由细到粗的计算、变换、概括、综合的过程。空间数据挖掘机理空间数据挖掘机理人类思维:具有层次性,自然语言的语言原子是人类思维的原子模型,概念是人类思维的基本细胞单元。概念空间:自然语言中的基本语言值是个定性概念，对应着一个定量的数据空间，反映概念的内涵和外延。特征空间:人类思维过程中的对象，对应着一个定量的数据空间，反映对象的多个属性。知识 = 规则+例外数据挖掘的机理:基于不同认知层次的“数据→概念→知识”视图，而空间知识则是各级的 “规则加例外”。认知层次主要由粒度和尺度表达，基于认知层次的发现状态空间基于认知层次的发现状态空间空间数据清理空间数据清理空间数据常有污染，需要清理。空间数据清理指有助于提高空间数据质量的过程。空间数据清理主要包括：不完整数据、不准确数据、重复记录、不一致数据、图形图像的清理等，以及清理空间观测数据的误差的广义线性概括模型、粗差的稳健估计、检测方法和可靠性分析方法。空间数据挖掘的难点空间数据挖掘的难点空间数据挖掘面对的首先是空间观测数据，然后才形成概念；先有连续的数据量，然后才有离散的符号量. 对同样的一堆数据，同一个人从不同的角度看，有不同的结果；不同的人看，也可能有不同的结果。可谓仁者见仁，智者见智。若由空间观测数据不能完全精确地认识数据母体的规律时，则观测数据对应的样本对母体而言非完备，是一个病态反演问题。从空间数据库可发现的知识类型从空间数据库可发现的知识类型普遍的几何知识空间分布规律空间关联规则空间分类/聚类规则空间特征规则空间区分规则空间演变规则面向对象的知识空间数据挖掘和知识发现的方法空间数据挖掘和知识发现的方法统计方法和空间统计学归纳方法聚类方法空间分析方法探测性的数据分析 Rough集方法数据场和云模型图像分析和模式识别、神经网络、证据理论、遗传算法、数学形态学...3.数据场和云模型及其应用3.数据场和云模型及其应用数据辐射数据场的概念和性质条件数据场的场强函数数据场的势数据场的影响因素数据场数据辐射数据辐射数据辐射就是观测数据能量从样本空间散布发射到整个母体空间，而被数域空间中的周围点所分享的过程。数据通过数据辐射将其数据能量从样本空间辐射到整个母体空间，从离散的观测点辐射到连续面上的任意一点，以显示自己在空间数据挖掘和知识发现任务中的存在和作用。数据辐射把每个空间数据在空间数据挖掘中的不同作用抽象为数据能量，使空间数据挖掘变得具体化。数据辐射示意图数据辐射示意图数据场的概念和性质条件数据场的概念和性质条件数据场是在数据辐射中接受数据能量并被数据辐射所覆盖的空间。是对数据辐射过程的数学抽象和假定数据场的存在，必须满足独立性、就近性、遍历性、叠加性、衰减性和各向同性等条件。空间数据的场强函数和势函数空间数据的场强函数和势函数把空间数据辐射看作广义核辐射作用，考虑正态分布的普适性及其概率密度分布函数，最小二乘配置的协方差函数，以及数据辐射的距离衰减快速性，可得到如下的空间数据的场强分布函数及其势函数。其中，p为数据场强（即数据辐射到某点的数据能量大小），r为数据x的辐射半径（即母体空间中某点和数据x的距离），CT(x) 是数据辐射亮度（即数据x对概念T的确定度），k为数据辐射因子（即顺应场合而定的数据场常数）；P为数据场的势（即某点所接受的全部数据辐射过来的数据场的能量强度之和），N为数据的数量，ri为该点和数据xi的距离，CT(xi)是数据xi的辐射亮度，数据场的影响因素数据场的影响因素数据辐射半径数据辐射亮度数据辐射因子数据数量势间距笛卡尔网格点密度两个或两个以上因素的综合作用势间距和笛卡尔网格点密度势间距和笛卡尔网格点密度空间数据的势场势间距对势场的影响笛卡尔网格点密度对势场的影响返回云模型云模型空间数据的不确定性云模型基础云滴的概率密度辐射估计云的辐射数字特征和期望函数云的辐射拟合算法云模型基础云模型基础云模型是用自然语言值表示的某个定性概念与其定量表示的数据之间的不确定性转换模型，集成了随机性和模糊性云模型的可视化方法：带有灰度的点，带有尺度的圈或球，N+1维云模型的种类：正态云、衍生云、函数云虚拟云：浮动云、综合云、分解云、几何云云模型的三个数字特征：期望值Ex，熵En，超熵He 期望值Ex: 是概念在论域中的中心值，表示最能代表这个定性概念的值，它100%地属于这个定性概念；熵En: 是定性概念模糊度的度量，反映了论域中可以被这个概念所接受的数值范围，体现了定性概念亦此亦彼性的裕度。超熵He:可谓熵的熵，反映了云滴的离散程度。云发生器：正向云、逆向云、X条件云、Y条件云、云推理云变换：峰值法云变换，原子云模型集的归整云数字特征的双重性云数字特征的双重性期望值: 反映了云滴群的重心位置。熵反映定性概念模糊性，以及云滴出现的随机性。熵揭示了模糊性和随机性的关联性超熵是熵的不确定度量，即熵的熵，反映云滴的凝聚度。云发生器示意云发生器示意云发生器算法云发生器算法正向云发生器输入: 表示定性概念的期望值 Ex 、熵 En 和超熵 He，云滴数 N；输出: N个云滴在数域空间的定量位置及每个云滴代表该概念的确定度。逆向云发生器输入: N个云滴在数域的精确位置及每个云滴代表该概念的确定度；输出: 这N个云滴表示的定性概念的期望值 Ex 、熵 En 和超熵 He；两个算法：均值法、拟合法二维正态云模型二维正态云模型多种形态的云多种形态的云虚云虚云浮动云综合云分解云几何云浮动云浮动云二维浮动云二维浮动云综合云综合云二维综合云二维综合云几何云几何云最小二乘法生成的几何云的期望曲线云变换云变换在一定的误差容限内，将任意函数(如直方图)分解为基云的叠加，用于从数据分布中生成概念。一种启发式云变换算法峰值引导迭代搜索云变换云变换原始直方图(红实线)、重建直方图(蓝虚线)及残差(绿点线)原始直方图(红实线)分解为对称梯形云(蓝虚线)基于云理论的不确定性推理基于云理论的不确定性推理单条件单规则发生器 If A, then B.一个特定的输入值经过单条件单规则发生器输出的云团基于云理论的不确定性推理基于云理论的不确定性推理多条件多规则发生器(以二条件五规则为例)基于云理论的不确定性推理基于云理论的不确定性推理多规则推理中同时激活两条规则的情况多规则推理中同时激活三条规则的情况基于云理论的不确定性推理基于云理论的不确定性推理单条件五规则推理输入输出响应图基于云理论的不确定性推理基于云理论的不确定性推理二维规则组推理输入输出响应曲面云理论在空间数据发掘中的应用云理论在空间数据发掘中的应用基于云模型的空间概念表达基于云模型的知识表达基于云理论的概念生成方法云模型与Apriori算法相结合从空间数据库发现关联知识基于云模型的空间概念表达基于云模型的空间概念表达基于云理论的概念生成方法基于云理论的概念生成方法基于黄金分割率生成的云模型和概念层次结构云模型-Apriori算法发现关联知识云模型-Apriori算法发现关联知识Apriori算法基于云模型的属性泛化 2D clouds : location 1D clouds : elevation, road density, distance to the sea, average income 最小支持率 : 6% 最小置信度 : 75% 多层次关联规则“位置” 二维云模型的数字特征值“位置” 二维云模型的数字特征值泛化的属性表泛化的属性表“平均收入”的关联规则“平均收入”的关联规则Rule 1 : If location is “southeast”, road density is “high”, and distance to the sea is “close”, then average income is “high”. Rule 2 : If location is “north by east”, road density is “high”, and distance to the sea is “close”, then average income is “high” Rule 5 : If location is “northwest”, road density is “low”, and distance to the sea is “far”, then average income is “low’. Rule 6 : If location is “central”, road density is “high”, and distance to the sea is “middle”, then average income is “middle”.“平均收入”的概化关联规则“平均收入”的概化关联规则Rule 5 : If location is “west”, road density is “low”, and distance to the sea is “far”, then average income is “low’. Rule 6 : If location is “south and central China”, road density is “high”, and distance to the sea is “middle”, then average income is “middle”.“路网密度”的关联规则“路网密度”的关联规则Rule 1: If elevation is “low”, then road density is “high”. Rule 2: If elevation is “high”, then road density is “low”. Rule 3: If elevation is “middle” and location is “northwest”, then road density is “low”. Rule 4: If elevation is “middle” and location is “north”, then road density is “middle”.云滴的概率密度辐射估计云滴的概率密度辐射估计其中，CT(x) 称为辐射云滴在基础论域L中对概念T的一个辐射亮度函数。如设给定的x =  (l-li) 的一个形式为x = (l-li) / d，d> 0，叫做辐射单元。云的辐射数字特征和期望函数云的辐射数字特征和期望函数云的辐射数字特征云的辐射期望函数云的辐射拟合算法云的辐射拟合算法输入：每个云滴在数域空间的坐标值li及其代表概念的确定度CT(li)；输出：概念的Ex、En和He，云滴数量N；（1）由已知云滴用云期望曲线拟合得到Ex的估计值；（2）将CT(l) > 0.999的点剔除，剩下m个云滴；（3）由计算得到En(li)；（4）根据解得En的估计值；（5）根据求出He的估计值。针对逆向云发生器基于均值算法、拟合算法、辐射拟合算法的云的数字特征和云图基于均值算法、拟合算法、辐射拟合算法的云的数字特征和云图三组不同的云数字特征基于均值算法、拟合算法、辐射拟合算法的云图返回4. Rough集理论及其应用4. Rough集理论及其应用Rough集的基本概念属性值系统属性的依赖属性的简化与属性的核属性的重要性决策表分析与简化基于Rough集的空间实体 Rough 空间拓扑关系基于粗集理论的遥感影像分类云模型与Rough集方法相结合Rough集的基本概念Rough集的基本概念设U是非空的论域； R是一个等价关系，或称不可辨别关系； A=(U, R)，称为一个近似空间； U/R表示R中所有等价类的集合，或称U的分类； [x]R表示R中包含x的等价类； R中的等价类称为基本集；基本集的有限并集称为可定义集。Rough集的基本概念Rough集的基本概念设X是U的子集，则X可用可定义集的术语从A中定义： A中包含在X中的最大可定义集称为A中X的下近似 A中包含X的最小可定义集称为A中X的上近似下近似和上近似还可以表达为：Rough集的基本概念Rough集的基本概念X的边界: X的正区域: X的反区域: 一个用下近似和上近似定义的子集称为Rough集曲线所包含部分为集合 X，由矩形单元构成二维近似空间属性值系统属性值系统一个属性值系统用一个四元组S＝(U, A, V, f) 任一属性子集BA定义了一个等价关系（不可辨别关系），表示为IND(B)，定义为属性值系统属性值系统IND(B)中的所有等价类的集合表示为U/IND(B)。对于任一XU，BA，赋予两个集合：分别称为X的B-下近似和B-上近似。称为X的B-边界属性的依赖属性的依赖设S＝(U, A, V, f)为一个属性值系统，，C和D分别称为条件属性和决策属性，BC，定义D的B-正区域定义属性集D与B的依赖程度属性的简化与属性的核属性的简化与属性的核设B为属性集，属性aB，如果IND(B－a)＝IND(B)，则a在B中是可省去的。子集BB是B的一个简化，当且仅当B中的属性都是不可省去的且IND(B)＝IND(B)。属性集的简化是属性集的一个子集，它对论域中对象的分类能力与原始的属性集相同。属性的重要性属性的重要性属性集相对于由属性C引起的分类的重要性测度可表示为：测度值越大，的重要性越高决策表简化决策表简化计算条件属性的简化，即从决策表中删去一些列; 删去重复的行; 删去多余的属性值; 生成最小决策规则。基于Rough集的空间实体基于Rough集的空间实体 Rough 空间拓扑关系Rough 空间拓扑关系基于Rough集的河流专题影像提取基于Rough集的河流专题影像提取null 遥感分类问题的近似集合示例二者之间为边界区域RBN(X)，是火山体的不确定部分。红色区域:所有可以确切地划分为火山体的部分，是火山体的下近似集合R_(X)；白色区域:所有可能属于这块火山体的部分，是火山体的上近似集合R－(X)；null (a) (R:B4, G:B3, B:B2) (b) (R:B2, G:B1, B: (B1+B2+B3)/3 ) 基于粗集理论的遥感影像分类试验原影像(SPOT 5)null基于粗集理论的遥感影像分类试验影像分类结果 null 粗糙分类结果(总体精度=74.8%，Kappa=82.1%) 基于粗集理论的遥感影像分类试验 null 基于粗神经网络的遥感影像分类模型粗集理论：模拟人类的抽象逻辑思维，基于不可分辨性的思想和知识简化的方法，从数据中推理逻辑规则作为知识系统的输入模型；人工神经网络：模拟人类的形象直觉思维，利用非线性映射的思想，用神经网络本身结构表达输入与输出关联知识的隐函数编码。粗集与神经网络结合null 基于粗神经网络的遥感影像分类模型基于粗集的多层感知器模型X1X2XnR1R2R…R…RpC1C2Cmnull基于粗集的多层感知器分类结果(总体精度=91.5%，Kappa=89.5%) 基于粗集的多层感知器模型分类试验云模型与Rough集方法相结合云模型与Rough集方法相结合首先，将基于云模型的定量到定性的转换方法作为Rough集方法的预处理手段; 其次，应用Rough集方法发现分类决策知识; 最后，用基于云模型的不确定性推理方法应用这些知识，从而表达和传递知识和推理的不确定性。返回聚类挖掘聚类挖掘数据场的自然聚类 “数据场——云”聚类模糊综合聚类数学形态学聚类数据场的自然聚类数据场的自然聚类“数据场——云”聚类“数据场——云”聚类提出了数据场——云聚类算法，给出了基于数据辐射的数据场聚类算法和消除势心的递推算法。输入：数据集{x1，x2，…，xn}，输出：数据聚类结果 [1] 将数据集上的每个数据点看作云模型的一个云滴，数据点的各个数据特征看作云滴多维的坐标值。 [2] 将整个数据空间看做受云滴对应的数据辐射的势场，按笛卡尔网格划分势场，把网格点作为聚类中心的候选集。 [3] 根据势函数计算各网格点的数据场强势值。 [4] 通过顺序地削除势心选择聚类中心，直至聚类完毕。“数据场—云”聚类算例：数据集“数据场—云”聚类算例：数据集该聚类算法不同于常规聚类算法，其聚类观是在发现状态空间的不同认知层次上的聚类，聚类结果反映了所有样本观测数据的贡献。基于数据辐射的模糊综合聚类的基本思想基于数据辐射的模糊综合聚类的基本思想模糊数学的分类缺陷：模糊综合评判在根据最大隶属度对综合评判矩阵确定定级结果时，难以区分0.70和0.69之间的等级类别。模糊聚类分析凭经验选取分类阈值λ，分类不唯一。提出基础：模糊集合把经典集合的值域从{0，1}扩充为[0，1]，反映了样本数据从非隶属概念母体到完全隶属概念母体的过渡逼近趋势。逆向而言，这种趋势则是隶属值1向隶属值0的逐步辐射过程，和数据辐射所反映的样本从非完备到完备的过渡逼近趋势基本一致。模糊综合聚类：就是遵循数据辐射原理，顾及每个样本数据从非完备到完备的过渡逼近趋势及其数据能量辐射，基于模糊集合作综合评判，根据扩张原则把统计概率知识融入模糊数学，依靠分解定理，在模糊聚类置信水平下予以极大剩余聚类。聚类置信水平指两个或两个以上的空间实体属于同一类的模糊概率。模糊综合聚类算例：土地评价模糊综合聚类算例：土地评价聚类过程聚类过程结果和讨论结果和讨论问题 [1]把处于市中心、商服繁华、基础设施完备、人口密度很大的I级地龙宫大酒家（土地单元14）错定为II级地； [2]把被邕江阻隔于市中心另一岸的II级地区检察院（土地单元9）错定为I级地； [3]把位于郊区、各项设施都较差的IV级地白沙造纸厂（土地单元20 ）错定为II级地。原因：模糊综合评判据最大隶属度原则定级时，若次最大隶属度与最大隶属度相差不大，则丢失了河流道路阻隔、土地区位波及性等大量土地定级信息。由B20×4知，土地单元20 (白沙造纸厂) 对II级隶属度为0.622，对IV级为0.604，这是模糊综合评判本身所不能克服的基于数据辐射的模糊综合聚类土地定级基于最大隶属度原则的模糊综合评判土地定级土地单元的级别唯一，同时兼顾了河流阻隔等因素。明确给出1～20土地单元的等级，体现了南宁市土地级别由市中心到边缘、从高到低逐渐过渡，高级别集中在市中心繁华地段，低级别分布在市区边缘，整个城市的土地级别由市中心商业繁华区向周围呈辐射状，反映出土地质量与土地区位的对应关系。因铁道和邕江阻隔，使二者两侧的繁华程度有明显差别，如龙宫大酒家（土地单元14）与区检察院（土地单元9）。因交通条件是影响土地质量的重要因素，因此主干道两侧呈级差递减趋势，如南宁火车站（土地单元1）和白沙造纸厂（土地单元20 ）等。聚类置信水平事先确定，只与要求的聚类可靠程度一有关，与模糊等价矩阵无关，聚类置信水平越大，聚类结果就越可靠。返回数学形态学聚类数学形态学聚类通过闭运算将数据聚成类采用启发式方法自动确定最优聚类数在获得聚类结果的同时发现例外值和空洞数学形态学聚类矢量算法数学形态学聚类数学形态学聚类空间数据库例子圆形结构元数学形态学聚类数学形态学聚类聚类状态图数学形态学聚类数学形态学聚类聚类状态一阶导数图数学形态学聚类数学形态学聚类聚类状态二阶导数图数学形态学聚类数学形态学聚类聚类结果数学形态学聚类数学形态学聚类边界空洞返回6.长江三峡宝塔滑坡监测数据挖掘6.长江三峡宝塔滑坡监测数据挖掘宝塔滑坡形变监测监测数据挖掘视角滑坡监测数据的利用困难滑坡位移形变的泛概念树和监测数据辐射势场滑坡监测数据的微观视角挖掘滑坡监测数据的中观视角挖掘滑坡监测数据的宏观视角挖掘宝塔滑坡监测点聚类挖掘对比讨论发现的知识小结知识检验宝塔滑坡形变监测宝塔滑坡形变监测长江三峡库区滑坡的稳态如何，在长江三峡水利工程及三峡库区的生命财产安全中占有不可取代的地位。宝塔滑坡位于重庆市云阳县城东约1公里处的长江左岸，体积估计1.04亿立方米，属于特大型滑坡。宝塔滑坡形变监测系统建成于1996年12月，定期监测滑坡体内监测点的三维位移变化，dx, dy, dh，首期观测时期为1997年1月，至2000年9月共计观测17期，总数据量1G字节。监测数据挖掘视角及其泛层次关系监测数据挖掘视角及其泛层次关系滑坡监测数据的利用困难（1）滑坡监测数据的利用困难（1）滑坡监测关心的是，滑坡监测的好不好？滑坡的变形水平怎样？根据监测滑坡会否发生？等问题。常用自然语言发问，回答也当然最好是自然语言，可是，监测数据是定量的，自然语言是定性的，还有随机性和模糊性，怎样把定量的监测数据和定性的语言、形象的图形结合起来，并实现相互转换呢？怎样把每个监测点的数据作用映射到整个滑坡体上？怎样反映每个监测数据对滑坡监测结论的不同作用呢？滑坡灾害涉及的学科背景很多，不可能要求所有的决策者都对每个相关学科了如执掌。那么，如何解决这个“决策急需而学科背景不足”的矛盾呢？采用云模型和数据场。滑坡监测数据的利用困难（2）滑坡监测数据的利用困难（2）滑坡监测的结论，可能有不同的要求和应用层次。高层的决策者是宏观的，把握方向，可能只是一句话，一幅图；中层的决策者是中观的，带有一定的技术性，可能对滑坡每个断面的变形感兴趣，内容要求可能较多；底层的决策者，可能是技术型的，就要具体到每个监测点。那么，怎样从滑坡监测数据中发现这些不同层次的监测结论呢？发现后，又如何表达出来呢？采用空间数据挖掘和知识发现解决。决策是从理论到实践，对应一个自知识而数据的决策层次，而空间数据挖掘和知识发现是从实践到理论，对应一个自数据而知识的认知层次。基于多个不同的视角，空间数据挖掘和知识发现可把每个定量的精确监测数据的作用，在不同的认识层次上浓缩到定性的决策思维中。滑坡位移形变的泛概念树滑坡位移形变的泛概念树X方向的监测数据辐射势场（k=3） X方向的监测数据辐射势场（k=3） Y方向的监测数据辐射势场（k=3） Y方向的监测数据辐射势场（k=3） H方向的监测数据辐射势场（k=3）H方向的监测数据辐射势场（k=3）来自监测数据辐射势场的知识来自监测数据辐射势场的知识从X、Y、H方向的三辐监测数据辐射势场图可以很直观地看到， X方向位移dx的例外是监测点BT21（向南的负位移，相对于其他监测点非常明显） Y方向位移dy的例外是BT14和BT21（BT14为向北的正位移，BT21为向南的负位移，相对于其他监测点明显，且BT21的例外幅度大于BT14） H方向位移dh的例外是BT31（向下的负位移，相对于其他监测点不是十分明显） dx的例外幅度最大，而dh的例外幅度最小，几乎不能称之为例外。微观视角概率密度辐射估计（X方向）微观视角概率密度辐射估计（X方向）断面一的监测点在不同日期于X方向的位移概率分布密度断面二的监测点在不同日期于X方向的位移概率分布密度断面三的监测点在不同日期于X方向的位移概率分布密度微观视角的dx数字特征及其定性诠释微观视角的dx数字特征及其定性诠释宝塔滑坡监测数据微观知识宝塔滑坡监测数据微观知识宝塔滑坡监测数据微观知识解释宝塔滑坡监测数据微观知识解释挖掘视角“同点异时同向”发现的是每个监测点的时间序列知识。 [1]南北方向（X方向），位移幅度非常大、位移之间离散程度非常高、监测水平也非常不稳定的，是断面二的监测点BT21；位移幅度较小、位移之间的离散程度较低、监测水平也较稳定的，是断面一的监测点BT14；监测点之间位移变化的范围为：断面二 > 断面三 > 断面一。[2] 东西方向（Y方向），向西位移幅度大、位移之间离散程度低、监测水平也较不稳定的，是断面二的监测点BT21；向西位移幅度较小、位移之间离散程度较低、监测水平也较稳定的，是断面三的监测点BT33。[3] 垂直方向（H方向），向下位移幅度大、位移之间离散度低、监测水平也稳定的，是断面三的监测点BT31；向下位移幅度较小、位移之间离散度低、监测水平也较稳定的，是断面一的监测点BT14。总体上，每个监测点在不同监测日期的形变位移，南北方向一直向南（长江方向）移动、垂直方向一直向下沉降，东西方向的位移没有一致性，东西波动，而且，南北方向的位移在总体上远大于东西方向、垂直方向），滑坡主要向长江方向移动，所有监测点的位移监测水平基本相似，而且在东西方向和垂直方向位移变化的范围也基本相似。针对滑坡断面的中观视角概率密度辐射估计针对滑坡断面的中观视角概率密度辐射估计针对滑坡断面的中观视角的数字特征及其定性诠释针对滑坡断面的中观视角的数字特征及其定性诠释宝塔滑坡监测数据中观知识宝塔滑坡监测数据中观知识宝塔滑坡监测数据中观知识解释宝塔滑坡监测数据中观知识解释三个断面的所有监测点都基本发生了大小不一的位移。它们的位移幅度、位移离散度和监测水平的规律都是：X方向 > H方向 > Y方向，而且在H方向和Y方向上表现为：断面二 > 断面一 > 断面三。其中，断面二的监测点BT21在X方向和Y方向的位移幅度、位移离散度和监测水平方面都居首位。在整体上，滑坡体的断面一、断面二和断面三都在三个方向有偏向长江的一定位移量，且滑坡体的后缘明显较前缘变化量大，证明该滑坡体为压推型滑坡。宏观视角挖掘宏观视角挖掘宏观视角挖掘是针对整个滑坡体的异点同时同向的视角挖掘（视角五）重点表现所有监测点在一段时期内，于给定位移方向的滑坡位移水平及其监测水平的可靠性。在数域空间中，异点异时同向的视角的结果，表现为一个由多个云滴组成的云团，表示滑坡体在给定位移方向上对概念“滑坡稳定”的总体确定水平。在发现状态空间中，异点异时同向的视角面对的是，在给定位移方向上、具有不同时期的位移监测属性的、监测点对象构成的知识模板方向。当以此视角观察滑坡体的形变监测数据时，通过空间数据挖掘和知识发现获得的，是滑坡体在给定方向上、于不同粒度层次的知识模板的共性知识。针对整个滑坡体的宏观视角概率密度辐射估计、数字特征及其定性诠释针对整个滑坡体的宏观视角概率密度辐射估计、数字特征及其定性诠释宝塔滑坡监测数据宏观规则知识宝塔滑坡监测数据宏观规则知识宝塔滑坡监测数据宏观知识解释宝塔滑坡监测数据宏观知识解释生成的滑坡体整体位移形变云图，其表达的空间知识粒度在发现状态空间中沿知识模板的方向得到升华，可以归结为一句话 “宝塔滑坡在监测期内发生了向南微偏西（长江方向）的移动，并伴随少量的向下沉降。”宝塔滑坡监测数据宏观例外知识宝塔滑坡监测数据宏观例外知识宝塔滑坡体的最大例外是监测点BT21在X方向的负位移，即向长江方向移动。虽然BT14是正位移中的最大例外，即在Y方向向北的正位移，但是它的绝对位移在整个宝塔滑坡的所有监测数据中仍然较小。宝塔滑坡监测点聚类挖掘宝塔滑坡监测点聚类挖掘算法：“数据场—云”聚类目的：求取监测点的自然拓扑聚类谱系图聚类知识结果及其解释聚类知识结果及其解释在认知层次1（Level1）上，监测点相互独立，没有聚类。在认知层次2（Level2）上，监测点BT13、BT23、BT24、BT32、BT34自动聚集为一类，记为A类；监测点BT11、BT12、BT22、BT31、BT33自动聚集为另一类，记为B类；监测点BT14独列一类；监测点BT21独列一类；它们分别表示不同的滑坡形变位移水平。在认知层次3（Level3）上，A类和B类又自动聚集为新的一类，说明宝塔滑坡的大部分监测点的形变位移水平具有相似性；监测点BT14、监测点BT21仍然分别独立成类，是宝塔滑坡的形变位移的例外。在认知层次4（Level4）上，A类和B类聚集的新类，和监测点BT14聚集为新类，说明小例外个性知识在较高的认知层次上被融入共性知识之中；但监测点BT21仍然独立成类，是较大的例外个性知识，可能对宝塔滑坡的稳定性监测具有重要意义。在认知层次5（Level5）上，监测点BT21的“例外”作用被淹没在共性知识中，宝塔滑坡的所有监测点共同表达一个整体概念，即宝塔滑坡在监测时期内发生了大小不一的形变位移。可见，从认知层次1（Level1）逐步上升到认知层次5，是求同；而从认知层次5（Level1）逐步下降到认知层次1，则是求异。这个认知过程，再次印证了空间数据挖掘和知识发现的“规则+例外”机理。当然，如果剔除例外的监测点BT14、监测点BT21，那么求同聚类或求异细化的过程就会简化三个认知层次。但是，剔除例外并非最佳的选择，使挖掘得到的空间知识保持“规则+例外”的形态，往往是实际应用的真正需要。 [1] 等势线显露离群点 [2] 剔除离群点后的新聚类 [3] 含离群点的自然聚类谱图 [4] 剔除离群点后的新自然聚类谱图宝塔滑坡监测数据宏观知识宝塔滑坡监测数据宏观知识把从宝塔滑坡监测数据中挖掘得到的结论归结在一起，可以使空间知识的粒度在发现状态空间中沿着认知层次（或知识模板）的方向再次升华 “宝塔滑坡在监测期内发生了向南微偏西（长江方向）的移动，并伴随少量的向下沉降，且后缘较前缘位移大，其监测点 BT21位移表现例外。” 这是对迄今为止所有宝塔滑坡形变监测数据的较为全面的总结，也是一句浓缩量极大的用概念语言描述的空间知识，与人们的思维非常接近，可以直接用于决策。其中，监测点 BT21位移表现例外，可以解释为位于该压推型滑坡的监测点 BT21附近可能发生小范围的滑坡。这条“规则+例外”的宝塔滑坡空间知识，是云模型和数据场在发现状态空间共同作用的结果。宝塔滑坡监测数据挖掘机理宝塔滑坡监测数据挖掘机理首先，把滑坡监测数据的能量在整个滑坡体辐射，根据数据辐射估算监测数据的概率分布密度，并据此得到云模型的三个辐射数字特征；其次，根据滑坡监测的特点获得数字特征的定性诠释概念，在遵循原始监测数据整体水平的前提下，利用正向云发生器得到定性概念的可视化云图；最后，利用数据场得到滑坡位移形变的例外，进而得到粒度较大的“规则+例外”型的滑坡监测空间知识返回方法讨论方法讨论空间数据挖掘和知识发现得到的滑坡监测知识，信息量丰富、贴切和全面，非常接近于人们的思维和滑坡体运动的真实水平刻画，利于得出较为正确的智能化决策结果。没有空间数据挖掘和知识发现，将可能得不到这么丰富的不同层次空间知识，满足不了不同的决策要求。在接近人类智能的有效性和正确性方面，空间数据挖掘和知识发现明显优于确定集合的发生与否（结果为没有灵性的二值逻辑，反应不出任何其他的信息）、一般的概率统计(只给出一个概率)、模糊学的发生隶属度（仅有一个模糊隶属度）、粗集的上下近似（留下一个模棱两可的边界）、专家群体打分（只有一个专家的主观经验均值）、或一般的精度评定法（只给出一个生硬的数值，反应不出任何其他的信息，如中误差）等方法。宝塔滑坡监测数据挖掘发现的知识小结（一）宝塔滑坡监测数据挖掘发现的知识小结（一）不同断面的知识。滑坡体在南北方向上向南移动的幅度最大，在垂直方向下沉的幅度次之，在东西方向上向西移动的幅度最小，滑坡体的位移离散度和监测水平与此相似。同时，在三个方向上，断面的位移变化的大小顺序为：断面二 > 断面三 > 断面一，断面二的位移水平、形变离散度和监测水平仍然分别最大、最高和最不稳定。在整体上，滑坡体的断面一、断面二和断面三都在三个方向有偏向长江的一定位移量，且滑坡体的后缘明显较前缘变化量大，证明该滑坡体为压推型滑坡。滑坡的三个方向知识。三个方向的位移形变数据的概率密度最大值，都集中在“0mm”附近。相对而言，南北方向的位移形变幅度最大，监测点向同一方向（长江方向）移动变形显著；东西方向次之，监测点变形左右波动；垂直方向最小，监测点基本是一直向下沉降。滑坡整体知识。“宝塔滑坡在监测期内发生了向南微偏西（长江方向）的移动，并伴随少量的向下沉降。”宝塔滑坡监测数据挖掘发现的知识小结（二）宝塔滑坡监测数据挖掘发现的知识小结（二）基于数据场的例外挖掘滑坡在三个不同方向上的例外。在南北方向、东西方向、垂直方向的位移dx、dy、dh的例外分别是监测点BT21（向南的负位移，相对于其他监测点非常明显）、BT14和BT21（BT14为向北的正位移，BT21为向南的负位移，相对于其他监测点明显，且BT21的例外幅度大于BT14）、BT31（向下的负位移，相对于其他监测点不是十分明显）。其中，dx的例外幅度最大。滑坡的最大例外。监测点BT21在南北方向上向长江方向移动。自然拓扑聚类谱系知识。在认知层次1上，监测点相互独立，没有聚类。在认知层次2上，除了监测点BT14、BT21分别独立，其他监测点开始聚为不同的类。在认知层次3上，大部分监测点自动聚为一类，监测点BT14、BT21仍然分别独立。在认知层次4上，监测点BT14被聚入大类，但BT21仍然独立。在认知层次5上，全部监测点聚为一类可见。这说明，宝塔滑坡的大部分监测点的形变位移水平具有相似性，“小例外”知识在较低的认知层次上就被融入共性知识，较大的例外个性知识必须在较高的认知层次才能被同化，可能对滑坡稳定性监测具有重要意义。最后聚为一类表明，宝塔滑坡的所有监测点数据共同表达了一个整体概念，即宝塔滑坡在监测时期内发生了大小不一的形变位移。宝塔滑坡监测数据挖掘发现的知识小结（三）宝塔滑坡监测数据挖掘发现的知识小结（三）规则+例外：“宝塔滑坡在监测期内发生了向南微偏西（长江方向）的移动，并伴随少量的向下沉降，且后缘较前缘位移大，其监测点 BT21位移表现例外。” 这条知识是在监测数据的基础上，经过不同层次的挖掘而获得的。可以解释为，宝塔滑坡的大部分监测点的形变位移水平相似，主要向长江方向移动，是压推型滑坡，监测点 BT21位移表现例外的原因是监测点 BT21附近滑坡变形最大，是小范围滑坡灾害的高发地。同时，宝塔滑坡的岩层走向是东西走向，倾角上陡下缓呈椅状。这种滑坡特性和上述的知识十分吻合，说明包括滑坡体的物质性质、地质构造和坡度在内的内力作用，是滑坡灾害的主要成因。 “规则+例外”的宝塔滑坡空间知识，是云模型和数据场在发现状态空间共同作用的结果，具有一定的数据挖掘机理。知识检验：长江水利委员会第十一工程勘测院对本文研究成果的肯定知识检验：长江水利委员会第十一工程勘测院对本文研究成果的肯定返回7.基于归纳法的空间数据挖掘7.基于归纳法的空间数据挖掘面向属性的归纳AOI和决策树方法ID3系列最大方差法连续数据离散化方法MaxVar 空间数据库概念层次结构及其生成方法一种探测性的归纳学习方法EIL 基于归纳学习的遥感图像分类方法归纳学习用于银行经营收益分析及选址评价最大方差法连续数据离散化最大方差法连续数据离散化非监督离散化以组间方差最大为最优化指标构成多变量极值问题采用最优化方法中的因素交替法求解直接从数据本身求解或从数据直方图求解优于常用的等间隔、等频率、以及k-均值聚类等方法最大方差法连续数据离散化最大方差法连续数据离散化世界各国家和地区“面积”离散化结果最大方差法连续数据离散化最大方差法连续数据离散化世界各国家和地区“人口增长率”离散化结果空间概念层次结构生成方法空间概念层次结构生成方法基于云模型的一系列概念层次结构生成方法云变换、基于黄金分割率的方法、虚云最大方差法离散化与云模型相结合根据空间数据编码体系生成根据面向对象的类结构生成一种探测性的归纳学习方法EIL一种探测性的归纳学习方法EIL探测性数据分析(Exploratory Data Analysis) 面向属性的归纳(Attribute Oriented Induction) Rough集方法探测性归纳学习EIL (Exploratory Inductive Learning)EIL方法用于农业统计数据挖掘EIL方法用于农业统计数据挖掘EIL方法用于农业统计数据挖掘EIL方法用于农业统计数据挖掘EIL方法用于农业统计数据挖掘EIL方法用于农业统计数据挖掘EIL方法用于农业统计数据挖掘EIL方法用于农业统计数据挖掘null农业统计信息属性表EIL方法用于农业统计数据挖掘EIL方法用于农业统计数据挖掘null泛化的农业信息属性表null去掉多余属性后的简化决策表决策表最终简化结果决策表最终简化结果基于归纳学习的遥感图像分类方法基于归纳学习的遥感图像分类方法空间数据库归纳学习流程图null基于归纳学习的遥感图像分类流程图 null土地利用分类试验SPOT图像 null仅用贝叶斯分类法的图像分类结果贝叶斯分类结果的混淆矩阵贝叶斯分类结果的混淆矩阵归纳学习归纳学习C5.0学习算法 (See5 1.10) 细分水域(河流、湖泊、水库、坑塘)和阴影多边形粒度; 属性有面积、地理位置、密集度、所处高程带; 10条规则，学习精度98.8% 提高旱地、果园和林地的分类精度像元粒度; 属性有图像坐标、高程带、属于旱地的概率、属于果园的概率、属于林地的概率; 63条规则，学习精度97.9%归纳学习得到的水域细分规则归纳学习得到的水域细分规则null归纳学习与贝叶斯分类相结合的图像分类结果归纳学习与贝叶斯分类相结合分类的混淆矩阵归纳学习与贝叶斯分类相结合分类的混淆矩阵归纳学习用于银行经营收益分析及选址评价归纳学习用于银行经营收益分析及选址评价亚特兰大市银行、道路网及普查地段图亚特兰大市银行、道路网及普查地段图银行经营收益与有关地理因素的关系规则银行经营收益与有关地理因素的关系规则根据规则的例外推测的经营管理“好”和“差”的银行根据规则的例外推测的经营管理“好”和“差”的银行新银行选址评价图新银行选址评价图返回8.总结与展望8.总结与展望SDMKD的理论与方法方面递增式数据发掘栅格矢量一体化数据发掘多分辨率及多层次数据发掘并行数据发掘新算法和高效率算法的研究空间数据发掘查询语言知识的可视化表达总结与展望总结与展望SDMKD系统的实现方面多算法的集成 SDMKD系统中的人机交互和可视化技术 SDMKD系统与地理信息系统的集成 SDMKD系统与空间数据仓库的集成 SDMKD系统与空间决策支持系统的集成 SDMKD系统与遥感解译专家系统的集成总结与展望总结与展望遥感图像数据库的数据发掘与知识发现多媒体空间数据库的数据发掘与知识发现 WWW中空间数据的发掘和知识发现 SDMKD技术与空间数据仓库中OLAP技术的结合致谢致谢衷心感激国家自然科学基金委和国家863-13主题的支持！null8.基于空间统计学的自动影像搜索 8.基于空间统计学的自动影像搜索 content-based image retrieval Introduction of semivariogram Semivariogram-based parameter for describing image similarity Case study nullContent-based image retrieval Using visual characteristics of an image, such as texture, color, layout, etc., to retrieve images Among various content based image retrieval techniques, image comparison is often employed to compare standard image and candidate images measurements for image similarity are usually defined as Euclidean distances, they can not completely characterize structural differences between images null A new parameter based on semivariogram to describe image similarity is put forward in our study. This parameter can characterize image structure(texture) better than traditional image similarity measures.Introduction of semivariogramnullIntroduction of semivariogram Originated from the study of structural property of turbulence in 1920’s, semivariogram is one of the most important concept in spatial statistics According to the fact that in spatial domain, the conditions of second-order stationary random process can’t be satisfied Intrinsic random function is proposed in spatial statistics in order to satisfy the random process hypothesis in spatial domainnullAn intrinsic random function is a random function whose increments are second-order stationary. It is characterized by the following two equations (Cressie, 1991; Chile, J.P, et al 1999): nullSemivariogram can represented in graphics by variograph: a graph plotted by semivariogram versus h: nullSill,nugget, and range are the three parameters that describe semivariogram completely. Each have its own characteristics when semivariogram is used in the context of image processing, for instance, nugget reveals noises in an image. (see, for example, Curren, P. et al, 1988, remote sensing of environment). The applications of semivariogram with other spatial statistical models to remotely sensed image processing have been extensively explored, while their uses to close-range photographic image/signal processing are more recent application.nullImages with different structural characteristics will have different semivariograms, therefore, different variographs. This can be shown with the following chart: Variograph of image1Variograph of image2nullSemivariogram-based pa

                    本文档为【李德仁院士_空间数据挖掘和知识发现的理论与方法 (PPTminimizer)】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

李德仁院士_空间数据挖掘和知识发现的理论与方法 (PPTminimizer)

你可能还喜欢