首页 大洋洲地表覆盖分类及精度评价技术研究(可编辑)

大洋洲地表覆盖分类及精度评价技术研究(可编辑)

举报
开通vip

大洋洲地表覆盖分类及精度评价技术研究(可编辑)大洋洲地表覆盖分类及精度评价技术研究(可编辑) 分 类号 :P237授予 学位 单位 代码 :10434 U D C: 密级: 研 究 生 学 号:S2009771山???大? 硕 士 学 位 论 文 大洋洲 地表 覆盖分类 及精度评 价技术 研究 The Research on the Technology of Oceanic Land Cover Classification and Accuracy Assessment研究生 : 孙金萍 学 科 专 业 : 地 图 制图 学与 地 理信 息工 ...

大洋洲地表覆盖分类及精度评价技术研究(可编辑)
大洋洲地 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 覆盖分类及精度评价技术研究(可编辑) 分 类号 :P237授予 学位 单位 代码 :10434 U D C: 密级: 研 究 生 学 号:S2009771山???大? 硕 士 学 位 论 文 大洋洲 地表 覆盖分类 及精度评 价技术 研究 The Research on the Technology of Oceanic Land Cover Classification and Accuracy Assessment研究生 : 孙金萍 学 科 专 业 : 地 图 制图 学与 地 理信 息工 程 研 究 方 向 : 遥 感 应用 与制 图 工程学院 : 信 息 科学 与工 程 学院 燕琴 研究 员指 导 教 师 : 梁勇 教授 2012 年 6 月 1 日论 文 提 交 日 期:2012 年 5 月 9 日 论 文 答 辩 日 期:2012 年 6 月 9 日 学 位 授 予 日 期: 学 科门 类: 工科 答 辩 委 员会主 席 : 刘纪平关于 学位 论文 原创 性和 使 用 授权 的声 明 本人所呈交的学位论文,是在导师指导下,独 立进行科学研究所 取得 的成果 。 对 在论文 研究 期间给 予指导 、 帮助和 做出重 要贡献 的个人 或集 体, 均在文 中明确 说明。 本声 明的法 律责 任由本 人 承担。 本人完全了解山东农业大学有关保留和使用学位论文的规定,同意学 校保留和按要求向国家有关部门或机构送交论文纸质本和电子 版,允许论 文被查阅和借阅。本人授权山东农业大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存 论文和汇编本学位论文, 同时授权中国科学技术信息研究所将本学位论文 收录到 《中国 学位论 文全 文数据 库》 ,并 向社会 公众提 供信息 服务 。 保密论 文在解 密后应 遵守 此规定 。论文作者签名:导 师 签 名:日 期: 目录 中 文摘 要I Abstract..II 1 绪论 1 1.1 研究背景和意 义 1 1.2 国内外研究现状1 1.2.1 地表覆盖分类 技术研 究现状1 1.2.2 分类精度评价 技术研 究现状3 1.3 研究目标和研 究内容. 4 1.4 论文的技术路 线和组 织结构5 1.4.1 技术路线5 1.4.2 组织结构 5 2 决策 支持 分类 和精 度评 价技 术理 论. 7 2.1 决策支持分类 技术7 2.1.1 决策树原理7 2.1.2 常用的决策树 分类算 法10 2.2 混合像元分解 技术 12 2.2.1 端元选择. 12 2.2.2 混合像元分解 模型 14 2.3 分类精度评价 技术 17 2.3.1 抽样 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 . 17 2.3.2 传统的分类精度评 价 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载 19 2.4 本章小结 21 3 研究 区和 数据 处理22 3.1 研究区概况22 3.2 数据采集和预处 理23 3.2.1 ETM+ 数据介绍23 3.2.2 数据预处理24 3.3 本章小结 25 4 基于 C5.0 的分 类技 术研 究. 26 4.1 C5.0 算法概述. 26 4.1.1 Boosting 技术26 4.1.2 交叉验证 27 4.2 基于 C5.0 的分类技术 27 4.2.1 基于 C5.0 的地表覆盖分类 软件 27 4.2.2 分类规则的建立 31 4.2.3 分类实验 37 4.2.4 分类精度评价40 4.3 本章小结 41 5 基于 亚像 元级 的分 类精 度评 价技 术研 究 43 5.1 基于几何顶点 的端元 选取. 44 5.1.1 V-I-S 模型44 5.1.2 基于 MNF 的散 点图端 元提取 45 5.2 全约束条件下的 线性混 合像元 分解技 术. 55 5.3 基于像元分解 的亚像 元级分 类精度 评价56 5.4 本章小结. 58 6 结论 和展 望59 6.1 结论. 59 6.2 展望. 60 7 参 考文 献 61 8 致谢65 9 攻读 学位 期间 发表 论文 情况66山东农业大 学硕士学 位论文 中文摘要 近年来, 全球范 围内极 端性天 气的频 繁出现 , 给世 界各 国带来了 巨大的 影响, 全球 变化及影 响逐渐 成为全 人类关 注的焦 点。 为了有 效地应 对 全球变 化及其 影响, 世 界上有 关国家正 致力于 研究解 决全球 变化所 带来的 一系 列 科学 问 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 , 全 球变化 研究正 掀起一 股 热潮 。在 这股研 究热潮 下 , 我 国启动 了国家 863 项目 “全球地 表覆盖 制图” , 大洋洲 地 表覆盖 分 类及精 度评价 技术的 研究就 是 以 该 项目为 依托 进行的 。 对大洋 洲地表 覆盖分 类 及精度评 价技术 进行研究 的 难 点在于 研究区 域较大, 这 就导致 影 像数据 量大、 地 表覆盖 类型复杂。 传统的 分类方 法如支 持向量机、 最大似 然及 非监督分 类等或 要求对 于每幅 影 像给出特 征空间 或达不 到理想 的精度 都不能 满足该 研究 的要求。 决策树 分类方 法的引 入 解决了这 一难题 。 决策 树分类 方 法具 有擅长 处理大 批 量 数据、 模 型建立 速度快 、 易获 取 较高分类 精度等 优点, 已 经被成 功的应用 到许多 分类研 究中, 这些 研究中 也不乏 对决策 树分类算 法的研 究。C5.0 算法 是决策 树分类 算法发 展 至今较前 沿的算 法,在 C4.5 算法 上所作的 改进使得 C5.0 更有挑战 性。 本文在研究 C5.0 算法的基 础上, 对 其在大 洋洲地 表覆 盖分类中 的应用 进行了 研究, 并以新南 威尔士 州和维 多利亚 州为实 验区介 绍了主 要的 分类流程 , 研究 中对实 验区典 型 影像的分 类结果 与 MLC 分类 结果进 行了对 比,得 到在 使用同一 套训练 样本的 情况下 , C5.0 分类结果具 有更高 的分类 精度和 稳定 性 。 同 时针对 于数据源 ETM+ 存 在大量 混合像 元的问题, 将混合 像元分 解技术 引入分类 精度评 价中, 通过基于 亚像元 级的精 度评价 结 果与传统 的像元 级精度 评价结 果进行 对比, 得出从 亚像 元级角度 使分类 精度评 价结果 更 客观可信 。 关键词 : 决策树 分类 ;C5.0 ; 混合像 元分解 ; 分类 精 度评价 I 大洋洲地表 覆盖分类 及精度评 价技术研 究 The Research on the Technology of Oceanic Land Cover Classification and Accuracy Assessment Abstract In recent years, the frequent appearance of the extreme weather in the global scope brought enormous influence to countries all over the world. Global change and influence gradually become the focus of attention of the mankind. In order to effectively deal with the global change and influence, some countries are dedicated to the study of solutions to global changes brought about by the series of scientific problems, global change research is beginning to be an upsurge. In this hot, China launched the 863 national projects "Higher resolution Global Land Cover Mapping Project", the research on Oceania land cover and accuracy assessment technology is based on the project. The difficulty of the Oceania land cover classification and accuracy assessment technology is that the research is bigger, which leads to large amount of data, complex land cover type. Traditional classification methods such as support vector machine, imum likelihood and non-supervised classification or for large feature space or to give less than ideal accuracy can’t meet the requirements of the studyThe using of decision tree solved this difficulty. Decision tree classification method is flexible, intuitive, clear, strong, operational efficiency higher characteristic, and has been successfully applied to many classification studies, these studies also contains some researches on classification algorithm of decision tree. C5.0 decision tree algorithm is now a classification algorithm at the leading edge of algorithm, for some improvement based on C4.5, C5.0 algorithm has more challengeOn the basis of studying C5.0 algorithm, this paper studied the using process of C5.0 in the Oceania land cover classification, and the New South Wales and Victoria for Pacific area were as the study area, we introduced the using process. At the same time, aimed to the problem that ETM+ images have many mixed pixel, we introduced the spectral unmixing technology into the accuracy assessment, by comparing with traditional accuracy assessment result, we concluded the result of accuracy assessment based on sub-pixel is more Objective and credible Key words :Decision tree classification; C5.0; classification accuracy assessment II 山东农业大 学硕士学 位论文 1 绪论 1.1 研 究 背 景 和意 义 近年来, 全球范 围 内极 端性天 气的频 繁出现 , 给世 界各 国带来了 巨大的 影响, 全球 变化及 影 响逐渐 成为全 人类关 注的焦 点。 为了有 效地应 对全球变 化及其 影响, 世 界上有 关国家正 致力于 研究 解 决全球 变化所 带 来的 一系列 科 学 问题, 全 球变化 研究正 掀起一 股 热潮。 为 了有效 地支撑 我国全 球变化 研究和 地球系 统模 式发展 , 我国启 动国家 重点 863 项目 “ 全球 地 表覆 盖 遥感 制 图及 关 键技 术 研究 ” 。 地 表 覆盖 是 指地 球 表面 各 种物 质 类型 及其自然 属性与 特征的 综合体 。 对于 地表覆 盖分类 的研 究 是建立 在全球 变化研究 中对 地 表覆盖数 据的迫 切需求 上 。 而 对地表 覆盖数 据生产 中 的 分类技术 进行研 究是 地 表覆盖 产 品 生产 的 关键, 同时也 是进行 全球变 化研究 的关键 。 对于大洋 洲地表 覆盖分 类技术 的研究 是建立 在 全球 变化 研究广泛 开展的 背景之 下, 同时也是 应国家 863 项 目 “全 球地表 覆盖遥 感制 图 及关 键技术研 究” 的 子课题 “ 大洋 洲 / 南极洲地表 覆盖数 据产品 研制 ” 的要求 。 在 大洋洲 范围 内开展地 表覆盖 分类的 研究, 具 有以下问 题: (1 ) 研究区范 围 广 、 数据量 大, 分 类方法 的选择 是非常 重要 的, 如何 能够在 满足 精度的前 提下保 证更高 的自动 化 是需 要研究 的一个 重要 问题 ; (2 ) 使用的影 像数据源 ETM+ 影像 为 中低分 辨率影像 , 如何 利用该数 据源获 取较 高的分类 精度也 是需要 面临的 一个挑 战; (3 ) 由于参考 数据较 少, 获得 的分类 结果精度 如何, 选 取的 精度评价 方法是 否能 够客观反 映出分 类的精 度,又 是需要 研究的 一项重 要内 容。 大洋洲地 表覆盖 遥感制 图是全 球地表 覆盖遥 感制图 的一 个分支, 因此研 究一套 适用 于大洋洲 的地表 覆盖分 类技术 是非 常 必要的 , 同时 对大 洋洲地表 覆盖分 类及精 度评价 技 术进行研 究有利 于为地 理国情 监测提 供重要 的技术 支撑 。 1.2 国 内 外 研究 现状 1.2.1 地表 覆盖 分类 技术 研究 现状 遥感影像 的分类 技术一 直是遥 感界研 究的热 点。 从 20 世纪 70 年代起, 随 着第一 颗 1 大洋洲地表 覆盖分类 及精度评 价技术研 究 陆地卫星 发射成 功, 人们 就开始 利用计算 机进行 卫星遥 感图像的 解译研 究。 然而 最初是 利用数字 图像处 理软件 对卫星 数字图 像进行 几何纠 正与 位置配准 , 在此 基础上 采用人 机 交互方式 从遥感 图像中 获取有 关地学 信息。 这种方 法的 实质仍然 是遥感 图 像目 视判读 , 它依赖于 图像解 译人员 的解译 经验与 水平, 在遥感 图像 分类方法 上并没 有新的 突破。 20 世纪 80 年代 ,主要 是利用 称为统 计方法 的遥感 分类 方法,该 类方法 主要包 括 监 督分类和 非监督 分类两 种, 监 督分类 如最小 距离法 , 最 大似然法 , 马氏 距离法 是特别 常 见的方法 ,非监 督分类 中的分 级集群 法、ISODATA 聚 类法、K-Means 法 等方法 。这些 方法对遥 感图像 计算机 分类的 发展起 到了推 动作用 。随着遥 感 技术 的 发展 , 以专 家 知 识和 经 验为 基 础的 光 谱信 息 和其 他 辅 助信 息 的综 合的影像 理解技 术 ?? 基于知 识的专 家系统, 已 成为遥 感应用领 域的一 个研究 重点, 伴 随着这一 发展, 如 人工神 经网络 方法、 模 糊数学 方法、 决策树方 法、 专家 系统方 法等成 为近些年 来的研 究热点 。这些 新方法 的出现 为地表 覆盖 分类方法 提供了 新的思 路。 决策树 方 法因为 具有分 类快速、 易获取较 高的精 度以及 简单理解 等的优 点, 在大 区 域地表覆 盖分类 方法研 究上, 开始作 为一种 新兴的 分类 方法被广 泛 应用 。如 Hanson 等 人利用 NOAA/AVHRR 全球 1 ? ×1 ?数据 进行了 决策 树与最大 似然法 的土地 覆盖分 类 (Hanson M C et al. ,1996 ) ,显示 决策树 法的精 度优于 最大似然 法。 马里 兰大学 制作的 全球 8km 的 土地覆 盖 产品 也采用 了二元 决策树 分类算 法进行监 督分类 (DeFriesR S et al. ,1998 ) 。 在 国 内, 决 策树 也 开 始得 到 应用 , 林丽 群 等采 用 了 辅以 纹 理特 征 的决 策树 方法进行 分类, 探 讨了决 策树在 遥感数据 分类方 面的优 势, 提高了 遥感影 像的分 类精度 (林 丽 群等 ,2006 ) 。 刘 忠阳 等 采用 决 策树 分 类方 法 对 郑州 市 土地 利 用及 植 被覆 盖 现状 进行分类 研究, 使用试 验结果 证明精 度高于 传统的 统计 学分类方 法 (刘 忠阳等 ,2008)。 在决策树 算法的 选择上 ,C5.0 算法在 遥感影 像分类 上的 应用也有 研究。 美国地 质调 查局USGS 在 C5.0 算法 基础上 开发 了 C5.0/See5.0 支持 决策树分 类的软 件模块 , 主要 功 能是数据 挖掘, 找 出隐含 在训练 样本中模 式类的 特征, 并基于训 练样本 自动建 立决策 树 及决策规 则。 该 软件 被 应用到 NLCD 2000 中进 行地表 覆盖分类 (Homer et al. ,2000 ) 和评估植 被覆盖 度 (Chengquan Huang et al. ,2000 ) , 都取得了较 好的结 果 。 在国 内, 梁 坤 等以地 形较为 复杂的 济南市 长清区 为研究 区域, 综合 TM 影像的光 谱特征、 纹理特 征 与区域内 的地形 特征、 植 被特征 信息作为 样本集 的属性 值, 结合研 究区内 6 种主 要地物 类型训练 数据集, 基于 See5.0 的决策 树分类 法进行 分类 实验, 并在 ENVI 中提 取土地 的 利用现状 信息 。 实验结 果表明 : 综 合利用 不同的 特征数 据 会有效的 提高分 类精度 ; See5.0 2 山东农业大 学硕士学 位论文 和 ENVI 相结 合可以 高效、 高精 度地、 客 观地实 现土地 覆盖分类,是基于 知识的 遥感影 像分 类 的有 效 的方 法 (梁 坤 等 ,2009 ) 。齐 红 超等 以 甘 肃省 武 威市 为 例, 采 用机 器 学习 C5.0 决策树算法,综合利 用地物 波谱、NDVI 、TC 、 纹 理等信息,根据样 本数据 自动挖 掘分类规 则并对 整个研 究区进 行地物 分类。 得出 机 器学 习的决策 树可以 挖掘出 更多的 分 类规则,C5.0 算法 对采样 数据的 分布没 有要求, 可以处 理离散和 连续数 据, 生成 的规则 易于理解 , 分类 精度高 , 可以 满足西 北干旱 区大面 积的土 地利用/ 覆被 变化制 图的需 要 (齐 红超 等,2009 ) 。 1.2.2 分类 精度 评价 技术 研究 现状 遥感影像 分类精 度评价 是遥感 影像分 类的一 个关键 性环 节, 发展 至今分 类精度 评价 方法的发 展经历 了四个 阶段: 第一阶段 以目视 判断为 主 的时 期。 目视判 读作为 一种定 性的评价 方法, 具 有很大 的 主观性。 第二阶段 由定性 发展到 定量方 法, 主 要通过 比较分 类所 得的专题 图中各 类别的 面积 范围 ( 或面 积 比例 ) 与地 面 或其 他 参考 数 据中 相 应类 别的 面 积范 围 (或 面 积比 例) 。与 比第一阶 段 相比 , 第二 阶段的 方法更 定量和 客观。 然而 局限性在 于还不 能 定位 。 因此 该 种 评价方 法可能 掩盖分 类结果 的真实 精度。 第三阶段 以定位 类别比 较和精 度测量 为特征 。 精度 评价 将特定位 置的分 类结果 中的 类别和地 面实况 或其他 参考数 据中相 应点的 类别进 行比 较, 并在 比较基 础上发 展出各 种 精度测量 。 第四阶段 是在第 三阶段 方法基 础上的 细化和 发展。 核心 是使用混 淆矩阵 计算各 种精 度测量( 如 Kappa 系 数) 。使 用混淆 矩阵进 行分类 结果 精度 评价 是目前 最常用 的一种 方 法。 分类精度 评价发 展至定 位类别 比较也 主要是 基于 像 元级 上的评价 , 然而 在卫星 传感 器空间分 辨率较 低 的情 况下, 影像上 一个像 元所对 应的 区域内包 含两种 或两种 以上地 物 的可能性 就较大 , 这就 称作存 在混合 像元。 在已有 的分 类算法中 , 大都 实行的 是硬分 类, 即把混合 像元归 属到该 像元中 所占比 例较大 的地物 类别 中去。 因此, 对 混合像 元采取 硬 分类是现 有分类 方法所 固有的 缺陷。 同时, 对于分 类精 度评价过 程, 如 果仍然 使用原 有 的评价方 法对该 像元进 行评价 势必会 导致分 类结果 的可 信度不高 。 研究中使 用的 ETM+ 由于 具有多 波谱波 段、 存档数 据时 间序列长 、 获取 成本低 等特 3 大洋洲地表 覆盖分类 及精度评 价技术研 究 性成为全 球地表 覆盖研 究中使 用的遥 感影像 。但是 同 时 30 米的空间 分辨率 使其存 在大 量的混合 像元 。 因此, 对混合 像元分 解在分 类精度 评价 中的研究 是 非常 有意义 的。 如 郭 山 等将指 出将 混 合像元 分解 引 入到 分 类精度 评估过 程中 , 能够从 一定程 度上细 化各分 类 算法的优劣 , 降 低 由 于 空 间 分 辨 率 所 引 起 的 分 类 精 度 评 估 结 果 的 不 确 定 性 ( 郭山等, 2007 ) 。 借 鉴硬 分 类中 基 于混 淆 矩阵 的 精度 评 价 方 法 , 近年 来 一些 学 者 提出 利用 混 淆矩 阵对混合 像元分 解结果 进行精 度评价 的思路 。 1.3 研 究 目 标 和研 究 内容 本文研究 的目标 是以澳 大利亚 的新威 尔士州 和维多 利亚 州作为实 验区, 针对大 洋洲 地表覆盖 分类过 程中存 在的 难 点, 提出一 套 适用 于大洋 洲的地表 覆盖分 类方案, 并针对 中 等分辨 率遥感 影像中 存在大 量混合 像元问 题,在 V-I-S 模型的 基础上 提取端 元,并 得 到实验影 像各类 别 的地 表覆盖 丰度图 ,同时 利用该 丰度 图对基于 C5.0 的分类 结果进 行 了 精度评 价, 得 到基于 混合 像 元分解 的 亚像 元级 精 度评 价结果。 围绕这 个目标 , 本研 究 以 ETM+ 影像作为 主要数 据源, 进行了 以下几 个方面 的 研究: 1. 基于 C5.0 的分类技 术研究 研究 C5.0 算法的基 本原理 , 研究 C5.0 算法 在大洋 洲这 样一个大 区域内 的使用 流程 和方法。 2. 端元选择 方法研究 在 总结 初级经济法重点总结下载党员个人总结TXt高中句型全总结.doc高中句型全总结.doc理论力学知识点总结pdf 已 有 端元 选择方 法的基 础上, 针对 大洋洲 地表覆 盖分类系 统的特 殊性, 进 行 端元数量 和类型 的 确定 ,研究 基于 ETM+ 影像 的端元 提 取 方法。 3. 混合像元 分解模型 研究 在总结已 有混合 像元分 解模型 的基础 上, 对模型 进行试 验, 研究选 取精度 较高的 分 解模型, 并得到 相应的 地表覆 盖丰度 图。 4. 基于亚像 元级的 分类 精 度评价 技术 研究利用 地表覆 盖丰度 图进行 精度评 价的方 法。 4 山东农业大 学硕士学 位论文 1.4 论文的 技 术路 线 和组 织结 构 1.4.1 技 术路 线 本研究综 合运用 了遥感 、 地理 信息系 统、 数 据挖掘 等多 种技术和 方法, 对大洋 洲地 表覆盖分 类的难 点进行 研究, 使用混 合像元 分解技 术在 亚像元尺 度上进 行 地表 覆盖丰 度 的提取以 及分类 精度评 价研究。 本论文采 用的技 术路线 如图 1 所示 。 首先 对实验 影像进 行了数据 预处理, 包括几 何校正 和辐射校 正 的过 程 。 然 后对影像 分别使 用 最大 似然法 和 C5.0 进行分类, 并 对分类 结果进 行精度 评价 , 得 到基于 像元的精 度评价 评价结 果。 在研 究混合像 元分解 方法的 基础上 ,对 C5.0 分类结果 进行 了 亚像元 级的分 类精度 评价, 并 得到基于 亚像元 级的精 度评价 结果。 训 练 样 本 几 何 校 正 MLC 分 类 采 集 b a c 像 元 级 的 分 类 分 类 图 ETM+ 影 像 精 度 评 价 辐 射 校 正 特 征 影 像 C5.0 分 类 B A C 类 别 感 兴 混 合 像 元 亚 像 元 级 的 分 趣 区 分 解 真 实 图 类 精 度 评 价 地 表 覆 盖 丰 度 图 提 取 端 元 分 解 模 型 图 1 论文的技术 路线 Fig. 1 The scheme of this paper 1.4.2 组织 结构 围 绕 论 文 的 研 究 目 标 和 研 究 内 容 , 本 文 的 第 一 章 主 要 介 绍 了 开 展 本 论 文 研 究 的 背 景、 意义, 以及论文 研究 的目标、 内容和 采用的 技术路 线等。 第二 章 对论 文研究 中用到 的关键技 术进行 介绍。 首 先介绍 了决策树 分类技 术包括 决策树分 类技术 的简单 概述、 决 策树的建 立以及 常用的 决策树 算法 。 其次 介绍了 混合像 元 的分解 理论以 及 关键 技术 。 最 后对分类 精度评 价技术 的研究 现状进 行介绍 。 本章 对研 究内容的 整体研 究现状 进行了 总 结, 是整个 论文研 究工作 开展的 理论依据 和技术 基础 。 第三章详 细介绍 了整个 论文研 究 工作中所 需要的 数据, 以及数 据的来 源 、 数 据处理 过程 和在论文 研究中 的作用 。 本章 是 整个论文 研究工 作的数 据基础 。第四 章是论 文核心 的一 章 , 重点对 C5.0 分类方法在 大 洋洲地表 覆盖分 类中的 应用进 行研究 。 大洋 洲地表 覆盖 分类研究 是研究 大区域 范围的 地 5 大洋洲地表 覆盖分类 及精度评 价技术研 究 表覆盖分 类工作 , 在介绍 C5.0 算法原理 的基础 上首先 对 基于 C5.0 研发的 地表覆 盖分类 软件 进行 了 , 然后 针对大 洋洲地 表覆盖分 类工作 的特点 , 提出了一 套基于 生态地 理分区 和影像获 取月份 的训练 样本采 集流程, 建 立相应 的分类 规则。 对实 验区内 的两景 典型性 影像进行 最大似 然法和 C5.0 分类方 法的分类 对比 实验 ,从客观 和主观 上进行 了效果 的 对比,得出 C5.0 分类方法在 大洋洲 地表覆 盖分类 中的 可行性。 第五章 在亚像 元级尺 度 上对遥感 影像分 类精 度 评价技 术进行 研究。 首先 进行端 元选取方 法的选 取 , 针对 大洋洲 地表覆盖 分类系 统的特 殊性以及 ETM+ 波段数 量的限 制 , 确定 适用于 大洋洲 地表覆 盖分 类的端元 类型和 数量 。 然 后使用 选择的端 元, 利用 线性 混合像元 分解技 术进行 了实验 影 像的地表 覆盖 组 分丰度 提取, 最 后在亚像 元尺度 对实验 影像进行 精度评 价, 得到 了精度 评价结果 。第六 章 对论 文进行 总结并 对未来 研究进 行了 展望。 6 山东农业大 学硕士学 位论文 2 决策 支持 分类 和 精度 评价 技术 理论 2.1 决策支持 分类 技 术 2.1.1 决策 树原理 决策树 作 为一种 决策支 持工具 由 一个 根节点 (Root node- 输入变量 ) , 一 系列内 部节 点(Internal nodes- 分 支)及 终极结 点(Terminal nodes- 叶)组成 ,每个 内部节 点有一 个 父节点和 两个或 以上子 节点, 代 表一个数 据子集, 每个 终极节点 代表树 的预测 结果即 标 识为不同 的类别 (刘勇 洪等,2005 ) 。 如图 2 是一个 简 单的决策 树模型 。 T 输 入 变 量 T1 T2 分 支 A T3 B C 叶 D E图 2 决策 树基本结 构 Fig.2The structure of decision tree 决策树是 以自上 而下的 递归的 分治方 式构造 。 它从 训练 元 组 集和 它们的 相关联 的类 标号开始 构造决 策树, 随着 树 的构建 , 训练 集递归 的划 分成较小 的子集 , 最后 形成决 策 树 。 决策树 的建立 过程是 利用整 体样本 集, 生成 一个层 次多、 叶节 点多的 大树, 以充分 反映样本 数据之 间的联 系, 该 阶段称 为树的 生长阶 段。 该阶段未 考虑噪 声, 往 往会产 生 训练过度 情况下 的数据 联系。 对这些 联系进 行删减 , 产 生一系列 的子树 , 并从 中选择 适 当大小的 树的过 程成为 树的剪 枝过程 。 1 、树生长 决策树的 生长过 程采用 自顶向 下的递 归方式 , 使用 某种 方法选择 最优的 属性 作 为树 的结点, 在结点 上进行 属性值 的比较 并根据 各训练 样本 对应的不 同属性 值判断 从该结 点 向下的分 支, 在每 个子分 支集中 重复建立 下层结 点 和分 支, 并在一 定条件 下停止 树的生 长,在决 策树的 叶结点 得到结 论,形 成决策 树。 7 大洋洲地表 覆盖分类 及精度评 价技术研 究 在决策树 建立的 过程中 ,需要 选择一 个指标 来将 元 组最 好的划分 成不同 类的属 性 , 这个指标 称为 分 裂指数 。 在决策 树算法的 发展过 程中, 比较流行 的三种 分裂指 数 是信息 增益、增 益比率和 Gini 指标 (Jiawei Han et al.,2007)。 1 ) 信息增 益(Information Gain ) (QuinlanJ.R et al.,1993 ) , 是基 于香农 信息熵 理论 的。假设 一个源 数据集 D , 类别属 性 C 有 m 个值 ,将 数 据集分 为 m 个 不同的 类,它 的 划分元组 由结点 N 代 表或存 放。 讨 论一种 方法确 保创建 一颗简单 的树, 并且该方 法使得 给定元组 分类信 息熵具 有最小 的测试 数目。 找 出具有 最 高信息增 益的属 性赋予 结点 N 为 分裂属性 ,反映 划分中 的最小 随机性 ,使得 划分的 元组 分类还需 信息量 最小。 D 中元组分类 的信息 熵由下 式给出 : m InfoD p log p (1 )ii 2 i ?1 其中,p 为 元组为 C 类 的数 据 子集占 总数据 集的比 例 ,并用|C ,D|/|D| 估计( 因为信 i i i 息熵的单 位是比 特,所 以使用以 2 为 底的对 数) 。 假设,属 性 A 由 训练数 据的观 测得到 具有 v 个 不同值a ,a ,a ,且 A 是 离散值 12 v D ,D ,,D 的, 那么按 属性 A 将源 数据集 D 划 分成 v 个子集 , 其 中 D 包含 D 中的 元 j 12 V 组,它们在 A 上具有值 a , 则属性 A 的 条件熵Info D 由下 式 度量: j A v D j Info D??InfoD (2 ) Aj D j ?1 D j 其中, 表示属性 A 为 a 的 数据占 总数据 的比例 。Info D 表示按 A 划分对 D 的 j A D 元组分类 所需要 的信息 熵,信 息熵越 小,划 分纯度 越高 。 信息增益 定义为 原来的 信息熵 与新的 信息熵 之差,即: 属 性 A 的信息 增益 GainA 定义为:GainAInfoD Info D (3 ) A 上式告诉 我们由 A 的划分 我们获 得了多 少信息 ,将具 有最高增益 GainA 的属性 A 作为结点 N 的 分裂属 性,使 得完成 元组分 类还需 要的 信息最小 ,即最 小化 Info D 。 A 2 ) 信息 增益比 率 (GainRatio ) 是指信 息的增 益扩充 (Deng,H. et al.,2011 ) 。 由于信 息增益倾 向于选 择具有 大量值 的属性 , 而使 得输出 出现 偏倚, 为 了克服 这种偏 倚, 通 过 “ 分裂信 息(split information ) ” 值将信息增 益规范 化。 “ 分裂信 息 ” 定 义如下 : 8 山东农业大 学硕士学 位论文 v DD jj SplitInfo Dlog (4 ) A2 DD j ?1 该值代表 了通过 将源数 据集 D 划分成 对应属 性 A 测试 的 v 个 输出 的 v 个划分 的信 息量。 属性 A 的信息 增益比率 为: Gain A GainRatio A(5 ) SplitInfo A 选择具有 最大增 益比率 的属性 作为分 裂属性 。 由上 式可 以看出随 着SplitInfo A 趋向 于 0,则GainRatio A 会变得不稳 定。这 时,增加 一个约 束来避 免这 种情况, 选取测 试 的信息增 益必须 比较大 ,至少 与所观 察的所 有测试 的平 均增益一 样大。 3 )Gini 指标Gini index (Gini, C, 1997 ) ,是对源数 据 集 D 的不纯度 或数据 划分的 度量,表 达式如 下: m 2 GiniD1 p (6 ) i i ?1 它考虑每 个属 性 的二元 划分 。 假设 A 是离 散值 , 且具有 v 个可能值 , 则考 虑它的 所 有可能子 集有 2v 个, 不 考虑密 集和空 集, 基于 A 的二 元划分, 可形成 2v-2 个可 能方法 二分源数 据集 D 。如果 A 将 D 二元 分裂为 D1 和 D2 , 则划分 D 的 Gini 指标为: DD 12 Gini DGiniD GiniD (7 ) A 12 DD 选择由属性 A 产生 的 Gini 指标最 小的子 集作为 分裂子 集。假设 A 是连续 值,则 将 每对相邻 值之间 的中点 作为可 能的分 裂点, 考 虑所有 的 分裂点, 取 产生最小 Gini 指标的 点为属性 A 的 分裂点。那么属性 A (离散 或连续 )的二 元分裂 导致的 不纯度 降低为:GiniAGiniD Gini D (8 ) A 取使 ΔGini (A ) 最大 化的属 性作为 分裂属 性。 该属 性和 它的分裂 子集或 分裂点 共同 形成分裂 准则。 2 、树剪 枝 决策树剪 枝阶段 的主要 就是对 生成的 决策树 按照一 定的 方法进行 剪枝, 剪枝是 一种 克服训练 样本集 数据噪 声的基 本技术 , 对树 进行修 剪优 化时要准 确理解 分类的 特征描 述 和防止过 多的噪 声影响 , 从而 达到更 好的修 剪效果 , 在 确保精确 程度的 同时, 提高可 理 9 大洋洲地表 覆盖分类 及精度评 价技术研 究 解性。 在 决策树 的剪枝 方法 上, 通常包 括预剪枝 和后剪 枝两种 。 预剪枝技 术主要 是限制 树 的充分生 长, 而后 剪枝技 术则是 待决策树 充分生 长后再 进行剪枝。 其中后 剪枝应 用最为 广泛。 常见的 后 剪 枝 方 法 又 包 括 CCP (cost-complexity pruning ) 方法 (Breiman L et al.,1984)、REP (reduced error pruning ) 方法 (Malerba D et al.,1994 )、PEP ( pessimistic error pruning ) 方法 (QuinlanJ R et al.,1987 ) 、 MEP (minimum error pruning ) 方法 (Niblett T et al., 1986 ) 、CVP (Critieal value pruning ) 和 EBP (Error-Based pruning ) 等 。 2.1.2 常用 的 决 策树 分类 算法 决策树分类 算法 首先 起 源于概 念学习 系统 CLS (Concept learning System)和 CART 算法,然 后发展 到 ID3 方法, 最后又 演变成 能处理 连 续属性的 C4.5 算法。 其中最 有影 响的是 Quinlan 提出的 ID3 算法 (Quinlan J R,1986 ) ,在 ID3 算法的 基础上 ,他又 提出 了 C4.5 算法 (Quinlan J R,1993 ) 。 为了适 应处理 大规模 数据集的 需要, 后 来又 提 出了若 干改进的 算法, 如:SLIQ 算法 、SPRINT 算法、PUBLIC 算法等 ( 倪 海鸥等,2008 ) 。 1. CART 算法 CARTClassification And Regression Trees 算法在 1984 年 由 Breiman.L 年提出, 采用 二分递归 分割技 术对训 练数据 集循环 二分形 成二叉 树式 决策树 。CART 算法采 用具有 最 小基尼指 数值的 属性作 为测试 属性 。Gini 系数的定 义由 公式 (6 ) 所示 。CART 算法考 虑 候选属性 中每种 可能的 二元划 分的 Gini 系数, 将由属 性 产生 的 Gini 系数 最小的 子集作 为分裂子 集 。 CART 使用 CCP 剪枝 方法 ,它 是一种 典型的 后剪枝 方法 。CCP 是叶结点 个数和 树错 误率的函 数。该算法 从决策 树底部 开始,对每个 内结 点 T , 计算 该处子 树的代 价复杂 度 和该子树 剪枝后 该结点 T 处的 代价复 杂度。 比较两 个值 , 如果剪 枝后的 代价复 杂度变 小, 则执行剪 枝,否 则就保 留该子 树 (陈 云等,2008 ) 。 CART 算 法既可 以用于 分类, 又可 以预测 连续变 量。 当 决策树 适 用于离 散变量 的情 况 时称为 分类树 , 适用于 连续变 量的情况 时称为 回归树 。 该算法对 大量数 据和高 维数据 可进行高 效准确 的处理 , 决策 树结构 简单清 晰, 易 于理 解, 并且 能够包 容数据 的缺失 和 错误 (Breiman, L et al.,1984)。CART 算法 具备多 种决 策树算法 的功能 和优点 ,并且 能 处理其他 算法不 能处理 的非数 值型数 据,是 决策树 模型 的典型代 表 (齐 乐等,2011 ) 。 2. ID3 算法 10 山东农业大 学硕士学 位论文 ID3 (Iterative Dichotomizer 3 )算法是 Quinlan 在 1986 年提出的 。它是 决策树 算法 的代表, 后期的 决策树 算法都 是在它 的基础 上 加以 改进 而实现的 。 ID3 算法采 用信息 增益作 为分裂 指标来 构造决 策树的 ,首先把给 定的源 数据集 作为 根结 点 ,如 公 式(3 ) 计 算数 据 集中 所 有属 性 变量 的 信 息增 益 ,信 息 增益 最 大者 的 属性 为该节点 的分裂 属性, 并以此 属性表 示该结 点。然 后为 该属性的 每个值 创建一 个分枝 , 将源数据 集划分 成多个 子集, 子 集个数等 同于属 性值的 个数, 把每 个子集 作为一 个新结 点。对每 个结点 重复以 上的步 骤,直 到符合 条件, 停止 分裂。 ID3 算法中 采用 MEP 的方法 进行剪 枝,提 高了存 在噪 声情况下 决策树 的精度 。该 思路采用 自底向 上的方 式, 对于书 中每个 非叶节 点, 首 先计算该 节点的 误差Et 。Et r r 的计算公 式如式 (9 ) 所 示。 然 后计算 该节点 每个分 支 的误差ET , 并且加 权相加。 如 rt ET 果Et 大于 ,则保留 该子树 ;否则 ,剪掉 。 r rt nt ?n tk ?1 c Et (9 ) r n t ?k 其中,nt 为节点 t 中的样本 总数;nt 为 t 中主类的样 本数 目;k 为类数 目。 c 3.C4.5 算法 C4.5 算法是 Quinlan.J.R 在 1993 年提出的, 它是从 ID3 算法演变 而来, 在 继承 了 ID3 算法的优 点的同 时, 同 时又进 行了一 些改进 。C4.5 采用 信息增益 比率作 为分裂 指标来 构 造决 策 树的 。 首先 把 给定 的 源数 据 集作 为 根结 点 ,如 公式 (5 ) 计算 数 据集 中 所有 属性 变量的信 息增益 比率, 信 息增益 比率最大 者的属 性为该 节点的 分 裂属性, 并以此 属性表 示该结点 。 然后 为该属 性的每 个值创 建一个 分支 , 将源 数据集划 分成多 个子集 , 子集 个 数等同于 属性值 的个数 , 把每 个子集 作为一 个新结 点。 对每个结 点重复 以上的 步骤, 直 到符合条 件, 停止 分裂。 理论和 实验表明 , 采用 信息增 益率比采 用信息 增益更 好, 主要 是克服了 ID3 方法选 择偏向 取值多 的属性。 C4.5 算法还 针对连续 值属性 的数据 进行了 处 理, 弥 补了 ID3 算 法只能 处理离 散值属 性数据 的缺陷 。 另一个最 重要的 改进就 是能够 描 述属性是 连续型 的情况 。C4.5 算法降 低了计 算复杂 度, 增强了计 算的效 率。 C4.5 算法中使用 EBP (Evidence-based practice ) 作 为 剪 枝方法, 使用训 练集评 估错 误率(树 误分类 元组所 占的比 例) ,对 子树剪 枝作出 决 定。 11 大洋洲地表 覆盖分类 及精度评 价技术研 究 2.2 混 合 像 元 分解 技 术 遥感器所 获取的 地面反 射或发 射 的 光 谱信号 是以像 元为 单位记录 的。 它 是像元 所对 应的地表 物质光 谱信息 的综合 。在地 表不同 尺度的 区域 内一般都 包含有 多种地 物 覆盖 , 它们有着 不同的 光谱响 应特征 。 而每 个像元 则仅用 一个 信号记录 着这些
本文档为【大洋洲地表覆盖分类及精度评价技术研究(可编辑)】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_482581
暂无简介~
格式:doc
大小:60KB
软件:Word
页数:30
分类:初中语文
上传时间:2018-02-04
浏览量:11