有监督学习方法

有监督学习方法有监督学习方法有监督学习方法篇一: 监督学习算法基础知识整理第三章监督学习算法监督学习又称为分类(Classification)或者归纳学习(Inductive Learning)。几乎适用于所有领域，包括文本和网页处理。给出一个数据集D，机器学习的目标就是产生一个联系属性值集合A和类标集合C的分类/预测函数(Classification/Prediction Function)，这个函数可以用于预测新的属性集合的类标。这个函数又被称为分类模型(Classification Model)、...

有监督学习方法有监督学习方法篇一: 监督学习算法基础知识整理第三章监督学习算法监督学习又称为分类(Classification)或者归纳学习(Inductive Learning)。几乎适用于所有领域，包括文本和网页处理。给出一个数据集D，机器学习的目标就是产生一个联系属性值集合A和类标集合C的分类/预测函数(Classification/Prediction Function)，这个函数可以用于预测新的属性集合的类标。这个函数又被称为分类模型(Classification Model)、预测模型(Prediction Model)。这个分类模型可以是任何形式的，例如决策树、规则集、贝叶斯模型或者一个超平面。在监督学习(Supervised Learning)中，已经有数据给出了类标;与这一方式相对的是无监督学习(Unsupervised Learning)，在这种方式中，所有的类属性都是未知的，算法需要根据数据集的特征自动产生类属性。其中算法中用于进行学习的数据集叫做训练数据集，当使用学习算法用训练数据集学习得到一个模型以后，我们使用测试数据集来评测这个模型的精准度。机器学习的最基本假设: 训练数据的分布应该与测试数据的分布一致。训练算法: 训练算法就是给定一组样本，我们计算这些参数的方法。本节简要介绍以下几种常用的机器学习算法，比如决策树，朴素贝叶斯，神经网络，支持向量机，线性最小平方拟合，kNN，最大熵等。 3.1 两类感知器见课本 3.2 多类感知器见课本 3.3 决策树算法决策树学习算法是分类算法中最广泛应用的一种技术，这种算法的分类精度与其他算法相比具有相当的竞争力，并且十分高效。决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象属性，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值(类别)。决策树仅有单一输出，若欲有复数输出，可以建立独立的决策树以处理不同输出。如何构造精度高、规模小的决策树是决策树算法的核心内容。决策树构造可以分两步进行。决策树的生成: 由训练样本集生成决策树的过程。一般情况下，训练样本数据集是根据实际需要有历史的、有一定综合程度的，用于数据分析处理的数据集。 1. 树以代表训练样本的单个结点开始。 2. 如果样本都在同一个类(则该结点成为树叶，并用该类标记。 3. 否则，算法选择最有分类能力的属性作为决策树的当前结点。 4. 根据当前决策结点属性取值的不同，将训练样本数据集分为若干子集，每个取值形成一个分枝。 5. 针对上一步得到的一个子集，重复进行先前步骤，形成每个划分样本上的决策树。 6. 递归划分步骤仅当下列条件之一成立时停止: (a) 给定结点的所有样本属于同一类。 (b) 没有剩余属性可以用来进一步划分样本。以样本组中个数最多的类别作为类别标记。决策树的剪技: 决策树的剪枝是对上一阶段生成的决策树进行检验、校正和修下的过程，主要是用新的样本数扼集(称为测试数据集)中的数据校验决策树生成过程中产生的初步规则，将那些影响预衡准确性的分枝剪除。由于数据表示不当、有噪声或者由于决策树生成时产生重复的子树等原因，都会造成产生的决策树过大。因此，简化决策树是一个不可缺少的环节。寻找一棵最优决策树，主要应解决以下3个最优化问题: 1. 生成最少数目的叶子节点; 2. 生成的每个叶子节点的深度最小;3. 生成的决策树叶子节点最少且每个叶子节点的深度最小。例如，对于表3-1所示的贷款申请的数据集，可以学习到一种决策树结构，表示为图3-1。表3-1 贷款申请数据根据数据集建立的一种决策树结构如下: 图3-1 对应与表3-1的决策树树中包含了决策点和叶子节点，决策点包含针对数据实例某个属性的一些测试，而一个叶子节点则代表了一个类标。一棵决策树的构建过程是不断的分隔训练数据，以使得最终分隔所得到的各个子集尽可能的纯。一个纯的子集中的数据实例类标全部一致。决策树的建立并不是唯一的，在实际中，我们希望得到一棵尽量小且准确的决策树。决策树的典型算法有ID3，C4.5，CART(分类与回归树)等。依次得到改进。相对于其它算法，决策树易于理解和实现，人们在通过解释后都有能力去理解决策树所表达的意义。决策树可以同时处理不同类型的属性, 并且在相对短的时间内能够对大型数据源做出可行且效果良好的结果。 3.4 贝叶斯分类算法贝叶斯分类器的分类原理是通过某对象的先验概率，利用贝叶斯公式计算出其后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。目前研究较多的贝叶斯分类器主要有四种，分别是: Naive Bayes、TAN、BAN和GBN。 ?准备知识条件概率: 设A, B是两个事件，且Pr(A)?0称Pr(B|A)? 发生的条件事件B发生的条件概率。乘法公式: 设Pr(A)?0 则有Pr(AB)?Pr(B|A)Pr(A) 全概率公式: 设随机事件A1，A2，。，An以及 B满足: (1) A1，A2，…，An两两互不相容; (2)?An?S或者B??An; (3) Pr(A)?0(n=1,2,…)，则有 n?1n?1??Pr(AB)为在条件A下Pr(A) Pr(B)??Pr(An)Pr(B|An)，称为全概率公式。 n?1? 全概率公式的应用: 把事件B看作是某一个过程的结果，把A1，A2，…，An看作该过程的若干个原因，根据历史资料，每个原因发生的概率已知(即Pr(Ai)已知)，且每一个原因对结果的影响已知(即Pr(B|Ai)已知)则可用全概率公式计算结果发生的概率，即求Pr(B)。贝叶斯公式: 设随机事件A1，A2，…，An以及B满足: (1) A1，A2，…，An两两互不相容; (2) PrA(nB)?PrB()???An?1?n?S或者B??An; (3) Pr(A)?0(n=1,2,…)，则n?1PrA(nB|?)PBr(An| (?PrB n?1A|jA)P)(，称为贝叶斯公式。 )PAr)j( 贝叶斯公式的使用: 把事件B看作某一过程的结果，把A1，A2，…，An看作该过程的若干原因，根据历史资料，每一原因发生的概率已知(即Pr(An)已知)，如果已知事件B已经发生，要求此时是由第i个原因引起的概率，用贝叶斯公式(即求Pr(Ai|B))。 ?朴素贝叶斯(Naive Bayes，NB)算法在贝叶斯分类中，在数据集合D中，令A1,A2,…,An为用离散值表示的属性集合，设C具有|C|个不同值的类别属性，即c1,c2,…,c|c|，我们设所有的属性都是条件独立于类别，给定一个测试样例d，观察到属性值a1到a|A|，其中ai是Ai可能的一个取值，那么预测值就是类别cj，使得 j | A=a1,…,A|A|=a|A|)最大。cj被称为最大后验概率假设。 Pr(C=c 根据贝叶斯公式，有 Pr(C?cj)?Pr(Ai?ai|C?cj)|A| Pr(A1?a1,。,A|A|?a|A||C?cj)??Pr(C?c)?Pr(A?a|C?c)kiik k?1i? 1|C|i?1|A| 因为分母对每一个训练类别都是一样的，所以如果仅仅需要总体上最可能的类别为所有测试样例做预测，那么只需要上式的分子部分即可。通过下式来判断最有可能的类别: c?argmaxPr(C?cj)?Pr(Ai?ai|C?cj) cji?1|A| 例如，假设我们有图4-1中的训练数据，有两个属性A和B,还有类别C，对于一个测试样例: A=m B=q 求C=? 图4-1 训练数据计算如下: 对于类别为t的概率 1222Pr(C?t)?Pr(Aj?aj|C?t)?Pr(C?t)?Pr(A?m|C?t)?Pr(B?q|C?t)????25525j?12 类似的，对于类别为f的概率 1121Pr(C?f)?Pr(Aj?aj|C?f)???? 25525j?12 因此C=t的可能性较大，因此将此种情况下的类别判断为t。朴素贝叶斯分类将每篇文档看作一“袋子”的词，需要做以下假设，这也是篇二: 非监督学习法非监督学习法本章重点 1. 什么叫非监督学习方法，什么叫有监督学习方法, 2. 非监督学习方法主要的用途 3. 非监督学习方法的两种基本处理方法: 按分布密集程度划分，与按相似度聚类划分 4. 按分布密度程度划分的基本方法 5. 动态聚类方法与分级聚类方法的概念 6. 典型的动态聚类方法C-均值算法与ISODATA算法 7. 使用非欧氏距离计算相似度的动态聚类方法 8. 分级聚类方法本章课前思考题 1. 如果给机器一维数据，机器能自动地找出其中存在的规律吗, 2. 有人把非监督学习方法叫无教师的学习，而把第二章、第三章讨论的内容成为有监督学习，又称有教师的学习，你知道谁是教师吗,教师的作用体现在哪里, 3. 机器能总结数据中存在的哪些规律呢, 4. 机器能总结天气变化的规律，给出天气预报吗, 5. 机器能炒股吗, 6. 非监督学习方法与数据有关系吗, 知识树 5.1 引言以前各章讨论的分类器设计方法都是在样本集中的类别标签已知的条件下进行的，这些样本称为训练样本。在样本标签已知的情况下，可以统计出各类训练样本不同的描述量，如其概率分布，或在特征空间分布的区域等，利用这些参数进行分类器设计，称为有监督的学习方法。然而在实际应用中，不少情况下无法预先知道样本的标签，也就是说没有训练样本，因而只能从原先没有样本标签的样本集开始进行分类器设计，这就是通常说的无监督学习方法。对一个具体问题来说有监督与无监督的作法是不相同的。人们日常生活中经常要观察事物与分析事物，从中寻找其规律性，这就是非监督学习方法要解决的问题。例如人们见到图5.1的道路图时，会发现中间有一条带与图中其它区域不同，见到图5.3会发现在这个二维空间中有数据显现出聚成两类的现象。这就是事物(对我们来说就是数据集)自身体现出的一些规律性，非监督学习方法就是寻找‎‎数据集中体现出来的规律性。从中我们可以强调非监督学习与有监督学习方法的以‎‎下几种不同点: ( 有监督学习方法必须要有训练集与测试样本。在训练集中找规律，而对测试‎‎ 1 样本使用这种规律;而非监督学习没有训练集这一说，只有一组数据，在该组数据集内寻找规律。 2( 有监督学习方法的目的就是识别事物，识别的结果表现在给待识别数据加上了标号。因此训练样本集必须由带标号的样本组成。而非监督学习方法只有要分析的数据集本身，预先没有什么标号。如果发现数据集呈现某种聚集性，则可按自然的聚集性分类，但不以与某种预先的分类标号对上号为目的。例如图 5.1道路图像，有监督学习方法的目的是找到“道路”，而非监督学习方法则只是将中间一条带状区域区分开来，本质上讲与“道路”这个标号没有关系。 3( 非监督学习方法在寻找数据集中的规律性，这种规律性并不一定要达到划分数据集的目的，也就是说不一定要“分类”。这一点是比有监督学习方法的用途要广泛。譬如分析一堆数据的主分量，或分析数据集有什么特点都可以归于非监督学习方法的范畴。 4( 用非监督学习方法分析数据集的主分量与用K-L变换计算数据集的主分量又有区别。应该说后者从方法上讲不是一种学习方法。因此用K-L变换找主分量不属于非监督学习方法，即方法上不是。而通过学习逐渐找到规律性这体现了学习方法这一点。在人工神经元网络中寻找主分量的方法属于非监督学习方法。以上四点是对非监督学习方法的定义，及与有监督学习方法的区别。例如图5.1表示对一幅道路图像按路面与非路面分类可用两种不同做法，其中左图是在图像中路面区与非路面中各找一个窗口，将其中每个象素分别作为这两类的训练样本集，用这两个样本集在特征空间的分布参数进行设计。而无监督学习方法则不同，它不预先选择样本类别的样本集，而是将整幅图的像素都作为待分类样本集，通过它们在特征空间中表现出来的聚类现象，把不同类别划分开。图5.1的有监督学习中，样本集分布呈现交迭情况，而无监督学习方法由于没有类别样本指导，无法确定它们的交迭情况，只能按分布的聚类情况进行划分。在类似于该例的实际应用问题中，预先选定不同类别的样本往往不可能，如时间不允许，或无法用人工干予等因素。另外在某些有监督学习方法中，也往往需要利用聚类方法将样本按其分布划分成若干子类等。聚类方法就是无监督学习方法的一个内容，它是经常应用的一门技术。图 5.1 无监督学习方法可以分成两大类，一类为基于概率密度函数估计的直接方法，指设法找到各类别在特征空间的分布参数再进行分类。另一类称为基于样本间相似性度量的间接聚类方法，其原理是设法定出不同类别的核心或初始类核，然后依据样本与这些核心之间的相似性度量将样本聚集成不同类别。下面分别讨论这两种方法。最常用的基于概率密度估计的直接方法的例子是直方图方法。例如我们统计一所学校中学生身高分布就往往可采用直方图方法，把身高划分成一段段，如1米到1米75算一段，然后对每一段统计身高在此范围内的学生数，得到直方图。如果这个学校的男女学生数目相近，则我们就会发现该直方图会体现出有两个分布高峰。那么找到两高峰中的谷点，就会将学生划分成两类。因此，使用概率统计方法的关键是能找出各个峰值区，这就是5.2节中的主要内容。另一种方法则在5.3节中再进一步讨论。 5.2 单峰子类的分离方法对于样本在某一种度量中的分布统计，一般称为直方图统计，在样本数量很大时，又可作为概率统计的估计。由于这种方法基于将样本投影到某个坐标轴上，因而称为投影方法。使用投影方法有两个组成部分，一个是如何设计合适的坐标系统，另一是如何设计直方图。如果对于各类别的类条件概率分布一无所知，我们只按待分类样本在特征空间的自然聚集进行划分。如图5.2所示的一维特征空间中，样本在整个特征空间中呈现出两个分布高峰，如果从分布的谷点将此特征空间划分为两个区，则对应每个区域，样本分布就只有一个峰值，这些区域被称为单峰区域，而每个单峰区域则被看作不同的决策域。落在同一单峰区域的待分类样本就被划分成同一类，称为单峰子类。下面讨论一些单峰子类的划分算法。图 5.2 5.2.1 投影法投影法的原理很简单，拿图5.3显示的一个二维空间为例。在该分类问题中，两个类别分别在其特征空间中形成两个聚类，图中用两个区域的轮廓勾出这两类样本聚类的区域。对人来说一旦画出这两类的空间分布，可以很容易地判断出这两类在特征空间聚集的区域，但是对计算机来说，要识别出这两类的分布情况，直接从二维的图形来说是很困难的，更不用说在高维特征空间直接对样本的分布作出判断了。一个办法是如果将样本对某个方向的轴作投影，或换句话说只取这些样本的某一分量的统计值来看，样本的分布往往显现出高峰与低谷，找到低谷，将峰值分别划分在不同的区域中，每个区域只有一个高峰，并把聚在同一高峰下的样本划分为一类，这是计算机容易做到的。对于样本在某一种度量中的分布统计，一般称为直方图统计，在样本数量很大时，又可作为概率统计的估计。由于这种方法基于将样本投影到某个坐标轴上，因而称为投影方法。图 5.3 使用投影方法有两个组成部分，一个是如何设计合适的坐标系统，另一是如何设计直方图。在样本属性完全不知的情况下，如何选择坐标系统，是比较困难的，因为这时还没有一个准则函数来表征这样一个坐标系统的性质。一种启发式的办法是使待分类的样本在某个坐标轴方向具有最大的分散性，这可以采用上一章讨论过的K-L变换方法。具体说来是用混合样本协方差矩阵作为K-L变换的产生矩阵，找到其特征值，并按大小排序，对应最大特征值的特征向量对此混合样本来说，离散程度最大，预期能发现明显的峰值，但是这种方法并不能保证分出各个聚类，例如图5.4所示情况，其两个特征向量都只呈现单峰状态，无法用此法将他们分开。图 5.4 投影法的具体算法分以下几个步骤: 步骤1: 计算样本协方差矩阵具有最大特征值的特征向量Uj，把数据投影到Uj轴上。步骤2: 用直方图方法求数据的边缘概率密度函数。步骤3: 在直方图的峰值间求最小值，在这些最小点作垂直于Uj的各个超平面把数据划分为若干个聚类。步骤4: 如果在这个轴上没有这样的最小值，则用下一个最大特征值对应的特征向量重复以上过程。步骤5: 对每个得到的子集(聚类)重复上述过程，直到每个集不能再分(为单峰)为止。 5.2.2 基于对称集性质的单峰子集分离法不要求在一个多维空间中给单峰区域下严格的定义是困难的。譬如一个单峰区域的数据集用Γ表示，峰值在处形成，则可写在 (5-1) 但是仅满足(5-1)式的区域并不能保证是单峰区。另一方面，如果考虑数据Γ，其中任何一对点y1和y2之间的距离用式的性质外，还具有以下性质: 表示，该数据集Γ除了具备(5-1)篇三: 有监督学习(supervised learning)和无监督学习(unsupervised learning) 有监督学习(supervised learning)和无监督学习(unsupervised learning) 机器学习的常用方法，主要分为有监督学习(supervised learning)和无监督学习(unsupervised learning)。监督学习，就是人们常说的分类，通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合，最优则表示在某个评价准则下是最佳的)，再利用这个模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现分类的目的，也就具有了对未知数据进行分类的能力。在人对事物的认识中，我们从孩子开始就被大人们教授这是鸟啊、那是猪啊、那是房子啊，等等。我们所见到的景物就是输入数据，而大人们对这些景物的判断结果(是房子还是鸟啊)就是相应的输出。当我们见识多了以后，脑子里就慢慢地得到了一些泛化的模型，这就是训练得到的那个(或者那些)函数，从而不需要大人在旁边指点的时候，我们也能分辨的出来哪些是房子，哪些是鸟。监督学习里典型的例子就是KNN、SVM。无监督学习(也有人叫非监督学习，反正都差不多)则是另一种研究的比较多的学习方法，它与监督学习的不同之处，在于我们事先没有任何训练样本，而需要直接对数据进行建模。这听起来似乎有点不可思议，但是在我们自身认识世界的过程中很多处都用到了无监督学习。比如我们去参观一个画展，我们完全对艺术一无所知，但是欣赏完多幅作品之后，我们也能把它们分成不同的派别(比如哪些更朦胧一点，哪些更写实一些，即使我们不知道什么叫做朦胧派，什么叫做写实派，但是至少我们能把他们分为两个类)。无监督学习里典型的例子就是聚类了。聚类的目的在于把相似的东西聚在一起，而我们并不关心这一类是什么。因此，一个聚类算法通常只需要知道如何计算相似度就可以开始工作了。那么，什么时候应该采用监督学习，什么时候应该采用非监督学习呢,我也是从一次面试的过程中被问到这个问题以后才开始认真地考虑答案。一种非常简单的回答就是从定义入手，如果我们在分类的过程中有训练样本(training data)，则可以考虑用监督学习的方法;如果没有训练样本，则不可能用监督学习的方法。但是事实上，我们在针对一个现实问题进行解答的过程中，即使我们没有现成的训练样本，我们也能够凭借自己的双眼，从待分类的数据中人工标注一些样本，并把他们作为训练样本，这样的话就可以把条件改善，用监督学习的方法来做。当然不得不说的是有时候数据表达的会非常隐蔽，也就是说我们手头的信息不是抽象的形式，而是具体的一大堆数字，这样我们很难凭借人本身对它们简单地进行分类。这个说的好像有点不大明白，举个例子说就是在bag-of- word s模型的时候，我们利用k-means的方法聚类从而对数据投影，这时候用k-means就是因为我们当前到手的只有一大堆数据，而且是很高维的，当我们想把他们分为50个类的时候，我们已经无力将每个数据标记说这个数应该是哪个类，那个数又应该是哪个类了。所以说遇到这种情况也只有无监督学习能够帮助我们了。那么这么说来，能不能再深入地问下去，如果有训练样本(或者说如果我们可以获得到一些训练数据的话)，监督学习就会比无监督学习更合适呢,(照我们单纯地想，有高人教总比自己领悟来的准，来的快吧～)我觉得一般来说，是这样的，但是这要具体看看训练数据的获取。本人在最近课题的研究中，手动标注了大量的训练样本(当然这些样本基本准确了)，而且把样本画在特征空间中发现线性可分性非常好，只是在分类面附近总有一些混淆的数据样本，从而用线性分类器进行分类之后这样样本会被误判。然而，如果用混合高斯模型(GMM)来分的话，这些易混淆的点被正确分类的更多了。对这个现象的一个解释，就是不管是训练样本，还是待聚类的数据，并不是所有数据都是相互独立同分布的。换句话说，数据与数据的分布之间存在联系。在我阅读监督学习的大量材料中，大家都没有对训练数据的这一假设(独立同分布)进行说明，直到我阅读到一本书的提示后才恍然大悟。对于不同的场景，正负样本的分布如果会存在偏移(可能是大的偏移，也可能偏移比较小)，这样的话用监督学习的效果可能就不如用非监督学习了。篇四: 监督分类是需要学习训练的分类方法监督分类是需要学习训练的分类方法,如最大似然分类,人工神经网络分类,即是需要事先为每类地物在遥感图像上采集样本数据,之后通过学习训练过程才来分类;非监督分类不需要人工采集地物样本点数据,多是通过聚类的方法来自动分类,主要有isodata,k均值等.总体来说,监督分类的效果要优于非监督分类. 遥感影像的分类方法按照是否有先验类别可以分为监督分类和非监督分类，这两种分类法有着本质的区别但也存在一定的联系( 监督分类的主要方法最大似然判别法.也称为贝叶斯(Bayes)分类,是基于图像统计的监督分类法,也是典型的和应用最广的监督分类方法.它建立在Bayes准则的基础上,偏重于集群分布的统计特性,分类原理是假定训练样本数据在光谱空间的分布是服从高斯正态分布规律的,做出样本的概率密度等值线,确定分类,然后通过计算标本(像元)属于各组(类)的概率,将标本归属于概率最大的一组.用最大似然法分类,具体分为三步:首先确定各类的训练样本,再根据训练样本计算各类的统计特征值,建立分类判别函数,最后逐点扫描影像各像元,将像元特征向量代入判别函数,求出其属于各类的概率,将待判断像元归属于最大判别函数值的一组.Bayes判别分类是建立在Bayes决策规则基础上的模式识别,它的分类错误最小精度最高,是一种最好的分类方法.但是传统的人工采样方法由于工作量大,效率低,加上人为误差的干扰,使得分类结果的精度较差.利用GIS数据来辅助Bayes分类,可以提高分类精度,再通过建立知识库,以知识来指导分类的进行,可以减少分类错误的发生[1],这正是Bayes分类的发展趋势和提高其分类精度的有效途径. 神经元网络分类法.是最近发展起来的一种具有人工智能的分类方法,包括BP神经网络、Kohonen神经网络、径向基神经网络、模糊神经网络、小波神经网络等各种神经网络分类法.BP神经网络模型(前馈网络型)是神经网络的重要模型之一,也是目前应用最广的神经网络模型,它由输入层、隐含层、输出层三部分组成,所采取的学习过程由正向传播过程和反向传播过程组成.传统的BP网络模型把一组样本的输入/输出问题作为一个非线性优化问题,它虽然比一般统计方法要好,但是却存在学习速度慢,不易收敛,效率不高的缺点.采用动量法和学习率自适应调整的可以提高学习效率并增加算法的可靠性[3]. 模糊分类法.由于现实世界中众多策略, 的自然或半自然现象很难明确划分种类,反映在遥感影像上,也存在一些混合像素问题,并有大量的同谱异物或者同物异谱现象发生,使得像元的类别难以明确确定.模糊分类方法忽略了监督分类的训练过程所存在的模糊性,沿用传统的方法,假定训练样本由一组可明确定义、归类,并且具有代表性的目标(像素)构成.监督分类中的模糊分类可以利用神经元网络所具有的良好学习归纳机制、抗差能力和易于扩展成为动态系统等特点,设计一个基于神经元网络技术的模糊分类法来实现.模糊神经网络模型由ART发展到ARTMAP再到FasART、简化的FasART模型[4],使得模糊神经网络的监督分类功能不断完善、分类精确度不断增加. 最小距离分类法和Fisher判别分类法.它们都是基于图像统计的常用的监督分类法,偏重于几何位置.最小距离分类法的原则是各像元点划归到距离它最近距离的类别中心所在的类,Fisher判别分类采用Fisher准则即“组间最大距离”的原则,要求组间距离最大而组内的离散性最小,也就是组间均值差异最大而组内离差平方和最小.用这两种分类法进行分类,其分类精度取决于对已知地物类别的了解和训练统计的精度,也与训练样本数量有关.针对最小距离分类法受模式散布影响、分类精度不高的缺点,人们提出了一种自适应的最小距离分类法,在训练过程中,将各类样本集合自适应地分解为子集树,定义待分类点到子集树的距离作为分类依据[2],这种方法有效地提高了最小距离法的分类正确率和分类速度,效率较高.Fisher判别分类也可以通过增加样本数量进行严密的统计分类来增加分类精度。非监督分类的主要方法动态聚类.它是按某些原则选择一些代表点作为聚类的核心,然后将其余待分点按某种方法(判据准则)分到各类中去,完成初始分类,之后再重新计算各聚类中心,把各点按初始分类判据重新分到各类,完成第一次迭代.然后修改聚类中心进行下一次迭代,对上次分类结果进行修改,如此反复直到满意为止.动态聚类的方法是目前非监督分类中比较先进、也较为常用的方法.典型的聚类过程包括以下几步:选定初始集群中心;用一判据准则进行分类;循环式的检查和修改;输出分类结果.聚类的方法主要有基于最邻近规则的试探法、K-means均值算法、迭代自组织的数据分析法(ISODATA)等.其中比较成熟的是K-means和ISODATA算法,它们较之其他分类方法的优点是把分析判别的统计聚类算法和简单多光谱分类融合在一起,使聚类更准确、客观.但这些传统的建立在统计方法之上的分类法存在着一定的缺点:很难确定初始化条件;很难确定全局最优分类中心和类别个数;很难融合地学专家知识.基于尺度空间的分层聚类方法(SSHC)是一种以热力学非线性动力机制为理论基础的新型聚类算法[10],它与传统聚类算法相比最大的优点是其样本空间可服从自由分布,可获取最优聚类中心点及类别,可在聚类过程中融合后验知识,有更多的灵活性和实用性. 模糊聚类法.模糊分类根据是否需要先验知识也可以分为监督分类和非监督分类.事实上,由于遥感影像的复杂性和不精确性等特点,预先很难获得所有有代表性样本的各类别的精确含量,因此很多情况下用纯粹的监督方法作模糊分类并不现实.模糊聚类属于非监督分类的一种,它根据样本间的统计量的相似程度作为模糊隶属度,在无预知类别的前提下对数据集中各点作含量划分.模糊聚类算法有多种,如基于模糊等价关系的模糊聚类分析法、基于最大模糊支撑树的模糊聚类分析法等 [11],最典型的模糊聚类法是模糊迭代自组织的数据分析法———Fussy-ISODATA.但纯粹的非监督分类对影像一无所知的情况下进行所得到的结果往往与因此聚类结果的精度并不一定能够满足实际应用的要求,实际特征存在一定的差异, 还需要地学知识的辅助,也就是部分监督的Fussy-ISODATA聚类. 系统聚类.这种方法是将影像中每个像元各自看作一类,计算各类间均值的相关系数矩阵,从中选择最相关的两类进行合并形成新类,并重新计算各新类间的相关系数矩阵,再将最相关的两类合并,这样继续下去,按照逐步结合的方法进行类与类之间的合并.直到各个新类间的相关系数小于某个给定的阈值为止. 分裂法.又称等混合距离分类法,它与系统聚类的方法相反,在开始时将所有像元看成一类,求出各变量的均值和均方差,按照一定公式计算分裂后两类的中心,再算出各像元到这两类中心的聚类,将像元归并到距离最近的那一类去,形成两个新类.然后再对各个新类进行分类,只要有一个波段的均方差大于规定的阈值,新类就要分裂. 遥感影像的监督分类是在已知类别的训练场地上提取各类别训练样本,通过选择特征变量、确定判别函数或判别式把影像中的各个像元点划归到各个给定类的分类.它的基本思想是:首先根据类别的先验知识确定判别函数和相应的判别准则,利用一定数量的已知类别样本的观测值确定判别函数中的待定参数,然后将未知类别的样本的观测值代入判别函数,再根据判别准则对该样本的所属类别做出判定.遥感影像的非监督分类也称为聚类,它是事先无法知道类别的先验知识,在没有类别先验知识的情况下将所有样本划分为若干类别的方法.它的基本思想是事先不知道类别的先验知识,仅根据地物的光谱特征的相关性或相似性来进行分类,再根据实地调查数据比较后确定其类别属性. 遥感影像的监督分类和非监督分类方法,是影像分类的最基本、最概括的两种方法.传统的监督分类和非监督分类方法虽然各有优势,但是也都存在一定的不足.新方法、新理论、新技术的引入,为遥感影像分类提供了广阔的前景,监督分类与非监督分类的混合使用更是大大的提高了分类的精度. 计算机技术对影像分类的促进与发展.计算机技术的引进,解决了影像分类中海量数据的计算与管理问题;计算机技术支持下的GIS用来辅助影像分类,主要通过四种模式进行[12]:GIS数据作为影像分析的训练样本和先验信息;利用GIS技术对研究区域场景和影像分层分析;GIS建立面向对象的影像分类;提取和挖掘GIS中的知识进行专家分析.这些模式促进了GIS与遥感的结合,提高了影像分类精确性和准确性,使得影像分类迈入了新的天地. 数学方法的引入和模型研究的进展为影像分类注入了新的活力.不同的数学方法被引用到模型研究上来,为模型研究的发展提供了广阔的天地,相应地,在遥感影像分类中也产生了大量不同形式的分类模型.如径向基函数(RBF)与粗糙理论结合的基于粗糙理论的RBF网络模型应用于遥感分类[5],对于提供分类精度、增加收敛性都有很好的作用;而基于RBF映射理论的神经网络模型更是融合了参数化统计分布模型和非参数化线性感知器映射模型的优点,不仅学习速度快,而且有高度复杂的映射能力[6].又如模糊数学理论应用于影像分类产生模糊聚类,对影像中混合像元的分类有很好的效果;模糊理论与各种模型结合,更使得影像分类方法的不断完善,分类精度不断提高. 人工智能技术对影像分类的促进.专家分类系统被用于影像分类中,利用地学知识和专家系统来辅助遥感影像分类 [12],大大提高了影像分类和信息提取的精度.人工神经网络由大量神经元相互连接构成网络结构,通过模拟人脑神经系统的结构和功能应用于影像分类,具有一定的智能推理能力.同时,它还引入了动量法和学习自适率调整的策略,并与地学知识集成,很好的解决了专一的BP神经网络法分类的缺点和不足,提高了分类效率和分类精度. 监督分类与非监督分类的结合.由于遥感数据的数据量大、类别多以及同物异谱用单一的分类方法对影像进行分类其精确度往往不能满足和同谱异物现象的存在, 应用目的要求.用监督分类与非监督分类相结合的方法来对影像进行分类,却常常可以到达需要的目的.利用这种方法分类时首先用监督分类法如多层神经网络的BP算法将遥感图像‎‎概略地划分为几个大类,再用非监督分类法如K-Means聚类和ISODATA聚类对第一步已分出的各个大类进行细分,直到满足要求为止[13].监督分类与非监督分类的结合的复合分类方法,改变了传统的单一的分类方法对影像进行分类的弊端,弥补了其不足,为影像分类开辟了广阔的前景.篇五: 监督学习一、监督学习监督学习是指:利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练或有教师学习。监督学习是从标记的训练数据来推断一个功能的机器学习任务。训练数据包括一套训练示例。在监督学习中，每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。监督学习算法是分析该训练数据，并产生一个推断的功能，其可以用于映射出新的实例。一个最佳的方案将允许该算法来正确地决定那些看不见的实例的类标签。这就要求学习算法是在一种合理的方式从一种从训练数据到看不见的情况下形成。基本定义: 折叠利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练或有教师学习。监督学习是从标记的训练数据来推断一个功能的机器学习任务。监督学习中需要注意的问题: 1、偏置方差权衡第一个问题就是偏见和方差之间的权衡。假设我们有几种不同的,但同样好的演算数据集。一种学习算法是基于一个未知数的输入，在经过这些数据集的计算‎‎时,系统会无误的预测到并将正确的未知数输出。一个学习算法在不同的演算集演‎‎算时如果预测到不同的输出值会对特定的输入有较高的方差。一个预测误差学习分‎‎类器是与学习算法中的偏差和方差有关的。一般来说,偏差和方差之间有一个权衡。较低的学习算法偏差必须灵活 ,这样就可以很好的匹配数据。但如果学习算法过于灵活,它将匹配每个不同的训练数据集,因此有很高的方差。许多监督学习方法的一个关键方面是他们能够调整这个偏差和方差之间的权衡(通过提供一个偏见/方差参数,用户可以调整)。 2、功能的复杂性和数量的训练数据第二个问题是训练数据可相对于真正的功能(分类或回归函数)的复杂度的量。如果真正的功能是简单的，则一个不灵活的学习算法具有高偏压和低的方差将能够从一个小数据量的学习。但是，如果真功能是非常复杂的(例如，因为它涉及在许多不同的输入要素的复杂的相互作用，并且行为与在输入空间的不同部分)，则该函数将只从一个非常大的数量的训练数据，并使用可学习灵活的学习算法具有低偏置和高方差。因此，良好的学习算法来自动调整的基础上可用的数据量和该函数的明显的复杂性要学习的偏压/方差权衡。 3、输入空间的维数第三个问题是输入空间的维数。如果输入特征向量具有非常高的维数，学习问题是很困难的，即使真函数仅依赖于一个小数目的那些特征。这是因为许多额外的尺寸可混淆的学习算法，并使其具有高方差。因此，高的输入维数通常需要调整分类器具有低方差和高偏置。在实践中，如果工程师能够从输入数据手动删除不相关的特征，这是有可能改善该学习功能的准确性。此外，还有许多算法的特征选择，设法确定相关特征，并丢弃不相关的。这是维数降低，其目的是将输入数据映射到较低维空间中运行的监督学习算法之前的更一般的策略的一个实例。 4、噪声中的输出值第四个问题是在所需要的输出值(监控目标变量)的噪声的程度。如果所希望的输出值，通常是不正确的(因为人为错误或传感器的错误)，则学习算法不应试图找到一个函数完全匹配的训练示例。试图以适应数据过于谨慎导致过度拟合。当没有测量误差(随机噪声)，如果你正在努力学习功能，是您学习模式太复杂，你甚‎‎至可以过度拟合。在这种情况下的目标函数，该函数不能被模拟腐化你的训练数据的那部分-这一现象被称为确定性的噪声。当任一类型的噪声存在时，最好是去一个更高的偏见，低方差估计。示的一般情况下,可以确定一个学习目标,例如?a href="://.cdfds./gouzuowen/" target="_blank" >狗掷嗥鞫运窘蟹掷嗟慕峁】赡苡?quot;教师所给的类别一致，然后用迭代优化算法求取判别函数中的参数值。在无监督学习的情况下，用全部学习样本可以估计混合概率密度函数，若认为每一模式类的概率密度函数只有一个极大值，则可以根据混合概率密度函数的形状求出用来把各类分开的分界面。监督学习方法是目前研究较为广泛的一种机器学习方法，例如神经网络传播算法、决策树学习算法等已在许多领域中得到成功的应用，但是，监督学习需要给出不同环境状态下的期望输出(即导师信号)，完成的是与环境没有交互的记忆和知识重组的功能，因此限制了该方法在复杂的优化控制问题中的应用。

                    本文档为【有监督学习方法】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

有监督学习方法

你可能还喜欢