模式识别作业4

模式识别作业4第二次课的作业：请查一下这里列出来的所有方法，并用实例实现（并在软件中实施一下，任何软件环境都可以。）1.解：属性有四种类型：标称、序数、区间、比率。其中标称和序数属性统称分类的或定性的。区间和比率是数值的或定量的。1）众数一组数据中出现次数最多的数据就是这组数据的众数。2）x2检验亦称卡方检验。统计学中假设检验的方式之一。x是一个希腊字母，x2可读音为卡方，所以译为卡方检验。卡方检验主要用于定类或定序变量的假设检验，在社会统计中应用非常广泛。卡方检验的步骤一般为：（1）建立假设，确定显著水平a与自由度df、查x2...

第二次课的作业：请查一下这里列出来的所有方法，并用实例实现（并在软件中实施一下，任何软件环境都可以。）1.解：属性有四种类型：标称、序数、区间、比率。其中标称和序数属性统称分类的或定性的。区间和比率是数值的或定量的。1）众数一组数据中出现次数最多的数据就是这组数据的众数。2）x2检验亦称卡方检验。统计学中假设检验的方式之一。x是一个希腊字母，x2可读音为卡方，所以译为卡方检验。卡方检验主要用于定类或定序变量的假设检验，在社会统计中应用非常广泛。卡方检验的步骤一般为：（1）建立假设，确定显著水平a与自由度df、查x2值表得到否定域的临界值；（2）由样本资料计算x2值；（3）将计算所得的x2值与临界x2值（负值都取绝对值）作比较，若计算值大于临界值，则否定Ⅱ0；反之，则承认Ⅱ0。计算卡方值的公式一般可表示为：x2=∑[（fo—fc）2/fc]式中：fo表示实际所得的次数，fc表示由假设而定的理论次数，∑为加总符号。x2检验对于定类与定类或定类与定序变量之间的相关检验应用较多。例：用卡方检验拟合优度：[h,p,st]=chi2gof(bins,'ctrs',bins,...'frequency',obsCounts,...'expected',expCounts)bin：有n组数值则:bin=0:（n-1）；obsCounts：观测值expCounts：期望值h,p,st：返回值3）符号检验符号检验法：是通过两个相关样本的每对数据之差的符号进行检验，从而比较两个样本的显著性。具体地讲，若两个样本差异不显著，正差值与负差值的个数应大致各占一半。符号检验与参数检验中相关样本显著性t检验相对应，当资料不满足参数检验条件时，可采用此法来检验两相关样本的差异显著性。根据符号检验判断差异显著性时也要查表找出相应的临界值。但特别应注意的是在某一显著性水平下，实得的r值大于表中r的临界值时，表示差异不显著，这一点与参数检验时的统计量和临界值的判断结果不同。4）均值M=mean(A)返回沿数组中不同维的元素的平均值。如果A是一个向量，mean(A)返回A中元素的平均值。如果A是一个矩阵，mean(A)将中的各列视为向量，把矩阵中的每列看成一个向量，返回一个包含每一列所有元素的平均值的行向量。如果A是一个多元数组，mean(A)将数组中第一个非单一维的值看成一个向量，返回每个向量的平均值。例：5）标准差（StandardDeviation）在概率统计中最常使用作为统计分布程度（statisticaldispersion）上的测量。标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的平方根。标准差也被称为标准偏差，或者实验标准差，公式为：皮尔逊相关皮尔逊相关系数是一种度量两个变量间相关程度的方法。它是一个介于1和-1之间的值，其中，1表示变量HYPERLINK"://baike.baidu/view/11760715.htm"\t"_blank"完全正相关，0表示无关，-1表示完全负相关。HYPERLINK"://baike.baidu/view/306432.htm"\t"_blank"几何平均数几何平均数是求一组数值的HYPERLINK"://baike.baidu/view/687354.htm"\t"_blank"平均数的方法中的一种。适用于对比率数据的平均，并主要用于计算数据平均增长（变化）率。n个观察值连乘积的n次方根就是HYPERLINK"://baike.baidu/view/306432.htm"\t"_blank"几何平均数。根据资料的条件不同，HYPERLINK"://baike.baidu/view/306432.htm"\t"_blank"几何平均数分为HYPERLINK"://baike.baidu/view/384.htm"\t"_blank"加权和不加权之分。设一组数据为X1，X2，...，Xn，且大于0，则HYPERLINK"://baike.baidu/view/306432.htm"\t"_blank"几何平均数Xg为：Xg=√∏xi，i=1,2,...,n8）算数平均算术平均数是HYPERLINK"://baike.baidu/view/142953.htm"\t"_blank"加权平均数的一种特殊形式（特殊在各项的权重相等）。在实际问题中，当各项权重不相等时，计算平均数时就要采用加权平均数；当各项权相等时，计算平均数就要采用算数平均数。调和平均调和平均数（HarmonicAverage）又称倒数平均数，是总体各统计变量倒数的算术平均数的倒数。简单调和平均数是算术平均数的变形，它的计算公式如下：以DimensionalityReduction为关键词，做一个简单的文献综述（1000-1500字），总结一下你理解的最近常用的DimensionalityReduction。数据降维方法综述在科学研究和工程实际中，很多大数据集具有高维数的特点。如：图像分析，计算机视觉，地震属性，三维模型的分类与检索等。这些丰富的数据资源在给人们带来便利的同时也带来了一大堆的难题，例如信息过量、难以处理、有价值的信息淹没在海量数据中、数据难以取舍等等。因此，如何对这些丰富的数据资源进行有效的分析，挖掘出数据中蕴含的有用信息己经成为目前的研究者和技术专家所面临的共挑战。为了解决这一问题，可以首先将数据降到低维空间，然后利用得到的低维特征进行既定的学习或者挖掘任务。有效的数据降维技术(DimensionalityReduction)能够探索出原始数据的内在结构和联系，不仅可以消除数据间的冗余，以简化数据，提高计算效率，还能够大大改善数据的可理解性，提高学习算法的精度。数据降维的方法可以分为线性降维技术和非线性降维技术。线性降维技术通常假设数据集采样自一个全局线性的高维空间，即构成数据的各变量之间是独立无关的。如果所面临的数据确实具有全局线性的结构，或者在一定程度上可以近似为全局线性时，这些方法能够有效地学习出其线性结构，得到数据紧致的低维表示。常用的比如主成分分析（PCA:PrincipleComponentAnalysis），独立成分分析（ICA:IndependentComponentAnalysis），线性判别分析（LDA:LinearDiscriminantAnalysis）。其它如因子分析，多维尺度变换、典型相关分析等。然而在现实中所获取的许多数据其各个属性间常常是强相关的，呈现出高度的非线性，例如文本数据、图像数据、语音数据以及视频数据等。这些数据都具有难以获知的复杂结构，此时，采用线性方法就无法得到理想的效果。为了解决这一问题，也提出了许多非线性降维算法。如基于核思想的降维方法：核主成分分析（KPCA），核独立成分分析（KICA），核FISHER判别分析（KFDA）。另如基于流形学习的方法：局部线性嵌入（LLE），等距映射（ISOMAP）。阅读文献比较中发现现有降维方法存在以下有待解决的问题:1、现有的非线性降维方法对于个别的人造数据效果很好,但对于现实数据往往并不优于传统的线性方法,因而要进一步研究这些非线性降维方法使其得到最大程度的改进；2、流形学习的提出为数据降维提供了非常有利的框架,但它们大多为局部方法,局部方法的一个很大的缺陷就是受噪声影响大,如何减少噪声的干扰、提高算法的鲁棒性一直以来都是研究的方向；3、现有降维方法不具有增值能力,对动态增加的观测数据点不能快速明确地映射到低维空间,学习改进增量算法具有一定的研究价值。3.特征子集选择和特征生成的方法是否一样？你说说你的理解解：不一样。（1）特征生成是选择事物所特有的性质。特征生成的思路如下：•时域、频域、时频联合–相关系数、FFT、DCT、Wavelet、Gabor•统计、结构、混合–直方图、属性‐关系图•底层、中层、高层–颜色、形状、纹理、梯度、语义•模型–ARMA、LPC特征选择也叫特征子集选择(FSS,FeatureSubsetSelection)，是指从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化，是从原始特征中选择出一些最有效特征以降低数据集维度的过程。特征子集产生过程是搜索特征子空间的过程。搜索的算法分为完全搜索(Complete)，启发式搜索(Heuristic)，随机搜索(Random)3大类，如下图1所示。图1特征子集产生过程算法分类图完成对Brute-forceapproch算法的简单实现，并找到一种改方法的改进算法，给出流程，重点说明改进后算法的优点。解：Brute-Force算法的基本思想是：（1)从目标串s的第一个字符起和模式串t的第一个字符进行比较，若相等，则继续逐个比较后续字符，否则从串s的第二个字符起再重新和串t进行比较。（2)依此类推，直至串t中的每个字符依次和串s的一个连续的字符序列相等，则称模式匹配成功，此时串t的第一个字符在串s中的位置就是t在s中的位置，否则模式匹配不成功。Brute-Force算法的C语言实现：#include"stdafx.h"#include#include"stdlib.h"#includeusingnamespacestd;//宏定义#defineTRUE1#defineFALSE0#defineOK1#defineERROR0#defineMAXSTRLEN100typedefcharSString[MAXSTRLEN+1];/*返回子串T在主串S中第pos位置之后的位置，若不存在，返回*/intBFindex(SStringS,SStringT,intpos){if(pos<1||pos>S[0])exit(ERROR);inti=pos,j=1;while(i<=S[0]&&j<=T[0]){if(S[i]==T[j]){++i;++j;}else{i=i-j+2;j=1;}}if(j>T[0])returni-T[0];returnERROR;}voidmain(){SStringS={13,'a','b','a','b','c','a','b','c','a','c','b'，'a','b'};SStringT={5,'a','b','c','a','c'};intpos;pos=BFindex(S,T,1);cout<<"Pos:"<

                    本文档为【模式识别作业4】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

模式识别作业4

你可能还喜欢