首页 统计学习方法PDF

统计学习方法PDF

举报
开通vip

统计学习方法PDF统计学习方法——cart, bagging, random forest, boosting ? cart(classification and regression tree) breiman, friedman, olshen & stone (1984), quinlan (1993) 思想:递归地将输入空间分割成矩形 优点:可以进行变量选择,可以克服missing data,可以处理混合预测缺点: 不稳定 example: 对于下面的数据,希望分割成红色和绿色两个类,原本数据生成是这样的: red...

统计学习方法PDF
统计学习方法——cart, bagging, random forest, boosting ? cart(classification and regression tree) breiman, friedman, olshen & stone (1984), quinlan (1993) 思想:递归地将输入空间分割成矩形 优点:可以进行变量选择,可以克服missing data,可以处理混合预测缺点: 不稳定 example: 对于下面的数据,希望分割成红色和绿色两个类,原本数据生成是这样的: red class: x1^2+x2^2>=4.6 green class: otherwise 经过不断分割可以得到最后的分类树:篇二:如何合理选择统计方法——常用统计学方 法汇总 01如何选择合适的统计学方法? 1连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。 1.1.3 资料方差不齐,(1)采用satterthwate 的t’检验;(2)采用非参数检验,如 wilcoxon检验。 1.2 两组配对样本的比较 1.2.1 两组差值服从正态分布,采用配对t检验。 1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。 1.3 多组完全随机样本比较 1.3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验 结果为有统计学意义,则进一步作两两比较,两两比较的方法有lsd检验,bonferroni法, tukey法,scheffe法,snk法等。 1.3.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的kruscal-wallis 法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用bonferroni法校正p 值,然后用成组的wilcoxon检验。 1.4 多组随机区组样本比较 1.4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验 结果为有统计学意义,则进一步作两两比较,两两比较的方法有lsd检验,bonferroni法, tukey法,scheffe法,snk法等。 1.4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的fridman检验法。 如果检验结果为有统计学意义,则进一步作两两比较,一般采用bonferroni法校正p值,然 后用符号配对的wilcoxon检验。 ****需要注意的问题: (1)一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采 用t检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。 (2)当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样 作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,如果总的来 说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法, 如上面提到的lsd检验,bonferroni法,tukey法,scheffe法,snk法等。**绝不能对其中 的两组直接采用t检验,这样即使得出结果也未必正确** (3)关于常用的 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 方法:多组资料尽管最终分析都是采用方差分析,但不同设计会 有差 别。常用的设计如完全随即设计,随机区组设计,析因设计,裂区设计,嵌套设计等。 2.分类资料 2.1 四格表资料 2.1.1 例数大于40,且所有理论数大于5,则用普通的pearson 检验。 2.1.2 例数大于40,所有理论数大于1,且至少一个理论数小于5,则用校正的检验或 fisher’s确切概率法检验。 2.1.3 例数小于40,或有理论数小于2,则用fisher’s确切概率法检验。 2.2 2×c表或r×2表资料的统计分析 2.2.1 列变量&行变量均为无序分类变量,则(1)例数大于40,且理论数小于5的格 子数目<总格子数目的25%,则用普通的pearson 检验。(2)例数小于40,或理论数小 于5的格子数目>总格子数目的25%,则用fisher’s确切概率法检验。 2.2.2列变量为效应指标,且为有序多分类变量,行变量为分组变量,用普通的pearson 检验只说明组间构成比不同,如要说明疗效,则可用行平均分差检验或成组的wilcoxon秩和 检验。 2.2.3 列变量为效应指标,且为二分类变量,行变量为有序多分类变量,则可采用普通 的pearson 检验比较各组之间有无差别,如果总的来说有差别,还可进一步作两两比较,以 说明是否任意两组之间的差别都有统计学意义。 2.3 r×c表资料的统计分析 2.2.1 列变量&行变量均为无序分类变量,则(1)例数大于40,且理论数小于5的格 子数目<总格子数目的25%,则用普通的pearson 检验。(2)例数小于40,或理论数小 于5的格子数目>总格子数目的25%,则用fisher’s确切概率法检验。(3)如果要作相 关性分析,可采用pearson相关系数。 2.2.2列变量为效应指标,且为有序多分类变量,行变量为分组变量,用普通的pearson 检验只说明组间构成比不同,如要说明疗效或强弱程度的不同,则可用行平均分差检验或成 组的wilcoxon秩和检验或ridit分析。 2.2.3 列变量为效应指标,且为无序多分类变量,行变量为有序多分类变量,则可采用 普通的pearson 检验比较各组之间有无差别,如果有差别,还可进一步作两两比较,以说明 是否任意两组之间的差别都有统计学意义。 2.2.4 列变量&行变量均为有序多分类变量,(1)如要做组间差别分析,则可用行平均 分差检验或成组的wilcoxon秩和检验或ridit分析。如果总的来说有差别,还可进一步作两 两比较,以说明是否任意两组之间的差别都有统计学意义。(2)如果要做两变量之间的相关 性,可采用spearson相关分析。 2.4 配对分类资料的统计分析 2.4.1 四格表配对资料,(1)b+c>40,则用mcnemar配对检验。(2)b+c<40, 则用校正 的配对检验。 2.4.1 c×c资料,(1)配对比较:用mcnemar配对检验。(2)一致性检验,用kappa 检验。 在spss软件相关分析中,pearson(皮尔逊), kendall(肯德尔)和spearman(斯伯曼/ 斯皮尔曼)三种相关分析方法有什么异同 两个连续变量间呈线性相关时,使用pearson积差相关系数,不满足积差相关分析的适 用条件时,使用spearman秩相关系数来描述. spearman相关系数又称秩相关系数,是利用两变量的秩次大小作线性相关分析,对原始 变量的分布不作要求,属于非参数统计方法,适用范围要广些。对于服从pearson相关系数 的数据亦可计算spearman相关系数,但统计效能要低一些。pearson相关系数的计算公式可 以完全套用spearman相关系数计算公式,但公式中的x和y用相应的秩次代替即可。 kendalls tau-b等级相关系数:用于反映分类变量相关性的指标,适用于两个分类变量 均为有序分类的情况。对相关的有序变量进行非参数相关检验;取值范围在-1-1之间,此 检验适合于正方形表格; 计算积距pearson相关系数,连续性变量才可采用;计算spearman秩相关系数,适合于 定序变量或不满足正态分布假设的等间隔数据; 计算kendall秩相关系数,适合于定序变量 或不满足正态分布假设的等间隔数据。 计算相关系数:当资料不服从双变量正态分布或总体分布未知,或原始数据用等级表示 时,宜用 spearman或kendall相关 pearson 相关复选项积差相关计算连续变量或是等间距测度的变量间的相关分析 kendall 复选项等级相关计算分类变量间的秩相关,适用于合并等级资料 spearman 复选项等级相关计算斯皮尔曼相关,适用于连续等级资料 注: 1若非等间距测度的连续变量因为分布不明-可用等级相关/也可用pearson 相关,对于 完全等级离散变量必用等级相关 2当资料不服从双变量正态分布或总体分布型未知或原始数据是用等级表示时,宜用 spearman 或 kendall相关。 3 若不恰当用了kendall 等级相关分析则可能得出相关系数偏小的结论。则若不恰当使 用,可能得相关系数偏小或偏大结论而考察不到不同变量间存在的密切关系。对一般情况默 认数据服从正态分布的,故用pearson分析方法。 在spss里进入correlate-》bivariate,在变量下面correlation coefficients复选 框组里有3个选项: pearson kendalls tau-b spearman:spearman spearman(斯伯曼/斯皮尔曼)相关系数 斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。它是依据两列成对 等级的各对等级数之差来进行计算的,所以又称为“等级差数法” 斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格,只要两个变量的观测值是 成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总 体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究 kendalls相关系数 肯德尔(kendall)w系数又称和谐系数,是表示多列等级变量相关程度的一种方法。适用 这种方法的数据资料一般是采用等级评定的方法收集的,即让k个评委(被试)评定n件事 物,或1个评委(被试)先后k次评定n件事物。等级评定法每个评价者对n件事物排出一 个等级顺序,最小的等级序数为1 ,最大的为n,若并列等级时,则平分共同应该占据的等 级,如,平时所说的两个并列第一名,他们应该占据1,2名,所以它们的等级应是1.5,又 如一个第一名,两个并列第二名,三个并列第三名,则它们对应的等级应该是 1,2.5,2.5,5,5,5,这里2.5是2,3的平均,5是4,5,6的平均。 肯德尔(kendall)u系数又称一致性系数,是表示多列等级变量相关程度的一种方法。该 方法同样适用于让k个评委(被试)评定n件事物,或1个评委(被试)先后k次评定n件 事物所得的数据资料,只不过评定时采用对偶评定的方法,即每一次评定都要将n个事物两 两比较,评定结果如下表所示,表格中空白位(阴影部分可以不管)填入的数据为:若i比 j好记1,若i比j差记0,两者相同则记0.5。一共将得到k张这样的表格,将这k张表格 重叠起来,对应位置的数据累加起来作为最后进行计算的数据,这些数据记为γij。正态分 布的相关检验 对来自正态总体的两个样本进行均值比较常使用t检验的方法。t检验要求两个被比较 的样本来自正态总体。两个样本方差相等与不等时用的计算t值的公式不同。 进行方差齐次性检验使用f检验。对应的零假设是:两组样本方差相等。p值小于0.05 说明在该水平上否定原假设,方差不齐;否则两组方差无显著性差异。 u检验时用服从正态分布的检验量去检验总体均值差异情况的方法。在这种情况下总体 方差通常是已知的。 虽然t检验法与u检验法所解决的问题大体相同,但在小样本(样本数n)=30作为大样本)且均方差未知的情况下就不能用u检验法了。 均值检验时不同的数据使用不同的统计量 使用means过程求若干组的描述统计量,目的在于比较。因此必须分组求均值。这是与descriptives过程不同之处。 检验单个变量的均值是否与给定的常数之间存在差异,用one-sample t test 单样本t 检验过程。 检验两个不相关的样本是否来自来具有相同均值的总体,用independent-samples t test 独立样本t检验过程。 如果分组样本不独立,用paired sample t test 配对t检验。 如果分组不止两个,应使用one-way anovo一元方差分析(用于检验几个独立的组,是 否来自均值相等的总体)过程进行单变量方差分析。 如果试图比较的变量明显不服从正态分布,则应该考虑使用一种非参数检验过程nonparametric test. 如果用户相比较的变量是分类变量,应该使用crosstabs功能。 当样本值不能为负值时用右侧单边检验 医学科研中如何用好应用统计学的方法统计学是一门透过同质事物的变异性、揭示内在 事物规律性和实质性的科学,确切地讲,是一门关于客观数据分析的科学,研究数据的收集、 整理和分析,包括理论和应用两个方面。医学应用统计学,侧重于实际应用,是在传承和借 鉴传统医学统计学“理论·原理·公式·应用”模式基础上,创造性地以“目的·数据库一 变量类型一变量间关系”模式为指导的统计学。它遵循简单实用的原则,力避复杂的数学原 理和公式推导,以解决实际问题为导向,以建立统计数据库、分清变量类型为基础,以分析 变量与变量间关系为核心阐述统计学分析方法,对于广大医学科研工作者,具有内容简单、 思维明确、操作可行、方法实用的特点。因此,学好用好医学应用统计学需要掌握如下一些 基本方法。 一、明确研究目的和研究设计 研究目的是研究设计的目标和方向,科学研究的基本要素及其基本原则是科研设计的基 础和 指南 验证指南下载验证指南下载验证指南下载星度指南下载审查指南PDF 。完整的科研设计包括专业设计和统计设计两部分:专业设计是指课题的实际意义 和研究价值,入选对象的诊断 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 、纳入标准及排除标准等,决定研究课题的先进性和实用性;统计设计包括选择研究类型与设计方案,确定研究总体、样本量、观察指标、随机化分 组或抽样方法,以及数据的质量控制和统计分析方法等,影响课题的可信度和科学价值。 因此,正确的统计学分析一定要建立在明确的研究目的和研究设计的基础之上,那些事 先没有研究目的和研究设计,事后找来一堆数据进行统计分析都是不可取的。 在医学 论文 政研论文下载论文大学下载论文大学下载关于长拳的论文浙大论文封面下载 的撰、编、审、读过程中经常遇到的问题是研究的题目与课题设计、论文内 容不符,包括文章的方法解决不了论文的目的、文章的结果说明不了论文的题目、文章的讨 论偏离了论文的主题;还有是目的不明确、设计不合理。如题目过小,论文不够字数,而一 些无关紧要的变量指标或结果被分析被讨论;又如题目过大,论文的全部内容不足以说明研 究的目的,使论文的论点难以立足。 所以,合理明确的论文题目或目的以及研究设计方案是撰、编、审、读者应当关注的首 要问题。此外,样本含量是否满足,抽样是否随机,偏倚是否控制等,也是不可忽视的问题。 篇三:统计学学习笔记 统计学学习笔记(一)——学统计学需要理由吗?我承认,我学统计学是出于很实 际的目的的。其实在本科的时候已经学习了《概率论与统计学》,可惜以应试为目标的学习成 果,最后统统都还给老师了。这次正儿八经地从头开始学习,鞭策我的根本动力就是要在项 目中运用到。 本系列说白了就是一统计学学习笔记,主要的学习书目为: 《漫画统计学》, 《爱上统计学》, 《医用统计方法》。其他的等用到了再补充。预期的学习方向:医学统计学。总目标: 记录 混凝土 养护记录下载土方回填监理旁站记录免费下载集备记录下载集备记录下载集备记录下载 医 学相关的统计学知识要点以及学习心得。尽量做到有理有据,有图有真相。“真相”主要是以 数据集stroke_clean.sav(脑中风数据)为例,图来自spss的操作截图。统计学:一门关 于数据的学科 统计学:描述一系列可用于描述、整理和解释资料或数据的统计工具和技术。[爱上统 计学,p6] 可以看出,数据是统计学的根本。要是没有数据,或者没有针对数据的需求,那么统计 学也就不需要了。但不是所有的数据都可以作为统计学方法的输入的。 确认数据种类 数据有无数多。各种各样的,千奇百怪的。 那么统计学对什么样的数据感兴趣呢?总不能所有都要涉及吧?主要是以下几类数据 [spss,漫画统计学,医用统计方法](图1): 1. 数值型(度量型,scale):数据是连续的;数据之间间隔相等,可测量;可区分 大小。如年龄age。也称为连续型、数值数据、定量数据。 2. 序列型(序号型,ordinal):数据不是连续的;数据之间不可测量;但可区分大 小。如治疗结果result。 3. 字符型(名义型,nominal):数据不是连续的;数据之间不可测量;不可区分大 小。如消凝药物clotsolv。 4. 布尔型(boolean):数据只有两个取值;数据之间不可测量;不可区分大小。如 性别gender。 1 后面三种可以被称为分类数据。 图1:数据类型示例 统计学学习笔记(二)——掌握数据的整体状态数据的集中趋势掌握数据的整体状 态 如果只是看到一堆数据,杂乱无章地排在一起,人很难看出它们到底反应了什么信息。 而各种数据分析技术的发展,却要求我们在分析之前就能对数据从整体上尽可能把握特性, 从而为后面的分析方法的选择及分析结果的理解提供可靠的依据。 统计学中对于一组数据的整体状态,提供了多方位多角度的衡量指标。从数值的角度, 可以从两个方面进行描述:数据的集中趋势(central tendency),数据的变异性 (variability)。 2 从图示的角度,可以通过数据组的频数分布(frequency distribution)及直方图来形 象地描绘数据组内数值的分布状态。 数据的集中趋势 数据的集中趋势很好理解,通俗地说,就是看看这组数据大概讲什么的。比如对于图2 中的age数据,一眼看去,都在50以上,大概能够猜到这组数据主要讲的是老年人。但具体 如何,在数据量大的情况下,就需要有一些确切的指标来表明其整体状态。这些指标最常见 的就是均值(算术均值)、中值和众数;另外在医学统计学中,也经常会用到几何均值。 图2:年龄数据示例 均值(算术均值,mean,arithmetic mean):数据组中所有数值的总和除以该组数值的 个数。指的就是数值的中间点。 3 ? 将数据组中每个数值减去均值后的结果相加,和等于0。可以把某个数值减去均值 的结果看作是这个数值到均值的距离。 ? 均值是最能反映数据的集中趋势的单一指标,如果考虑到均值可以使每个数值减去 均值后的平方和最小这个情况。 ? 对于正态分布来说,其均值与中值和众数相等。 ? 均值对极值很敏感。当极值比较大的时候,会使得均值对数据组集中趋势量数的代 表性减弱。 图3:中值示意 众数(mode):出现次数最多的数值。见图4[mode, 4 图4:众数示意 几何均值(几何均数,geometric mean):将所有数值相乘后取数值数目的开方。 这个计算方法当数值数目>3后会很难计算,因此将它转换为对数形式,也就是先将 所有数值进行(自然)对数转换,然后计算这些转换后的对数值的算术均值,然后再取反对 数。从这个计算方法可以看出,几何均值和均值最大的不同就是对数值取了对数。增加了计 算量,又有什么好处呢?前面我们说到,均值对极值很敏感。但取对数却可以很好地平衡这 种极值,因此几何均值就会对一些有极值的、偏态的数据组能很好地反映其集中趋势。比如 在衡量某种传染病的潜伏期或血中某种抗体的滴度时就常用几何均值表示它们的平均水平 [医用统计方法,3.1]。 指标很多,各有各的用处。下面就总结一下它们各自擅长的地方: ? 如果数据是序列型、字符型或布尔型,无法计算其均值和中值,则使用众数作为集 中趋势的量数。 ? 如果数据是数值型且没有极值,则可以使用均值反映集中趋势。 ? 如果数据是数值型,但包含极值,或分布比较偏态,则可以使用中值或几何均值。 文章[how to analyze data using the average, 5 篇四:统计学习精要 统计学习精要(the elements of statistical learning)课堂笔记系列 课程教材:the elements of statistical 授课人:复旦大学计算机学院吴立德教授?统计学习精要(the elements of statistical learning)?课堂笔记(一) 从这周开始,如无意外我会每周更新课堂笔记。另一方面,也会加上自己的一些理解和 实际工作中的感悟。此外,对于data mining感兴趣的,也可以去coursera听课~貌似这学 期开的machine learning评价不错。我只在coursera上从众选了一门「model thinking」, 相对来说比较简单,但是相当的优雅!若有时间会再写写这门课的上课感受。笔记我会尽量 用全部中文,但只是尽量... ------------课堂笔记开始-------- 第一次上课,主要是导论,介绍这个领域的关注兴趣以及后续课程安排。对应本书的第 一章。 2. 统计学习分类?一般说来,我们有个观测到的结果y,然后找到一个适合的模型根据 x预测y,这样的称之为有监督的学习(supervised learning)。而有些时候,y是无法观测到的,那么只是通过x来学习,称之为无监督的学习(unsupervised learning)。这 本书主要侧重有监督的学习。 3. 回归和分类器。这个主要和y有关。如果y为离散,比如红黄蓝不同颜色,则称之为 分类器(学习模型);反之,若y为连续,比如身高,则称之为回归(学习模型)。这里更多 只是称谓上的区别。 4. 统计学习的任务?预测。通过什么来预测?学习模型(learning models)。按照什么 来学习?需要一定的准则,比如最小均方误差mse,适用于分类器的0-1准则等。基于这些 准则、优化过的实现方法称之为算法。 5. 统计学习举例? 分类器:依据邮件发信人、内容、标题等判断是否为垃圾邮件; 回归:前列腺特异抗原(psa)水平与癌症等因素的关系; 图形识别:手写字母的识别; 聚类:根据dna序列判断样本的相似性,如亲子鉴定。 6. 课程安排顺序? 第二章,是对于有监督的学习模型的概览。 第三章和第四章将讨论线性回归模型和线性分类器。 第五章将讨论广义线性模型(glm)。 第六章涉及kernel方法和局部回归。 第七章是模型评价与选择。 第八章是测侧重算法,比如最大似然估计,bootstrap等。本学期预计讲到这里。所以 后面的我就暂时不列出了。 目测第二节开始将变得越来越难,前阵子自学第二章痛苦不已啊...一个lasso就折磨了 我好久。当时的读书笔记见:降维模型若干感悟 --------10.15补充--------- 上周写的时候只是凭着记忆,笔记没在身边。今天重新翻了翻当时记下的课堂笔记,再 补充一些吧。 第九章是可加模型,即 f(x1,...,xp)=f(x1)+...+f(xp) 第十章是boosting模型 第十一章讨论神经网络 第十二章讨论支持向量机 (support vector machine) 第十三章设计原型方法(prototype) 第十四章从有监督的学习转到无监督的学习(即有x有y->有x无y) 第十五章讨论随机森林模型(random forest) 第十六章是集群学习 第十七章结构图模型 ?统计学习精要(the elements of statistical learning)?课堂笔记(二) 继续一周一次的课堂笔记 :d 昨天去晚了站着听讲,感觉好好啊,注意各种集中。想想 整个教室里面就是我和老师是站着的,自豪感油然而生。 第二次课讲的东西依旧比较简单,是这本书第二章的前半部分。作为一个好久之前已经 预习过的孩子,我表示万分的得意(最小二乘法难道不是三四年前就学过的?话说以后我再 面人的时候,就让他推导最小二乘估计量,嘻嘻...考验一下基本功)。 ------------原谅我的废话,笔记开始------------ 简单预测方法:最小二乘法(以下沿用计量经济学的习惯,简称ols) ols实在是太普 遍了,我就不赘述细节了。ols的思想就是,基于已有的样本信息,找出一条直线,让预测 值与真实值之间的残差平方和最小,即∑n(y?y^)2 最小。其中, y 为真实的样本观测值(已 有样本),而 y^ 是ols的预测值。用图来讲的话,x为一维向量的时候,就是用一条直线来 最好的拟合各个样本点。 这里就很明显了,首先ols假设是一条直线。那么就是一个参数模型,即我们需要假设 一个未知的参数β,构成一个线性方程 y=βx ,然后再去估计β的值。然后呢,直线会 有很 多条,所以我们要找到一个目标——比如这里,就是最小化残差平方和rss。换言之, 我们寻找的就是最优的向量β^ 使得rss最小。 解这个最优化问题很简单,我就不重复了。最后解得的最优估计量为: β^=(x′x)?1x′y 这里写成矩阵形式,比较简单。x为一维向量的时候,可以改写成∑形式,我个人不 大喜欢,就不展开了。 简单预测方法:k近邻(k nearest neighbor) k近邻的思想就更简单了。不就是想预测某个点x对应的y么?那么就把它的邻居都找 来,平均一下好了。不是有句话叫做什么“一个人的收入就大概是他的圈子收入的平均值么?” 所以 y^=mean(yi|xi∈nk(x)) ,这里 nk(x) 表示点x的k近邻。至于这个近邻怎么定义嘛, 嘻嘻,很简单啊,欧几里德距离就可以嘛~ 评语:吴老师对于这两个算法的直观评价是,ols呢就是勤奋的学生,预测前先做足功 课,预测的时候只要知道x,噼里啪啦一下子y就估计出来了。然而knn则是一个临时抱佛 脚的学生,预测的时候开始找自己的k近邻,然后把它们平均一下就好了。哈哈,大意如此, 大家可以体会一下这种精神。我个人感觉呢,ols属于以不变应万变的,而knn则是见机行 事的。统计决策理论(statistical decision theory) 说了这么多,这个模型好不好到底怎么判读呢?凡事总得有个标准呢。这一系列的标准 或者说准则,就是统计决策理论了。 首先呢,大致我们需要对x,y有个分布上的描述:用 p(x,y) 记作向量 (x,y) 的联合分 布,然后 p(x,y)为其对应的密度函数。之后为了估计y,我们会有很多很多模型,即各种 f(x) ,而这些 f(x) 组成的函数空间记为 f 。 然后我们定义一个损失函数,比如在均方误差意义下, l(y,f(x)=(y?f(x))2 ,这样就 有了一个选择的标准——使得损失函数的期望最 小: epe(f)=e(y?f(x))2=∫[y?f(x)]2p(dx,dy) 。接下来就是,到底在 f 空间里面, 哪一个 f 最符合这个标准呢? 首先自然是把联合分布变为条件分布。这个idea显而易见——我们总是知道x的(原谅 我吧,全中文确实比较难写,偶尔穿插英文一下 ^_^)。所以conditional on x,我们就有 了 epe(f)=∫[y?f(x)]2p(dx,dy)=∫x{∫y[y?f(x)]2p(y|x)dy}p(x)dx 去解最小化问题,最终我们得到的就是在每个点x上, f(x)=e(y|x=x) 。通俗的讲就是, 对于每个点预测,把和它x向量取值一样的样本点都找出来,然后取他们的平均值就可以了。 很直观的不是么?这里也有点最大似然的想法呢——比如预测一个男孩的身高,最保险的就 是把和它同龄的其他男孩的身高平均一下,不是么? 但是说来简单啊,很多时候 p(x,y) 都是未知的,根本无法计算嘛。所以只能近似: ? 回 忆一下knn,就是放松了两点:1) xk 取的是x的近邻,而不一定是x; 2)用样本 平均数代替了期望 ? 而ols呢,也是最后在 e(β)=e[(x′x)?1x′y] 这里,用样本平均代替了期望。近 似嘛,自然有好的近似和不好的近似。很显然的,当样本比较大、尤其是比较密集的时候,x 的邻居应该都离x很近,所以这个误差可以减小;此外,当样本很大的时候,根据大数定律, 平均数收敛于期望。所以,这两种算法应该说,都在大样本下会有更好的效果。模型选择、 训练误差与测试误差、过拟合 这里讲的比较简单。模型选择就是 f 的选择,即选择哪一类函数空间 f ,然后再其中 找/估计最优的 f(x) 。很显然,如果只有若干个有限的样本,我们总能把各个样本用直线或 者曲线依次连起来,这样的话就有无数个f可以作为此问题的解。显然这不是我们想要的— —这样的称为“不设定问题”,即可能无解、可能多个解、还可能因为一点点x的变化导致整 个解的解答变化。因此我们需要先设定一个解的类别。 训练误差:预测模型估计值与训练数据集之间的误差。rss就是一个典型的训练误差组 成的残差平方和。 测试误差:用训练集以外的测试数据集带来的误差,显然我们更关心的是测试误差—— 训练总能训练的很好,让损失函数期望最小,然而测试集则不一定这样。一般说来,测试误 差>训练误差。 过拟合:选择一个很复杂的f,使得训练误差很小,而实际的测试误差不一定小。最极 端的就是刚才说的,把训练集的点一个个依次连起来...训练误差肯定是0是不是? 我们关心的自然是怎么降低测试误差。显然这东西会跟训练误差有关,但是它还跟f的 复杂度有关。最最棘手的就是,f的复杂度是一个难以衡量的问题。早期的研究有用自由度 来衡量这个复杂度的,但是也不是那么的靠谱...后面的有人鼓捣出来pac(使得近似正确的 概率篇五:定量资料统计学方法小结 计量资料分析常用的统计学方法小结 第二章、定量资料的统计描述 频率分布表与频率分布图: 描述平均水平的统计指标(描述集中趋势):算数均数、几何均数、中位数 与百分位数、众数 描述变异程度的统计指标(描述离散趋势):极差、四分位数间距、方差、 标准差、变异系数 描述分布形态的统计指标:偏度系数、峰度系数 第一节频率分布表与频率分布图 离散型定量变量和连续型定量变量的频率分布 离散型定量变量的取值是不连续的。直接清点各变量值出现的频数计算相应 的频率,即为频率分布表。离散型定量变量的频率分布图可用直条图表达,以各 等宽矩形直条的高度表示各组频率的大小。 连续型定量变量的取值是连续的。将数据适当分组,清点各组频数,并计算 相应频率,即为频率分布表。连续型定量变量的频率分布图可用直方图表达,纵 坐标为频率密度,即频率/组距,直方图面积之和等于1. 1、离散型定量变量的频率分布 步骤:(1)直接清点各变量值出现的频数 (2)计算各组频率,累计频数,累计频率 2、连续型定量变量的频率分布 步骤: (1)求极差(range):即最大值与最小值之差,又称为全距。 (2)决定分组组数、组距:根据研究目的和样本含量n确定分组组数,通 常分为10~15个组。组距=极差/组数,为方便计,组距为极差的十分之一, 再 略加调整。 (3)列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包 含最大值。 (4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。 编制频率表的注意事项: (1)分组不宜过粗,也不宜过细。通常分为10~15个组。 (2)为计算方便,组段下限一般取较整齐的数值。确定各组段上下限时, 各组段要连续但不重叠。除去最后一个组段,其余组段应包含下限值,不包含上 限值。 (3)第一组段应包含最小值,最后一组段应包含最大值。 3、频数表和频数分布图用途 (1)描述频数分布的类型 对称分布:若各组段的频数以中心位置左右两侧大体对称,就认为该资料 是对称分布 正偏态分布:右侧的组段数多于左侧的组段数, 频数向右侧拖尾。 偏态分布: 负偏态分布:左侧的组段数多于右侧的组段数,频 数向左侧拖尾。 (2)描述频数分布的特征 随机变量的分布具有两个特征——集中趋势与离散趋势。 ①数据集中(平均):总体中的个体具有某些同性质,这些同性质是的数据 趋向同一数值,表现为变量值聚集在某个中心值的周围,称为集中趋势。 ②数据变异(离散):同一总体中的个体之间又普遍存在各种差别,使得变 量值向平均水平左右离散,称为离散趋势。 (3)便于发现某些离群值或极端值。 (4)便于进一步做统计分析和处理 第二节描述平均水平的统计指标(描述集中趋势的指标) 统计上使用平均数(average)这一指标体系来描述一组变量值的集中位置或平 均水平。常用的平均数有三种——算数均数、几何均数、中位数。 1、算术均数:简称均数(mean) 可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位 x1?x2???xn ?x置的特征值。常用μ表示总体均数,用 ?表示样本均数。?nn 均数适用于对称分布,特别是正态分布资料。 直接计算法(利用原始数据): x1?x2???xnx 加权法(利用频数表): k:频数表的组段数, f :频数, x:组中值。 2、几何均数(geometric mean g) 可用于反映一组原始观察值不对称,但经对数转换后呈对称分布或正态分布 的变量值在数量上的平均水平。 (1)直接法计算公式: g? lgx1lgg?(lgx1?lgx2???lgxn)? nn lgx?1 g?lglg表示以10为底的对数; lg表示以10为底的反对数 x?0,为正值?1n 有8份血清的抗体效价分别为1:5, 1:10, 1:20, 1:40, 1:80, 1:160,1:320,1:640,求 平均抗体例效价。 g?5?10?20?40?80?160?320?640?56.57 g?lg?1[(lg5?lg10?lg20???lg640)/8]?56.57 根据g的倒数得到平均抗体效价为: 1:57 (2)加权法公式(频率表法): ∑f:各组频数之和,即n 3、中位数(median m)与百分位数(percentile px) 是将每个变量值从小到大排列,位置居于中间的那个变量值。理论上有一半的观察值高 于中位数,一半的观察值低于中位数。中位数适用于各种分布的变量,特别是偏峰分布的变 量。只与位次居中的观察值有关,不受分布两端特大或特小值的影响。因此,在末端无确定 值资料,不能计算均数和几何均数的时候,可计算中位数。 (1)直接法计算公式: n 为奇数时: n 为偶数时: (2)频率表法:对于频率表资料,可以通过百分位数法近似计算中位数。 百分位数:是指将n 个观察值从小到大依次排序后,对于x%位的数值;表示将原始观察 值分为两个部分,理论上有x%的观察值小于 px 有(1-x)%的观察值大于px。所以百分位数p50就是中位数。 m?所在组段下限值? 组距(n?50%?至该下限值的累计频数) 所在组段下限值至上限值间的频数 (n?50%??fl) fmm?l?i? ∑fl:为小于l所在组段的累计频数 (3)百分位数(percentile) 直接算法: 设有n个原始数据从小到大排列,第x百分位数的计算公 当 nx% 为带有小数位时: x[trunc(nx%)?1] trunc(nx%)的意思是n和x%的结果取整数 p?x 当nx% 为整数时: x(nx%)(nx%?1) 例对某医院细菌性痢疾治愈者的住院天数统计,120名患者的住院天数从小到大排列 如下,试求第5百分位数和第99百分位数。
本文档为【统计学习方法PDF】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_591137
暂无简介~
格式:doc
大小:61KB
软件:Word
页数:35
分类:企业经营
上传时间:2019-02-14
浏览量:282