首页 生物统计第七章

生物统计第七章

举报
开通vip

生物统计第七章null第七章 直线回归与相关第七章 直线回归与相关下一张 主 页 退 出 上一张 null 变量之间常常是相互影响、彼此相关的, 例如 产量与施肥量有关, 病虫害发生时期与温度有关, 小麦单位面积产量与单位面积穗数、每穗粒数、千粒重有关,等等。 常常需要研究两个或多个变量之间的关系。下一张 主 页 退 出 上一张 null 变量间的关系有两类,一类是变量间存在着完全确定性的关系,可以用精确的数学表达式来表示。 如长方体的体积(V)与长(a)、宽(b)、高(h)的关系可以表达为: ...

生物统计第七章
null第七章 直线回归与相关第七章 直线回归与相关下一张 主 页 退 出 上一张 null 变量之间常常是相互影响、彼此相关的, 例如 产量与施肥量有关, 病虫害发生时期与温度有关, 小麦单位面积产量与单位面积穗数、每穗粒数、千粒重有关,等等。 常常需要研究两个或多个变量之间的关系。下一张 主 页 退 出 上一张 null 变量间的关系有两类,一类是变量间存在着完全确定性的关系,可以用精确的数学 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 达式来表示。 如长方体的体积(V)与长(a)、宽(b)、高(h)的关系可以表达为: V=abh 它们之间的关系是确定性的,只要知道了其中3个变量的值就可以精确地计算出另一个变量的值。这类变量间的关系称为函数关系。下一张 主 页 退 出 上一张 null 另一类是变量间不存在完全的确定性关系,不能用精确的数学公式来表示。 如 产量与施肥量的关系, 病虫害发生时期与温度的关系, 小麦单位面积产量与单位面积穗数、每穗粒数、千粒重的关系等。下一张 主 页 退 出 上一张 null 这些变量间都存在着十分密切的关系,但由于随机误差的影响,不能由一个或几个变量的值精确地求出另一个变量的值。这样的变量在生物界中是大量存在的,统计学中把这类变量称为相关变量。下一张 主 页 退 出 上一张 null 相关变量间的关系分为两种: 一种是因果关系,即一个变量的变化受另一个或几个变量的影响。 如 病虫害发生时期受温度的影响, 小麦单位面积产量受单位面积穗数、每穗粒数、千粒重的影响;下一张 主 页 退 出 上一张 null 另一种是平行关系,即二个变量相互影响,互为因果。 如小麦每穗粒数与千粒重之间的关系,株高与穗长之间的关系等都属于平行关系。 统计学上采用回归分析 研究呈因果关系的相关变量间的关系。 表示原因的变量称为自变量,表示结果的变量称为依变量。下一张 主 页 退 出 上一张 null 研究“一因一果”,即一个自变量与一个依变量的回归分析称为一元回归分析; 研究“多因一果”,即多个自变量与一个依变量的回归分析称为多元回归分析。 一元回归分析又分为直线回归分析与曲线回归分析两种; 多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。下一张 主 页 退 出 上一张 null 回归分析的任务是揭示出呈因果关系的相关变量间的联系形式,建立它们之间的回归方程,利用所建立的回归方程,由自变量(原因)来预测、控制依变量(结果)。下一张 主 页 退 出 上一张 null 统计学上采用相关分析研究呈平行关系的相关变量之间的关系。 对两个变量间的直线关系进行相关分析称为直线相关分析(也叫简单相关分析); 对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关称为复相关分析; 下一张 主 页 退 出 上一张 null 研究其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析。在相关分析中,不区分自变量和依变量。 相关分析只研究两个变量之间线性相关的程度和性质或一个变量与多个变量之间线性相关的程度,不能用一个或多个变量去预测、控制另一个变量的变化。 本章介绍直线回归与相关分析。 下一张 主 页 退 出 上一张 null第一节 直线回归分析 对于两个相关变量x和y,通过试验或调查获得n对观测值,(x1,y1),(x2,y2),­­…… ,(xn,yn),作出散点图。 下一张 主 页 退 出 上一张 null从散点图可以看出: ①两个变量间关系的类型,是直线还是曲线。 图(a)、(d)表明 x 与 y是完全直线关系,这种情况在生物界不多见;图(b)、(e) 表明x与y是直线相关关系,这种情况在生物界较常见;图(f)表明x与y是曲线关系,这种情况在生物界也较常见;图(c)表明x与y无关。下一张 主 页 退 出 上一张 null ②两个变量间关系的性质(是同向增减还是异向增减。 图(a)、(b) 表明 x与y的直线关系是同向增减,图(d)、(e) 表明 x与y的是直线关系是异向增减)和程度(是密切还是不密切)。 ③是否有异常观测值。下一张 主 页 退 出 上一张 null 一、直线回归方程的建立 如果呈因果关系的两个相关变量x与y间的关系是直线关系,由于依变量x与y间的关系是直线关系,由于依变量 的实际观测值总是带有随机误差,因而 可表示为:(i=1,2, …, n) (7—1) 下一张 主 页 退 出 上一张 null 为总体回归系数  i 为相互独立、且都服从N(0,σ2) 的随机变量。 为总体回归截距 其中,下一张 主 页 退 出 上一张 null 在x,y的直角坐标平面上可以作出无数条直线 ,回归直线是指所有直线中最接近散点图全部散点的直线。 设直线回归方程 为:(7-2) 下一张 主 页 退 出 上一张 null a、b应使回归估计值与实际观测值的偏差平方和最小,即:最小 令 Q对a、b的一阶偏导数等于0,即: 下一张 主 页 退 出 上一张 null 整理得关于a、b的正规方程组 下一张 主 页 退 出 上一张 null 解正规方程组,得:(7-3) (7-4) 下一张 主 页 退 出 上一张 null (7-3)式中的分子是自变量x的离均差与依变量y的离均差的乘积和 ,简称乘积和,记作 ,分母是自变量x的离均差平方和 ,记作 。 a叫做样本回归截距,是总体回归截距的最小二乘估计值也是无偏估计值,是回归直线与y轴交点的纵坐标,当x=0时, =a;下一张 主 页 退 出 上一张 null b叫做样本回归系数,是总体回归系数 的最小二乘估计值也是无偏估计值,表示x改变一个单位,y平均改变的数量,b的符号反映了x影响y的性质,b的绝对值大小反映了x影响y的大小; 叫做回归估计值 ,是当x在其研究范围内取某一个值时,y总体平均数( )的估计值。下一张 主 页 退 出 上一张 null 如果将(7-3)式代入(7-2)式,得到回归方程的另一种形式:(7-5) 下一张 主 页 退 出 上一张 null 【例7·1】 江苏武进县测定1956-1964年间3月下旬至4月中旬平均温度累积值 (x,单位:旬•度)和一代三化螟蛾盛发期 (y,以5月10日为0)的 资料 新概念英语资料下载李居明饿命改运学pdf成本会计期末资料社会工作导论资料工程结算所需资料清单 如下表,建立y与x的直线回归方程。下一张 主 页 退 出 上一张 null表7-1 平均温度累积值(x)与一代三化螟盛发期(y)资料 下一张 主 页 退 出 上一张 null 2、计算回归系数b,回归截距a,建立直线回归方程 下一张 主 页 退 出 上一张 1、作散点图 null (天/旬·度)下一张 主 页 退 出 上一张 null(天) 直线回归方程为: 上述回归方程的显著性还有待检验。如果显著, 下一张 主 页 退 出 上一张 null注意,由于实测区间为[31.7,44.2],当 <31.7或 >44.2时, 的变化是否还符合 的规律,还必须提供新的依据。 回归系数 = -1.0996的意义为:当3月下旬的积温( )每提高1旬•度时,一代三化螟盛发期将平均提早1.0996天; 回归截距 =48.5485的意义为:若3月下旬的积温为0,则一代三化螟盛发期为48.5485,即在6月27-28日。下一张 主 页 退 出 上一张 null 3、直线回归方程的离回归 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 误 偏差平方和    的大小表示了实测点与回归直线偏离的程度,因而偏差平方和又称为离回归平方和。统计学已经证明:在直线回归分析中离回归平方和的自由度为n-2。于是可求得离回归均方为: 下一张 主 页 退 出 上一张 null 离回归均方是模型(7-1)中方差σ2的估计值。 离回归均方的平方根叫离回归标准误,记为 ,即 (7-6) 下一张 主 页 退 出 上一张 null 离回归标准误  的大小表示了回归直线与实测点,即回归估计值 与实际观测值y偏离度的大小。以后将证明:(7-7) 下一张 主 页 退 出 上一张 null 对于【例7·1】有 下一张 主 页 退 出 上一张 null 所以 =3.2660(天) 下一张 主 页 退 出 上一张 null三、直线回归的显著性检验 如何判断直线回归方程所反应的两个变量间的直线关系的真实性呢?这取决于变量y与x间是否存在直线关系,也就是须对直线回归进行显著性检验。 直线回归显著性检验的 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载 有检验和检验两种。 下一张 主 页 退 出 上一张 null 从图7-3看到,  可表示为   与     之和,即则有 下一张 主 页 退 出 上一张 (一) F检验   1、依变量y的总平方和与自由度的分解 null由于所以下一张 主 页 退 出 上一张 null于是 下一张 主 页 退 出 上一张 null 所以(7-8)     反映了y的总变异程度,称为y的总平方和,记为  ;下一张 主 页 退 出 上一张 null   反映了由于y与x间存在直线关系所引起的y的变异程度,称为回归平方和,记为 ; 反映了除y与x存在直线关系以外的原因 (包括随机误差) 所引起的y的变异程度 ,称为离回归平方和或剩余平方和 , 记为 。下一张 主 页 退 出 上一张 null 于是,(7-8)式又可表示为: 与此相对应, (7-9) (7-10) 在直线回归分析中  下一张 主 页 退 出 上一张 null 2、回归关系显著性检验—F 检验 对y与x间是否存在直线关系的假设检验其无效假设  :=0,备择假设  :≠0。 在无效假设成立的条件下,回归均方与离回归均方的比值服从   和     的F分布,所以可以用下一张 主 页 退 出 上一张 null                  , df1=1,df2=n-2 (7-11) 来检验回归关系即回归方程的显著性。下一张 主 页 退 出 上一张 null (7-12)(7-13)下一张 主 页 退 出 上一张 null对于【例7·1】 ,,,下一张 主 页 退 出 上一张 null 而, 于是 下一张 主 页 退 出 上一张 null , , p<0.01,表明一代三化螟蛾盛发期(y)与积温( )的直线回归关系极显著。 下一张 主 页 退 出 上一张 null 3、回归系数的显著性检验—t检验 回归系数显著性检验的无效假设和备择假设分别为 :β=0, :β≠0。 t检验的计算公式为: (7-14) 其中,为回归系数标准误 : (7-15) 下一张 主 页 退 出 上一张 null对于【例7·1】 ,已计算得, , , 故有 下一张 主 页 退 出 上一张 null ,因 , ,否定 :β=0,接受 :β≠0,即一代三化螟蛾盛发期(y)与积温(x)的直线回归系数b=-1.0996极显著,表明一代三化螟蛾盛发期与积温间存在极显著的直线关系。 F 检验的结果与t检验的结果一致。 事实上,统计学已证明,在直线回归分析中,这二种检验方法是等价的,可任选一种进行检验。 下一张 主 页 退 出 上一张 null四、直线回归的区间估计 经检验直线回归关系显著之后: 可用样本统计数   来估计总体参数   , 可利用 来估计某一 值对应的 总体的平均数(   ); 下一张 主 页 退 出 上一张 null 还可对总体参数   ,某一 值对应的 总体的平均数(   )和单个观测值 作出区间估计,即求出它们在一定置信度下的置信区间。 表7-2 回归截距 ,回归系数 ,总体平均数(   )和单个观测值 置信度为(  )的置信区间 下一张 主 页 退 出 上一张 null下一张 主 页 退 出 上一张 null 【例7·2】 根据【例7·1】的资料估计: (1)当3月下旬至4月中旬的积温为40旬•度时,历年的一代三化螟蛾平均盛发期在何时(置信度为95%)? (2)某年3月下旬至4月中旬的积温为40旬•度时,该年的一代三化螟蛾盛发期在何时(置信度为95%)?下一张 主 页 退 出 上一张 null 利用直线回归方程 计算当 时的 , 因为 下一张 主 页 退 出 上一张 null将 =4.56、 、 2.36代入,得 所以 (1)在置信度为95%时, 的 总体平均数( )的置信区间为: 下一张 主 页 退 出 上一张 null 即当3月下旬至4月中旬的积温为40旬•度时,历年的一代三化螟蛾平均盛发期在[1.4, 7.7]或5月12—18日,置信度为95%。 (2)在置信度为95%时, 的单个观测值 的置信区间为:下一张 主 页 退 出 上一张 null 将 =4.56、 、 2.36代入,得 即当某年3月下旬至4月中旬的积温为40旬•度时,该年的一代三化螟蛾盛发期在[-3.8, 19.9]或5月6—30日,置信度为95%。 类似地可求出 取其它值时 总体平均数(    )和单个观测值 的95%置信区间,列于表7-3。 下一张 主 页 退 出 上一张 null表7-3 一代三化螟蛾盛发期95%置信区间 下一张 主 页 退 出 上一张 null 从 和 的计算公式看出,越接近 , 和 越小,置信区间的置信距也越小,预测越精确。 下一张 主 页 退 出 上一张 null第二节 直线相关分析 进行直线相关分析的基本任务在于根据x、y的实际观测值计算表示两个相关变量x与y线性相关程度和性质的统计数——相关系数r,并进行显著性检验。 下一张 主 页 退 出 上一张 null、决定系数和相关系数已经证明了等式: 。 从这个等式不难看到:y与x直线回归效果的好坏取决于回归平方     和与离回归平方和     的大小,或者说取决于回归平方和    在y的总平方和    中所占比例的大小。这个比例越大,y与x的直线回归效果就越好,反之则差。下一张 主 页 退 出 上一张 null 比值        叫做x对y的决定系数 ,记为 r2,即(7-16) 决定系数的大小表示了回归方程估测可靠程度的高低,或者说表示了回归直线拟合度的高低,显然0≤r2≤1。 下一张 主 页 退 出 上一张 null 因为 而SPxy/SSx是以x为自变量、y为依变量时的回归系数byx。 若把y作为自变量、x作为依变量,则回归系数bxy=SPxy/SSy。 下一张 主 页 退 出 上一张 null 所以决定系数r2等于y对x的回归系数与x对y的回归系数的乘积。 这就是说,决定系数反应了x为自变量、y为依变量和y为自变量、x为依变量时两个相关变量x与y直线相关的信息,即决定系数表示了两个互为因果关系的相关变量间直线相关的程度。但决定系数介于0和1之间,不能反应直线关系的性质——是同向增减或是异向增减。下一张 主 页 退 出 上一张 null 若求r2的平方根,且取平方根的符号与乘积和SPxy的符号一致,即与bxy 、byx的符号一致,这样求出的平方根既可表示y与x的直线相关的程度,也可表示y与x直线相关的性质。 统计学上把这样计算所得的统计数称为x与y的相关系数,记为r,即下一张 主 页 退 出 上一张 null(7-17) (7-18) 显然 -1≤r≤1。当r<0时,相关变量x与y异向增减,称为x与y负相关;当r>0时,相关变量x与y同向增减,称为x与y正相关。下一张 主 页 退 出 上一张 null 【例7·3】 计算【例7·1】资料3月下旬至4月中旬积温和一代三化螟蛾盛发期的决定系数和相关系数。下一张 主 页 退 出 上一张 null已经算得 、 、下一张 主 页 退 出 上一张 null 表明,用一代三化螟盛发期(y)与3月下旬至4月中旬积温(x)的直线回归方程来进行预测其可靠程度为70.07%。 下一张 主 页 退 出 上一张 null二、相关系数的显著性检验 上述根据实际观测值计算得来的r是样本相关系数, 它是双变量正态总体的总体相关系数ρ的估计值。样本相关系数r是否来自 ≠0的总体,还须对样本相关系数r 进行显著性检验。此时无效假设、备择假设为 : =0, ≠0。 下一张 主 页 退 出 上一张 null 采用查表法对相关系数r进行显著性检验 具体作法是: 先根据自由度n-2查临界r值(附表8),得,。 若|r|< ,p>0.05,则相关系数r不显著,在r的右上方标记“ns”或不标记符号; 下一张 主 页 退 出 上一张 null 若 ≤|r|< ,0.01<p≤0.05,则相关系数r显著,在r的右上方标记“*”; 若|r|≥ ,p≤0.01, 则相关系数r极显著,在r的右上方标记“**”。下一张 主 页 退 出 上一张 null 对于【例7·3】, =0.666,=0.798,而 |r|=0.8371> ,p<0.01,表明一代三化螟盛发期与3月下旬至4月中旬积温的相关系数极显著,即一代三化螟盛发期与3月下旬至4月中旬积温呈极显著负相关,积温越高,螟蛾的盛发期越早。 下一张 主 页 退 出 上一张 null 三、直线相关分析与回归分析的关系 相关变量x与y的相关系数r是y对x的回归系数 与x对y的回归系数 的几何平均数: 这表明直线相关分析与回归分析关系十分密切。 下一张 主 页 退 出 上一张 null 直线回归分析将二个相关变量区分为自变量和依变量,侧重于寻求它们之间的联系形式——直线回归方程; 直线相关分析不区分自变量和依变量,侧重于揭示它们之间的联系程度和性质——计算出相关系数。 两种分析所进行的显著性检验都是解决y与x间是否存在直线关系,二者的检验是等价的。即相关系数显著, 回归系数亦显著;相关系数不显著,回归系数也必然不显著。 下一张 主 页 退 出 上一张 null 在实际进行直线回归分析时,可用相关系数显著性检验代替直线回归关系显著性检验, 若 r不显著,则用不着建立直线回归方程;若r显著,再计算回归系数b、回归截距a,建立直线回归方程,此时所建立的直线回归方程代表的直线关系是真实的,可利用来进行预测和控制。下一张 主 页 退 出 上一张 null四、进行直线回归与相关分析的注意事项 1、变量间是否存在相关 2、其余变量尽量保持一致 3、观测值要尽可能的多 一般至少有5对以上的观测值。 自变量x的取值范围要尽可能大一些,这样才容易发现两个变量间的真实关系。下一张 主 页 退 出 上一张 null 4、外推要谨慎 5、正确理解回归或相关显著与否的含义 一个不显著的相关系数并不意味着变量x和y之间没有关系,而只能说明两变量间没有显著的直线关系;一个显著的相关系数或回归系数亦并不意味着x和y的关系必定为直线,因为并不排除有能够更好地描述它们关系的曲线回归方程的存在。下一张 主 页 退 出 上一张 null 6、一个显著的回归方程并不一定具有实践上的预测意义 例如,一个资料x和y的相关系数r=0.5,在df=24时,r0.01(24) =0.496,r>r0.01(24),表明相关系数极显著,即x和y的直线关系极显著。而决定系数r2=0.25,说明x变量或y变量的总变异能够通过y变量或x变量以直线回归关系来估计的比重只占25%,其余的75%的变异无法借助直线回归来估计,用所建立的直线回归方程来进行预测其可靠程度为25%,预测的可靠程度低。下一张 主 页 退 出 上一张
本文档为【生物统计第七章】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_098585
暂无简介~
格式:ppt
大小:1MB
软件:PowerPoint
页数:0
分类:其他高等教育
上传时间:2012-05-08
浏览量:26