null相关与回归分析相关与回归分析相关分析
一、概述相关分析
一、概述客观事物之间的关系大致可以归纳为两大类关系,它们是函数关系和统计关系。相关分析是研究两组数据之间共同变化的密切程度的统计分析。
所谓函数关系指的是两事物之间的一种一一对应的关系,即当一个变量x取一定值时,另一变量y可以依确定的函数取唯一确定的值。如商品销售额与销售量之间的关系,在单价确定时,给出销售量可以唯一地确定出销售额,销售额与销售量之间是一一对应的关系,且这个关系可以被y=px来表示。
统计关系指的是两事物之间的非一一对应的关系,即当一个变量x取一定值时,另一变量y无法依确定的函数取唯一确定的值。例如,家庭收入和支出、子女身高和父母身高之间的关系等。这些事物之间存在一定的关系,但这些关系却不能像函数关系那样可用一个确定的数学函数描述,且当一个变量x取一定值时,另一变量y的值可能有若干个。null事物之间的函数关系比较容易分析和测度,而事物之间的统计关系却不像函数关系那样直接,但确实普遍存在,并且有的关系强,有的关系弱,程度各有差异。
绘制散点图和计算相关系数是相关分析常用的工具。二、绘制散点图二、绘制散点图是相关分析过程中极为常用且非常直观的分析方式。它将数据以点的形式画在直角平面上。通过观察散点图能够直观地发现变量间的统计关系以及他们的强弱程度和数据对的可能走向。(示意图)
案例
全员育人导师制案例信息技术应用案例心得信息技术教学案例综合实践活动案例我余额宝案例
8-1 利用“住房状况调查.sav”的问卷调查数据,分析家庭收入与打算购买的住房面积之间存在怎样的统计关系。三、计算相关系数三、计算相关系数相关系数以数值的方式很精确地反应了两个变量间线性相关的强弱程度。利用相关系数进行变量间线性关系的分析通常需要完成以下两大步骤:
第一,计算样本相关系数r。
利用样本数据计算样本相关系数。样本相关系数反映了两变量间线性相关程度的强弱。对不同类型的变量应采用不同的相关系数指标,但它们的取值范围和含义都是相同的,即
相关系数r的取值在-1~+1之间。
r>0表示两变量存在正的线性相关关系;r<0表示两变量存在负的线性相关关系。
r=1表示两变量存在完全正相关关系;r=-1表示两变量存在完全负相关关系
∣r∣>0.8表示两变量之间具有较强的线性关系; ∣r∣<0.3表示两变量之间的线性相关关系较弱
null 第二,对样本来自得两总体是否存在显著的线性关系进行推断。
由于存在抽样的随机性和样本数量较少等原因,通常样本相关系数不能直接用来说明样本来自的两总体是否具有显著的线性相关性,而需要通过假设检验的方式对样本来自的总体是否存在显著的香型相关关系进行统计推断。null基本步骤是:
提出原假设,即两总体无显著的线性关系
选择检验统计量。对不同类型的变量应采用不同的相关系数,对应也采用不同的检验统计量。
计算检验统计量的观测值和对应的概率p-值。
决策。如果检验统计量的概率p-值小于给定的显著性水平a,应拒绝原假设,认为两总体存在显著的线性关系;反之,如果检验统计量的概率p-值大于给定的显著性水平a,则不能拒绝原假设,可以认为两总体不存在显著的线性关系。null相关系数的种类
①Pearson相关(参数)
条件:自变量等间距或等比例的正态分布。
检验统计量为t统计量
null② Spearman等级相关 (非参数)
条件:自变量顺序等距或等比例的非正态分布或不明分布
该相关系数的检验统计量为Z统计量
null ③Kendall相关(非参数)
相关系数
:一致观察对的个数(Concordant Pair of Obj)
:不一致观察对的个数(Discordant Pair of Obj)
(xi-xj)与(yi-yj)其中,i为定值,j为变值。同号为一致观察对,异号为不一致观察对。
例: x y
x1 y1
x2 y2
x3 y3
x4 y4
x5 y5
经求秩排序后,产生如下数据表格。null假定数值分布1为: x y C D
1 2 4 0
3 4 3 0
5 6 2 0
7 8 1 0
9 10 0 0
假定数值分布2为: x y C D
1 10 0 4
3 8 0 3
5 6 0 2
7 4 0 1
9 2 0 0
条件:自变量可以是顺序、不等间距或不等比例的非正态分布或分布不明。null④偏相关
偏相关系数
该方法用于解决中介变量存在时相关关系的研究。
相关的结论解释:
0 为完全不相关
r = +1 为完全正相关
±1 为完全相关
-1 为完全负相关
null对于案例8-1,通过绘制散点图得知家庭收入与计划购买的住房面积之间存在一定的正的弱相关关系,为更准确地反映两者之间线性关系的强弱,采用计算相关系数的方法。
由于这两个变量均为定距变量,因此采用简单相关系数。SPSS的回归分析SPSS的回归分析回归分析是一种应用极为广泛的数量分析方法。它用于分析事物之间的统计关系,侧重考察变量之间的数量变化规律,并通过回归方程的形式描述和反映这种关系,帮助人们准确把握变量受其他一个或多个变量影响的程度,进而为控制和预测提供科学依据。
回归分析研究因变量与引起其变化的自变量之间变化的函数关系的符合程度。
“回归”一词是英国统计学家F.Galton在研究父亲与儿子身高的关系时提出的。
利用样本数据获得回归线通常可用两类方法:局部平均方法;函数拟合。后者较常用null回归分析的一般步骤
确定回归方程中的解释变量和被解释变量
确定回归模型
建立回归模型
建立回归方程
对回归方程进行各种检验
利用回归方程进行预测
利用SPSS进行回归分析时,应重点关注上述过程的第一步和最后一步,至于中间各个步骤,SPSS将自动完成,并给出最合理的模型。
回归方程的统计检验回归方程的统计检验回归方程的拟合优度检验 是检验样本数据点聚集在回归线周围的密集程度,从而评价回归方程对样本数据的代表程度。一元线性回归方程的拟合优度检验采用R2表示 当R2越接近于1,说明回归方程对样本数据点拟和得越好 一元线性回归通过样本数据建立回归方程后一般不能立即用于对实际问题的分析和预测,通常要进行包括回归方程的拟合优度检验、回归方程的显著性检验、回归系数的显著性检验、残差分析等null回归方程的显著性检验 线性回归方程能较好地反映被解释变量和解释变量之间统计关系的前提应是:被解释变量和解释变量间确实存在显著的线性关系。回归方程的显著性检验正是要检验被解释变量与所有解释变量之间的线性关系是否显著,用线性模型来描述它们之间的关系是否恰当一元线性回归方程显著性检验的原假设是:β1=0,即回归系数与零无显著差异。它意味着:当回归系数为零时,无论x取值如何变化都不会引起y的线性变化,x无法解释y的线性变化,它们之间不存在线性关系。检验采用F统计量一元线性回归一元线性回归回归系数的显著性检验 多元回归分析中的其他问题多元回归分析中的其他问题null案例9-1为研究高等院校人文社会科学研究中立项课题数受哪些因素的影响,收集某年31个省市自治区部分高校有关社科研究方面的数据“高校科研研究.sav”,并利用线性回归分析方法进行分析。