第一章:统计案例
回归分析的基本思想及其初步应用
实例 从某大学中随机选取8名女大学生,其身高/cm和体重/kg数据如下表所示:
编号
1
2
3
4
5
6
7
8
身高
165
165
157
170
175
165
155
170
体重
48
57
50
54
64
61
43
59
问
题
快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题
:画出散点图,求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重.
解:由于问题中要求根据身高预报体重,因此 选 自变量x, 为因变量.
(1)做散点图:
从散点图可以看出 和 有比较好的
相关关系.
(2)
=
=
所以
于是得到回归直线的方程为
(3)身高为172cm的女大学生,由回归方程可以预报其体重为
新知:用相关系数r可衡量两个变量之间 关系.
计算公式
六西格玛计算公式下载结构力学静力计算公式下载重复性计算公式下载六西格玛计算公式下载年假计算公式
为
r =
r>0, 相关, r<0 相关;
相关系数的绝对值越接近于1,两个变量的线性相关关系 ,它们的散点图越接近 ;
,两个变量有 关系.
例1某班5名学生的数学和物理成绩如下表:
学生
学科
A
B
C
D
E
数学成绩(x)
88
76
75
64
62
物理成绩(y)
78
65
70
62
60
(1) 画散点图;
(2) 求物理成绩y对数学成绩x的回归直线方程;
(3) 该班某学生数学成绩为96,试预测其物理成绩;
练习1:下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量
(吨)与相应的生产能耗
(吨标准煤)的几组对照数据
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出
关于
的线性回归方程
;
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?
(参考数值
)
当堂检测
1. 下列两个变量具有相关关系的是( )
A. 正方体的体积与边长
B. 人的身高与视力
C.人的身高与体重
D.匀速直线运动中的位移与时间
2. 在画两个变量的散点图时,下面哪个叙述是正确的( )
A. 预报变量在x 轴上,解释变量在 y 轴上
B. 解释变量在x 轴上,预报变量在 y 轴上
C. 可以选择两个变量中任意一个变量在x 轴上
D. 可选择两个变量中任意一个变量在 y 轴上
3. 回归直线
必过( )
A.
B.
C.
D.
4.
越接近于1,两个变量的线性相关关系 .
5. 已知回归直线方程
,则
时,y的估计值为 .
6、一台机器使用的时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器的运转的速度而变化,下表为抽样试验的结果:
转速x (转/秒)
16
14
12
8
有缺点零件数 y (件)
11
9
8
5
(1)画散点图;
(2)求回归直线方程;
(3)若实际生产中,允许每小时的产品中有缺点的零件最多为 10 个,那么机器的运转速度应控制
在什么范围内?
相关指数:
表示 对 的贡献,公式为:
的值越大,说明残差平方和 ,说明模型拟合效果 .
残差分析:通过
来判断拟合效果.通常借助 图实现.
残差图:横坐标表示 ,纵坐标表示 .
残差点比较均匀地落在 的区的区域中,说明选用的模型 ,
带状区域的宽度越 ,说明拟合精度越 ,回归方程的预报精度越
例1关于
与y有如下数据:
2
4
5
6
8
30
40
60
50
70
为了对
、y两个变量进行统计分析,现有以下两种线性模型:
,
,试比较哪一个模型拟合的效果更好?
例2 假定小麦基本苗数x与成熟期有效苗穗y之间存在相关关系,今测得5组数据如下:
15.0
25.8
30.0
36.6
44.4
39.4
42.9
42.9
43.1
49.2
(1)画散点图;
(2)求回归方程并对于基本苗数56.7预报期有效穗数;
(3)求
,并说明残差变量对有效穗数的影响占百分之几.
(参考数据:
,
)
练1. 某班5名学生的数学和物理成绩如下表:
学生
学科
A
B
C
D
E
数学成绩(x)
88
76
75
64
62
物理成绩(y)
78
65
70
62
60
(4)求学生A,B,C,D,E的物理成绩的实际成绩和回归直线方程预报成绩的差
.并作出残差图评价拟合效果.
练习:
1. 两个变量 y与x的回归模型中,分别选择了 4 个不同模型,它们的相关指数
如下 ,其中拟合
效果最好的模型是( ).
A. 模型 1 的相关指数
为 0.98
B. 模型 2 的相关指数
为 0.80
C. 模型 3 的相关指数
为 0.50
D. 模型 4 的相关指数
为 0.25
2. 在回归分析中,残差图中纵坐标为( ).
A. 残差 B. 样本编号 C. x D.
3. 通过
来判断模拟型拟合的效果,判断原始数据中是否存在可疑数据,这种分工称为( ).
A.回归分析 B.独立性检验分析
C.残差分析 D. 散点图分析
4.
越接近1,回归的效果 .
5. 在研究身高与体重的关系时,求得相关指数
,可以叙述为“身高解释了
的体重变化,而随机误差贡献了剩余 ”所以身高对体重的效应比随机误差的 .
练.(07广东文科卷)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量
(吨)与相应的生产能耗
(吨标准煤)的几组对照数据
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出
关于
的线性回归方程
;
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?
(参考数值
)
(4)求相关指数评价模型.
实例一只红铃虫的产卵数
和温度
有关,现收集了7组观测数据列于下表中,试建立
与
之间的回归方程.
温度
21
23
25
27
29
32
35
产卵数
个
7
11
21
24
66
115
325
(1)根据收集的数据,做散点图
上图中,样本点的分布没有在某个 区域,因此两变量之间不呈 关系,所以不能直接用线性模型.由图,可以认为样本点分布在某一条指数函数曲线
的周围(
为待定系数).
对上式两边去对数,得
令
,则变换后样本点应该分布在直线
的周围.这样,就利用 模型来建立y和x的非线性回归方程.
x
21
23
25
27
29
32
35
y
7
11
21
24
66
115
325
作散点图(描点
)
由上表中的数据得到回归直线方程
因此红铃虫的产卵数
和温度
的非线性回归方程为
例1一只红铃虫的产卵数
和温度
有关,现收集了7组观测数据列于下表中,
温度
21
23
25
27
29
32
35
产卵数
个
7
11
21
24
66
115
325
(散点图如由图,可以认为样本点集中于某二次曲线
的附近,其中
为待定参数)试建立
与
之间的回归方程.
练习:
1. 两个变量 y与x的回归模型中,求得回归方程为
,当预报变量
时( ).
A. 解释变量
B. 解释变量
大于
C. 解释变量
小于
D. 解释变量
在
左右
2. 在回归分析中,求得相关指数
,则( ).
A. 解释变量解对总效应的贡献是
B. 解释变量解对总效应的贡献是
C. 随机误差的贡献是
D. 随机误差的贡献是
3. 通过
来判断模拟型拟合的效果,判断原始数据中是否存在可疑数据,这种分析称为( ).
A.回归分析 B.独立性检验分析
C.残差分析 D. 散点图分析
4.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线
的周围,令
,求得回归直线方程为
,则该模型的回归方程为 .
5. 已知回归方程
,则
时,y的估计值为 .
独立性检验的基本思想及其初步应用
新知2:统计量
吸烟与患肺癌列联表
假设
:吸烟与患肺癌没关系,
则在吸烟者和不吸烟者中患肺癌不患肺癌者的相应比例 .即
因此, 越小,说明吸烟与患肺癌之间关系 ;反之, .
=
例1 吸烟与患肺癌列联表
不患肺癌
患肺癌
总计
不吸烟
7775
42
7817
吸 烟
2099
49
2148
总 计
9874
91
9965
求
.
练1. 性别与喜欢数学课程列联表:
喜欢数学
不喜欢数学
总 计
男
37
85
122
女
35
143
178
总 计
72
228
300
求
.
2. 独立性检验的步骤(略)及原理(与反证法类似):
反证法
假设检验
要证明结论A
备择假设H
在A不成立的前提下进行推理
在H
不成立的条件下,即H
成立的条件下进行推理
推出矛盾,意味着结论A成立
推出有利于H
成立的小概率事件(概率不超过
的事件)发生,意味着H
成立的可能性(可能性为(1-
))很大
没有找到矛盾,不能对A下任何结论,即反证法不成功
推出有利于H
成立的小概率事件不发生,接受原假设
某市为调查全市高中生学习状况是否对生理健康有影响,随机进行调查并得到如下的列联表:
不健康
健 康
总计
不优秀
41
626
667
优 秀
37
296
333
总 计
78
922
1000
求
.
独立性检验的基本思想及其初步应用
探究任务:吸烟与患肺癌的关系
第一步:提出假设检验问题
H
:
第二步:根据公式求
观测值
k=
(它越小,原假设“H
:吸烟与患肺癌没有关系”成立的可能性越 ;它越大,备择假设“H
: ” 成立的可能性越大.)
第三步:查表得出结论
P(k2>k)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
0.455
0.708
1..323
2.072
2.706
3.84
5.024
6.635
7.879
10..83
※ 典型例题
例1 在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175名秃顶. 分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?
小结:用独立性检验的思想解决问题:
第一步:
第二步:
第三步:
例2为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:
喜欢数学课程
不喜欢数学
总 计
男
37
85
122
女
35
143
178
总计
72
228
300
由表中数据计算得到
的观察值
. 在多大程度上可以认为高中生的性别与是否数学课程之间有关系?为什么?
练1. 某市为调查全市高中生学习状况是否对生理健康有影响,随机进行调查并得到如下的列联表:
不健康
健 康
总计
不优秀
41
626
667
优 秀
37
296
333
总 计
78
922
1000
请问有多大把握认为“高中生学习状况与生理健康有关”?
练习:
1. 在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是 ( )
A. 若k=6.635,则有99%的把握认为吸烟与患肺病有关,那么100名吸烟者中,有99个患肺病.
B. 从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,可以说某人吸烟,那么他有99%的可能性患肺病.
C. 若从统计量中求出有95%的把握认为吸烟与患肺病有关,是指有5%的可能性使推断出现错误.
D. 以上三种说法都不对.
2. 下面是一个
列联表
不健康
健 康
总计
不优秀
a
21
73
优 秀
2
25
27
总 计
b
46
100
则表中a,b的之分别是( )
A. 94,96 B. 52,50
C. 52,54 D. 54,52
3.某班主任对全班50名学生进行了作业量多少的调查,数据如下表:
认为作业多
认为作业不多
总计
玩游戏
18
9
27
不玩游戏
8
15
23
总 计
26
24
50
则认为喜欢玩游戏与认为作业量多少有关系的把握大约为( )
A. 99% B. 95% C. 90% D.无充分依据
4. 在独立性检验中,当统计量
满足 时,我们有99%的把握认为这两个分类变量有关系.
统计案例检测题
一、 选择题(本大题共12小题,每题4分)
1、散点图在回归分析中的作用是 ( )
A.查找个体数目
B.比较个体数据关系
C.探究个体分类
D.粗略判断变量是否呈线性关系
2、对于相关系数下列描述正确的是 ( )
A.r>0表明两个变量相关
B.r<0表明两个变量无关
C.
越接近1,表明两个变量线性相关性越强
D.r越小,表明两个变量线性相关性越弱
3、预报变量的值与下列哪些因素有关 ( )
A.受解释变量影响与随机误差无关
B.受随机误差影响与解释变量无关
C.与总偏差平方和有关与残差无关
D.与解释变量和随机误差的总效应有关
4、下列说法正确的是 ( )
A.任何两个变量都具有相关系
B.球的体积与球的半径具有相关关系
C.农作物的产量与施肥量是一种确定性关系
D.某商品的产量与销售价格之间是非确定性关系
5、在画两个变量的散点图时,下面哪个叙述是正确的 ( )
A. 预报变量在x 轴上,解释变量在 y 轴上
B. 解释变量在x 轴上,预报变量在 y 轴上
C. 可以选择两个变量中任意一个变量在x 轴上
D. 可以选择两个变量中任意一个变量在 y 轴上
6、回归直线
必过 ( )
A.
B.
C.
D.
7、三维柱形图中,主、副对角线上两个柱形高度的 相差越大,要推断的论述成立的可能性就越大 ( )
A.和 B.差 C.积 D.商
8、两个变量 y与x的回归模型中,求得回归方程为
,当预报变量
( )
A. 解释变量
B. 解释变量
大于
C. 解释变量
小于
D. 解释变量
在
左右
9、在回归分析中,求得相关指数
,则( )
A. 解释变量解对总效应的贡献是
B. 解释变量解对总效应的贡献是
C. 随机误差的贡献是
C. 随机误差的贡献是
10、在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是 ( )
A.若k=6.635,则有99%的把握认为吸烟与患肺病有关,那么100名吸烟者中,有99个患肺病.
B.从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,可以说某人吸烟,那么他有99%的可能
性患肺病.
C.若从统计量中求出有95%的把握认为吸烟与患肺病有关,是指有5%的可能性使得推断出现错误.
D.以上三种说法都不对.
11、通过
来判断模拟型拟合的效果,判断原始数据中是否存在可疑数据,这种分析称为
( )
A.回归分析 B.独立性检验分析
C.残差分析 D. 散点图分析
12、在独立性检验时计算的
的观测值
=3.99,那么我们有 的把握认为这两个分类变量有关系 ( )
A.90% B.95%
C.99% D.以上都不对
二、填空题(本大题共4小题,每题4分)
13、已知回归直线方程
,则
时,y的估计值为 .
14、如下表所示:
不健康
健 康
总计
不优秀
41
626
667
优 秀
37
296
333
总 计
78
922
1000
计算
= .
15、下列关系中:
(1)玉米产量与施肥量的关系;
(2)等边三角形的边长和周长;
(3)电脑的销售量和利润的关系;
(4)日光灯的产量和单位生产成本的关系.
不是函数关系的是 .
16、在一项打鼾与患心脏病的调查中,共调查1768人,经计算的
=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是 的.(填“有关”“无关”)
三、解答题(本大题共2小题,每题18分)
18、为考察某种药物预防疾病的效果,进行动物试验,得到如下列联表
患 病
未患病
总 计
用 药
41
626
667
不用药
37
296
333
总 计
78
922
1000
能以97.5%的把握认为药物有效吗?为什么?
18、下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量
(吨)与相应的生产能耗
(吨标准煤)的几组对照数据
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出
关于
的线性回归方程
;
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?
(参考数值
)
作业:
一、选择题:本大题共
道小题,每小题
分,共
分,在每小题给出的四个选项中,只有一项符合题目要求
1、对于散点图下列说法中正确一个是( )
(A)通过散点图一定可以看出变量之间的变化规律
(B)通过散点图
一定不可以看出变量之间的变化规律
(C)通过散点图可以看出正相关与负相关有明显区别
(D)通过散点图看不出正相关与负相关有什么区别
2、在画两个变量的散点图时,下面叙述正确的是( )
(A)预报变量在
轴上,解释变量在
轴上
(B)解释变量在
轴上,预报变量在
轴上
(C)可以选择两个变量中的任意一个变量在
轴上
(D)可以选择两个变量中的任意一个变量在
轴上
3、如果根据性别与是否爱好运动的列联表,得到
,所以判断性别与运动有关,那么这种判断出错的可能性为( )
(A)
(B)
(C)
(D)
4、下列关于线性回归的说法,不正确的是( )
(A)变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系;
(B)在平面直角坐标系中用描点法的方法得到表示具有相关关系的两个变量的一组数据的图形叫散点图;
(C)线性回归直线方程最能代表观测值
之间的关系;
(D)任何一组观测值都能得到具有代表意义的回归直线方程;
5、
在两个变量
与
的回归模型中,分别选择了四个不同的模型,它们的相关指数
如下,其中拟合效果最好的为( )
(A)模型①的相关指数为
(B)模型②的相关指数为
(C)模型③的相关指数为
(D)模型④的相关指数为
6、关于如何求回
归直线的方程,下列说法正确的一项是( )
(A)先画一条,测出各点到它的距离,然后移动直线,到达一个使距离之和最小的位置,测出此时的斜率与截距,就可得到回归直线方程
(B)在散点图中,选两点,画一条直线,使所画直线两侧的点数一样多或基本相同,求出此直线方程,则该方程即为所求回归方程
(C)在散点图中多选几组点,分别求出各直线的斜率与截距,再求它们的平均值,就得到了回归直线的斜率与截距,即可产生回归方程
(D)上述三种方法都不可行
7、若对于变量
与
的
组统计数据的回归模型中,相关指数
,又知残差平方和为
,那么
的值为( )
(A)
(B)
(C)
(D)
8、右表是对与喜欢足球与否的统计列联表依据表中的数据,得到( )
(A)
(B)
(C)
(D)
9、某医院用光电比色计检验尿汞时,得尿汞含量
与消光系数读数的结果如下:
如果
与
之间具有线性相关关系,那么当消光系数的读数为
时,( )
(A)汞含量约为
(B)汞含量高于
(C)汞含量低于
(D)汞含量一定是
10、由一组样本数据
得到的回归直线方程
,那么下面说法正确的是( )
(A)直线
必过点
(B)直线
必经过
一点
(C)直线
经过
中某两个特殊点
(D)直线
必不过点
11、根据下面的列联表
得到如下中个判断:①有
的把握认为患肝病与嗜酒有关;②有
的把握认为患肝病与嗜酒有关;③认为患肝病与嗜酒有关的出错的可能为
;④认为
患肝病与嗜酒有关的出错的可能为
;
其中正确命题的个数为( )
(A)
(B)
(C)
(D)
12、对于两个变量之间的相关系数
,下列说法中正确的是( )
(A)
越大,相关程度越大
(B)
越小,相关程度越大
(C)
越大,相关程度越小;
越小,相关程度越大
(D)
且
越接近于
,相关程度越大;
越接近于
,相关程度越小;
二、填空题:本大题共
小题,每小题
分,共
分,把
答案
八年级地理上册填图题岩土工程勘察试题省略号的作用及举例应急救援安全知识车间5s试题及答案
填在
题中的横线上
13、下表是关于出生男婴与女婴调查的列联表
那么,A= ,B= ,C= ,D= ,E= ;
14、如右表中给出五组数据
,从中选出四组使其线性相关最大,且保留第一组
,那么,应去掉第 组。
15、某学校对校本课程《人与自然》的选修情况进行了统计,得到如下数据:
那么,选修《人与自然》与性别有关的把握是 ;
16、、如图,有
组
数据,去掉
组(即填A,B,C,D,E中的某一个)
后,剩下的四组数据的线性相关系数最大。
三、解答题:本大题共
小题,共
分,解答应写出文字说明、证明过程或演算步骤
17、(本小题满分
分)
有甲、乙两个班,
进行数学考试,按学生考试及格与不及格统计成绩后,得到如下的列联表
根据表中数据,你有多大把握认为成绩及格与班级有关?
18、(本小题满分
分)
假设关于某设备的使用年限
和所支出的维修费用
有如下的统计资料
若由资料知
对
呈线性相关关系,试求:
(1)线性回归方程
(2)估计使用年限为
年时,维修费用大约是多少?
19、(本小题满分
分)
吃零食是中学生中普遍存在的现象,吃零食对学生身体发育有诸多不得影响,影响学生的健康成长,下表是性别与吃零食的列联表
试画出列联表的三维柱形图、二维条形图与等高条件形图,并结合图形判断性别与吃零食是否有关?
20、(本小题满分
分)
一机器可以按不同的速度运转,其生产物件有一些会有缺点,每小时生产有缺点物件的多少,随机器运转速度而变化,用
表示转速(单位:转/秒),用
表示每小时生产的有缺点物件的个数,现观测得到
的四组观测值为
。若实际生产中所允许的每小时有缺点的物件数不超过
,则机器的速度每秒不得超过多少转?
21、(本小题满分
分)
在大街上,随机调查339名成人,有关吸烟、不吸烟、患支气管炎、不患支气管炎的数据如下表
根据表中数据,(1)判断:吸烟与患支气管炎是否有关?(2)用假设检验的思想予以证明。
22、(本小题满分
分)
某同学
次考试
的数学
、语文
成绩在班中的排名如下表:
数学成绩
语文成绩
对上述数据分别用
与
来拟合
与
之间的关系,并用残差分析两者的拟合效果。