第十章 统计、统计案例
10.3 统计案例
【高考目标定位】
一、考纲点击
1.了解独立性检验(只要求 2×2 列联
表
关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf
)的基本思想、方法及其简单应用;
2.了解回归
分析
定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析
的基本思想、方法及其简单应用.
二、热点提示
1.本部分主要内容是变量的相关性及其几种常见的统计方法.在高考中主要是以考查独
立性检验、回归分析为主,并借助解决一些简单的实际问题来了解一些基本的统计思想;
2.本部分在高考中多为选择、填空题,也有可能出现解答题,都为中低档题.
【考纲知识梳理】
1.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法;
(2)随机误差:线性回归模型用 y bx a e= + + 表示,其中 a b和 为模型的未知数,e称为
随机误差.
(3)样本点的中心
在具有线性相关关系的数据 1 1 2 2( , ), ( , ), , ( , )n nx y x y x yL 中,回归方程的截距和斜率的
最小二乘估计公式分别为:
1
2
1
( )( )
ˆ ˆˆ ˆ, .
( )
n
i i
i
n
i
i
x x y y
b a y bx
x x
=
=
− −
= = −
−
∑
∑
其中
1 1
1 1, , ( , )
n n
i i
i i
x x y y x y
n n= =
= =∑ ∑ 称为样本点的中心.
(4)相关系数
① 1
2 2
1 1
( )( )
;
( ) ( )
n
i i
i
n n
i i
i i
x x y y
r
x x y y
=
= =
− −
=
− −
∑
∑ ∑
②当 0r > 时,表明两个变量正相关;
当 0r < 时,表明两个变量负相关.
r的绝对值越接近于 0 时,表明两个变量之间几乎不存在线性相关关系.通常 | |r 大于
0.75 时,认为两个变量有很强的线性相关性.
2.残差分析
(1)总偏差平方和
把每个效应(观测值减去总的平均值)的平方加起来即: 2
1
( )
n
i
i
y y
=
−∑
(2)残差
数据点和它回归直线上相应位置的差异 �( )i iy y− 是随机误差的效应,称 � �i i ie y y= − 为
残差.
(3)残差平方和 � 2
1
( )
n
i i
i
y y
=
−∑ .
(4)相关指数
� 2
2 1
2
1
( )
( )
n
i i
i
n
i
i
y y
R
y y
=
=
−
=
−
∑
∑
2R 的值越大,
说明
关于失联党员情况说明岗位说明总经理岗位说明书会计岗位说明书行政主管岗位说明书
残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,
2R 表示解释变量对预报变量变化的贡献率, 2R 越接近于 1,表示回归的效果越好.
3.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.
(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量 X 和 Y,它们
的可能取值分别为 1 1 2 2{ , } { , }x y x y和 ,其样本频数列联表(称为 2×2 列联表)为
2×2 列联表
1y 2y 总计
1x a b a b+
2x c d c d+
总计 a c+ b d+ a b c d+ + +
构造一个随机变量
2
2 ( )
( )( )( )( )
n ad bcK
a b c d a c b d
−= + + + + ,其中a b c d+ + + 为样本容量.
(3)独立性检验
利用随机变量 2K 来确定是否能以一定把握认为“两个分类变量有关系”的方法称为两
个分类变量的独立性检验.
注: 在独立性检验中经常由 2K 得到观测值 k ,则 k = 2K 是否成立?( 2K 与 k的关系并
不是 k = 2K , k是 2K 的观测值,或者说 2K 是一个随机变量,它在 a,b, c, d )取不
同值时, 2K 可能不同,而 k是取定一组数a,b,c, d 后的一个确定的值.
【考点精题精练】
(一)线性回归分析
※相关链接※
1.首先利用散点图判断两个变量是否线性相关.
2.求回归方程 $ $y bx a= +$ .
(1)线性回归方程中的截距 $a和斜率b$ 都是通过样本估计而来的,存在着误差,这种误差
可能导致预报结果的偏差.
(2)回归方程 $ $y bx a= +$ 中的b$ 表示 x增加 1 个单位时 $y的变化量为b$ .
(3)可以利用回归方程 $ $y bx a= +$ 预报在 x取某一个值时 y 的估计值.
3.相关系数 r
利用相关系数 r来衡量两个变量之间的线性相关的强弱.
4.建立回归模型的步骤
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性
关系等).
(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程
$ $y bx a= +$ ).
(4)按一定
规则
编码规则下载淘宝规则下载天猫规则下载麻将竞赛规则pdf麻将竞赛规则pdf
估计回归方程中的参数(如最小二乘法).
(5)得出结果后分析残差是否异常(个别数据对应残差过大,或残差呈现不随机的规律性
等).若存在异常,则检查数据是否有误,或模型是否适合等.
注:回归方程只适用于我们所研究的样本的总体,而且一般都有时间性.样本的取值范围
一般不能超过回归方程的适用范围,否则没有实用价值.
※例题解析※
〖例〗测得某国 10 对父子身高(单位:英寸)如下:
(1)对变量 y x与 进行相关性检验;
(2)如果 y x与 之间具有线性相关关系,求回归方程.
(3)如果父亲的身高为 73 英寸,估计儿子的身高.
思路解析:(1)先根据已知计算相关系数 r ,判断是否具有相关关系.
(2)再利用分工求出回归方程进行回归分析.
解答:(1)
10 10 102 2 2 2
1 1 1
10
1
10 102 22 2
1 1
66.8, 67.01, 4462.24, 4490.4, 44974, 44941.93, 44842.4,
10
44842.4 10 4476.268 79.72
(44794 44622.4)(44941.93 449.3.4) 661
( 10 )( 10 )
i i i i
i i i
i i
i
i i
i i
x y x y x y x y
x y xy
r
x x y y
= = =
=
= =
= = = ≈ = = =
− − ×= = − −− −
∑ ∑ ∑
∑
∑ ∑
0.804.
1.5764
≈
所以 y x与 之间具有很强的线性相关关系.
(2) 设 回 归 方 程 为 $ $y bx a= +$ . 由
10
1
10 22
1
10
44842.4 44762.68 79.72ˆ 0.4646
44794 44662.4 171.610
i i
i
i
i
x y x y
b
x x
=
=
− −= = = ≈−−
∑
∑
.
ˆˆ 67.01 0.4646 66.8 35.97.a y bx= − = − × ≈
故所求的回归方程为: ˆ 0.4646 35.97y x= + .
(3)当 x=73 时, ˆ 0.4646 73 35.97 69.9y = × + ≈ .所以当父亲身高为 73 英寸时,估计儿
子身高约为 69.9 英寸.
(二)非线性回归分析
※相关链接※
1.非线性回归模型:当回归方程不是形如 y bx a= + 时称之为非线性回归模型.
2.非线性回归模型的拟合效果:对于给定的样本点 1 1 2 2( , ), ( , ), , ( , )n nx y x y x yL ,两个含
有未知数的模型 (1) (2)( , ) ( , )y f x a y g x b= =% %和 ,其中a b和 都是未知参数.
可按如下的步骤比较它们的拟合效果:
(1)分别建立对应于两个模型的回归方程 (1) (2) ˆˆ ˆ ˆ( , ) ( , )y f x a y g x b= =和 ,其中 ˆaˆ b和 分
别是参数a b和 的估计值;
(2) 分 别 计 算 两 个 回 归 方 程 的 残 差 平 方 和
(1) (1) 2 (2) (2) 2
1 1
ˆ ˆˆ ˆ( ) ( )
n n
i i i i
i i
Q y y Q y y
= =
= − = −∑ ∑和 ;
(3)若 (1)Qˆ < (2)Qˆ ,则 (1) (2) ˆˆ ˆ ˆ( , ) ( , )y f x a y g x b= =的效果比 ;
反之, (1) (2) ˆˆ ˆ ˆ( , ) ( , )y f x a y g x b= =的效果不如 的好.
※例题解析※
〖例〗为了研究某种细菌随时间 x变化时,繁殖个数 y 的变化,收集数据如下:
(1)用天数 x作解释变量,繁殖个数 y作预报变量,作出这些数据的散点图;
(2)描述解释变量 x 与预报变量 y 之间的关系;
(3)计算残差平方和、相关指数.
思路解析:作出散点图→分析与哪种曲线拟合→转化线性关系→进行回归分析.
解答:(1)所作散点图如图所示.
(2)由散点图看出样本点分析在一条指数函数 21 c xy c e= 的周围,于是令 lnz y= ,则
由计算器得: ˆ 0.69 1.112,z x= + 则有 1.69 1.112ˆ xy e += .
(3)
则
6 6
2 2
1 1
ˆ ˆ( ) 3.1643i i i
i i
e y y
= =
= − =∑ ∑ , 6 2
1
ˆ( )i i
i
y y
=
−∑ =24642.8, 2 3.16431 0.999924642.8R = − = ,
即解释变量天数对预报变量细菌的繁殖个数解释了 99.99%.
(三)独立性检验
〖例〗在调查的 480 名男人中有 38 名患有色盲,520 名女人中有 6 名患有色盲,分别利
用图形和独立性检验的方法来判断色盲与性别是否有关?你所得到的结论在什么范围内有
效?
思路解析:(1)先由已知作出调查数据的列联表;
(2)再根据列联表画出二维条形图,并进行分析;
(3)利用独立性检验作出判断.
解答:根据题目所给的数据作出如下的联表:
根据列联表作出相应的二维条形图,如图所示.
从二维条形图来看,在男人中患色盲的比例 38
480
,要比在女人中患色盲的比例 6
520
要大,
其差值为 38 6| | 0.068,
480 520
− ≈ 差值较大,因而我们可以认为“性别与患色盲是有关的”,根
据 列 联 表 中 所 给 的 数 据 可 以 有
38, 442, 6, 514, 480, 520, 44, 956, 1000,a b c d a b c d a c b d n= = = = + = + = + = + = =
代入公式
2
2 ( )
( )( )( )( )
n ad bcK
a b c d a c b d
−= + + + + 得
2
2 1000 (38 514 6 442) 27.1
480 520 44 956
K × × − ×= ≈× × × 。
由于 2K = 27.1>10.828,所以我们有 99.9%的把握认为性别与患色盲有关系.这个结论只对
所调查的 480 名男人和 520 名女人有效.
注:利用图形来判断两个变量之间是否有关系,可以结合所求的数值来进行比较.作图应
注意单位统一、图形准确,但它不能给出我们两个分类变量有关或无关的精确的可信程度,
若要作出精确的判断,可以作独立性检验的有关计算.
【感悟高考真题】
1. (2010 湖北理数)6.将参加夏令营的 600 名学生编号为:001,002,……600,采
用系统抽样方法抽取一个容量为 50 的样本,且随机抽得的号码为 003.这 600 名学生分住
在三个营区,从 001 到 300 在第Ⅰ营区,从 301 到 495 住在第Ⅱ营区,从 496 到 600 在第Ⅲ
营区,三个营区被抽中的人数一次为
A.26, 16, 8, B.25,17,8
C.25,16,9 D.24,17,9
【答案】B
解析:依题意可知,在随机抽样中,首次抽到003号,以后每隔12个号抽到一个人,则分别
是 003、015、027、039……构成以 3 为首项,12 为公差的等差数列,故可分别求出在 001 到
300 中有 25 人,在 301 到 495 号中共有 17 人,则 496 到 600 中有 8 人,所以 B 正确.
2. (2010 安徽文数)(14)某地有居民 100 000 户,其中普通家庭 99 000 户,高收入家
庭 1 000 户.从普通家庭中以简单随机抽样方式抽取 990 户,从高收入家庭中以简单随机抽
样方式抽取 l00 户进行调查,发现共有 120 户家庭拥有 3 套或 3 套以上住房,其中普通家庭
50 户,高收人家庭 70 户.依据这些数据并结合所掌握的统计知识,你认为该地拥有 3 套或
3 套以上住房的家庭所占比例的合理估计是 .
14.5.7%
【 解 析 】 该 地 拥 有 3 套 或 3 套 以 上 住 房 的 家 庭 可 以 估 计 有 :
50 7099000 1000 5700
990 100
× + × =
户,所以所占比例的合理估计是5700 100000 5.7%÷ = .
【方法总结】本题分层抽样问题,首先根据拥有 3套或 3 套以上住房的家庭所占的比例,
得出 100 000 户,居民中拥有 3 套或 3 套以上住房的户数,它除以 100 000 得到的值,为该
地拥有 3 套或 3 套以上住房的家庭所占比例的合理估计.
3. (2010 安徽文数)18、(本小题满分 13 分)
某市 2010 年 4 月 1 日—4 月 30 日对空气污染指数的监测数据如下(主要污染物为
可吸入颗粒物):
61,76,70,56,81,91,92,91,75,81,88,67,101,103,95,91,
77,86,81,83,82,82,64,79,86,85,75,71,49,45,
(Ⅰ) 完成频率分布表;
(Ⅱ)作出频率分布直方图;
(Ⅲ)根据国家标准,污染指数在 0~50 之间时,空气质量为优:在 51~100 之间时,为
良;在 101~150 之间时,为轻微污染;在 151~200 之间时,为轻度污染。
请你依据所给数据和上述标准,对该市的空气质量给出一个简短评价.
【命题意图】本题考查频数,频率及频率分布直方图,考查运用统计知识解决简单实际
问题的能力,数据处理能力和运用意识.
【解题指导】(1)首先根据题目中的数据完成频率分布表,作出频率分布直方图,根据
污染指数,确定空气质量为优、良、轻微污染、轻度污染的天数。
(Ⅲ)答对下述两条中的一条即可:
(1) 该市一个月中空气污染指数有 2 天处于优的水平,占当月天数的
1
15 ,有
26 天处于良的水平,占当月天数的
13
15 ,处于优或良的天数共有 28 天,占当月天数
的
14
15 。说明该市空气质量基本良好。
(2) 轻微污染有 2 天,占当月天数的
1
15 。污染指数在 80 以上的接近轻微污染
的天数有 15 天,加上处于轻微污染的天数,共有 17 天,占当月天数的
17
30 ,超过 50%,
说明该市空气质量有待进一步改善。
【规律总结】在频率分布表中,频数的和等于样本容量,频率的和等于 1,每一小组的
频率等于这一组的频数除以样本容量.频率分布直方图中,小矩形的高等于每一组的频率/
组距,它们与频数成正比,小矩形的面积等于这一组的频率.对于开放性问题的回答,要选
择适当的数据特征进行考察,根据数据特征分析得出实际问题的结论.
【考点精题精练】
一、选择题
1. 下列属于相关现象的是( B )
A.利息与利率
B.居民收入与储蓄存款
C.电视机产量与苹果产量
D.某种商品的销售额与销售价格
答案:B
2. 当 2 3.841K > 时,认为事件 A与事件 B( A )
A.有 95% 的把握有关
B.有 99% 的把握有关
C.没有理由说它们有关
D.不确定
答案:A
3. 炼钢时钢水的含碳量与冶炼时间有( B )
A.确定性关系 B.相关关系 C.函数关系 D.无任何关系
4.设有一个回归方程为 $ 2 2.5y x= − ,变量 x增加一个单位时,则( C )
A. y 平均增加2.5个单位
B. y 平均增加 2 个单位
C. y 平均减少2.5个单位
D. y 平均减少 2 个单位
5. 如图所示,图中有 5组数据,去掉 组数据后(填字母代号),剩下的 4 组数据的线
性相关性最大( A )
A. E B.C C.D D. A
答案:A
6. 为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了 9965 人,得到如下结果(单
位:人)
不患肺癌 患肺癌 合计
不吸烟 7775 42 7817
吸烟 2099 49 2148
合计 9874 91 9965
根据表中数据,你认为吸烟与患肺癌有关的把握有( C )
A. 90% B. 95% C. 99% D.100%
答案:C
7. 在一次实验中,测得 ( ),x y 的四组值分别是 ( )1,2A , ( )2,3B , ( )3,4C , ( )4,5D ,则
y 与 x之间的回归直线方程为( A )
A.
$ 1y x= + B. $ 2y x= + C. $ 2 1y x= + D. $ 1y x= −
8.已知 x、 y 之间的数据如下表所示,则 y 与 x之间的线性回归方程过点( D )
A. ( )0,0 B. ( ),0x C. ( )0, y D. ( ),x y
9. 某种产品的广告费支出与销售额(单位:百万元)之间有如下对应数据:
广
告费
销
售额 0 0 0 0 0
则广告费与销售额间的相关系数为( B )
A.0.819 B.0.919 C.0.923 D.0.95
答案:B
10. 每一吨铸铁成本 cy (元)与铸件废品率 x% 建立的回归方程 56 8cy x= + ,下列说法正确
的是( C )
A.废品率每增加 1%,成本每吨增加 64 元
B.废品率每增加 1%,成本每吨增加 8%
C.废品率每增加 1%,成本每吨增加 8 元
D.如果废品率增加 1%,则每吨成本为 56 元
答案:C
11.利用独立性检验来考虑两个分类变量 X 与Y 是否有关系时,通过查阅下表来确定“ X
和Y 有关系”的可信度。如果 3.841k > ,那么就有把握认为“ X 和Y 有关系”的百分比
为( B )
( )2p K k> 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
k 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.83
A.25% B.95% C.5% D.97.5%
12.在对一组数据采用几种不同的回归模型进行回归分析时,得到下面的相应模型的相关指
数 2R 的值,其中拟和效果较好的是( D )
A.0.60 B.0.63 C.0.65 D.0.68
二、填空题
13. 对于回归直线方程 $ 4.75 257y x= + ,当 28x = 时, y的估计值为 390 .
14. 某高校大一 12 名学生的体重 x与肺活量 Y的数据如下:
x 42 42 46 46 46 50 50 50 52 52 58 58
Y 2.55 2.20 2.75 2.40 2.80 2.81 3.41 3.10 3.46 2.85 3.50 3.00
预测体重是 55kg 的同学的肺活约量为 3.24 .
15. 某工厂在 2004 年里每月产品的总成本 y(万元)与该月产量 x(万件)之间有如下一
组数据:
x 1.08 1.12 1.19 1.28 1.36 1.48 1.59 1.68 1.80 1.87 1.98 2.07
y 2.25 2.37 2.40 2.55 2.64 2.75 2.92 3.03 3.14 3.26 3.36 3.50
则月总成本 y对月产量 x的回归直线方程为 $ 1.215 0.975y x= + .
16. 在对某小学的学生进行吃零食的调查中,得到如下表数据:
吃零食 不吃零食 合计
男学生 24 31 55
女学生 8 26 34
合计 32 57 89
根据上述数据分析,我们得出的 2K = 3.689 。
三、解答题
17. 某种产品的广告费用支出 x与销售额之间有如下的对应数据:
x 2 4 5 6 8
y 30 40 60 50 70
(1)画出散点图;
(2)求回归直线方程;
(3)据此估计广告费用为 10 销售收入 y 的值。
解答: (1)图略;
(2)
( )1 2 4 5 6 8 5
5
x = + + + + =
,
( )1 30 40 60 50 70 50
5
y = + + + + =
,
5
2 2 2 2 6 2
1
2 4 5 6 8 145i
i
x
=
= + + + + =∑
,
5
2 2 2 2 2 2
1
30 40 60 50 70 13500i
i
y
=
= + + + + =∑
,
5
1
1380i i
i
x y
=
=∑
,∴ 2
1380 5 5 50 6.5
145 5 5
b − × ×= =− ×
$
,
$ 50 6.5 5 17.5a y bx= − = − × =$ ,
∴回归直线方程为
$ 6.5 17.5y x= + 。
(3) 10x = 时,预报 y 的值为 10 6.5 17.5 82.5y = × + = 。
18.一机器可以按各种不同的速度运转,其生产物件有一些会有缺点,每小时生产有缺点物
件的多少随机器运转速度而变化,用 x 表示转速(单位:转/秒),用 y表示每小时生产的有
缺点物件个数,现观测得到 ( )x y, 的 4 组观测值为(8,5),(12,8),(14,9),(16,11).
(1)假定 y与 x 之间有线性相关关系,求 y 对 x 的回归直线方程;
(2)若实际生产中所容许的每小时最大有缺点物件数为 10,则机器的速度不得超过多少转
/秒.(精确到 1 转/秒)
解答:(1)设回归直线方程为 $y bx a= + , 12.5=x , 8.25y = ,
4
2
1
660i
i
x
=
=∑
,
4
1
438i i
i
x y
=
=∑
.
于是 2
438 4 12.5 8.25 25.5 51
660 4 12.5 35 70
b − × ×= = =− × ,
51 33 51 25 68.25 12.5
70 4 70 2 7
a y bx= − = − × = − × = −
.
∴所求的回归直线方程为
$ 51 6
70 7
y x= −
;
(2)由
$ 51 6 10
70 7
y x= − ≤
,得
760 15
51
x ≈≤
,
即机器速度不得超过 15 转/秒.