环球雅思学科教师辅导讲义
讲义编号: 组长签字: 签字日期:
学员编号: 年 级: 高二 课时数:3
学员姓名: 辅导科目: 数学 学科教师:闫建斌
课 题
线性回归方程
授课日期及时段
2014-2-11 18:00-20:00
教学目标
线性回归方程基础
重点、难点
教 学 内 容
1、本周错题讲解
2、
知识点
高中化学知识点免费下载体育概论知识点下载名人传知识点免费下载线性代数知识点汇总下载高中化学知识点免费下载
梳理
1.线性回归方程
①变量之间的两类关系:函数关系与相关关系
②制作散点图,判断线性相关关系
③线性回归方程:(最小二乘法)
最小二乘法:求回归直线,使得样本数据的点到它的距离的平方最小的方法
注意:线性回归直线经过定点
2.相关系数(判定两个变量线性相关性):
注:⑴>0时,变量正相关; <0时,变量负相关;
⑵① 越接近于1,两个变量的线性相关性越强;
② 接近于0时,两个变量之间几乎不存在线性相关关系。
3.线形回归模型:
⑴随机误差:我们把线性回归模型,其中为模型的未知参数,称为随机误差。
随机误差
⑵残差:我们用回归方程中的估计,随机误差,所以是的估计量,故,称为相应于点的残差。
⑶回归效果判定-----相关指数(解释变量对于预报变量的贡献率)
(的表达式中确定)
注:①得知越大,说明残差平方和越小,则模型拟合效果越好;
②越接近于1,,则回归效果越好。
4.独立性检验(分类变量关系):
(1)分类变量:这种变量的不同“值”表示个体所属的不同类别的变量。
(2)列联表:列出两个分类变量的频数表,称为列联表。
(3)对于列联表:的观测值。
(4)临界值表:
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
如果,就推断“有关系”,这种推断犯错误的概率不超过;否则,在样本数据中没有发现足够证据支持结论“有关系”。
(5)反证法与独立性检验原理的比较:
反证法原理
在假设下,如果推出矛盾,就证明了不成立。
独立性检
验原理
在假设下,如果出现一个与相矛盾的小概率事件,就推断不成立,且该推断犯错误的概率不超过这个小概率。
典型例题
1.(2011·山东)某产品的广告费用x与销售额y的统计数据如下表:
广告费用x/万元
4
2
3
5
销售额y/万元
49
26
39
54
根据上表可得回归方程=x+中的为9.4,据此模型预报广告费用为6万元时销售额为 ( ).
A.63.6万元 B.65.5万元
C.67.7万元 D.72.0万元
解析 ∵==,==42,
又=x+必过(,),∴42=×9.4+,∴=9.1.
∴线性回归方程为=9.4x+9.1.
∴当x=6时,=9.4×6+9.1=65.5(万元).
答案
八年级地理上册填图题岩土工程勘察试题省略号的作用及举例应急救援安全知识车间5s试题及答案
B
2.(2011·江西)为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:
父亲身高x/cm
174
176
176
176
178
儿子身高y/cm
175
175
176
177
177
则y对x的线性回归方程为 ( ).
A.=x-1 B.=x+1
C.=88+x D.=176
解析 因为==176,
==176,
又y对x的线性回归方程表示的直线恒过点(,),
所以将(176,176)代入A、B、C、D中检验知选C.
答案 C
3.(2011·陕西)设(x1,y1),(x2,y2),…,(xn,yn)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是( ).
A.x和y的相关系数为直线l的斜率
B.x和y的相关系数在0到1之间
C.当n为偶数时,分布在l两侧的样本点的个数一定相同
D.直线l过点(,)
解析 因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的
绝对值越接近1,两个变量的线性相关程度越强,所以A、B错误.C中n
为偶数时,分布在l两侧的样本点的个数可以不相同,所以C错误.根据回
归直线方程一定经过样本中心点可知D正确,所以选D.
答案 D
4.(2011·广东)为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y之间的关系:
时间x
1
2
3
4
5
命中率y
0.4
0.5
0.6
0.6
0.4
小李这5天的平均投篮命中率为________;用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为________.
解析 小李这5天的平均投篮命中率
==0.5,
可求得小李这5天的平均打篮球时间=3.根据表中数据可求得=0.01,=
0.47,故回归直线方程为=0.47+0.01x,将x=6代入得6号打6小时篮球的
投篮命中率约为0.53.
答案 0.5 0.53
5.(2011·辽宁)调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
解析 由题意知[0.254(x+1)+0.321]-(0.254x+0.321)=0.254.
答案 0.254
6.(2011·安徽)某地最近十年粮食需求量逐年上升,下表是部分统计数据:
年份
2002
2004
2006
2008
2010
需求量(万吨)
236
246
257
276
286
(1)利用所给数据求年需求量与年份之间的回归直线方程=x+;
(2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.
解 (1)由所给数据看出,年需求量与年份之间是近似直线上升的,下面求回归直线方程.为此对数据预处理如下:
年份-2006
-4
-2
0
2
4
需求量-257
-21
-11
0
19
29
对预处理后的数据,容易算得=0,=3.2.
=
==6.5,=-b=3.
由上述计算结果,知所求回归直线方程为
-257=(x-2 006)+=6.5(x-2 006)+3.2,
即=6.5(x-2 006)+260.2. ①
(2)利用直线方程①,可预测2012年的粮食需求量为
6.5×(2012-2006)+260.2=6.5×6+260.2=299.2(万吨).
课堂练习
1.实验测得四组(x,y)的值为(1,2),(2,3),(3,4),(4,5),则y与x之间的回归直线方程为( )
A.=x+1 B.=x+2 C.=2x+1 D.=x-1
2.在比较两个模型的拟合效果时,甲、乙两个模型的相关指数R2的值分别约为0.96和0.85,则拟合效果好的模型是( )
A.甲 B.乙 C.甲、乙相同 D.不确定
3.某化工厂为预测产品的回收率y,需要研究它和原料有效成分含量x之间的相关关系,现取8对观测值,计算,得xi=52,yi=228,x=478,xiyi=1849,则其线性回归方程为( )
A.=11.47+2.62x B.=-11.47+2.62x
C.=2.62+11.47x D.=11.47-2.62x
4.下表是某厂1~4月份用水量(单位:百吨)的一组数据:
月份x
1
2
3
4
用水量y
4.5
4
3
2.5
由散点图可知,用水量y与月份x之间有较好的线性相关关系,其线性回归直线方程是=-0.7x+a,则a等于______.
5.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:
零件的个数x(个)
2
3
4
5
加工的时间y(小时)
2.5
3
4
4.5
(1)在给定的坐标系中画出表中数据的散点图;
(2)求出y关于x的线性回归方程=bx+a,并在坐标系中画出回归直线;
(3)试预测加工10个零件需要多少小时?
课后练习
一、选择题
1.实验测得四组(x,y)的值为(1,2),(2,3),(3,4),(4,5),则y与x之间的回归直线方程为( )
A.=x+1 B.=x+2
C.=2x+1 D.=x-1
答案 A
解析 画出散点图,四点都在直线=x+1.
2.下列有关样本相关系数的说法不正确的是( )
A.相关系数用来衡量变量x与y之间的线性相关程度
B.|r|≤1,且|r|越接近于1,相关程度越大
C.|r|≤1,且|r|越接近0,相关程度越小
D.|r|≥1,且|r|越接近1,相关程度越小
答案 D
3.由一组样本(x1,y1),(x2,y2),…,(xn,yn)得到的回归直线方程=a+bx,下面有四种关于回归直线方程的论述:
(1)直线=a+bx 至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点;
(2)直线=a+bx的斜率是;
(3)直线=a+bx必过(,)点;
(4)直线=a+bx和各点(x1,y1),(x2,y2),…,(xn,yn)的偏差 (yi-a-bxi)2是该坐标平面上所有的直线与这些点的偏差中最小的直线.
其中正确的论述有( )
A.0个 B.1个
C.2个 D.3个
答案 D
解析 线性回归直线不一定过点(x1,y1),(x2,y2),…,(xn,yn)中的任何一点;b=就是线性回归直线的斜率,也就是回归系数;线性回归直线过点(,);线性回归直线是平面上所有直线中偏差 (yi-a-bxi)2取得最小的那一条.故有三种论述是正确的,选D.
4.设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是b,纵截距是a,那么必有( )
A.b与r的符号相同 B.a与r的符号相同
C.b与r的符号相反 D.a与r的符号相反
答案 A
5.在比较两个模型的拟合效果时,甲、乙两个模型的相关指数R2的值分别约为0.96和0.85,则拟合效果好的模型是( )
A.甲 B.乙
C.甲、乙相同 D.不确定
答案 A
6.某化工厂为预测产品的回收率y,需要研究它和原料有效成分含量x之间的相关关系,现取8对观测值,计算,得xi=52,yi=228,x=478,xiyi=1849,则其线性回归方程为( )
A.=11.47+2.62x B.=-11.47+2.62x
C.=2.62+11.47x D.=11.47-2.62x
答案 A
解析 利用回归系数公式计算可得a=11.47,b=2.62,故=11.47+2.62x.
二、填空题
7.下表是某厂1~4月份用水量(单位:百吨)的一组数据:
月份x
1
2
3
4
用水量y
4.5
4
3
2.5
由散点图可知,用水量y与月份x之间有较好的线性相关关系,其线性回归直线方程是=-0.7x+a,则a等于______.
解析 =2.5,=3.5,∵回归直线方程过定点(,),∴3.5=-0.7×2.5+a.
∴a=5.25.
8.某服装商场为了了解毛衣的月销售量y(件)与月平均气温x(℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表:
月平均气温x(℃)
17
13
8
2
月销售量y(件)
24
33
40
55
由表中数据算出线性回归方程=bx+a中的b≈-2,气象部门预测下个月的平均气温约为6℃,据此估计,该商场下个月毛衣的销售量约为________件.
(参考公式:b=,a=-b )
答案 46
解析 由所提供数据可计算得出=10,=38,又b≈-2代入公式a=-b 可得a=58,即线性回归方程=-2x+58,将x=6代入可得.
9.对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:
又发作过
心脏病
未发作过
心脏病
合计
心脏搭桥手术
39
157
196
血管清障手术
29
167
196
合计
68
324
392
试根据上述数据计算K2=________.
比较这两种手术对病人又发作心脏病的影响有没有差别.________.
答案 ≈1.78
不能作出这两种手术对病人又发作心脏病的影响有差别的结论
解析 提出假设H0:两种手术对病人又发作心脏病的影响没有差别.
根据列联表中的数据,可以求得K2=≈1.78.
当H0成立时K2≈1.78,而K2<2.072的概率为0.85.所以,不能否定假设H0.也就是不能作出这两种手术对病人又发作心脏病的影响有差别的结论.
三、解答题
10.某农科所对冬季昼夜温差大小与某反季大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了2010年12月1日至12月5日的每天昼夜温差与实验室每天每100颗种子中的发芽数,得到如下表:
日期
12月1日
12月2日
12月3日
12月4日
12月5日
温差x(℃)
10
11
13
12
8
发芽数y(颗)
23
25
30
26
16
该农科所确定的研究方案是:先从这五组数据中选取2组,用剩下的3组数据求线性回归方程,再对被选取的2组数据进行检验.
(1)求选取的2组数据恰好是不相邻的2天数据的概率;
(2)若选取的是12月1日与12月5日的两组数据,请根据12月2日至12月4日的数据,求出y关于x的线性回归方程=bx+a;
(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得到的线性回归方程是否可靠?
解析 (1)设抽到不相邻的两组数据为事件A,因为从5组数据中选取2组数据共有10种情况:(1,2),(1,3),(1,4),(1,5),(2,3),(2,4),(2,5),(3,4),(3,5),(4,5)其中数据为12月份的日期数.
每种情况都是可能出现的,事件A包括的基本事件有6种:
所以P(A)==.所以选取的2组数据恰好是不相邻2天数据的概率是.
(2)由数据,求得=12,=27.
由公式,求得b=,a=-b =-3.
所以y关于x的线性回归方程为=x-3.
(3)当x=10,=×10-3=22,|22-23|<2;
同样,当x=8时,=×8-3=17,|17-16|<2;
所以,该研究所得到的回归方程是可靠的.
11.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:
零件的个数x(个)
2
3
4
5
加工的时间y(小时)
2.5
3
4
4.5
(1)在给定的坐标系中画出表中数据的散点图;
(2)求出y关于x的线性回归方程=bx+a,并在坐标系中画出回归直线;
(3)试预测加工10个零件需要多少小时?
(注:b=,a=-b )
解析 (1)散点图如图.
(2)由表中数据得:xiyi=52.5,
=3.5,=3.5,x=54,
∴b=0.7, ∴a=1.05,
∴=0.7x+1.05.
回归直线如图所示.
(3)将x=10代入回归直线方程,得=0.7×10+1.05=8.05(小时 ).
∴预测加工10个零件需要8.05小时.
12.(2010·辽宁卷)为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.
下表1和表2分别是注射药物A和B后的试验结果.(疱疹面积单位:mm2)
表1:注射药物A后皮肤疱疹面积的频数分布表
疱疹面积
[60,65)
[65,70)
[70,75)
[75,80)
频数
30
40
20
10
表2:注射药物B后皮肤疱疹面积的频数分布表
疱疹面积
[60,65)
[65,70)
[70,75)
[75,80)
[80,85)
频数
10
25
20
30
15
(ⅰ)完成下面频率分布直方图,并比较注射两种药物后疱疹面积的中位数大小;
(ⅱ)完成下面2×2列联表,并回答能否有99.9% 的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.
表3:
疱疹面积小
于70 mm2
疱疹面积不小
于70 mm2
合计
注射药物A
a=
b=
注射药物B
c=
d=
合计n=
附:K2=
解析 (ⅰ)
可以看出注射药物A后的疱疹面积的中位数在65至70之间,而注射药物B后的疱疹面积的中位数在70至75之间,,所以注射药物A后疱疹面积的中位数小于注射药物B后疱疹面积的中位数.
(ⅱ)表3:
疱疹面积小
于70 mm2
疱疹面积不小
于70 mm2
合计
注射药物A
a=70
b=30
100
注射药物B
c=35
d=65
100
合计
105
95
n=200
K2=≈24.56.
由于K2>10.828,所以有99.9%的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.