统计学R语言作业
答案
八年级地理上册填图题岩土工程勘察试题省略号的作用及举例应急救援安全知识车间5s试题及答案
第二章
2、(1)
> data=read.csv("管理学院2007级学生统计学课程成绩.csv",head=TRUE)
> 平均数=mean(data[,2]);方差=var(data[,2]);
标准
excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载
差=sd(data[,2]);中位数=median(data[,2]);离散系数=标准差/平均数;全距
=max(data[,2])-min(data[,2]); 四分位距
=quantile(data[,2],probs=0.75)-quantile(data[,2],probs=0.25) >
data=data[,-1]
> 不及格率=length(data[data<60])/length(data)
> 平均数;方差;标准差;中位数;四分位距;离散系数;全距;不及格率
[1] 79.2977
[1] 167.7606
[1] 12.95224
[1] 80.975
75%
15.975
[1] 0.1633369
[1] 72.8
[1] 0.08865248
(2)
> data=read.csv("管理学院2007级学生统计学课程成绩.csv",head=TRUE) > data=data[,-1]
> data1=data[1:141]
> data2=data[142:282]
> 平均数1=mean(data1);平均数2=mean(data2)
> 平均数1;平均数2
[1] 81.90816
[1] 76.68723
> 方差1=var(data1);方差2=var(data2)
> 方差1;方差2
[1] 113.2225
[1] 209.7706
> 标准差1=sd(data1);标准差2=sd(data2)
> 标准差1;标准差2
[1] 10.64061
[1] 14.48346
> 中位数1=max(data1)-min(data1);中位数2=max(data2)-min(data2)
> 中位数1;中位数2
[1] 54.2
[1] 72.8
> 四分位距1=quantile(data1,probs=0.75)-quantile(data1,probs=0.25);
四分位距2=quantile(data2,probs=0.75)-quantile(data2,probs=0.25)
> 四分位距1;四分位距2
75%
12.35
75%
18.8
> 离散系数1=标准差1/平均数1;离散系数2=标准差2/平均数2
> 离散系数1;离散系数2
[1] 0.129909
[1] 0.188864
> 全距1=max(data1)-min(data1);全距2=max(data2)-min(data2)
> 全距1;全距2
[1] 54.2
[1] 72.8
> 不及格率1=length(data1[data1<60])/length(data1); 不及格率
2=length(data2[data2<60])/length(data2)
> 不及格率1; 不及格率2
[1] 0.03546099
[1] 0.141844
(3)
> plot.new()
> figureparameter=par(mfrow=c(2,2),bg="light
green",cex.lab=1,font=3) > hist(data1);hist(data2)
分析:会计学和经济大类都是左偏分布,成绩集中分布于80~90分,可见普遍成绩较好。经济大类的高分段(90~95)比例又高于会计学,同时不及格率也高于会计学,可见经
济大类的成绩离散程度高于会计,这从上面得出的数据中也可以得到验证
(4)
> 样本=sample(data,40, replace = FALSE)
> 均值=mean(样本);均值
[1] 81.07125
> 方差=var(样本);方差
[1] 148.8133
> 标准差=sd(样本);标准差
[1] 12.19891
> 中位数=median(样本);中位数
[1] 81.425
> 四分位距=quantile(样本,probs=0.75)-quantile(样本,probs=0.25);四分位距 75%
17.7
> 离散系数=标准差/均值;离散系数
[1] 0.1504714
> 全距=max(样本)-min(样本);全距
[1] 55.9
> 不及格率=length(样本[样本<60])/length(样本);不及格率
[1] 0.05
> summary(data);summary(样本)
Min. 1st Qu. Median Mean 3rd Qu. Max.
27.20 72.80 80.97 79.30 88.78 100.00
Min. 1st Qu. Median Mean 3rd Qu. Max.
44.10 74.35 81.43 81.07 92.05 100.00
经对比,可以看出样本得出的均值、中位数、四分位距高于总体数据,
方差、标准差、离散系数、全距均、不及格率低于总体数据,原因推测为
总体为左偏分布,所以高分同学被抽取的概率大于低分同学导致样本总体
测值偏高,所以我认为可行的改进方法是进行分层抽样,这样抽到的数据
更有代表性。
第三章作业
1、(1)
> 下侧分位点=qchisq(0.025,10);上侧分位点=qchisq(0.975,10);下侧
分位点;上侧分位点
[1] 3.246973
[1] 20.48318
(2)
> pnorm(1.96,0,1)
[1] 0.9750021
(3)
> pt(1.96,5)
[1] 0.946356
(4)
> pt(1.96,15)
[1] 0.9655779
(5)
> pt(1.96,45)
[1] 0.9718971
2、(1)
> data=read.csv("概率论与数理统计课程成绩数据.csv",head=TRUE)
> x=data[,1]
> hist(x, probability = TRUE,main = paste("Histogram of" , "概率论与
数理统计
课程成绩"), xlab = "分数")
Histogram of 概率论与数理统计课程成绩
Density
0.000.010.020.030.0
4
40506070
分数8090
100
(2)
> xbar=mean(x);sdx=sd(x);xbar;sdx
[1] 80.57143
[1] 12.61278
(3)
>
p1=length(x[x<=70])/length(x);p2=length(x[x<=75])/length(x);p1;p2
[1] 0.2176871
[1] 0.2721088
(4)
> p1=pnorm(70,xbar,sdx);p2=pnorm(75,xbar,sdx);p1;p2
[1] 0.2009726
[1] 0.3293427
第四章作业
3、(1)
> x=c(202,209,214,198,206,210,196,208,200,207) > xbar=mean(x);var=var(x);n=length(x);df=n-1 > t=qt(0.975,df);t
[1] 2.262157
> max=xbar+t*sqrt(var/n);min=xbar-t*sqrt(var/n) > min;max
[1] 200.8699
[1] 209.1301
所以,置信区间是 (200.8699,209.1301)
(2)
> z1=qt(0.025,n-1);z2=qt(0.975,n-1);z1;z2
[1] -2.262157
[1] 2.262157
> z=(xbar-200)/sqrt(var/n);z
[1] 2.738613
> z>z1
[1] TRUE
> z<z2
[1] FALSE
所以,平均抗拉强度与200之间存在显著差异
(3)
> r=t*sqrt(var/n);r
[1] 4.130115
> t=qt(0.995,df);t
[1] 3.249836
> n=var*t^2/r^2;n
[1] 20.63846
所以,应抽取21根材料进行测试
第五章作业
1、
> data=read.csv("CH8偏相关商客旅.csv") > data=data[,2:4]
> data=scale(data)
> 协方差=cov(data);协方差
商业投资 游客增率 经济增率 商业投资 1.0000000 0.7908555 0.6436569 游客增率 0.7908555 1.0000000 0.7733829 经济增率
0.6436569 0.7733829 1.0000000 > 相关系数=cor(data);相关系数
商业投资 游客增率 经济增率 商业投资 1.0000000 0.7908555 0.6436569 游客增率 0.7908555 1.0000000 0.7733829
经济增率 0.6436569 0.7733829 1.0000000
> data=read.csv("某矿2006年1月三项数据.csv")
> data=scale(data[,2:4])
> 协方差=cov(data);协方差
生产原煤 掘进进尺 检修时间
生产原煤 1.0000000 -0.27354970 -0.15627328
掘进进尺 -0.2735497 1.00000000 0.01287778
检修时间 -0.1562733 0.01287778 1.00000000
> 相关系数=cor(data);相关系数
生产原煤 掘进进尺 检修时间
生产原煤 1.0000000 -0.27354970 -0.15627328
掘进进尺 -0.2735497 1.00000000 0.01287778
检修时间 -0.1562733 0.01287778 1.00000000
经过对比,可得:对于标准化数据来说,变量之间的协方差矩阵就是
其相关系数矩阵
2、(1)
> data=read.csv("CH8偏相关商客旅.csv")
> data=data[,2:4]
> 协方差=cov(data);相关系数=cor(data)
> data2=5*data
> 协方差2=cov(data2);相关系数2=cor(data2)
> 协方差2/协方差
商业投资 游客增率 经济增率
商业投资 25 25 25
游客增率 25 25 25
经济增率 25 25 25
> 相关系数2/相关系数
商业投资 游客增率 经济增率
商业投资 1 1 1
游客增率 1 1 1
经济增率 1 1 1
综上:把三个变量的值同乘常数5后,其协方差矩阵扩大25倍,扩大的倍数分别为各自相关变量扩大倍数的乘积、相关系数矩阵不变。
(2)
> data3=data[,-3]
> data3=5*data3
> data4=8*data[,3]
> data3=cbind(data3,data4)
> 协方差3=cov(data3);相关系数3=cor(data3)
> 协方差3/协方差
商业投资 游客增率 data4
商业投资 25 25 40
游客增率 25 25 40
data4 40 40 64
> 相关系数3/相关系数
商业投资 游客增率 data4
商业投资 1 1 1
游客增率 1 1 1
data4 1 1 1
综上:前两个变量乘以常数5,最后一个变量乘以常数8后,其协方差矩阵中,商业投资和游客增长率的协方差扩大25倍,商业投资和游客增长率与经济增率的协方差分别扩大40倍,经济增率扩大64倍,扩大的倍数分别为各自相关变量扩大倍数的乘积,相关系数矩阵不变。
第六章作业 Variables Entered/Removedb
Variables
1 Entered 掘进进尺ma Variables Removed Method a. All requested
variables entered.
b. Dependent Variable: 生产原煤t
Model Summary
Std. Error
Adjusted R
R Square of the Estimate
Coefficientsa
方程为:y=469247.547+220.098x 因为P值为0.00,所以拒绝原假设