统计学R语言作业答案

统计学R语言作业答案统计学R语言作业答案第二章 2、(1) > data=read.csv("管理学院2007级学生统计学课程成绩.csv",head=TRUE) > 平均数=mean(data[,2]);方差=var(data[,2]);标准差=sd(data[,2]);中位数=median(data[,2]);离散系数=标准差/平均数;全距 =max(data[,2])-min(data[,2]); 四分位距 =quantile(data[,2],probs=0.75)-quantile(data[,2],p...

统计学R语言作业答案第二章 2、(1) > data=read.csv("管理学院2007级学生统计学课程成绩.csv",head=TRUE) > 平均数=mean(data[,2]);方差=var(data[,2]); 标准差=sd(data[,2]);中位数=median(data[,2]);离散系数=标准差/平均数;全距 =max(data[,2])-min(data[,2]); 四分位距 =quantile(data[,2],probs=0.75)-quantile(data[,2],probs=0.25) > data=data[,-1] > 不及格率=length(data[data<60])/length(data) > 平均数;方差;标准差;中位数;四分位距;离散系数;全距;不及格率 [1] 79.2977 [1] 167.7606 [1] 12.95224 [1] 80.975 75% 15.975 [1] 0.1633369 [1] 72.8 [1] 0.08865248 (2) > data=read.csv("管理学院2007级学生统计学课程成绩.csv",head=TRUE) > data=data[,-1] > data1=data[1:141] > data2=data[142:282] > 平均数1=mean(data1);平均数2=mean(data2) > 平均数1;平均数2 [1] 81.90816 [1] 76.68723 > 方差1=var(data1);方差2=var(data2) > 方差1;方差2 [1] 113.2225 [1] 209.7706 > 标准差1=sd(data1);标准差2=sd(data2) > 标准差1;标准差2 [1] 10.64061 [1] 14.48346 > 中位数1=max(data1)-min(data1);中位数2=max(data2)-min(data2) > 中位数1;中位数2 [1] 54.2 [1] 72.8 > 四分位距1=quantile(data1,probs=0.75)-quantile(data1,probs=0.25); 四分位距2=quantile(data2,probs=0.75)-quantile(data2,probs=0.25) > 四分位距1;四分位距2 75% 12.35 75% 18.8 > 离散系数1=标准差1/平均数1;离散系数2=标准差2/平均数2 > 离散系数1;离散系数2 [1] 0.129909 [1] 0.188864 > 全距1=max(data1)-min(data1);全距2=max(data2)-min(data2) > 全距1;全距2 [1] 54.2 [1] 72.8 > 不及格率1=length(data1[data1<60])/length(data1); 不及格率 2=length(data2[data2<60])/length(data2) > 不及格率1; 不及格率2 [1] 0.03546099 [1] 0.141844 (3) > plot.new() > figureparameter=par(mfrow=c(2,2),bg="light green",cex.lab=1,font=3) > hist(data1);hist(data2) 分析:会计学和经济大类都是左偏分布，成绩集中分布于80~90分，可见普遍成绩较好。经济大类的高分段(90~95)比例又高于会计学，同时不及格率也高于会计学，可见经济大类的成绩离散程度高于会计，这从上面得出的数据中也可以得到验证 (4) > 样本=sample(data,40, replace = FALSE) > 均值=mean(样本);均值 [1] 81.07125 > 方差=var(样本);方差 [1] 148.8133 > 标准差=sd(样本);标准差 [1] 12.19891 > 中位数=median(样本);中位数 [1] 81.425 > 四分位距=quantile(样本,probs=0.75)-quantile(样本,probs=0.25);四分位距 75% 17.7 > 离散系数=标准差/均值;离散系数 [1] 0.1504714 > 全距=max(样本)-min(样本);全距 [1] 55.9 > 不及格率=length(样本[样本<60])/length(样本);不及格率 [1] 0.05 > summary(data);summary(样本) Min. 1st Qu. Median Mean 3rd Qu. Max. 27.20 72.80 80.97 79.30 88.78 100.00 Min. 1st Qu. Median Mean 3rd Qu. Max. 44.10 74.35 81.43 81.07 92.05 100.00 经对比，可以看出样本得出的均值、中位数、四分位距高于总体数据，方差、标准差、离散系数、全距均、不及格率低于总体数据，原因推测为总体为左偏分布，所以高分同学被抽取的概率大于低分同学导致样本总体测值偏高，所以我认为可行的改进方法是进行分层抽样，这样抽到的数据更有代表性。第三章作业 1、(1) > 下侧分位点=qchisq(0.025,10);上侧分位点=qchisq(0.975,10);下侧分位点;上侧分位点 [1] 3.246973 [1] 20.48318 (2) > pnorm(1.96,0,1) [1] 0.9750021 (3) > pt(1.96,5) [1] 0.946356 (4) > pt(1.96,15) [1] 0.9655779 (5) > pt(1.96,45) [1] 0.9718971 2、(1) > data=read.csv("概率论与数理统计课程成绩数据.csv",head=TRUE) > x=data[,1] > hist(x, probability = TRUE,main = paste("Histogram of" , "概率论与数理统计课程成绩"), xlab = "分数") Histogram of 概率论与数理统计课程成绩 Density 0.000.010.020.030.0 4 40506070 分数8090 100 (2) > xbar=mean(x);sdx=sd(x);xbar;sdx [1] 80.57143 [1] 12.61278 (3) > p1=length(x[x<=70])/length(x);p2=length(x[x<=75])/length(x);p1;p2 [1] 0.2176871 [1] 0.2721088 (4) > p1=pnorm(70,xbar,sdx);p2=pnorm(75,xbar,sdx);p1;p2 [1] 0.2009726 [1] 0.3293427 第四章作业 3、(1) > x=c(202,209,214,198,206,210,196,208,200,207) > xbar=mean(x);var=var(x);n=length(x);df=n-1 > t=qt(0.975,df);t [1] 2.262157 > max=xbar+t*sqrt(var/n);min=xbar-t*sqrt(var/n) > min;max [1] 200.8699 [1] 209.1301 所以，置信区间是 (200.8699,209.1301) (2) > z1=qt(0.025,n-1);z2=qt(0.975,n-1);z1;z2 [1] -2.262157 [1] 2.262157 > z=(xbar-200)/sqrt(var/n);z [1] 2.738613 > z>z1 [1] TRUE > z<z2 [1] FALSE 所以，平均抗拉强度与200之间存在显著差异 (3) > r=t*sqrt(var/n);r [1] 4.130115 > t=qt(0.995,df);t [1] 3.249836 > n=var*t^2/r^2;n [1] 20.63846 所以，应抽取21根材料进行测试第五章作业 1、 > data=read.csv("CH8偏相关商客旅.csv") > data=data[,2:4] > data=scale(data) > 协方差=cov(data);协方差商业投资游客增率经济增率商业投资 1.0000000 0.7908555 0.6436569 游客增率 0.7908555 1.0000000 0.7733829 经济增率 0.6436569 0.7733829 1.0000000 > 相关系数=cor(data);相关系数商业投资游客增率经济增率商业投资 1.0000000 0.7908555 0.6436569 游客增率 0.7908555 1.0000000 0.7733829 经济增率 0.6436569 0.7733829 1.0000000 > data=read.csv("某矿2006年1月三项数据.csv") > data=scale(data[,2:4]) > 协方差=cov(data);协方差生产原煤掘进进尺检修时间生产原煤 1.0000000 -0.27354970 -0.15627328 掘进进尺 -0.2735497 1.00000000 0.01287778 检修时间 -0.1562733 0.01287778 1.00000000 > 相关系数=cor(data);相关系数生产原煤掘进进尺检修时间生产原煤 1.0000000 -0.27354970 -0.15627328 掘进进尺 -0.2735497 1.00000000 0.01287778 检修时间 -0.1562733 0.01287778 1.00000000 经过对比，可得:对于标准化数据来说，变量之间的协方差矩阵就是其相关系数矩阵 2、(1) > data=read.csv("CH8偏相关商客旅.csv") > data=data[,2:4] > 协方差=cov(data);相关系数=cor(data) > data2=5*data > 协方差2=cov(data2);相关系数2=cor(data2) > 协方差2/协方差商业投资游客增率经济增率商业投资 25 25 25 游客增率 25 25 25 经济增率 25 25 25 > 相关系数2/相关系数商业投资游客增率经济增率商业投资 1 1 1 游客增率 1 1 1 经济增率 1 1 1 综上:把三个变量的值同乘常数5后，其协方差矩阵扩大25倍，扩大的倍数分别为各自相关变量扩大倍数的乘积、相关系数矩阵不变。 (2) > data3=data[,-3] > data3=5*data3 > data4=8*data[,3] > data3=cbind(data3,data4) > 协方差3=cov(data3);相关系数3=cor(data3) > 协方差3/协方差商业投资游客增率 data4 商业投资 25 25 40 游客增率 25 25 40 data4 40 40 64 > 相关系数3/相关系数商业投资游客增率 data4 商业投资 1 1 1 游客增率 1 1 1 data4 1 1 1 综上:前两个变量乘以常数5，最后一个变量乘以常数8后，其协方差矩阵中，商业投资和游客增长率的协方差扩大25倍，商业投资和游客增长率与经济增率的协方差分别扩大40倍，经济增率扩大64倍，扩大的倍数分别为各自相关变量扩大倍数的乘积，相关系数矩阵不变。第六章作业 Variables Entered/Removedb Variables 1 Entered 掘进进尺ma Variables Removed Method a. All requested variables entered. b. Dependent Variable: 生产原煤t Model Summary Std. Error Adjusted R R Square of the Estimate Coefficientsa 方程为:y=469247.547+220.098x 因为P值为0.00，所以拒绝原假设

                    本文档为【统计学R语言作业答案】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

统计学R语言作业答案

你可能还喜欢