首页 JMP教材

JMP教材

JMP教材null JMP培训讲义 JMP培训讲义第一课 JMP介绍第一课 JMP介绍在本课将简单介绍一下JMP具备的功能，以及一些基本的操作技巧JMP功能简介JMP功能简介JMP可以提供一个图形界面来显示与分析数据，它具备以下功能：在数据表单上可以查看、编辑、输入与处理数据强大而图形化的统计技术数据分析功能表单的排序和合并快捷的数据分组与统计计算功能质量提升技术如过程能力等分析结果输出null创建JMP数...

null JMP 培训讲义 JMP培训讲义第一课 JMP介绍第一课 JMP介绍在本课将简单介绍一下JMP具备的功能，以及一些基本的操作技巧JMP功能简介JMP功能简介JMP可以提供一个图形界面来显示与分析数据，它具备以下功能：在数据表单上可以查看、编辑、输入与处理数据强大而图形化的统计技术数据分析功能表单的排序和合并快捷的数据分组与统计计算功能质量提升技术如过程能力等分析结果输出null创建JMP数据表单同一般的常用软件使用已有数据表单同一般的常用软件如打开typing.jmp 选择所需行或列连续可鼠标拖放，非连续可CTRL+CLICK定义数据列名称与类型定义数据列名称与类型双击列上部或选择col/col info Continuous 定义可连续的数值型数据 Ordinal 定义有顺序的数值型或字符型数据 Nominal 定义分类（分级）的数值型或字符型数据选择变量角色选择变量角色方法一：选定安排列，后用col/assign roles 方法二：直接通过列头右侧按钮选择 NONE 表示此列分析时不包括 X：一般代表独立的变量 Y：一般代表应变量 WEIGHT：代表列中每个响应的值为重量值 FREQ：代表频率 LABEL：表示列中值为标识。选择分析平台选择分析平台从Analyze 或Gragh选择分析工具数据的图形分析调整柱形条可用工具栏中的“小手”，向左移柱形变粗，向右移变细选择显示属性选择右下角的“√”中需要的分析数据或图形null统计报表统计报表随图形出现，单击每栏统计数据左上角的按钮可隐藏或显示统计数据完成JMP任务关闭同一般的常用软件练习打开COWBOY.JMP，用“copy to rowstate”,然后选择“spinning plot”,add “x,y,z”第二课 JMP数据表的创建第二课 JMP数据表的创建通过一个研究人员研究新药疗效的实例来掌握创建JMP数据表的技巧。一个研究人员想评估一种新药对降低血压的疗效，他收集了以下药方6个月的临床治疗数据： Drug,300mg Drug,450mg Placebo controlBlood pressure studyBlood pressure study在表中创建行和列在表中创建行和列加入列选择col/add columns或在表单的左上角“ 0 col”双击，弹出一个参数设置对话框。设置列特性在弹出的对话框中进行相应参数的设置。加入行在左上角“ 0 row”双击，其他同加入列操作 null数据输入同excel 绘图分析数据将month设为X，control ,placebo,300mg,450mg设为Y 然后单击选择overlay plot工具，折线图出现了 null加标题脚注单击右下角“*”处后出现对话框选择“TITLE”加标题选择“FOOTNOT”加脚注选择“ALLIGMENT”安排居中、左、右到这里一张分析图就做完了。第三课总结数据第三课总结数据研究背景热狗被列为非健康食品排除在自助餐目录外。很多自助餐的消费者很难过并认为这是一个不爱国的行为。自助餐营养师想把加回到食品目录中去，于是收集了54种热狗的价格、营养成分、口味等方面的数据进行分析，希望找出营养价值高、便宜、口味佳的组合。null打开数据表打开名为“hotdogs.jmp” $/oz 指每盎司热狗的价格 $/lb protein 指每磅热狗蛋白质的价格数据分组为查看热狗的类型对身体健康是否有影响，对数据按“type”分组看：null哪一种类型的热狗具有最少的热量？在三种类型的热狗中盐的含量是否不同？哪一种热狗具备最可接受的蛋白质水平？哪一种热狗口感好且对健康无害为达到这些目的，用“table/Group/Summary”按“type”将数据分组，如需对数据进一步分组则单击左下角“$”选择“add summary col”命令 null为数据组创建统计 1）单击“$”选择“add summary col”，弹出对话框 2）选择要统计的数据组如Calories等 3）选择统计的方式 4）按OK确认，按“Type”分组统计就完成了。按照同样的方法可建立按“taste”的分组统计分组数据图形化处理分组数据图形化处理为了使分析的问题更直观，我们选择Bar/Pie图进行分析。如前所讲，如要加标题单击右下角“*”处后出现对话框选择“TITLE”加标题选择“FOOTNOT”加脚注 “√”改变显示属性，如将图水平放置等。null分析 1）从“TYPE”分组来看，“poultry hotdogs”平均含热量比其他两种低，含盐量略高，但“protein/fat”比例明显偏高 2）从“TYPE”分组来看，口味差的热狗含热量、含盐量高但“protein/fat”比例低。口味极佳的热狗含热量、含盐量最低，口味中等的热狗“protein/fat”比例明显最高双组图形化分析双组图形化分析用“GROUP/SUMMARY”命令对数据分组按“TYPE”和“TASTE”同时分组，然后用Bar/Pie使之图形化。用LABEL/UNLABEL命令可使条形上方显示数字由于 “poultry hotdogs”各营养因素好，但含盐量略高，所以还需进一步的研究。用多元特性寻找一子组用多元特性寻找一子组用“clear row states”,消除源数据的标识，在“hotdogs by type taste”给每种类型的热狗加上不同的标识，我们通过以下步骤寻找理想的热狗。在“hotdogs by type taste”中，选择第2-3行，用“marker”命令标为“z”,第5-6行标为“Y”，第8-9行标为“x” 散点图比较散点图比较为了检查变量之间的相关性，并识别出特殊点，我们选用“FIT Y BY X”来进行分析。(1)将数据类型改为“CONTINUOUS”，这里我们将“FROT/FAT”由“ordinal”改为“continuous” (2)选择“FIT Y BY X”命令，将“￥/LB PROTEIN”定为Y，将“￥/OZ”，”prot/fat”定为X （3）选择左下角的“GROUPING VARIABLE” （4）选择“DENSITY ELLIPSES”，取0.90 null用同样的方法再做一个“colaries” 为Y ，“sodium”为X的散点图。90%椭圆显示了每种热狗二元变量之间的反馈形状。下面我们来试着找出我们需要的特殊点。操作如下：用brush刷选择“colaries” /“sodium”图中1/4区中的点，选中的点在其他图中也加亮显示。分析分析1）价格从图11中可以看出meat和beef的价格分布宽，poultry分布窄，在高亮显示点包括了poultry,meat,beef点。在右上角选择中的Z标志点表示最贵的种类，Y标志点（MEAT）表示比poultry贵,比beef便宜。null2）从第二张图中可以看出，protein/fat比增大，每磅蛋白质价格降低， poultry类不但价格低而且在三者当中还有最高的蛋白质。从第三张图中可以看出poultry含盐量几乎相等，但是它含热量少。找出最佳点 X标记的poultry类，最经济且其中有一些蛋白质含量很高。Meat 和beef类比起来差一些。现在我们进一步来看看这两类中有无合适的点null其操作如下：在第三图中恢复所有点的不选状态。选择热含量最低的两点和盐含量最低的一点； Y点表示最低的含盐量，低的含热量以及中等的蛋白质含量，平均的价格。用label/unlabel标出上述点。Estate chicken 是三个中最经济的点。Calories-less是蛋白质含量最高的点。适当提高点价格，增加营养价值，我们是不是应该考虑Calories-less为首选。第四课查看分布第四课查看分布某机构对某地学生的健康情况进行了调查，其数据包括年龄，性别，体重，身高，具体见students.jmp。我们用JMP软件来评价一下学生的健康状况，并找出需特别关照的对象。null1打开文件，查看数据我们先试着解决以下问题： a）多少男孩和女孩参加了调查？ b）他们的年龄多大？ c）每组的平均身高体重是多少？null2 选择变量角色我们将age和sex设为Y 3图形化显示选择distributions of Y命令。每列分别出来一个分布，显示了nominal 和 ordinal两种类型的分布图。从图上可以看出年龄小的和大的参与调查的人少一些。男女比例差不多。 Continunous型的分布Continunous型的分布4让我们来进一步看一下身高与体重的分布情况。将height 和weight设为Y，age和sex设为NONE，仍用Y分布工具看分布。从图上可以看出，身高与体重都基本服从正态分布。体重特别突出的点稍后分析。 5调整柱形条选择hand工具，向左移可增加柱形条宽度和分组宽度。向右刚好相反。nullOutlier Box plot for continues variables Outlier box 可以帮我们查看那些极端值盒子首尾代表25%与75%的数，盒中线代表中位数。盒外两端的虚线表示在远离盒边1.5倍“interquartile range”(盒宽）范围内的点。之外的点可以用LABEL命令标识出来。红“[”表示shortest half,即50%的数分布最密集的位置null显示属性单击在左下角“√”可根据需要改变显示属性盒内钻石形区域表示样本均值95%的置信区间 8 reports for continue variables JMP 报告跟变量数据的类型有关。*/Reveal/conceal命令可关闭或显示报告。各字段含义见帮助。创建子表单创建子表单现在我们来找一下身高或体重失常的值，weight/height的比值可以很好的反应上述情况。为此，我们执行如下操作： 9、加入新的一列。 10、列名为ratio,数据来源选择“formula”,设置完属性后按OK 11、在跳出的对话框建立公式 weight/height。 12、将ratio设置为Y，其他设置为none null13、在分布图中同时选择ratio值最高与最低的柱，在数据表中加亮显示了ratio≥2.25或≤的行 14、用“table/subset”筛选出数据，并将这个表用set windows name命令命名为你需要的名字。第五课组均值的比较第五课组均值的比较有一公司为了配合公司现代化的方针，想用现在的字符处理程序来取代打字机。打字员急切希望这一改变，并愿意参加购买哪一类设备的调研。该公司选择了三种牌子的设备，把他们随机分配给三组不同技能水平的打字员进行测试，记录他们每分钟的打字的分数。我们的任务是分析有没有哪一种牌子明显优于其他两家，有的话该公司决定购买那一种，否则可以根据员工爱好购买。null1、打开TYPING.JMP。 2、选择变量角色，将brand 设为X，将speed设为Y。分组数据的图形化显示 3、为了比较不同X水平对应Y的均值是否明显不同，我们选择fit Y by x分析工具进行分析。注fit Y by x可用于四种类型的分析： a）both x and y have nominal/ordinal values null B) x is nominal/ordinal and y has continuous values C) x is continuous and y has nominal/ordinal D)both x and y have continuous values 显示点在X轴上不同商标的宽度与该商标的台数成正比，从图上可以看出speedtype明显比其他的快。nullFit means option 为了看到分布图形更多的图形化信息，我们可以在图下浮出按钮analysis与display中选择相应的属性，最初只有show points and x-axis proportional显示属性有效。null4、选择means,anova/t-test,显示属性自动选择了means diamonds属性，它画出了每组均值置性度为95%的区间。钻石形宽度与样本容量成正比。从图上可以看出regal与word-O 品牌均值接近，speedytype均值明显高一些。null5、用quantiles显示属性查看每组数的分布，解释见帮助。从图中可以看出regal组比word-o绕均值分布要紧凑一些，但尽管各组存在这些变异，speedytype仍然表现出了最好性能。比较环选择分析工具中的compare all pairs命令，显示属性中自动选择了comparison circle,图中出现三个比较环。null环的中心代表组的均值，环的直径代表95%的置性区间，两环相交，置性区间相互覆盖，意味着他们的均值没有明显的不同。如两环不相交，则可认为两组的均值有明显的不同。单击比较环，相应的组名会用相同的颜色加亮显示。从图上可以看出speedytype环与其他两环不相交，说明与另外两个有明显的不同。null量化结果 7、means,anova/t-test在图下显示了几张均值的统计表。解释见帮助 rsquare 量化了设备不同引起的变差而不是人不同引起的变差； root mean square error量化了由于不同人引起的变差。null变量分析（analysis of variance) 解释见帮助。 prob>F值高意味着人引起的变差大于设备不同引起的变差。其值<0.05可以认为回归分析有效。均值估计与统计比较见means for oneway anova和 means comparisons tukey-kramer HSD test 这种均值比较方法比较了各组均值的实际不同与LSD统计意义的不同。表中上半部分是students t comparison of each pair,下半部分是tukey-kramer multiple comparison他支持比较环的分析。第六课分类数据的分析第六课分类数据的分析调查数据很多都是分类数据的频率而不是测量值，对于这些数据分类技术容易，但要阐述他们之间的联系会难很多，他需要计算其概率并与预期值比较发生的可能性。事例：有一汽车生产生产厂打算出巨资做宣传，为了使宣传更具针对性，该厂组织了一次调查，调查数据包括age ,sex ,marital status ,auto information(manufacturing country ,the car’s size,type,and whether it is a family ,work or sport car) 让我们一起来分析一下。null1、打开carpoll.jmp，参与调查的人是随机的，age被设为C型数据，其他被设为nominal数据。组织调查的人根据以往的经验觉得在总结数据时按年龄组分组要比针对具体的年龄分组要好。为了达到这一目的，我们可以以中位数为界来分。 2、用Y分布看年龄分布。 3、在分布报表中可以找到年龄的中位数为30。null4、在原始表中加一新列 5、在列信息对话框中设置相应的属性 name可为 age(50%) data type 设为character modeling type设为nominal data source设为formulanull单击OK后，在弹出的对话框中建立如下公式： “0”，if age<30 “1” ,otherwise 建立公式的过程如下：现场讲解。 7、用fit Y by X进行分析，the country,size,type columns 设为Y，sex,marital status,age(50%)为X。null8、由于X和Y数据类型为nominal或ordinal,显示的是许多带报表的 contingency table mosaic plot，图的宽度与样本容量成正比。 9、1）从sex and country图中可以看出性别与国籍没有显示出任何联系 2）从the country by age(50%) 图上可以看出30岁以上拥有美国车的人比30岁以下略低结婚与否与汽车生产国家明显相关，结过婚的人更希望美国车一些。所以作美国车的广告应侧重于已婚者。null车子大小的关系 10、从图中第二排看，大中小型车的购买没有明显的不同，因为Chi-square的概率在 0.21~0.3. Prob>ChiSq lists the probability of obtaining (by chance alone) a chi-square value greater than the one computed if no relationship exists between the response and factor.null11、从第三排图看，已婚的人偏爱购买家用车，单身偏爱运动车。广告宣传应该侧重于宣传让已婚人购买家用车。从图上还可以看出30岁以上的人跟偏爱家用车。第七课回归与线性相关第七课回归与线性相关在本课里我们来学习对一系列数据进行回归分析并比较不同回归模式的不同。本课研究的课题是年轻的女子，数据中的变量为age(in month),the ratio of weight and age ，我们的目的是找出所给年龄范围内的成长模式。 null1、打开数据表打开数据表，查看数据，所给数据都是continuous型，可以进行回归分析。 2、选择变量角色 x for age,y for ratio 3、选择fit y by x 作为分析工具nullFit y by x 可用作以下四种类型的分析 1）both x and y have nominal or ordinal values 2)when x is nominal and y has continuous values 3) when x continuous and y has nominal or ordinal values 4)both x and y have continuous valuesnull从图中可以看出，成长模式不是随机的，且直线应该是最合适的回归线连续变量的符合模式单击图下三角可选择相应的模式 4、选择 fit line 模式在linear fit 三角中可选择符合线模式，和保留符合公式的预计值。null5、出现的回归线与成长的数据的符合性非常好，为了进一步查看符合的程度，我们可以进一步查看图下报表提供的数据。 6、报表解释参考帮助null第七课回归与线性相关第七课回归与线性相关在本课里我们来学习对一系列数据进行回归分析并比较不同回归模式的不同。本课研究的课题是年轻的女子，数据中的变量为age(in month),the ratio of weight and age ，我们的目的是找出所给年龄范围内的成长模式。 null1、打开数据表打开数据表，查看数据，所给数据都是continuous型，可以进行回归分析。 2、选择变量角色 x for age,y for ratio 3、选择fit y by x 作为分析工具nullFit y by x 可用作以下四种类型的分析 1）both x and y have nominal or ordinal values 2)when x is nominal and y has continuous values 3) when x continuous and y has nominal or ordinal values 4)both x and y have continuous valuesnull从图中可以看出，成长模式不是随机的，且直线应该是最合适的回归线连续变量的符合模式单击图下三角可选择相应的模式 4、选择 fit line 模式在linear fit 三角中可选择符合线模式，和保留符合公式的预计值。null5、出现的回归线与成长的数据的符合性非常好，为了进一步查看符合的程度，我们可以进一步查看图下报表提供的数据。 6、报表解释参考帮助null7、察看analysis of variance prob> F是当假如ratio的值的不同主要是由项目不一样而不是由年龄不同引起的时F出现大值的几率，<0.05可以接受。在本例中， prob> F的值<0.0001说明符合weight/height成长模式的线要远比符合数据样本均值的水平线的符合性要好。 null参数评估表 8、解释参见帮助。如果没有数据值符合所给公式，Prob>F|t|会很大，一般情况下，<0.05公式可接受。 F值告诉我们weight/height成长模式的线要远比符合数据样本均值的水平线的符合性要好。但是7月以下的数据符合性不是很好。null排除命令对于线性符合来说，低年龄段是问题区域，为使点符合性更好，去掉不符合点，具体做法如下： 1）选择格式刷； 2）选择需要的点shift-drags 3）选择rows/exclude 4）用Makers命令标记出排除的点null再次选择fit line命令，可看到去掉排除点的直线，排除点仍在图中，当没有被包含。 13 撤消格式刷，选择箭头，选择edit/journal,并保存，将你的成果“图与报表”保留下来。多项式符合命令（the fit polynomial command) 14 为用上所有的点，激活含图的窗口，重新选择所有点。操作如下：null1）选择rows/select/exclude 2)选择rows/exclude/include 15 用remove fit命令去掉不包含所有点的线。 16选择the fit polynomial command命令，并选择degree=2(3、4、5等）优化情况：项数越多，回归曲线符合性越好，且Rsquare 值也增大将结果以journal 文件形式保留下来。nullThe fit spline comand 从图上可以看出即便是DEGREE=3，低年龄段的点符合性也不是很好，有没有更自由的格式功能使线更好、更平滑符合数据？我们看fit spline命令能否达到目的。 18用remove it命令去掉所有的多项式线，只剩下直性。选择lambda值为10，1000，100000的三条spline 线， lambda值越大，线柔度越大。 nullSplines模式数据的符合情况从图上可以看出Lambda=10曲线太柔，局部的异常点对线形影响很大（图中曲线波动厉害）Lambda=100000曲线太僵硬，低年龄段符合性不是很好，Lambda=1000比较好，局部的异常点对线形影响不大，数据符合性也较好。以journal文件形式保留你的结果，并在末尾加入你的结论如：“this fitting technique applies a cubic polynomial to the interval between points;the polynomial is joined such that the curve meets at the same point with the same slope to form a continuous and smooth curve.A small enough lambda could make such a curve go through every point, which would model the error, nullnot the mean.A moderate lambda value forces the curve to be smoother,I.e,less curved .this is accomplished by adding a curvature penalty to the optimization that minimizes the sum of squares error.” 关于成长率的结论：通过不同符合模式的比较可以看出，不管是polymomial模式还是中等柔性的spline模式都显示婴儿期成长很快，在12月左右成长速度明显变慢。null附加题：分组符合 19 在数据表中加入新的一列，小于12.5月定义为babies，大于12.5定义为toddlers建立公式: “babies”,if age<12.5 “toddlers”,otherwise 20 先按照stage对数据分组，加标记，然后用group variable,对变量进行分组，然后选择fit line 命令。null第九课探索数据第九课探索数据探索就是去研究发现一些新东西。就数据分析而言，探索研究通常是分析过程中最富有成效的工作，因为很多偶然的发现都是通过他得到的。探索有两个重要方面： 1）数据类型/模式 2）有无远离数据聚集区的非正常点。当你探索研究多变量数据时，最大的挑战是处理高维数据。你可能拥有一堆有相互关联的数据，但却很难同时显示其中几个变量之间的联系。null溶解度数据打开solubil.jmp文件，你将看到72种化合物在六种溶剂中的溶解度，在 labels栏安排数据为“label”，使图中显示的点以名称显示。表中有6个变量，但没有6维的图形，但是6个一维图形，15个二维图形，20个三维图形一维观察用“distribution of Y”命令，它虽然没有办法看变量之间的联系，但是单个分布有助于你识别一元的轮廓。null选择“distribution of Y”命令，选择六列数据进行分析。在图中选择任一柱形条，其他图中对应的列就会以阴影显示。你可以用“shift_click”同时选择多条柱形条。你还可以用“markers”命令对选中的数据加标记。你也可以用SUBSET命令将这些数据形成新的数据表。二维观察用“correlation of Y’s”命令，查看六列数据，从图中可以看出，有二组变量之间相关，但与其余组不相关。“eth”和“oct”看起来形成一组，其他四个变量形成一组。你同样可以用MARKERS命令对你需要的点做好标记。 null三维观察用“spinning platform”命令，选择六个变量到显示列当中，将X，Y，Z拖到相应的变量前面可显示相应变量的图形。我们的目的是找出那些远离三元变量聚集区的点，你可以用“手”旋转图形。选择cc14(x),hex(y),chc13(z)图中最偏的两个点，并用LABEL命令标出点的名称。nullPrincipal components and biplots 由于溶解度表中很多变量都是高度相关的，因此你可以想象在六维图中它不会很分散，存在在某些方向分散却在某些方向变平的情况。为了说明这一问题，我们在显示列中只选择ETH和OCT，并选择在“√”选择“principal components “，从图中可以看出数据高度相关，分散的点形成一狭窄的椭圆，其主轴在P1标识的方向null

                    本文档为【JMP教材】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

JMP教材

你可能还喜欢