加入VIP
  • 专属下载特权
  • 现金文档折扣购买
  • VIP免费专区
  • 千万文档免费下载

上传资料

关闭

关闭

关闭

封号提示

内容

首页 Lady

Lady.pdf

Lady

guanguai
2010-10-26 0人阅读 举报 0 0 暂无简介

简介:本文档为《Ladypdf》,可适用于工程科技领域

统计学专业论坛:统计之都wwwcosnamebbs本书仅供学术交流!感谢RikaMa的辛勤录入!shoeda女士品茶TheLadyTastingTeaHowStatisticsRevolutionizedScienceintheTwentiethCentury世纪统计怎样变革了科学DavidSalsburg萨尔斯伯格(美)著邱东等译统计学专业论坛:统计之都wwwcosnamebbs本书仅供学术交流!感谢RikaMa的辛勤录入!shoeda目目目目录录录录作者序第章女士品茶第章偏斜分布第章可爱的戈塞特先生第章在“垃圾堆”中寻觅第章收成变动研究第章“百年不遇的洪水”第章费歇尔获胜第章致死的剂量第章钟形曲线第章拟合优度检验第章假设检验第章置信诡计第章贝叶斯异论第章数学界的莫扎特第章“小人物”之见解第章非参数方法第章当部分优于总体时第章吸烟会致癌吗?第章如果您需要最佳人选……第章朴实的德克萨斯农家小伙第章家庭中的天才第章统计学界的毕加索第章处理有瑕疵的数据第章重塑产业的人第章来自黑衣女士的忠告第章鞅的发展第章意向治疗法第章电脑随心所欲第章“泥菩萨”附:作者后记大事年表统计学专业论坛:统计之都wwwcosnamebbs本书仅供学术交流!感谢RikaMa的辛勤录入!shoedaTableofContentsChapterTheLadyTastingTeaChapterTheSkewDistributionChapterThatDearMrGossetChapterRakingOvertheMuckHeapChapter“StudiesinCropVariation”Chapter“TheHundredYearFlood”ChapterFisherTriumphantChapterTheDoseThatKillsChapterTheBellShapedCurveChapterTestingtheGoodnessofFitChapterHypothesisTestingChapterTheConfidenceTrickChapterTheBayesianHeresyChapterTheMozartofMathematicsChapterTheWorm’sEyeViewChapterDoingAwayWithParametersChapterWhenPartisBetterthantheWholeChapterDoesSmokingCauseCancerChapterIfYouWanttheBestPersonChapterJustAPlainTexasFarmBoyChapterAGeniusintheFamilyChapterThePieassoofStatisticsChapterDealingwithContaminationChapterTheManWhoRemadeIndustryChapterAdviceFromtheLadyinBlackChapterTheMarchoftheMartingalesChapterTheIntenttoTreatChapterTheComputerTurnsUponItselfChapterTheIdolWithFeetofClay统计学专业论坛:统计之都wwwcosnamebbs本书仅供学术交流!感谢RikaMa的辛勤录入!shoeda作者序作者序作者序作者序进入世纪时科学界奉行着一种固化的哲学观即机械式宇宙观(clockworkuniverse)。这种哲学观认为为数不多的几个数学公式像牛顿的运动定律(Newton’slawsofmotion)和玻意耳的气体定律(Boyle’slawsofgases)可以用来描述现实世界的一切并能预测未来即将发生的事件。而对这种预测所需要的不过是一套完整的公式以及一组具有足够精确度的相关数据。然而对于一般大众来说整整花了年时间他们的思想才跟上这种科学观念。这种思想上的落差典型地体现在世纪早年拿破仑皇帝(EmperorNapoléon)与皮埃尔·西蒙·拉普拉斯(PierreSimonLaplace)的一次对话中。拉普拉斯写了一本历史性的权威著作论述如何根据地球上少数观察数据来计算行星和彗星的未来位置。据说拿破仑问道:“拉普拉斯先生我发现你的论述中没有提到上帝啊!”拉普拉斯的回答则是:“我不需要这个假设条件。”机械式宇宙观认为宇宙如同一个庞大的时钟机器所有的物体都按照一定的规律运动宇宙永续运转而不需要神的介入所有将来发生的事件都决定于过去的事件。许多人对这种无神论的思想感到恐慌从某种意义上说世纪浪漫主义运动的兴起正是对这种精确应用推理的冷冰冰的哲学观的回应。然而世纪年代出现了对新科学的证明这叫一般人难以想象:牛顿的数学定律被用来预测另一颗行星的存在而海王星(theplanetNeptune)正是在这些定律所预测的位置被发现的。于是几乎所有对机械宇宙观的反抗都被粉碎了这一哲学立场很快成为大众文化的基本部分。不过就算拉普拉斯在他的公式中不需要上帝他还是需要一种被他称为误差函数(errorfunction)的东西。从地球上对行星和彗星的观察与用公式所预测的位置并不绝对吻合拉普拉斯和他的科学家同伴将这归结于观察中的误差有时是由于地球大气层中的扰动有时则是人为的。拉普拉斯把所有这些误差都放在一个附加项(误差函数)里从而将之纳入他的数据描述。这个误差函数吸收了所有的误差剩下的只是用来预测宇宙星体实际位置的绝对运动定律。当时科学家相信随着越来越精确的测试对误差函数的需求将逐渐消失。由于有误差函数来表示预测值与观察值之间的微小差异世纪早期的科学可以说是受到了哲学上决定论(determinism)的掌控即相信所发生的任何事情都预先地决定于两点:()宇宙的初始条件()描绘其运动的数学公式。到了世纪末误差并没有消失反倒是增加了。当测试越来越精确误差也越来越多。机械宇宙观处于动摇之中试图发现生物学定律和社会学定律的努力也失败了。在物理和化学等传统科学中牛顿和拉普拉斯所用的那些定律逐渐地被证明只是粗略的逼近。这样科学便渐渐开始在新的范式(paradigm)下运作这新范式就是现实世界的统计模型。到世纪末期几乎所有科学都转而运用统计模型了。大众文化还是没有跟上这种科学革命尽管一些含混的观念和表述像相关(correlation)、胜率(odds)和风险(risk)等等已经渗入了大众的词汇并且多数人意识到了不确定性问题这是与诸如医学和经济学等学科领域相联系的。但就已经发生的哲学观的深层转变而言学界之外没有人能够对此有什么理解。这些统计模型是什么?它们是怎么来的?在现实生活中它们意味着什么?它们是现实的真实描述吗?本书正是试图来回答这些问题其中我们也想介绍一些先生和女士的生平故事这些人曾涉身于这场革命之中。在处理这些问题时必须把三个数学概念区分开:随机(randomness)、概率(probability)和统计(statistics)。对大多数人而言随机只是不可预测性(unpredictability)的另一个说法。犹太教法典(Talmud)中的一则格言传达了这种通统计学专业论坛:统计之都wwwcosnamebbs本书仅供学术交流!感谢RikaMa的辛勤录入!shoeda常的看法:“不应该去探寻宝藏因为宝藏的发现是随机的按照定义没有人能够寻找只会被随机发现的东西。”但是对现代科学家来说随机性有许多不同的类型。概率分布(probabilitydistribution这将在第章中讨论)的概念允许我们对随机性加以限制并赋予我们有限的能力去预测未来的随机事件。因此对现代科学家而言随机事件并不是杂乱的、不可预期的和不可预测的它们有一个可以用数学来描述的结构。概率是一个非常古老概念的现代用语它曾出现在亚里士多德(Aristotle)的著作中。这位先哲声称:“不可能事件将会发生这正是概率的特性。”起初概率只是涉及到个人对什么事件即将发生的预测在和世纪一批数学家其中包括贝努里(Bernoullis)父子、费尔马(Fermat)、棣莫弗(deMoivre)、帕斯卡(Pascal)都在以机会博弈(gamesofchance)为起点去研究概率的数学理论。他们发明一些非常高级的方法用来计算等可能事件棣莫弗设法在这些技术中加进微积分的方法贝努里则可以领悟出非常基础的定理叫大数定律(Lawsoflargenumbers)。到了世纪末期数理概率主要由一些非常高级的技巧构成但还缺少坚实的理论基础。尽管不够完善还是可以证明概率理论对发展统计分布(statisticsdistribution)观念的作用。当我们考虑一个特殊的科学问题时就会产生一个统计分布。例如在年哈佛公共卫生学院所做的一项研究发表在英国的医学期刊《柳叶刀》(Lancet)上这项研究旨在检验喝咖啡是否与下泌尿道癌有关。研究的报告以一级病人为对象。其中一些人患有下泌尿道癌另一些人则患有其它疾病。报告的作者还搜集了这组病人的其它资料如年龄、性别和家族的癌症病史等。结果证明并不是每个喝咖啡的人都会得泌尿道癌也不是每个得泌尿道癌的人都圆角咖啡所以存在着与他们的假设相矛盾的事件。然而的此类癌症患者习惯每天喝杯以上咖啡只有的非癌症患者是这种咖啡嗜好者因而似乎有一些证据支持这种假设。这种资料的搜集给研究者提供了一个统计的分布。运用数理概率的工具他们为这个分布建造了一个理论公式称之为概率分布函数(probabilitydistributionfunction)或简称分布函数(distributionfunction)以此来检验所研究的问题。它与拉普拉斯的误差函数相似但却复杂许多。运用概率论来建造理论分布函数而这个函数用来描述从未来数据中所能得到的预期结果这些数据是以随机方式从同一总体的人群中提取的。我不想使本书成为一本关于概率和概率论的书那是抽象的数据概念。本书涉及的一些概率定理在科学问题上的应用涉及统计分布和分布函数的世界。概率论本身不足以说明统计方法有时甚至会出现这样的情形:科学中所用的统计方法违背了概率的定理。读者会发现本书中概率时隐时现需要时被用到不需要时则被忽略。由于现实世界的统计模型都是数学化的充分理解它们只能用数学公式或符号的方式。本书是一种野心不那么大的尝试我打算描述发生在世纪科学界的统计革命而手法是通过介绍一些参加过这场革命的人物(其中不少人至今还健在)。我只是涉猎他们创造性的工作试图让读者从中体会他们的个别发现是如何适应整个统计革命的。仅就本书而言读者并不会学到对科学数据进行统计分析所需要的足够知识那需要几年的循序渐进的学习。但我希望读者看过本书后能够对科学的统计观所代表的基本哲学的重大变革有所理解。那么不懂数学的人要理解这场科学革命应该从哪里开始呢?我以为一个不错的选择是与女士一道品茶。统计学专业论坛:统计之都wwwcosnamebbs本书仅供学术交流!感谢RikaMa的辛勤录入!shoeda第第第第章章章章女士品茶女士品茶女士品茶女士品茶那是世纪年代后期在英国剑桥一个夏日的午后一群大学的绅士和他们的夫人们还有来访者正围坐在户外的桌旁享用着下午茶。在品茶过程中一位女士坚称:把茶加进奶里或把奶加进茶里不同的做法会使茶的味道品起来不同。在场的一帮科学精英们对这位女士的“胡言乱语”嗤之以鼻。这怎么可能呢?他们不能想象仅仅因为加茶加奶的先后顺序不同茶就会发生不同的化学反应。然而在座的一个身材矮小、戴着厚眼镜、下巴上蓄着的短尖髯开始变灰的先生却不这么看他对这个问题很感兴趣。他兴奋地说道:“让我们来检验这个命题吧!”并开始策划一个实验。在实验中坚持茶有不同味道的那位女士被奉上一连串的已经调制好的茶其中有的是先加茶后加奶制成的有的则是先加奶后加茶制成的。写到这里我可以想象部分读者会对这种实验不以为意认为它不过是一帮精英们于夏日午后的一个小消遣。他们会说:“这位夫人能不能区分两种不同的注茶方式又有什么大不了的呢?这个问题并没有什么科学价值这些大人物更应该把他们的天才用在对人类有所裨益的事情上去。”不幸的是不管外行对科学及其重要性怎么想象从我个人的经验来看大多数科学家之所以从事科研活动只是因为他们对结果感兴趣或者能够在工作中得到理性的刺激。好的科学家很少会想到工作的最终重要性剑桥那个晴朗夏日的午后也是这种情景。那位夫人也许能、也许不能正确地品出不同的茶来但这无关紧要因为实验的真正乐趣在于找到一种判断该女士是对还是错的方案来。于是在蓄着胡须先生的指导下大家开始讨论应该如何进行实验判断。接下来在场的许多人都热心地加入到实验中来。几分钟内他们在那位女士看不见的地方调制出不同类型的茶来。最后在决战来临的气氛中蓄短胡须的先生为那位先生为那位女士奉上第一杯茶女士品了一小会儿然后断言这一杯是先倒的茶后加的奶。这位先生不加评论地记下了女士的说法然后又奉上了第二杯……科学的合作性质科学的合作性质科学的合作性质科学的合作性质这个故事是我在世纪年代后期从一个当时在场的先生那里听到的。这位先生就是休·史密斯(HughSmith)但他都是以H·费尔菲尔德·史密斯(HFairfieldSmith)的名义发表科研论文。我认识他的时候他在位于斯托尔斯(Storrs)的康涅狄格大学(theUniversityofConnecticut)任统计学教授而我则是两年以前在这个大学拿到了统计学博士学位。在宾州大学(theUniversityofPennsylvania)教了一阵子书后我加入到了辉瑞公司(PfizerInc)的临床研究部门。这是一家大型制药公司它的研究园区坐落在格罗顿(Groton),离斯托尔斯大约一个小时的车程。当时我是那里唯一的统计学家。在辉瑞期间我要处理许多疑难的数学问题还要负责给他们讲解这些问题并告诉他们对这些问题我个人的结论是什么。在辉瑞工作期间我发现科研工作几乎不能独立完成通常需要不同智慧的结合。因为这些研究太容易犯错误了。当我提出一个数学公式作为解决问题的工具时这个模型有时可能并不适合或者我就所处理情况而引入的假设并不真实或者我发现的“解”是公式中的失误部分推导出来的甚至我可能在演算中出了错。无论何时我去斯托尔斯的大学拜访与史密斯教授探讨问题或者与辉瑞的化学专家、药理专家坐在一起讨论我提出的问题都会受到欢迎他们对这种讨论充满兴趣和热情。对大多数科学家来说工作中令他们最感兴趣的就是解决问题时那种兴奋感。因此统计学专业论坛:统计之都wwwcosnamebbs本书仅供学术交流!感谢RikaMa的辛勤录入!shoeda在检验并试图理解问题时他们期盼着与他人交流。实验的设计实验的设计实验的设计实验的设计剑桥那个夏日午后的情形正是如此那个留着短胡须的先生就是罗纳德·艾尔默·费歇尔(RonaldAylmerFisher)当时他只有三四十岁。后来他被授予爵士头衔。年他写了一本叫《实验设计》(TheDesignofExperiments)的书书的第章就描述了他的“女士品茶”实验。在书中他把女士的断言视为假设问题他考虑了各种可能的实验方法以确定那位女士是否能做出区分。设计实验时的问题是如果只给那位女士一杯茶那么即使她没有区分能力她也有的机会猜对。如果给两杯茶她仍可能猜对。事实上如果她知道两杯茶分别以不同的方式调制她可能一下子全部猜对(或全部猜错)。同样即便这位女士能做出区分她仍然有猜错的可能。或者是其中的一杯与奶没有充分地混合或者是泡制时茶水不够热。即便这位女士能做出区分也很有可能是奉上了杯茶她却只是猜对了其中的杯。在这本书中费歇尔讨论了这个实验的各种可能结果他叙述了如何确定这样一些问题:应该为那位女士奉上多少杯茶?这些茶应该按什么样的顺序奉上?对所奉各杯茶的顺序应该告诉那位女士多少信息?依据那位女士判断的对错与否费歇尔搞出了各种不同结果的概率。但在讨论中他并没有指明这种实验是否真的发生过也没有叙述这次实验的结果。费歇尔书中有关实验设计的著述是科学革命的要素之一这场革命在世纪前半叶席卷了科学的所有领域。早在费歇尔出道以前科学实验已经进行了几百年。在世纪后期英国的威廉•哈维(WilliamHarvey)用动物做实验他将不同动物静脉和动脉里的血液堵住试图追踪血液从心脏到肺回流到心脏流向全身再回到心脏的循环路线。费歇尔没有发现实验是增长知识的方法。费歇尔之前实验对每个科学家而言都是有其特性的。优秀的科学家可以做出产生新知识的实验而二流的科学家常常从事的是积累数据的实验但对知识增长没有什么用处。为说明这点可以举发生在世纪后期的一个例子。那时的科学家就测量光速做了许多无关要旨的努力而直接到美国物理学家艾伯特·米切尔森(AlbertMichelson)用光线和镜子建造了一个特别精巧的系列实验才第一次得到好的估计。在世纪科学家很少发表实验结果。他们所做的是论述自己的结论并发表能证明结论真实性的数据。格雷戈尔•门德尔(GregorMendel)没有展示出他全部豌豆培育实验的结果他叙述了他的系列实验然后写道:“两组系列实验的前个数据可以用来说明……”在世纪年代费歇尔检验了门德尔用来说明结论的数据发现这些数据过分完美以至于失真它们并没有表现出应该具有的随机程度。尽管科学从审慎思考、观察和实验发展而来但从来不清楚应该怎样从事实验实验的全部结果通常也没有展现给读者。世纪末和世纪初的农业研究中上述情况尤为明显。世纪早期费歇尔在农业实验站工作在费歇尔去那儿工作之前这个实验站已经进行了约年的肥料构成(称之为人工肥料)实验。在一个典型的实验中工人将磷肥和氮肥的混合物撒在整块田中然后种植作物测度收成和整个夏季的雨量。这里有精巧的公式用来“调整”某年或某块地的产量以便与另一块地、或同一块地的另一年产量相比这被称为“肥力指数”。每一个农业实验站都有自己的肥力指数而且都认为自己的指数是最精确的。年的实验结果不过是一堆未经发表、了无用处的混乱数据。看来某些品种的小麦对某种肥料反应优于其它品种但只是在降雨过量的年份如此。其它实验似乎显示:第一年用钾硫化物第二年用碳酸硫化物会使某些品种的马铃薯增产而对其它品种并非如此。因统计学专业论坛:统计之都wwwcosnamebbs本书仅供学术交流!感谢RikaMa的辛勤录入!shoeda此就这些人工肥料充其量可以说其中有些在有的时候可能或大概有效。作为一个卓越的数学家费歇尔审视了农业科学家用来修正实验结果的肥力指数这些指数是用来解释不同年份气象变化所造成的差异的他还检查了其它农业实验站所用的同类指数。当简化为基本的代数式时这些指数不过是同一公式的不同表现形式换句话说看似激烈争斗的两个指数其实起着同样的修正作用。年费歇尔在农业科学领域的领军期刊《应用生物学年报》(theAnnalsofAppliedBiology)上发表了一篇论文文中他指出了采用哪种指数并没有什么差异并且所有修正都不足以调整不同地块上的肥力差异。这篇非凡的论文终止了一场持续多年的科学论战。费歇尔接着检查了过去年来的雨量和收成数据指出年度间不同气候的影响远远大于不同肥力的影响。用费歇尔后来在他的实验设计理论里发明的一个词来说“混合”(confounded)的这意味着用已有的实验数据是不能将二者分开的。年的实验和年的科学论战几乎是无谓的浪费。这使得费歇尔专注于实验和实验设计的思考。他的结论是:科学家需要从潜在实验结果的数据模型开始工作这是一系列数据公式其中一些符号代表实验中将被搜集的数据其它则代表实验的全部结果。科学家从实验数据开始并计算与所考虑科学问题相应的结果。让我们考虑一个关于一个老师和某个学生的简单例子。这个老师非常想找出一些关于这个孩子学习情况的测试数据为了达到这个目的老师对孩子进行了一组考试每一个考试都在到之间评分任何一个单一的考试都不可能对孩子知识的掌握提供可靠的评估这个孩子可能是没有学习多少考试所涉及的内容但是知道不少考试以外的事情可能是这个孩子在参加考试那天头疼还可能是参加考试那天早上孩子与父母发生了争执。由于种种原因单一考试不能对知识量提供好的估计所以老师进行了一组考试然后计算出所有考试的平均分来评价孩子的知识量。这样的估计结果会更好多少分是孩子知识量的实验结果而每一个单独考试的分数则是数据。那么老师应该如何组织考试?是搞那种只包括几天前所教授内容的系列考试还是每次考试都从考试前所教授的全部内容中提取一部分?考试是一个星期搞一次还是每天搞一次?或者在每个教学单元结束时搞?所有这些都是实验设计涉及到的问题。如果农业科学家想知道某种人工肥料对小麦生长的效用就要构建一个实验以取得效用估计时所需要的数据。费歇尔表明实验设计的第一步是建立一组数学公式用以描述待搜集数据与欲估计结果之间的关系因此任何有用的实验必须是能够提供估计结果的。实验必须是有效的能够让科学家测定出气候的差异和不同肥料的使用对产量差别的影响。特别是有必要包括同一实验中打算加以比较的实验处理(treatments),即那些后来被称为“控制组件”(controls)的东西。在他那本关于实验设计的书中费歇尔提供了几个实验设计的范例并导出优秀设计的一般原则。然而费氏方法中所涉及到的数学非常复杂多数科学家设计不了自己的实验除非他们遵循费歇尔书中提出的实验设计中的某个模式。农业科学家认识到费歇尔工作的伟大价值在大多数说英语的国家中费氏方法很快便成为农业科研的主流学派。从费歇尔的原创性工作出发用来论述不同实验设计的完整科学文献发展起来。这些设计被应用到农业以外的领域包括医学、化学和工业质量管理。在许多案例中所涉及的数学高深且复杂但此时此刻我们不妨停下来想想科学家不可能不假思索地动手实验这通常需要长时间的审慎思考而且其中通常会有大量的、高难的数学。至于前面所说的女士品茶那个在剑桥晴朗的夏日午后所做的实验中那位女士怎样了呢?费歇尔没有描述这项实验的结果但史密斯教授告诉我那位女士竟然正确地分辨出了每一杯茶!统计学专业论坛:统计之都wwwcosnamebbs本书仅供学术交流!感谢RikaMa的辛勤录入!shoeda第第第第章章章章偏斜分布偏斜分布偏斜分布偏斜分布像人类思想史上的许多革命一样要想找到统计模型成为科学组成部分的确切时刻也是很难的。人们可以在世纪初德国和法国数学家的工作中找到可能存在的特例甚至在世纪伟大的天文学家约翰尼斯·开普勒(JohannesKepler)的论文中也能找到某种启示。正像本书前言中所提到的那样拉普拉斯(Laplace)发明了误差函数来说明天文学中的统计问题但我仍然倾向于把统计革命的发生定位于世纪年代K·皮尔逊(KarlPearson)的工作。查尔斯·达尔文(CharlesDarwin)把生物变异认作生命的基本面并将之作为适者生存理论的基础。然而是他的英国伙伴K·皮尔逊首先认识到统计模型的根本性质以及这种模型对世纪科学中的决定论观点提供了哪些不同的东西。当我在世纪年代开始学习数理统计时K·皮尔逊的名字在课上很少被提到。当我与这一领域的大人物共同探讨一些问题时也听不到对K·皮尔逊及其著作的参考。他或者是被忽略了或是被视为行为早已出局的次要人物。例如美国国家标准局(theUSNationalBureanofStandards)的邱吉尔·艾森哈特(ChurchillEisenhart)当时正在伦敦大学学院(UniversityCollege,London)学习那是K·皮尔逊人生的最后几年艾森哈特记忆中的K·皮尔逊不过是一个精神头不足的老头儿。统计研究的步伐已经将他推出局外他和他的工作被埋进故纸堆中青年学生神采飞扬集聚在新的大人物周围学步其中之一便是K·皮尔逊自己的儿子但是没有人去拜见老皮尔逊他的办公室孤零零地坐落在那里远离着活跃的、振奋人心的新研究。当然并不总是如此在世纪年代年轻的K·皮尔逊离开英国到德去从事政治科学的研究生学习。在那里他倾心于卡尔·马克思(KarlMarx)的著作为了表达崇拜之情他把自己名字的拼法从Carl改成Karl。带着政治学博士的学位他回到了伦敦并在这个领域写过两本值得重视的著作。在维多利亚时代的英国伦敦的拘谨之风最甚K·皮尔逊却大胆地效仿德国和法国上流社会的沙龙组织了一个青年男女谈话俱乐部(YoungMensandWomensDiscussionClub)。俱乐部的青年男女平等地聚焦在一起(未婚少女并没有人陪伴)讨论世界上重大的政治和哲学问题。K·皮尔逊正是在那种环境下与夫人相遇而结缘的这个事实使人感到发起这类俱乐部可能另有动机。这个小小的社会冒险对我们进入K·皮尔逊的内心世界提供了帮助可以见证他对已经建立起来的传统是那样地不以为意。尽管拿的是政治学博士学位K·皮尔逊的主要兴趣还是在科学哲学和数学模型的性质上。世纪年代他发表了《科学的法则》(TheGrammarofScience)这本书后来再版了多次。在第一次世界大战之前的一段时间里它被视为关于科学和数学性质最伟大的著作之一其中充满了闪光的、原创性的、最具洞察力的见解这使该书成为科学哲学的一本重要著作。同时它又是以流畅、简单的风格写成任何人都可以接受你不必懂得数学就可以理解《科学的法则》。尽管从写作之日算起这本书已经有多年的历史了但其中充满洞察力的见解和思想对世纪的数学研究仍然是适用的。而它所提供的对科学性质的理解至今也是真实的。高尔顿的生物统计实验室高尔顿的生物统计实验室高尔顿的生物统计实验室高尔顿的生物统计实验室在人生的这个时段K·皮尔逊感受到了英国科学家弗朗西斯·高尔顿(FrancisGalton)爵士的影响。大多数人知道高尔顿这个名字缘于他是指纹现象的“发现者”。高尔顿的贡献是认识到指纹对每一个人都是独特的此外还有通常用于识别和分类指纹的方法。指纹的唯一性存在于手指类型中出现的不规则标识和切面这被称为“高尔顿标识”(GaltonMarks)。高尔顿做的远比这多作为一个只是将生物学算作其业余爱好的科学家通过数字统计学专业论坛:统计之都wwwcosnamebbs本书仅供学术交流!感谢RikaMa的辛勤录入!shoeda模型的研究他寻求将数学的严密引入生物学这同样是富有价值的。他所初创的各种调查当中的一项是对天才遗传的研究。在这项研究中他搜集了有关父子的信息这些人因智商高而闻名。但由于当时对智力的测量没有什么好的办法他发现研究这个问题特别困难于是他决定转向诸如身高之类的遗传特性的研究因为这更容易测量些。高尔顿在伦敦成立了生物统计实验室(biometricallaboratory)并打广告动员不同的家庭来做测量。在这个实验室他搜集身高、体重数据测量特殊的骨骼和家庭成员的其它特性。他和他的助手将这些数据列成表格并一再检验他是在寻找利用父母测度数据来推断子女的某些办法。比如说很明显高个子父母很容易有高个子的小孩但是不是存在某些数学公式只用父母的身高就可以预测孩子将有多高呢?相关与回归相关与回归相关与回归相关与回归高尔顿用这种方法发现了他称之为“向平均回归”(regressiontothemean)的现象这表现为:非常高的父亲其儿子往往要比父亲矮一些而非常矮的父亲其儿子往往要比父亲高一些。似乎是某种神秘的力量使得人类的身高从高矮两极移向所有人的平均值。不只是人类身高存在着向平均数回归的现象几乎所有的科学观察都着了魔似的向平均值回归。在第章到第章我们将看到费歇尔如何能够将高尔顿向平均值回归的思想纳入统计模型而这种模型现在支配着经济学、医学研究和工程学的很多内容。高尔顿仔细思考了他的惊人发现而后认识到这必定是真实的在进行所有观察之前这就是可以预言的。他说假设不发生这种向平均值的回归那么从平均意义上看高身材父亲的儿子将与他们的父亲一样高在这种情况下一些儿子的身材必须高于他们的父亲以抵消身材比父亲矮小者的影响使平均值不变。高身材者这一代人的儿子也将如此那么会有一些儿子身材更高。这个过程将一代一代延续下去。同样地将会有一部分儿子身材比他们的父亲矮小而且有一部分孙子将更加矮小如此下去不用多少代人类种族就将由特别高和特别矮的两极构成。上述的情形并没有发生人类的身高在平均意义上趋向于保持稳定。只有当非常高的父亲其儿子平均身材变矮而非常矮的父亲其儿子的平均身材变高才能出现这种稳定。向平均值回归是一种保持稳定性的现象它使得某给定物种代际之间大致相同。高尔顿发现了这种关系的一种数学测度他称之为“相关系数”(coefficientofcorrelation)。高尔顿给出了明确的公式以计算这个系数所用的资料则是在生物测量实验室搜集的。这是一个非常详细而明确的公式它只计算了向平均值回归的一个方面但没有告诉我们任何有关这种现象原因的信息。正是在这个意义上高尔顿最先使用了“相关”这个字眼这之后它演变进入了大众词汇。与高尔顿特定的相关系数相比“相关”经常被用来表示更为模糊的东西尽管“相关”本身有严格的科学含义。科学圈外的人经常说到这个词似乎它描述了两种事物如何相联系但除非你涉及到高尔顿的数学测量否则当你使用高尔顿用于特别目的的“相关”这个词时它不必那么精确。分布与参数分布与参数分布与参数分布与参数有了这个计算相关的公式高尔顿实际上已经非常接近新的革命性观念了这个观念革命在世纪几乎修正了所有的学科。但却是他的弟子K·皮尔逊在非常完整的意义上第一个规范地阐明了这个观念。为了理解这个革命性的观念你必须将已有的关于科学的成见抛开。通常我们被教导科学就是测量我们进行精心的测量并用它来寻找描述自然的数学公式。在高中的物理课中我们学过当时间给定时一个自由落体的运行将遵循一个含有符号“g”的公式这里统计学专业论坛:统计之都wwwcosnamebbs本书仅供学术交流!感谢RikaMa的辛勤录入!shoeda的“g”是关于重力加速度的常量。我们学过可以用来确定“g”的值的实验。然而当高中生们进行一系列确定值的实验时顺着斜板滚动小球并测量小球需要多长时间到达不同的位置时发生了什么呢?这就是很少得出确切的结果。学生进行实验的时间越长困惑就越多因为不同的实验得出了不同的“g”值。老师仅凭自己优越的知识来审视学生的实验并认定学生之所以得不到正确的结果要么是因为工作草率要么是因为不够细致要么是抄错了数据。老师没有告诉学生的是:所有的实验都是草率的并且即使是最精心的科学家也很少得到确切的数值。不可预见和不可观察的小扰动在每一个实验中都有:室内的空气可能太潮湿或者落体在滚动前卡住了一个微秒旁边飞过的蝴蝶可能会有其影响:造成气流的轻微扰动。人们从一个实验中真正得到的是散乱的数据其中没有一个单个数据是确切的但所有这些数据可以用来对确切值进行近似的估计。武装了K·皮尔逊的革命性观念我们就不再将实验结果看作精心测量得出的数据它们也不是本来就确切的用更容易接受的术语来代替:它们是一组散布数据或一个数据分布中的样本。数据的分布可以写成数学公式它告诉我的数值是不可预测的我们只能谈论概率值而不是确定值单个实验的结果是随机的在这个意义上看它们是不可预测的然而分布的统计模型却使我们能够描述这种随机的数学性质。科学家花了一些时间才认识到观测值所固有的随机性质。在和世纪天文学家和物理学家创造出描述他们观察值的数学公式达到了可接受的精确程度在为测量工具不够精确所以观察值与预测值之间的是预料之中的可以忽略不计。星体和其它天体的运动被假定遵循运动基本公式所确定的精确路径其不确定性是由于简陋的测量工具造成的并不是其固有的性质。随着物理学中更为精确的测量工具的发展随着将这种测量科学扩展到生物学和社会学的尝试大自然所固有的随机性越来越明显了。怎么处理它?一种办法是坚持数学公式的精确性将观测值与预测值之间的离差视为小的、无关紧要的误差。事实上早在年拉普拉斯的数学论文描述了第一个概率分布即误差分布那是一个与这些小的、无关紧要的误差相联系的概率的数学公式。这个误差分布以钟形曲线(bellshapedcurve)或正态分布(thenormaldistribution)的说法进入了大众的词汇。这使K·皮尔逊比正态分布或误差分布更进了一步审视生物学中积累的数据。K·皮尔逊认为测量值本身而不是测量的误差就具有一种正态分布。我们所测量的实际上是随机散布的一部分它们的概率通过数学函数分布函数被描述出来。K·皮尔逊发现了被他称为“偏斜分布”(skewdistribution)的一组分布函数他宣称这组函数可以描述科学家在数据中可能遇到的任何散布类型这组函数中的每一个分布由四个数字所确定。用来确定分布函数的这些数字与测量中的数字不属于同一类型这些数字决不会被观察到的但可以从观测值散布的方式中推导出来。这些数字后来被称为参数(parameters源自希腊语意思是“几乎测量”(almostmeasurements))。能够完整地描述K·皮尔逊体系中数字的四个参数分别被称为:平均数(themean)测量值散布状态的中间值标准差(thestandarddeviation)测量值的散布与平均值偏离有多远对称性(symmetry)测量值在平均值一侧规程的程度峰度(kurtosis)个别的观测值偏离平均值有多远。有时叫高斯分布以纪念曾一度被认为第一个提出它的高斯不过另外的说法是:并非卡尔·费里德里希·高斯(CarlFriedrichGauss)而是更早的数学家亚伯拉罕·棣·莫弗(AbrahamdeMoivre)第一个写下了这一分布的公式。也有充分的理由相信是丹尼尔·贝努里(DanielBernoulli)在那之前就发现了这个公式。这就是当代科学史专家斯蒂芬·施蒂格勒(StephenStigler)所说的误称定律(theLawofMisonomy)的例子数学中根本没有以其发明者命名的东西。统计学专业论坛:统计之都wwwcosnamebbs本书仅供学术交流!感谢RikaMa的辛勤录入!shoeda用K·皮尔逊偏斜分布体系去考虑问题思路会有一种微妙的转移。在K·皮尔逊之前科学所处理的事情都是真实的。开普勒试图发现行星如何在空间运行的数学规律威廉·哈维的实验打算确定血液如何在某一特定动物的静脉和动脉中游动化学则处理元素和由元素组成的化合物。然而开普勒所试图追踪的“行星”实际上是一组数据用来给地球上的观测者所看到的天空中微弱的光点定位。单匹马身上血液通过静脉流动的实际情形也许与在另一匹马或者一个人身上所可能看到的不同。没有人能够生产出纯铁的样本尽管谁都知道铁是一种元素。K·皮尔逊提出这些观测到的现象只是一种随机的映像不是真实的所谓的真实是概率分布。科学中真实的东西并不是我们所能观测到或能把握到的它们只是通过用来描述我们所观测事物随机性的数学函数来反应。科学调查中我们真正想确定的是分布的四个参数。从某种意义上说我们永远不能确定这四个参数的真实数值而只可能从资料中估计它们。K·皮尔逊并没有意识到这关键的一点他以为如果我们能够搜集到足够的数据去估计参数就会得到参数的真实数值。而他的年轻对手费歇尔指出K·皮尔逊的许多估计方法并不是最优的在世纪年代末期当K·皮尔逊临近他漫长生命的终点之际一位杰出的波兰年轻数学家耶日·奈曼(JerzyNeyman)表明K·皮尔逊的偏斜分布体系并没有包含所有可能存在的分布许多重要问题不能用K·皮尔逊的体系解决。还是让我们离开年那个被离弃的老皮尔逊吧。回到他三四十岁、精力充沛的时期那时的他对自己所发现的偏斜分布充满了热情。年他接管了高尔顿在伦敦的生物统计实验室带领一支年轻的娘子军(被称为“计算员”)计算高尔顿所积累的人种测量数据的分布参数。在世纪之交高尔顿、K·皮尔逊和R·韦尔登(RerhaelWeldon)共同努力创办了一个新的科学期刊这将使K·皮尔逊的观点应用到生物数据上。高尔顿用他的个人财富建立了一个信托基金支持这个期刊。在第一期编辑们提出了一个雄心勃勃的计划。生物统计计划生物统计计划生物统计计划生物统计计划当时英国科学家中有一位杰出的人物他就是达尔文同期的科学家们致力于探索达尔文富有洞察力的见解高尔顿、K·皮尔逊和韦尔登便是其中相当热心的骨干。达尔文的进化理论认为生命形式随着环境压力而变化他提出变化的环境会给更适应新环境的随机变化提供些许的优势渐渐地伴随着环境改变和生命形式继续发生随机转变新物种将会出现并且更适于在新的环境中生存和繁殖。这一思想被简称为“适者生存”(survivalofthefittest)。当恣意妄行的政治学家将其用于社会生活宣称那些在经济竞争中取得胜利的富人比身陷贫困的穷人更为适于生存时这一理论对社会就有不好的影响适者生存理论成了猖狂的资本主义的辩护者在那里富人被授予了道义上的特权去鄙视穷人。在生物科学中达尔文的思想似乎很有道理。达尔文可以指出相关物种的相似性作为现代物种从先前物种演化而来的佐证。达尔文表明物种上些许不同的小型鸟类即使是生活在孤岛上也有许多解剖学上的共性。他指出不同物种胚胎之间的相似性这包括人类的胚胎在开始是有尾巴的。有一件事是达尔文做不到的那就是他不能给出人类历史的时间框架中新物种实际出现的例子。达尔文设定新物种由于适者生存而出现但没有证据他不得不做的只是展示现代物种很好地适应了它们所处的环境。达尔文的说法似乎只是表明了已知的事情而且理论本身有一个很吸引人的逻辑结构但是如果套用犹太人的一句老话就是“举例并不是证明”(Forinstanceisnoproof)。K·皮尔逊、高尔顿和韦尔登打算在他们的新期刊中将这事搞清楚。在K·皮尔逊看来统计学专业论坛:统计之都wwwcosnamebbs本书仅供学术交流!感谢RikaMa的辛勤录入!shoeda只有概率分布是真实的达尔文的雀鸟(他在书中用到的一个重要例子)并不是科学调查的对象而某一种雀鸟的总体随机分布才是这个对象。对某一给定雀鸟种类而言如果能够测量其全体的喙长这些喙长的分布函数将有四个参数这四个参数将是这一种雀鸟的喙长。K·皮尔逊说假如存在着某种环境力量通过提供优越的生存能力使得某一物种产生某种特定的随机变化我们也许不能生存得那么久以看到新物种的出现但我们能够看到分布的上个参数的变化。在他们期刊的创刊号上三位编辑宣布:他们的新期刊将从全世界搜集数据以确定这些分布的参数。最终期望表明样本参数的变化与环境变化相关。他们将新期刊定名为《生物统计》(Biometrika)高尔顿创建的生物统计基金会给予它慷慨资助。由于资金是这样地充裕以至于该期刊成为世界上第一本印有全彩照片的期刊甚至还带着画有复杂图画的下班纸折页。期刊以高品质的优质纸印刷连最复杂的数学公式也展示了出来尽管那意味着极端复杂和昂贵的排版工艺。接下来的年里《生物统计》发表了通讯员们从各地发来的数据:有的深入非洲的丛林测量原住民的胫骨和腓骨有的从中美洲的雨林抓到奇特的热带鸟类测量其喙长还有的甚至偷盗古墓揭开死人头盖骨灌铅以测量其脑的容量。在年该期刊发表了几幅全彩照片画面是俾格米男人裸躺在地上的生殖器旁还摆着量尺。在年一个年轻的女通讯员朱莉亚·贝尔(JuliaBell)描述了她在试图对阿尔巴尼亚新兵进行人类形体测量时所遇到的困难。她离开维也纳去阿尔巴尼亚一个边远的基地本以为可以得到讲德语军官的帮忙当她抵达时才发出那里只有一个士官能说三句德语。她无所畏惧地拿出了测量所用的铜标尺通过形体动作让那些年轻人理解她要干什么直到他们按要求抬起手臂和脚。对每一组这样的数据K·皮尔逊和他的计算员们都计算出分布的四个参数论文将展示最佳分布的图示并评论该分布与其它相关数据的分布有何不同。回顾过去很难看出所有这些行动怎样帮助证明了达尔文的理论。浏览《生物统计》的这些作品我得到这样一种印象:这些工作不久就变成为自身原因而进行努力除了给特定数据组估计参数外没有实际目的。在期刊中还夹杂着其它类型的论文其中一些涉及理论数学以处理发展概率分布时遇到的问题。比如在年一个不知姓名的作者以“学生”(“student”)为笔名发表了论文提出了后来几乎在所有现代科学工作中都有作用的研究成果“学生”的“t检验”。接下来的几章我们还会遇到这位匿名的作者并将讨论他在K·皮尔逊与费歇尔之间作调解时的不幸角色。高尔顿死于年而韦尔登则于这之前死于阿尔卑斯山的一次滑雪事故。只剩下了K·皮尔逊这唯一的编辑和信托基金的支配者。在接下来的年中期刊成了K·皮尔逊个人的了期刊发表什么完全以K·皮尔逊的判断为准由他确定重要与否。K·皮尔逊为期刊写了很多社论他让自己丰富的想象驰骋在各个领域。比如在对一个古老的爱尔兰教堂翻修时墙壁中发现了一副骨骼K·皮尔逊通过对这些骨骼的测量和所涉及的数学推理来确定它们事实上是不是某个中世纪圣徒的遗骨。再比如一个据称是奥利弗·克伦威尔(OliverCromwell)的头骨被发现了K·皮尔逊以一篇精彩的文章对其进行了研究。该文描述了所知的克伦威尔尸体的下落并且还将对克伦威尔画像所做的测量结果和该头骨所做的测量进行了比较。在另外一些论文中K·皮尔逊检验了古罗马各君主的统治期和贵族克伦威尔专制政权之后王室复位。当时英格兰内战的双方达成停战协议新统治者不得追究克伦威尔的追随者。然而这项协议只论及幸存者而非死者于是克伦威尔和两个判处查理一世死刑的法官的尸体被挖了出来以弑君罪交送审判。他们被宣判有罪脑袋被砍下来挂在西

用户评价(0)

关闭

新课改视野下建构高中语文教学实验成果报告(32KB)

抱歉,积分不足下载失败,请稍后再试!

提示

试读已结束,如需要继续阅读或者下载,敬请购买!

文档小程序码

使用微信“扫一扫”扫码寻找文档

1

打开微信

2

扫描小程序码

3

发布寻找信息

4

等待寻找结果

我知道了
评分:

/28

Lady

仅供在线阅读

VIP

在线
客服

免费
邮箱

爱问共享资料服务号

扫描关注领取更多福利