《《统计与数据分析统计与数据分析》》《《统计与数据分析统计与数据分析》》 Statistics & Data AnalysisStatistics & Data AnalysisStatistics & Data AnalysisStatistics & Data Analysis §§11 前言前言§§1 1 前言前言———— 统计与数据分析概述统计与数据分析概述统计与 分析概述统计与 分析概述

《《统计与数据分析》》《《统计与数据分析统计与数据分析》》 Statistics & Data AnalysisStatistics & Data AnalysisStatistics & Data AnalysisStatistics & Data Analysis §§11 前言前言§§1 1 前言前言———— 统计与数据分析概述统计与数据分析概述统计与 分析概述统计与 分析概述 §§1 11 1科学方法与工程中的统计分析科学方法与工程中的统计分析§§1.1 1.1 科学方法与工程中的统计分析科学方法与工程中的统计分析 ThTh i tifii tifi th dth dTheThe scientificscientific methodmethod is a body of techniques for investigating phenomena, acquiring new knowledge, or ti d i t ti i k l d T b t dcorrecting and integrating previous knowledge. To be termed scientific, a method of inquiry must be based on empirical and measurable evidence subject to specific principles of reasoningmeasurable evidence subject to specific principles of reasoning. Galileo Galilei (1564 – 1642) Johannes Kepler (1571–1630)( ) Modern science owes its present flourishing state to a new scientific Kepler shows his keen logical sense in detailing the whole process by which he finally arrivednew scientific method which was fashioned almost entirely by Galileo Galilei. which he finally arrived at the true orbit. This is the greatest piece of Retroductive reasoning ever performed. From “K l ' p “Kepler's reasoning through explanatory hypotheses” The steps of the scientific method:The steps of the scientific method: It is important for the experiment to be a fair test. A “fair test” occurs when we change only one factor (variable) and keep all other conditions the same. Mapping the World of Science I tit t f S i tifi I f tiInstitute for Scientific Information February 14, 1998 For each large area of research, a circle is drawn proportional to the number of papers published. The distance between the centers of these circles is determined by the level of co-citation between the fields. Thus, two areas like physics and chemistry, where there is great interaction will be closer h i b i hitogether. Imagine you are observing this world of science from outer space. At first you see the broad areas of chemistry, biomedicine, etc. 现代生物医学的交叉融合现代生物医学的交叉融合现代生物医学的交叉融合现代生物医学的交叉融合 Systems biology Life sciencesLife sciences & Medicine& Medicine Mathematics/StatisticsMathematics/Statistics Physical sciencesPhysical sciences Computational biology Synthetic biology Engineering sciencesEngineering sciences Integrative biology Information TechnologiesInformation Technologies Biomedical engineering …… The engineering designThe engineering design The engineering design process is the set of steps that a g g gg g g The engineering design process is the set of steps that a designer takes to go from first, identifying a problem or need to at the end creating and developing a solutionneed to, at the end, creating and developing a solution that solves the problem or meets the need. Leonardo da Vinci Thomas Edison Henry Ford Wilber and Orville Wright Hero of Alexandria James Watt Archimedes Nikola Tesla Nicolaus Otto Alan Turing Tasked with solving real-world problems, engineers integrateengineers integrate their knowledge of the physical sciences with more abstract realmsmore abstract realms to take us beyond the boundaries of current technology in alltechnology--in all areas of life. S i Wh ?-Science: Why? -Engineer: Why not? The steps of the engineering design process:The steps of the engineering design process: During the engineering designengineering design process, designers frequently jump back and forth between steps. This way ofThis way of working is called iteration, and it is te at o , a d t s likely that your process will do the same! 一 任何一门科学或学科在其发展过程中一. 任何一门科学或学科在其发展过程中 必然要利用具有全面概括力的统计学方 法揭示大量同类现象的整体规律性,以 便从现象入手,探讨事物的本质便从现象入手,探讨事物的本质。 程师必须做到二. 工程师必须做到: ——如何高效地设计实验、收集数据、分析如何高效地设计实验、收集数据、分析 和解释数据 ——理解观察到的数据与对正在研究的问题——理解观察到的数据与对正在研究的问题 所提出的模型是如何关联的 科学研究继实验、理论分析和 计算模拟之后将进入“数据密计算模拟之后将进入 数据密 集型科学”的第四范式 )计算复杂 庞大数据规模的处理(1)计算复杂:庞大数据规模的处理 复杂度前所未有,这些数据通常是动 态生成且往往无结构化,对这些数据 的处理不再是单纯的传统关系型数据 库查询,需要计算机系统提供新的并 发处理能力来处理产生有意义的结果;发处理能力来处理产生有意义的结果; (2)数据核心:伴随着海量数据出现, 许多科学研究和发现是基于数据的分 析统计归纳和处理上获得的 大批数析统计归纳和处理上获得的,大批数 据经过有限计算产生了大量新的知识; (3)用户多样:数据访问和使用方式 的多样性 数据及其数据服务必须保的多样性,数据及其数据服务必须保 证能够时刻处于可访问状态,这也要 求整个系统具有海量并发能力和较高 的任务吞吐量 以提供方便高效快捷的任务吞吐量,以提供方便高效快捷 和无处不在的信息服务。 BIG DATA from the modern science and BIG DATA from the modern science and engineeringengineering Core Techniques and Technologies for Advancing Big Data q g g g Science & Engineering" or “BIGDATA” This program aims to extract and use knowledge from collections ofThis program aims to extract and use knowledge from collections of large data sets in order to accelerate progress in science and engineering research. Specifically, it will fund research to develop and evaluate new algorithms, statistical methods, technologies, and tools for improved data collection and management, data analytics and e-science collaboration environments.analytics and e science collaboration environments. §§1 2 Collecting Big Data1 2 Collecting Big Data§§1.2 Collecting Big Data1.2 Collecting Big Data 科学方法与 程中的数据来源科学方法与工程中的数据来源: 基于历史数据 已有数据1. 基于历史数据(已有数据) 的回顾性研究(Retrospective )study) 观察研究(2. 观察研究(Observational study) 3. 设计实验(Designed )experiment) The exponential growth in the amount of biological data means that revolutionary measures are neededdata means that revolutionary measures are needed for data management, analysis and accessibility. 1. Trends in technology “for bio” and IT 信息技术的Moore定律 测序技术的Carlson定律 Hardware trends (e g network broadband capacity: 100——Hardware trends (e.g. network broadband capacity: 100 times faster over the last 10 years) P i t f di ti——Point-of-care diagnostics ——Home and personalized devices ——E-health web information systems A Seattle-based consortium led by the Yager group has been awarded $15.4 million by the Bill & Melinda Gates Foundation Grand Challenges g in Global Health initiative. The aim of the project is to develop a portable device that promises to bring the technological power of a modern medical diagnostics laboratory to the developingmedical diagnostics laboratory to the developing world. The consortium co-investigators are Patrick Stayton of the University of Washington Department of Bioengineering, Bernhard Weigl of PATH, Fred Battrell of Micronics, Inc., WA, and Walt Mahoney of Nanogen, Inc. 2 Trends in “wet lab” research and validation2. Trends in “wet-lab” research and validation ——Dedicated (genetically modified) model-organisms for pathologies Major model organisms of aging: yeast, roundworms, f it fli d ifruit flies, and mice. Since the basic blocks of life are common to most knownare common to most known species, common pathways might be involved in aging across phylogenyacross phylogeny. (Tissenbaum and Guarente, 2002) ——Induced Pluripotent Stem cells (iPS cells) as a diseaseInduced Pluripotent Stem cells (iPS cells) as a disease model O ti l f i d d l i t t t llOrgan regeneration example from induced pluripotent stem cells 3. Trends in biobanks and database size and community content organs pathways whole cell pathways proteins complexes biological data genes 20世纪 三大科学 计划 项目进度计划表范例计划下载计划下载计划下载课程教学计划下载 三大科学计划 曼哈顿原子弹计划 (1942-46)(1942 46) 阿波罗登月计划阿波罗登月计划 (1961-69) 人类基因组计划 (1990-2003) 1982年,第一个核酸序列数据库GenBank(Los Alamos) ——1982年,606条序列,长度680,338bp 年,约 条序列,长度约 10——2004年,约43,322,756条序列,长度约7.11010bp ——2009:Approximately 106,533,156,756 bases in 108,431,692 sequence records 种类 数目 备注 已完成测序的10,599个基因组 种类 数目 备注 古细菌(Archaea) 132 古细菌病毒(Archaeal virus) 51古细菌病毒(Archaeal virus) 51 真细菌(Bacteria) 1,983 其中有的测定了2个以上的菌株 真核生物(E k ) 161 包括酵母 线虫 果蝇 蚊子 拟南芥 人等真核生物(Eukaryo) 161 包括酵母、线虫、果蝇、蚊子、拟南芥、人等 病毒(Virus) 2,842 包括不同亚类或不同株系 类病毒 包括不同亚类或不同株系类病毒(Viroid) 56 包括不同亚类或不同株系 噬菌体(Phage) 1,029 包括不同亚类或不同株系 细胞器(Organelle) 3,510 包括线粒体和叶绿体 质粒(Plasmid) 835 (http://www.ebi.ac.uk/genomes/,2012年7月) BiobanksBiobanks The Manchester Cancer Research Centre tissue biobank will allow clinicalThe Manchester Cancer Research Centre tissue biobank will allow clinical and preclinical researchers to investigate new drug targets to find out whether certain cancer patients will respond better to one treatment than another. 建立分子生物医学信息数据库的流程图建立分子生物医学信息数据库的流程图 4. Trends of modern research in biology and biomedicine Biological System AnalysisBiological System Analysis And Model Formation Prediction and Model “Dry” Experiments (Simulation) Prediction and Hypothesis Retainment Modeling from Data and Hypothesis Experimental Design Data AnalysisAnalysis Experiment Data Analysis Genome Transcriptome Data Synthesis Transcriptome Proteome Metabolome Experimental Data Analysis Metabolome …… 4 M-model:4 M-model: Model Manipulate Model Manipulate Measured Mined 统计和数据分析:现代生物医学的重要手段和环节统计和数据分析:现代生物医学的重要手段和环节 面对堆积如山的生物学数据…… 新的生物学研究模式的出发点应该是理论的。科学家将从理……新的生物学研究模式的出发点应该是理论的。科学家将从理 论推测出发,然后再返回到实验中去,追踪或验证这些理论假 设。……生物学家不仅必须成为计算机学者,而且也要改变他们 研究生命现象的途径。 ——W. Gilbert, Towards A Paradigm Shift in Biology, Nature, 349(1991)99 传统生物学:实验科学 现代生命科学的发展: 1、高通量数据获取日益实现自动化、半工业化 从数据库中实现数据挖掘 知识发现从数据库中实现数据挖掘、知识发现 2、海量数据 难以完全依赖实验手段对新数据进行分析,必须借助计难以完全依赖实验手段对新数据进行分析,必须借助计 算机实现分析和筛选 3、更复杂层次的生物医学问题 复杂的基因调控网络、代谢网络;细胞间信号转导过程; 生物个体全部基因表达变化…… 分析、筛选大量新数据 生物中的复杂网络 复杂过程 复杂现象生物中的复杂网络、复杂过程、复杂现象 前基因组时代的“钓鱼”和后基因组时代的“捞鱼” §§1 31 3 统计与数据分析概述统计与数据分析概述§§1.3 1.3 统计与数据分析概述统计与数据分析概述 基于数据挖掘(知识发现)的方法 (Data-mining, Knowledge Discovery) Extracts the hidden patterns from huge quantities of experimental data, and forms hypotheses as a result.yp 模拟 方基于模拟分析的方法 (Simulation-based Analysis) Tests hypotheses with in silico experiments providing predictions to beTests hypotheses with in silico experiments, providing predictions to be tested by in vitro and in vivo studies. Data without statisticsData without statistics The Doomsday Book was the record of the great survey of England completed in 1086, executed for William I of England. The survey was similar to a censusin 1086, executed for William I of England. The survey was similar to a census by a government of today. One of the main purposes of the survey was to determine who held what, for the purpose of taxation and the judgment of the assessors was final whatever the book said about who held the materialassessors was final—whatever the book said about who held the material wealth, or what it was worth, was the law, and there was no appeal. Uncertain by statistics and probabilities Though it is exaggerated to pretend that in our life only the taxes and the deathy are certain, it is true that the majority of all predictions suffer from uncertainties. Thus the occupation with probabilities and statistics is useful for everybody, for scientists of experimental and empirical sciences it is indispensable. ---- G. Bohm & G Zech, 2010 “Introduction to Statistics and Dataoduc o o S a s cs a d a a Analysis for Physicists” 统计学方法在现代科学研究中的重要作用统计学方法在现代科学研究中的重要作用统计学方法在现代科学研究中的重要作用统计学方法在现代科学研究中的重要作用 统计学方法在现代科学研究中的重要作用统计学方法在现代科学研究中的重要作用统计学方法在现代科学研究中的重要作用统计学方法在现代科学研究中的重要作用 揭示复杂现象、复杂行为和复杂过程的不确定性背后隐含的 本质规律 (1)研究对象的随机性特性 (2)随机性的来源:系统的复杂性、方法的局限性…… (3)统计学方法的有效性:提供有效的信息、确定决定系统 发展变化的因素(条件) (4)有助于认识复杂系统的多层次结构 统计分析在科学研究中的角色统计分析在科学研究中的角色统计分析在科学研究中的角色统计分析在科学研究中的角色 统计学的应用贯穿科学研究的过程统计学的应用贯穿科学研究的过程 ——统计学为规律的描述和发现提供严格的理论基础 ——统计学为假说的实验检验提供工具 统计方法为研究结果提供言之有物 简明扼要的表达——统计方法为研究结果提供言之有物、简明扼要的表达 形式 生物医学研究中的数据 观测和变量生物医学研究中的数据 观测和变量生物医学研究中的数据、观测和变量生物医学研究中的数据、观测和变量 随机性(不确定性):概率的理解 生物医学研究所产生的数据大多数是随机变量生物医学研究所产生的数据大多数是随机变量 ——离散随机变量 组织切片中的细胞数 培养液样本中的细菌数组织切片中的细胞数目、培养液样本中的细菌数目… ——连续随机变量 血压、pH值 … 对随机变量的描述:概率的分布、统计量的分布 统计与数据分析方法统计与数据分析方法 从事物的外在数量上的表现去推断事物可能的规律性 搜集数据 (采样、实验设计) 分析数据 (建模、知识发现) 推理 (预测、分类) 抽样 随机抽样 自举重复抽样 参数估计 假设检验 抽样 随机抽样、自举重复抽样… 统计描述 数字特征、样本的初步分析… 回归分析 多元回归、自回归… 统计推断 参数估计、假设检验 聚类分析 判别分析 线性判别分析、非线性判别分析… 系统聚类分析 动态聚类分析聚类分析 探索性分析 系统聚类分析、动态聚类分析… 主元分析、相关性分析… §§1.4 1.4 统计学基本概念统计学基本概念§§ 统计学基本概念统计学基本概念 StatisticsStatistics ——statisticum collegium(拉丁文:国会) t ti t (意大利语 国民 政治家)——statista(意大利语:国民、政治家) ——staistik(德语:研究国家之学科) 统计学 以概率论为基础 通过分析试验或观察得到的数据来研究——以概率论为基础,通过分析试验或观察得到的数据来研究 随机现象,对研究对象的客观规律进行合理估计和推断。 ——To gather, arrange, condense, coordinate, and mathematically manipulate obtained facts so that the numerical y p relationships between those facts may be seen clearly and freed from anomalies resulting from chance factors. Statistics with beginning John Graunt (1620-1674) Edmond Halley (1656-1742) (Image by MIT OpenCourseWare Based on Gilbert Norma(Image by MIT OpenCourseWare. Based on Gilbert, Norma. Statistics. W.B. Saunders Co., 1976.) 生物医学领域生物医学领域 ——生物统计学(biostatistics)生物统计学(biostatistics) ——医学统计学(medical statistics) ——基于统计学的方法是定量研究生命科学、医学的最基本、 最有效的工具最有效的工具 computational biology bioinformaticsbioinformatics quantitative biology system biology … etc. §§ 统计变量和统计资料的观测统计变量和统计资料的观测§§1.4.1 1.4.1 统计变量和统计资料的观测统计变量和统计资料的观测 统计中的变量统计中的变量:所研究对象的、可测量的特征,且对于一组统计中的变量统计中的变量:所研究对象的、可测量的特征,且对于一组 对象中的不同对象可以取不同的值。 观测值观测值:变量的每一个测量值 (X, x) 定量变量定量变量:观测值可以根据特征的数量进行排序 定性变量定性变量定性变量定性变量:观测值不能按照量值进行排序 统计中的函数统计中的函数:统计中的函数统计中的函数: ——运用统计方法确定自变量和因变量之间的函数关系 统计中的函数只需要定义域、值域和两个变量间的对应关——统计中的函数只需要定义域、值域和两个变量间的对应关 系,并不总是需要等式表达式 统计资料统计资料:观测结果组成的集合 定性统计资料、定量统计资料——定性统计资料、定量统计资料 连续统计资料、离散统计资料——连续统计资料、离散统计资料 有效数字有效数字:有效数字有效数字: 在观测尺度(或科学计算)中实际能够得到的所有数字在观测尺度(或科学计算)中实际能够得到的所有数字 常见问题: ——102个细胞 ——10,100个细菌(精确到100)10,050~10,150 23 4% (23 437201%?)——23.4% (23.437201%?) ——4.15~4.25 ×10-3 统计变量的观测统计变量的观测统计变量的观测统计变量的观测 统计资料测量值受各种随机因素的影响统计资料测量值受各种随机因素的影响 系统误差系统误差( t ti l ):系统误差系统误差(systematical error): 系统误差的大小在观测过程中是不变的,可以用计算或实验方系统误差的大小在观测过程中是不变的,可以用计算或实验方 法求得,即是可预测的,并且可修正或调整使其减少。 偶然误差偶然误差(random error): 在相同条件下,对同一统计变量进行多次观测,由于各种偶然 因素,会出现测量值时而偏大、时而偏小的误差现象,这种类因素,会出现测量值时而偏大、时而偏小的误差现象,这种类 型的误差叫做偶然误差。在确定的测量条件下,对同一统计变 量进行多次测量,并且用它的算术平均值作为该统计变量的测量进行多次测量,并且用它的算术平均值作为该统计变量的测 量结果,能够比较好地减少偶然误差。 偶然误差的统计规律偶然误差的统计规律 (1)绝对值相等的正的与负的误差出现机会相同; (2)绝对值小的误差比绝对值大的误差出现的机会多;(2)绝对值小的误差比绝对值大的误差出现的机会多; (3)误差不会超出一定的范围。(3)误差不会超出一定的范围。 §§ 总体、个体与样本总体、个体与样本§§1.4.2 1.4.2 总体、个体与样本总体、个体与样本 总体(或母体)( ) x1总体(或母体)(population) 研究对象的全体,及其所研究数量 特征的可能取值的全体 记为X x1 x2特征的可能取值的全体,记为X。 个体(或样品)(individual) xi 个体(或样品)(individual) 组成总体的每个基本单元,及其所 研究数量特征的具体取值,记为 {xi},i=1, 2, …, N,N为总体X包含 的个体数目。 X xN —— X是一个带有确定概率分布的随机变量,总体是随机变 量X可能取值的全体,个体的数量特征值就是X的一个具体取量X可能取值的全体,个体的数量特征值就是X的 个具体取 值。因此,也将总体等同于随机变量X可能取值的全体。 总体与个体的性质 (1)同质性: 总体是由具有某一共同性质的基本单元所组成,该性质用随 机变量X来描述机变量X来描述; (2)大量性:(2)大量性: 总体应由许多(N个)个别个体组成,少数个体或个别事物 不能构成总体; (3)变异性: 构成总体的个体在同质性之外的其它方面要有差异构成总体的个体在同质性之外的其它方面要有差异。 随机抽样(random sampling)简称抽样: ——从总体X中按照一定的概率抽取若干个体来观察X的取值。 Sampling: statistical practice concerned with the selection of——Sampling: statistical practice concerned with the selection of individual observations intended to yield some knowledge about a population of concern, especially for the purposes of statisticalpopulation of concern, especially for the purposes of statistical inference. 随机样本(random sample)简称样本: 按照 定的概率从总体X { } i 1 2 N中抽取作为——按照一定的概率从总体X={xi},i=1, 2, …, N中抽取作为 总体代表的若干个体的集合{X1, X2, …, Xn}, n 教材 民兵爆破地雷教材pdf初中剪纸校本课程教材衍纸校本课程教材排球校本教材中国舞蹈家协会第四版四级教材 ,主要参考书: 1 J A Rice著 《数理统计与数据分析(英文版 第二版)》 机1. J. A. Rice著, 《数理统计与数据分析(英文版. 第二版)》, 机 械工业出版社, 2003年 2. G. P. Quinn, M. J. Keough著, 蒋志刚, 李春旺, 曾岩主译, 《生物实验设计与 数据分析》,高等教育出版社, 2003年数据分析》, 高等教育出版社, 2003年 3. 茆诗松、王静龙、濮晓龙编著,《高等数理统计(第二版)》,高等教育出 版社,2006年
