关闭

关闭

封号提示

内容

首页 你應該知道的統計知識.ppt

你應該知道的統計知識.ppt

你應該知道的統計知識.ppt

上传者: mydreamingzjx 2012-05-09 评分 5 0 191 26 866 暂无简介 简介 举报

简介:本文档为《你應該知道的統計知識ppt》,可适用于行业分析领域,主题内容包含你應該知道的統計知識你應該知道的統計知識謝邦昌輔仁大學統計資訊學系教授中華資料採礦協會 理事長statmailsfjuedutwWWWCDMSORG符等。

你應該知道的統計知識你應該知道的統計知識謝邦昌輔仁大學統計資訊學系教授中華資料採礦協會 理事長statmailsfjuedutwWWWCDMSORGTW何謂統計學何謂統計學統計就是從數據中獲取資訊的科學收集資料整理資料分析資料導出結論敘述統計學、推論統計學統計詞彙統計詞彙母體個體樣本抽樣底冊參數統計量變數眾數中位數平均數母體與樣本間的關係母體與樣本間的關係母體樣本抽樣樣本統計量推論母體參數抽樣誤差非抽樣誤差個體樣本觀察值變數騙人的平均數騙人的平均數老謝應徵工作公司規模:老闆、經理位、組長位、職員位。老闆:公司平均月薪萬元受訓期間萬五千元很快會加薪。做不做?平均數:萬中間數:萬眾數:萬平均數:量測觀察值散佈情形的中間值。標準差:衡量觀察值的散佈情形偏離平均值有多遠。偏度:描述一個分配偏離對稱性的情形峰度:衡量觀察值偏離平均數有多快。變異係數:獲得相對的變異情形。變異係數=標準差/平均數某次統計學考試甲班平均分數為分標準差為乙班平均分數為分標準差為哪一班成績較優?資料衡量尺度資料衡量尺度量化的處理工具便稱為衡量的尺度又稱量表(Scale)。問卷衡量尺度的設計是評估報告是否深入的關鍵。不同的量表應用不同的統計分析準確性才會提高。考量的依據:研究目的與問題深入的程度事後資料整理時之便利性各種可能選項的周延性與互斥性需兼顧統計的方法一、名目尺度(nominalscale)此種量表是根據被調查對象的性質而分類如根據消費者答案可分為「喜歡」與「不喜歡」或「是」與「否」兩類。每類答案的數字只作為分類之用如果將這些答案數字(,,)做運算根本沒有意義因為這些數字在此僅屬名義而已真正目的是在分類。二、順序尺度(ordinalscale)較類別量表多一特性可以表示各類別之間的順序關係。如要求消費者根據其心中偏好將五種飲料品牌依最喜歡到最不喜歡的順序排列最喜歡給分、最不喜歡給分這就是一種順序量表。不過代表順序的數字還是不能用來做運算只能看出高低次序卻無法確定順序之間的差異大小例如若已知A>B>C>D>E但並不知道A與B的差距或C與D的差距所以也無法得知兩種差距是否相等。三、差距尺度(intervalscale)較順序量表再推進一步不單能表示順序關係尚能測量各順序之間的距離可確定地指出分與分之差距等於分與分的差距。差距量表的分數可用來做加減乘除的運算此為其之一大優點但是不能說明分為分的兩倍因為差距量表並沒有一個真正零點(真零)。四、比率尺度(ratioscale)比率量表除了具有差距量表的全部特色外再加上「真零」這個特性。例如身高、年齡、體重等變數的測量都是用比率量表故可說體重磅的人比磅的人重兩倍。不過在態度測量方面運用比率量表顯然有困難消費者給一種飲料分另一種給分但卻不表示喜歡程度有兩倍的差距。因為態度測量本質上為一順序概念顯然不宜用比率或差距量表測量。適用於各類量表的統計分析方法列如下表:資料處理與展示統計圖表資料處理與展示統計圖表定性資料次數分配表相對次數分配長條圖圓餅圖資料處理與展示統計圖表資料處理與展示統計圖表計量資料次數分配表相對次數分配表累加次數分配表累加相對次數分配表直方圖次數多邊圖枝葉圖散佈圖次數分配表交叉分析表交叉分析表圓餅圖圓餅圖圓餅圖折線圖直方圖直方圖直方圖盒形圖全班位同學統計學考試分數,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,枝葉圖根據統計顯示多數車禍發生在車子行駛於一般車速的時候只有少數車禍發生在車速超過時速公里。開快車較安全。研究顯示有個城市死於心臟病的人數與口香糖的消費量同時遽增。嚼口香糖導致心臟病。現在我要寄一封文件給一位我不認識的人我先寄給最有可能認識目標者的人再請他轉寄如此轉寄到目標者手中請問中間經過人數?現場有兩人是同月同日生的機率為?解讀民意調查A候選人支持度%B候選人支持度%C候選人支持度%成功訪問,位受訪者在%的信心水準下抽樣誤差為正負%。分配(Distribution)分配(Distribution)包括了對位置(location)、散佈(spread)及形狀(shape)的描述。在描述(呈現)變數的分配形狀時應了解:()分配的形狀和分配的位置、散佈一樣重要()在了解分配的形狀時以視覺化的方式來呈現比以數字來呈現更令人一目了然()變數的分配形式決定了用哪一種統計技術來描述比較適當。位置的衡量(measuresoflocation)位置的衡量(measuresoflocation)平均數(Mean):平均數指的是算術平均數也就是在分配中各觀察值的和除以觀察數。中位數(Median):中位數是分配的中央點。在分配中有一半的觀察點低於有一半的觀察點高於中位數。如果在分配中觀察點的數目是偶數則中位數是兩個中間數的平均數。眾數(Mode):眾數是出現次數最多的那個數字。散佈的衡量(measuresofspread)散佈的衡量(measuresofspread)變異數(Variance):變異數是衡量以平均數為基準的分配情況。如果所有的分數都相等則變異數為零。分數分散的情形愈大則變異數愈大。標準差(Standarddeviation):標準差是變異數的平方根它免除了變異數的平方因而增加了解釋力。全距(Range):全距是分配中最大與最小的分數之差全距只涉及到最大與最小的分數因此在衡量散佈方面是相當粗糙的。散佈的衡量(measuresofspread)散佈的衡量(measuresofspread)四分位距(interquartilerange,IQR):是分配中第一、第三分位之差。它也稱為中點分配(midspread)。第分位Q是第的那個數字中位數或Q是第的那個數字第分位Q是第的那個數字。IQR=QQ四分位差(quartiledeviation):四分位差或稱半四分位距(semiinterquartilerange)是Q與Q間距離的一半。形狀的衡量(measuresofshape)形狀的衡量(measuresofshape)偏度(skewness):是描述一個分配偏離對稱性的情形在對稱性的分配中平均數、中位數、眾數都是在同樣的位置。偏態分為左偏態(或負偏態)與右偏態(或正偏態)二種。峰度(kurtosis):是描述一個分配的平坦或陡直情況。峰度共有三種:常態峰(mesokurtic)、高狹峰(leptokurtic)及低闊峰(platykurtic)。機率論(ProbabilityTheory)機率論(ProbabilityTheory)機率:衡量某一事件可能發生的程度(機會)並針對此一事件發生之可能性賦予一量化的數值。及用來衡量不確定性大小的工具。機率論隨機實驗機率理論事件機率性質與運算法則貝氏定理隨機實驗(RandomExperiment)隨機實驗(RandomExperiment)隨機實驗(RandomExperiment):觀察一可產生各種可能結果(Outcome)的過程稱為實驗而若各種可能結果的出現(或發生)具有不確定性則此一過程便稱為隨機實驗。必須滿足:實驗可以在相同條件下重複進行。所有結果是明確可知的且不只一個。實驗後的結果為所有可能結果之一但實驗前無法肯定會出現何種結果。檢驗三件產品之樣本空間樹狀圖各式樣本空間機率測度的方法機率測度的方法古典方法:P(E)=n(E)n(S)限制條件:樣本空間必須是有限的樣本空間。基本假設:樣本空間內每一樣本點出現的機會皆相同。客觀方法(相對次數法):P(E)=lim(nN),N重複進行此一實驗許多次並觀察該事件出現次數的比例。主觀方法:P(E)=(個人對事件E發生的信心)機率的公理機率的公理為互斥P(S)=P(Φ)=事件機率事件機率聯合機率(jointprobability)兩個或兩個以上事件同時發生的機率。邊際機率(marginalprobability)在兩個或兩個以上類別的樣本空間中若僅考慮一類別個別發生的機率稱之。條件機率(conditionalprobability)已知B事件發生下另一事件A發生的機率稱為在B發生條件下A的條件機率。應徵者的資料事件的性質事件的性質獨立事件(IndependentEvent)係指一事件的發生不影響其他事件的發生若A、B兩事件互為獨立則:相依事件(DependentEvent)係指一事件的發生影響其他事件發生的機率。互斥事件(MutuallyExclusiveEvent)事件沒有共同的樣本點稱之即當兩事件之交集為空集合時。事件的運算法則事件的運算法則餘集合的機率加法定理乘法定理分割定理ASB貝氏定理(BayesTheorem)貝氏定理(BayesTheorem)事前機率取得新資訊事後機率(條件機率的形式)應用貝氏定理事後機率事前機率條件機率某公司計畫推出新產品並認為經濟景氣好壞會影響新產品的銷售公司行銷經理主觀判斷景氣好、普通、不好的機率各為、、。今公司委託專業市調公司進行市場景氣調查但該市調公司之調查並非百分之百正確根據過去經驗其正確率為不正確的誤認為其他兩種是其他兩種狀況的機率各為。若該市調公司調查結果為景氣好而市場景氣真正為好的機率為多少?主觀判斷景氣好、普通、不好的機率市調公司調查結果修正機率機率分配機率分配隨機變數(RandomVariable)隨機變數(RandomVariable)係以樣本空間為定義域的實數值函數也就是隨機實驗中對應樣本點的實數值函數。期望值(ExpectedValue)與變異數期望值(ExpectedValue)與變異數間斷機率分配:期望值:變異數:連續機率分配:期望值:變異數:離散型機率分配離散型機率分配二項分配(BinomialDistribution)幾何分配(GeometricDistribution)超幾何分配(HypergeometricDistribution)波瓦松分配(PossionDistribution)二項分配(BinomialDistribution)二項分配(BinomialDistribution)伯努利試驗(BernoulliTrial)每一次試驗皆僅有兩種可能結果不是成功(S)就是失敗(F)。成功機率固定為為P(S)=p失敗機率固定為為P(F)=p。每一次試驗之間互為獨立。進行n次的伯努利試驗稱為二項實驗若隨機變數X為n次試行實驗成功的次數X的機率分配稱為二項機率分配。二項機率分配函數:n=,p=P(X=x)n=,p=P(X=x)n=,p=P(X=x)超幾何分配(HypergeometricDistribution)超幾何分配(HypergeometricDistribution)超幾何實驗:從一含有N物的有限母體中採不放回抽樣抽取n個隨機樣本。N物中有S個屬成功類另NS個屬失敗類。隨機變數X為n個中成功的次數X的機率分配稱為超幾何機率分配。S成功類S個失敗類NS個xnx超幾何機率分配函數:幾何分配(GeometricDistribution)幾何分配(GeometricDistribution)二項分配為進行n次的伯努利試驗的成功次數分配如果未預先固定試驗的次數而在第一次成功發生之後才停止整個伯努利試驗成功的次數固定為所需試驗的次數則為一隨機變數此隨機變數的機率分配即稱為幾何分配。幾何機率分配函數:波瓦松分配(PossionDistribution)波瓦松分配(PossionDistribution)在一特定區間(或區域)內觀察某特定事件發生的次數。上午點至點中每分鐘打進公司的電話通數。天內停車場停車數。高速公路每公里路面有窪動的數目。秘書小姐每打一頁報告出現錯誤的字數。波瓦松實驗:在一連續區間發生事件的次數與另一區間發生的次數是獨立的。在一連續區間內發生事件的的期望值(平均數)與區間大小成比例。在一極短的區間內僅有兩種狀況即發生一次或不發生而發生兩次或以上的情形不予考慮。若一事件滿足上述三個特質隨機變數X定義為連續區間內發生事件的次數則X為一波瓦松隨機變數其機率分配為波瓦松分配。波瓦松分配函數:式中表示在某特定區間內某事件所發生平均次數而e=。二項、超幾何與波瓦松分配之間關係二項、超幾何與波瓦松分配之間關係超幾何分配二項分配波瓦松分配當nN<=實可用二項分配取代超幾何分配當n>且np<=時可用波瓦松分配取代二項分配連續型機率分配連續型機率分配均等分配(UniformDistribution)常態分配(NormalDistribution)指數分配(ExponentialDistribution)均等分配(UniformDistribution)均等分配(UniformDistribution)隨機變數在某區間(a,b)內發生機率皆相同時其機率分配稱之。機率密度函數:某班火車抵達車站的時間在點至點分之間且在此時段中任何時點到站的可能性均相同。某乘客在點分抵達車站可搭上火車的機率?某乘客在點分抵達車站火車已開走的機率?計算期望值與變異數並解釋期望值的意義。常態分配(NormalDistribution)常態分配(NormalDistribution)又稱高斯分配(GaussDistribution)。重要性:許多自然現象工業生產、商業問題及社會現象均可用常態分配加以描述。許多統計量的的抽樣分配在大樣本下呈常態分配。常態分配可進行許多統計推論許多統計量的的抽樣分配如t分配、卡方分配、F分配都必須假設母體為常態分配才可獲得。間斷機率分配在某些條件下可利用常態分配求其近似值。機率密度函數:常態分配特性:以平均數為中心的對稱曲線。平均樹、眾數、中位數均相等()。以為中心兩邊加減一個標準差之處為常態曲線的反曲點(InflectionPoint)。常態曲線左右兩尾與橫軸逐漸接近但絕不會相交。以為中心兩邊加減一個標準差的區間其機率(面積)為加減二個標準差的區間其機率(面積)為加減三個標準差其機率(面積)為。標準常態分配(StandardNormalDistribution):即平均數為標準差為的常態分配。機率密度函數:標準化(Normalized):指數分配(ExponentialDistribution)指數分配(ExponentialDistribution)與波瓦松分配相反指數隨機變數在說明接連兩件事發生的間隔期間。機率密度函數:指數分配曲線為非對稱性範圍為()。平均數μ必大於。某一型彩色電視機其壽命時間成指數分配且平均壽命為年。求該電視機的壽命時間之下列機率:壽命長達年以上。兩年內即發生故障而報廢。壽命時間介於年至年。標準常態分配值指數分配值抽樣(Sampling)抽樣(Sampling)估計誤差(ErrorofEstimation)抽樣誤差(SamplingError)非抽樣誤差(NonsamplingError)抽樣方法抽樣方法非機率抽樣立意抽樣法便利抽樣法滾雪球抽樣法配額抽樣機率抽樣簡單隨機抽樣分層抽樣集群抽樣系統抽樣非機率抽樣法非機率抽樣法非機率抽樣:亦即樣本不按照其機率予以抽出而是由抽樣者之主觀抽出或自願樣本。優點:在某些調查時有其必要性。缺點:()難以評斷樣本之代表性。()無法估計精確度。()樣本偏差往往較大。非機率抽樣之種類:立意樣本(JudgedSampling):調查研究人員根據自己的專長、知識、研究目的來選取代表性的樣本。如學者、專家或代表性之樣本。便利樣本(ConvenientSampling):事先不預定樣本碰到即問或自動回答者。如街頭訪問或主動打電話回答問題者。缺點:注意樣本之偏激性及兩極化。滾式樣本(輻射樣本):利用樣本尋找樣本亦即利用樣本之滾雪球方式或輻射力抽取樣本。如都市中之原住民抽樣。使用時機:可用於當樣本不易取得時或針對特殊族群之調查。配額樣本:按母體某些特性予以配置樣本但取樣時卻由調查員任意抽取。機率抽樣機率抽樣機率抽樣:抽取之樣本是按照樣本之機率隨機抽出。優點:樣本較具代表性。可計算估計之精確度。可隨不同之抽樣設計採取不同之抽樣方法。隨之不同之抽樣方法採取相互配合之估計方法。機率抽樣之種類:簡單隨機抽樣:不對母體加以任何修飾或分割而使每一樣本均有相同之被抽中機率。分層隨機抽樣:將母體按照某些特性分成數個不重疊的組群這些組群即稱為層而再由各層分別抽取樣本。系統抽樣:將母體之元素按順序編號後有系統的每隔一定間隔抽取一個樣本之方法。集群抽樣:將母體中相鄰近之個體排成為一集體而以集體為抽樣單位即每一抽樣單位為一集體之抽樣單位。兩段集群抽樣:首先抽出一些樣本集體再由樣本集體內抽出部分基本個體。分層集群抽樣:將母體內之集體予以分層後再由各層抽取樣本。簡單隨機抽樣法(simplerandomsampling)簡單隨機抽樣法(simplerandomsampling)簡單隨機抽樣是一種最基礎且最簡便的抽樣方法。優點是(i)當母體底冊完整時直接由母體中抽出樣本方法簡單和(ii)每一單位被抽中的機率均相等參數的估計較簡單。限制是(i)母體底冊不易取得或取得很費時費力且費錢(ii)母體內樣本單位太多時作業不方便(iii)樣本分配較分散行政作業較不易和(iv)樣本代表性恐有不足(尤其當樣本點差異大時或重要性不同時)。使用最佳時機便是當(i)母體內樣本單位不多且有完備名冊可茲編號時(ii)母體內樣本單位間的差異不大時(對研究的目的而言)和(iii)對母體資訊無法充份獲得時。簡單隨機抽樣法的準確度會受下列二因素的影響即(i)母體本身的變異和(ii)樣本的大小。分層抽樣法(stratifiedsampling)分層抽樣法(stratifiedsampling)優點是(i)可增加樣本代表性(ii)可提高估計的確度(iii)可分別獲得各層的訊息並做各層間的比較分析(iv)可在各層設立行政單位以便於執行和(v)可視各層情形採取不同的抽樣方法。限制是(i)分層變數的選取(要與所欲估計的特徵值具有高度相關)(ii)層數的釐定(要適當並配合母體的分配狀況)(iii)分層標準的決定(各層不能有重疊現象)(iv)各層樣本的配置方法和(v)分層後樣本資料的整理及估計較複雜。使用最佳時機便是當(i)母體內樣本單位的差異較大時和(ii)分層後能達到層間差異大層內差異小的原則。原則上要使層內變異小而層間變異大各層不能有重疊現象。系統抽樣法(systematicsampling)系統抽樣法(systematicsampling)優點是(i)在抽取樣本的過程中很容易完成抽樣工作(ii)通常可使樣本普遍的散佈於母體內使樣本更具代表性和(iii)在某些條件下系統抽樣可取代簡單隨機抽樣。限制是(i)對母體狀況宜略有所瞭解(ii)避免系統樣本內的樣本單位趨於一致(iii)不易計算估計量的變異數和(iv)避免母體內樣本單位特徵值的週期性變動。使用最好是當(i)母體內的樣本單位按有興趣的特徵值而言是隨機的或按大小排列的(ii)母體內單位數過多而抽取的樣本又較多時和(iii)母體內的單位數不能確定時。群集抽樣法(clustersampling)群集抽樣法(clustersampling)有時母體底冊的蒐集及編造極為困難或龐大而在調查時又希望節省成本時則可採用群集抽樣法。舉例來說在森林區的材積調查中將調查區劃分多個小塊以為群集。又如在住戶調查中以鄰或區段作為群集以進行訪查。優點是(i)母體底冊的編造較為簡單(ii)調查行動半徑較小調查成本較低(iii)行政管理較為容易和(iv)通信調查時較易宣傳及進行。限制是(i)群集內樣本單位的一致性太強則易浪費樣本和(ii)群集大小的決定。使用最好時機是當(i)母體底冊不易獲得時(ii)為簡省調查成本時及(iii)群集內差異大而群集間的變異小。採用群集抽樣法進行樣本調查時要注意到以下兩個原則。亦即(i)根據經驗、試查及實際狀況以決定適當的群集和(ii)確定群集間變異小而群集內變異大。抽樣分配抽樣分配母體參數(Parameter)描述母體資料特性的統計測量數為未知但固定的數。樣本統計量(Statistics)為一組隨機樣本的實數值函數。抽樣分配(SamplingDistribution)樣本統計量為一隨機變數其機率分配稱為抽樣分配。樣本平均數的抽樣分配樣本平均數的抽樣分配自一大小為N的母體抽出一組隨機樣本則樣本平均數本身亦為隨機變數有其機率分配。抽自有限母體:抽樣分配的型態統計估計統計估計利用樣本統計量去推估母體參數的方法。點估計(PointEstimation)根據樣本資料求得一估計值以推估未知的母體參數。評估估計量的好壞:不偏性(unbiasde)、有效性(efficiency)區間估計(IntervalEstimation)根據樣本資料求得之點估計值藉由點估計值統計量的抽樣分配性質求出兩個數值所構成的區間並利用此一區間推估未知的母體參數範圍。估計大學應屆畢業生平均薪資若我們以=,元為中心加減某個數字譬如,得到(,,)~(,,)元的一個區間然後我們可以說『所有大學應屆畢業生每月的平均薪資在,~,元之間』並說平均薪資在,~,元之間的可靠度為%。此一過程稱為區間估計而此一區間稱為信賴區間(ConfidenceInterval)%稱為信心水準(ConfidenceLevel)。某保險公司自其投保人的母體中隨機抽出位投保人計算出此位投保人的平均年齡為=歲已知母體標準差為σ=歲試求出母體平均數μ的%信賴區間。假設檢定(HypothesisTesting)假設檢定(HypothesisTesting)是對母體參數(特性)提出假設(或主張)利用樣本的訊息決定接受該假設或拒絕該假設的統計方法。虛無假設(Hypothesis)對立假設(AlternativeHypothesis)基本精神:除非具有足夠的證據可以否決否則我們只好接受但是接受並不表示為真僅表示我們沒有足夠的證據可以拒絕相對的拒絕時僅表示我們具有充分的證據可以拒絕此時此檢定稱為具顯著性(Significance)。統計假設檢定亦稱為顯著性檢定(SignificantTesting)。型I誤差與型II誤差型I誤差與型II誤差假設檢定分為單尾檢定(OnetailedTest)與雙尾檢定(TwotailedTest)。某廠商宣稱其所開發的新合成釣魚線平均強度為公斤標準差為公斤。茲從其中隨機抽出條釣魚線測試其強度結果平均為公斤。請在顯著水準下檢定廠商的宣稱。首先建立虛無假設此為雙尾檢定H:μ=H:μ拒絕域拒絕域接受域α=α=真正瞭解統計顯著性的意義真正瞭解統計顯著性的意義樣本愈多愈容易拒絕虛無假設。統計上的顯著度和實際上的顯著度是不一樣的。除了注意P值外要多花點時間看看資料本身(畫圖)。選擇顯著水準。不要忽略沒有顯著性的結果。

类似资料

编辑推荐

从广岛到万隆-美国亚洲政策的考察.pdf

缅怀毛泽东上.pdf

缅怀毛泽东下.pdf

领袖毛泽东.pdf

毛泽东的语言技巧.pdf

职业精品

精彩专题

上传我的资料

精选资料

热门资料排行换一换

  • 联共(布)党史参考资料.pdf

  • [原版英文书pdf].Engli…

  • 《思考,快与慢》.pdf

  • 唐德刚《袁世凯传》.pdf

  • GBZ130-2013.pdf

  • DGJ32_J157-2013_…

  • Wicca,+a+Guide+f…

  • 心理博弈术 日常生活的博弈策略.…

  • 身心灵整体健康(全).doc

  • 资料评价:

    / 94
    所需积分:1 立即下载

    意见
    反馈

    返回
    顶部