CM statistique Licence 1 géographie

CM statistique Licence 1 géographie 1 Université de Franche-Comté Cours de statistiques Licence 1 de géographie Présence obligatoire lors des TD, si absence il faut un justificatif. Contrôle des connaissances : 2 notes, une pour le CM et une pour le TD, on essaiera de faire au moi...

1 Université de Franche-Comté Cours de statistiques Licence 1 de géographie Présence obligatoire lors des TD, si absence il faut un justificatif. Contrôle des connaissances : 2 notes, une pour le CM et une pour le TD, on essaiera de faire au moins trois contrôles pour avoir 3 notes. Contrôles sans ordinateur à priori. Introduction Quelle est l’utilité d’apprendre les statistiques en géographie ??? L’objet de la géographie est de travailler sur des pays variés, des territoires, des populations, des paysages, des climats, des pollutions… en bref, des éléments qui se déploient dans l’espace et qui se déploient de manière différenciée dans l’espace : - des zones plus ou moins polluées ; - des populations plus ou moins urbanisées, plus ou moins denses, plus ou moins jeunes ; - des paysages plus ou moins agricoles, industriels, naturels ou artificiels… Pour analyser la variété de ces éléments, la façon dont ils se différencient les uns des autres, et comprendre la manière dont ils se déploient dans l’espace, le fait de les compter est nécessaire. Grâce aux calculs statistiques, aux traitements statistiques, on va pouvoir mieux comprendre quelles sont les différences et leur signification : - Par exemple les caractéristiques de population d’une ville par rapport à une autre (degré de jeunesse de la population, le type de résidence, la part de propriétaire ou non propriétaire, les CSP de la population, les types d’emplois ou d’activités, - L’utilisation d’un territoire : pourcentage de surface urbanisée/artificialisée, agricole, forêts, zones humides surfaces en eau) Corinne Land Cover. On va commencer par faire de la statistique simple : en gros il existe trois niveaux de difficultés en statistique et on se contentera du premier et du second. - Les statistiques univariées : une seule variable, par exemple le nombre d’habitants d’un pays ou d’une commune. On n’a qu’une seule variable, mais en géographie on bosse rarement sur une seule commune ou un seul pays. Ce qui va avoir de l’intérêt c’est justement de voir les différences entre pays ou communes. On va donc travailler sur la variable « nombre d’habitants » pour tout un tas de communes ou pays (différents individus). Pour faciliter la compréhension rapide de cette variable sur un grand nombre d’individus, on procède à des calculs simples qui synthétisent la variable : la moyenne, la médiane, la variance… ou on calcule la part que les jeunes représentent dans l’ensemble de la population (pourcentage). - Les statistiques bivariées : on procède à la comparaison entre deux variables ou à la mesure d’une relation entre deux variables. Est-ce qu’elles sont proches, inverses, 2 est-ce qu’elles fonctionnent de manière simultanée : si l’une croît, l’autre aussi et au même rythme ??? Ceci se fait grâce à des calculs de régressions linéaires ou pas et de corrélations. - Les statistiques multivariées : on élargit le travail à plusieurs variables soit avec des méthodes similaires de régressions (multiples), soit avec des méthodes d’analyses factorielles, d’analyses discriminantes ou de classifications. Bouquins à lire : - Dumolard P., Dubus N. et Charleux L. : Les statistiques en géographie, Editions Belin, 2005 - Béguin M., Pumain D. : La représentation des données géographiques, statistique et cartographie, « Cursus » éditions A. Colin, 2007. (Aborde notamment le problème du découpage en classes, problème statistique complexe nécessaire pour une cartographie) - Guéguen N. : Statistique pour psychologues, cours et exercices, éditions Dunod, 2005 - Lethielleux M. : Exercices de statistique et probabilités, éditions Dunod, 2012. - Goldfarb B., Pardoux C. : Introduction à la méthode statistique : manuel et exercices corrigés, Dunod, 2011. - Lebart L., Piron M., Morineau A. : Statistique exploratoire multidimensionnelle, Cours et exercices corrigés, Masters et écoles d’ingénieurs, éditions Dunod, 2006. Ricco Rakotomalala, Université Lumière Lyon 2, Tests de normalité, Techniques empiriques et tests statistiques, http://eric.univ-lyon2.fr/~ricco/cours/cours/Test_Normalite.pdf. 1. Les données statistiques : notions fondamentales Individus, population, échantillon, variables On nomme population l’ensemble des éléments, unités statistiques, auxquels on s’intéresse. Ces éléments sont appelés individus statistiques : très souvent en géographie ils correspondent à des unités spatiales (communes, régions…) et non à des hommes. Expliquer la notion d’échantillon grâce à ce schéma. 3 Particularité des données géo :  Elles correspondent souvent à des lieux et sont donc géolocalisables dans des systèmes d’information géographique (SIG) et sont donc cartographiables.  Elles correspondent souvent à des agrégats à une certaine échelle : ce sont des regroupements de données individuelles (par ex : le recensement). Les individus statistiques sont alors des entités spatiales comme communes, dép, Iris… ou alors ce sont des individus humains qui ont fait l’objet d’une enquête. Quand on agrège des données individuelles à une échelle agrégée, problème du secret statistique et de la validité des données. Les individus sont décrits par des descripteurs, appelés variables statistiques, appelés également caractères, modalités, valeurs… C’est la CSP, l’âge de la population, la hauteur de précipitation, le type de sol… Les variables peuvent être quantitatives et qualitatives. • Les variables quantitatives peuvent être issues : - d’une mesure physique ou d’un calcul, comme la température mesurée dans une série de stations météorologiques par exemple (dans ce cas elles sont de nature continue); - d’un comptage, comme un nombre de personnes ou d’objets dans des unités spatiales (dans ce cas, elles sont de nature discrète). • Les variables qualitatives correspondent à des valeurs non mesurées. 4 - variables binaires, quand elles expriment une opposition présence / absence ; - variables ordinales, quand elles se composent de classes ordonnées comme des classes d’âge; - variables nominales, quand elles se composent de catégories sans ordre, comme les catégories socio- professionnelles. On peut toujours exprimer une variable initialement quantitative en une variable qualitative en effectuant un découpage en classes. Les questions du mode de découpage et du nombre de classes sont vues en cartographie. Notation d’un tableau de données Où trouver des donnés pour étudier la géographie, données qui vont nécessiter des traitements statistiques ?  A l’échelle de la France : INSEE, recensement de population ; IFEN pour les données Corinne Land Cover par département et les indicateurs de qualité environnementale ; IFREMER pour les ressources marines ; le BRGM pour la géologie ; l’INRA pour la pédologie ; les Agences de bassins pour la qualité des eaux ; Météo France pour les données climatiques…  A l’échelle de l’Europe : 5 Eurostat qui rassemble des données des différents pays d’Europe en les harmonisant à deux niveaux d’échelle géographique Nuts 2 (région) et 3 ( département). Corinne Land Cover : fournit des données environnementales à partir d’images satellites sur l’utilisation du sol dans toute l’Europe (Est-Ouest)  A l’échelle du monde : Images économiques du monde, Organisation des nations unies, Atlas… Attention : Les données pour pouvoir être utilisées et parfaitement comprises doivent être fournies selon une certaine nomenclature : sur le site de l’Insee, on trouve des définitions très précises (qu’est-ce qu’une population, sans double compte, avec double compte, popluation légale… ou nomenclature de PCS…) Les données sont toujours fournies avec des métadonnées qui explicitent tout ce qui les concerne : - définition et nomenclature utilisée, - lieux et dates de l’observation - observations exhaustives ou sondage, et en cas de sondage, conditions de celui-ci. 2. Les logiciels de statistiques Les logiciels de statistiques/tableur : logiciels gratuits ou payants et plus ou moins complexes, plus ou moins complets également. Excel et XLSTAT SPSS Sphinx STATistica Mathématica R SAS… Logiciel free sur internet : Statpages.org en anglais, mais développé par un chercheur en sciences humaines, The visual statistics system : http://forrest.psych.unc.edu/research Correction Exercice : Nombre d’habitants : quantitatif discret (en classes, cela correspond à du qualitatif ordonné) Hauteur de précipitation : quantitatif continu Type d’utilisation des sols : qualitatif nominal L’âge de la population : quantitatif continu, mais souvent donnée en quantitatif discret voire par classes, et donc qualitatif ordinal. Nombre de licenciés de football : quantitatif discret Nombre d’infrastructures hospitalières : quantitatif discret Distance temps d’accès aux médecins de garde : quantitatif continu (en classes, cela correspond à du qualitatif ordonné) 6 Nombre de piétons accidentés : quantitatif discret Surface bâtie : quantitatif continu Densité d’occupation du sol : quantitatif continu, relatif ou calculé ou pondéré. 3. Caractériser des variables Les variables sont toujours de nature quantitative, mais elles peuvent être fournies par intervalle ou non. Ici l’âge est regroupé par tranche ou classe ou intervalle. • Importance de la représentation graphique 1968 1975 1982 1990 1999 2009 Population 621 608 626 697 698 604 Densité moyenne (hab/km²) 2,9 2,8 2,9 3,2 3,2 2,8 • Calcul de la valeur centrale, la moyenne Moyenne arithmétique =𝑠𝑜𝑚𝑚𝑒 𝑑𝑒𝑠 𝑣𝑎𝑙𝑒𝑢𝑟𝑠 𝑑𝑒 𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛 𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑣𝑎𝑙𝑒𝑢𝑟𝑠 𝑑𝑒 𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛 Pour une données en intervalle, on part de la somme des produits des centres des classes par les effectifs de chacune des classes : ∑fjcj et on fait une simple somme (sans pondération par le nombre d’individus inconnus ici) ; attention, divisé par 100 si les valeurs sont en pourcentage. • Importance de prendre en compte la dispersion/distribution Exemple d’un enseignant qui note 21 élèves. L’un met 10/20 à tous, même note, l’autre note par ordre de mérite et attribue une note différente à chacun, de 1/20 à 20/20. L’histogramme de fréquence est très différent pour l’un et l’autre, la distribution de ces notes est très variable d’un enseignant à l’autre. Pourtant la moyenne est la même = 10/20 ! La moyenne est donc un indice de valeur centrale, mais elle ne donne aucune indication sur la distribution des valeurs. 7 La distribution des valeurs peut se représenter graphiquement par un histogramme de fréquence : en abscisse les valeurs et en ordonnée leur fréquence. POP T3 - Population par sexe et âge en 2009 Hommes % Femmes % Ensemble 304 100,0 300 100,0 0 à 14 ans 53 17,5 49 16,5 15 à 29 ans 52 17,2 55 18,4 30 à 44 ans 63 20,7 64 21,3 45 à 59 ans 76 24,8 72 23,9 60 à 74 ans 49 16,2 35 11,6 75 à 89 ans 11 3,5 24 8,1 90 ans ou plus 0 0,0 1 0,3 0 à 19 ans 76 24,8 68 22,6 20 à 64 ans 189 62,1 185 61,6 65 ans ou plus 40 13,1 47 15,8 POP G2 - Population par grande tranche d'âge, en % 1999 2009 0-14 ans 21,6 17,0 15-29 ans 21,3 17,8 30-44 ans 24,5 21,0 45-59 ans 16,0 24,4 60-74 ans 11,5 13,9 75 ans ou + 5,0 5,9 Exemple d’histogramme de fréquence Exemple de distributions 8 • Calcul de la variance La variance sert à évaluer la manière dont les valeurs se distribuent autour de la valeur centrale. Elle suppose le calcul de la valeur centrale, la moyenne, puis l’écart de chaque terme à cette valeur (écart à la moyenne). On trouve alors des écarts positifs ou négatifs, puisque certaines valeurs sont supérieures ou inférieures à la moyenne. Pour ramener toutes ces distances sur une échelle commune on élève tout au carré. Et on pondère cela par le nombre de valeurs. Variance = ∑�𝑣𝑎𝑙𝑒𝑢𝑟 – 𝑚𝑜𝑦𝑒𝑛𝑛𝑒�2 𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑣𝑎𝑙𝑒𝑢𝑟𝑠 Ecart type = √∑�𝑣𝑎𝑙𝑒𝑢𝑟 – 𝑚𝑜𝑦𝑒𝑛𝑛𝑒�2 𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑣𝑎𝑙𝑒𝑢𝑟𝑠 = √variance • Estimation sans biais : approche de la notion de degré de liberté Variance = ∑�𝑣𝑎𝑙𝑒𝑢𝑟 – 𝑚𝑜𝑦𝑒𝑛𝑛𝑒�2 𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑣𝑎𝑙𝑒𝑢𝑟𝑠−1 Ecart type = √∑�𝑣𝑎𝑙𝑒𝑢𝑟 – 𝑚𝑜𝑦𝑒𝑛𝑛𝑒�2 𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑣𝑎𝑙𝑒𝑢𝑟𝑠−1 = √variance Cette estimation est plus juste que la précédente pour des échantillons de population de faible taille. En effet, sur un individu, l’estimation n’a pas de sens : si je n’ai qu’un individu, la moyenne lui correspond, et la variance est nulle (note de 10/20, la moyenne est 10 et la variance est 10-10 = 0). Donc il n’y a aucune dispersion. Donc si le raisonnement sur un individu n’a pas de sens : on l’élimine ! Autre explication : fait appel à la notion de degré de liberté. On peut déduire de ces calculs n’importe quelle valeur manquante si l’on a la valeur de la moyenne et toutes les autres mesures moins une. Idem avec la variance : on peut déduire n’importe quel écart à la moyenne qui nous manque en connaissant tous les autres puisque l’on sait que la somme de ces écarts est toujours nulle. Ainsi, on ne retient au final que le nombre d’individus utile, que l’on appelle aussi le nombre d’individus libres : c’est toujours le nombre de degré de liberté : nombre d’individus - 1. • Calcul du coefficient de variation : utile pour comparer des dispersions 9 Coefficient de variation = é𝑐𝑎𝑟𝑡−𝑡𝑦𝑝𝑒 𝑚𝑜𝑦𝑒𝑛𝑛𝑒 ∗ 100, par commodité ce coefficient est exprimé en pourcentage. • Mesure d’aplatissement d’une courbe ; coefficient Kurtosis Il s’agit d’évaluer la façon dont les valeurs se concentrent ou pas autour de leur moyenne. Le plus utilisé parmi ces coefficients est celui de Fisher G2. G2 =� ∑(𝑣𝑎𝑙𝑒𝑢𝑟−𝑚𝑜𝑦𝑒𝑛𝑛𝑒)4 𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓 � ∑(𝑣𝑎𝑙𝑒𝑢𝑟−𝑚𝑜𝑦𝑒𝑛𝑛𝑒)2 𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓 � 2 � − 3 Le calcul ressemble à celui de la variance, mais élevée à la puissance 4, puis à la puissance 2. Avec des données en intervalles, chaque écart de la moyenne au centre de la classe est multiplié par l’effectif de celle-ci. Ce calcul permet d’évaluer l’aplatissement de la courbe de répartition. Courbe aplatie, dispersion très étalée, quand G2 <<<0, Courbe normale quand G2 = 0 Courbe pointue, forte concentration autour de la moyenne quand G2 >>>0 • Autre valeur centrale : la médiane La médiane est la valeur qui partage en 2 la série de données après que ces données ont été ordonnées de manière croissante ou décroissante. Médiane = n+1/2 si valeur impair. Si le nombre d’individus est impair il est facile de trouver la valeur centrale, s’il est pair on procède ainsi : Médiane = 𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑣𝑎𝑙𝑒𝑢𝑟𝑠 2 +� 𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑣𝑎𝑙𝑒𝑢𝑟𝑠 2 +1� 2 Le découpage peut se poursuivre, en quatre pour des quartiles (25% par classes), en déciles (10%) en centiles (1%) tout dépend de la taille de la distribution. On classe toujours les données en ordre croissant ou décroissant : ici, échelle de notes allant de 0 à 9 Position 1 2 3 4 5 6 7 8 9 10 11 12 valeurs 4 5 5 6 6 6 6 7 7 8 8 9 La position du quartile est la suivante : quartile ∗ (effectif total de la distribution + 1) 4 Exemple pour le quartile 1 d’une série de 12 données : Q1 = 1∗(12+1) 4 =3,25 (entre 3 et 4) La valeur du quartile est : valeurQ1 = valeur position x + F*(valeur positionx+1 - valeur positionx) 10 valeur Q1 = 5+(0,25 * (6-5)) = 5,25 La position médiane : Q2 = 2∗(12+1) 4 = 6,5 (entre 6 et 7) La valeur de la médiane est : valeurQ2 = 6+(0,5*(6-6)) = 6 La valeur du Q3 est : valeurQ3 = 7+(0,75*(8-7)) = 7,75 On peut au final calculer l’écart interquartile qui fournit les valeurs qui se trouvent dans un intervalle de 25% de la distance à gauche et 25% à droite de la médiane. On le divise par la médiane pour le pondérer et disposer d’un indicateur de comparaison de dispersion. Ecart interquartile = quartile 3 – quartile 1 médiane ∗ 100 (équivalent du coefficient de variation) • Moyenne, médiane, mode, quand les utiliser ? Sur des données qualitatives nominales, on ne peut calculer la médiane, mais on donne comme valeur centrale le mode : ex. de distribution bimodale avec annonce d’emploi et relations familiales Mode de recrutement par effectif Annonce d’emploi CV spontané Relations familiales ou personnelles Recrutement à l’issue d’un stage Contact avec école Forum d’emplois autres 39 22 41 18 9 26 9 Il est toujours intéressant de comparer moyenne et médiane, cela donne une idée de la forme de la distribution. Si normalité, la médiane est confondue avec la moyenne. • Analyse de l’asymétrie d’une distribution (coefficient Skweness) On utilise le plus connu, le coefficient d’asymétrie de Fisher G1, un peu complexe à mettre en œuvre : G1=� � ∑(𝑣𝑎𝑙𝑒𝑢𝑟−𝑚𝑜𝑦𝑒𝑛𝑛𝑒)3 𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓 � �� ∑(𝑣𝑎𝑙𝑒𝑢𝑟−𝑚𝑜𝑦𝑒𝑛𝑛𝑒)2 𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓 � 3 � Si la distribution est unimodale, on peut utiliser le coefficient d’asymétrie de Pearson, un peu plus simple : Coefficient de Pearson = 𝑚𝑜𝑦𝑒𝑛𝑛𝑒−𝑣𝑎𝑙𝑒𝑢𝑟 𝑐𝑜𝑟𝑟𝑒𝑠𝑝𝑜𝑛𝑑𝑎𝑛𝑡 𝑎𝑢 𝑚𝑜𝑑𝑒é𝑐𝑎𝑟𝑡−𝑡𝑦𝑝𝑒 L’un et l’autre s’interprète de la même façon : ils mesurent l’amplitude des valeurs supérieures à la moyenne par rapport à l’amplitude des valeurs inférieures à la moyenne. Si 11 le coefficient est proche de 0, la distribution est normale, si le coefficient >>> 0, il y a plus de dispersion pour des valeurs supérieures à la moyenne (asymétrie sur la droite), si le coefficient <<< 0, il y a plus de dispersion pour des valeurs inférieures à la moyenne (asymétrie sur la gauche). 4. Tester la normalité d’une variable : est-ce que la distribution obéit bien à une loi de Gauss ? 12 13 Test de Shapiro-Wilk Le test consiste à mesurer la conformité de la distribution observée avec une distribution normale théorique, sur une représentation permettant de visualiser la distribution de fréquence cumulée normale comme une droite. Particulièrement puissant pour les petits effectifs (n< ou égal à 50). 14 Test de Kolmogorov-Smirnov ou plutôt Liliefors Ce test non paramétrique consiste à comparer la distribution de fréquences relatives cumulées d'une variable observée avec la distribution théorique que cette variable aurait si elle était distribuée normalement. On superpose les deux distributions, on cherche la classe où l'écart entre la distribution théorique et la distribution observée est le plus grand, et on vérifie (dans une table conçue à cet effet ou en calculant directement la valeur critique D α, voir plus bas) si cet écart est significativement grand, c'est-à-dire si l'hypothèse de normalité (H0) distribution normale peut être rejetée au seuil considéré. Test d’Anderson-Darling Le test d’Anderson-Darling est une autre variante du test de Kolmogorov-Smirnov, à la différence qu'elle donne plus d'importance aux queues de distribution. De ce point de vue, elle est plus indiquée dans la phase d'évaluation des données précédant la mise en œuvre d'un test paramétrique (comparaison de moyenne, de variances, etc.) que le test de Lilliefors. Les tests de normalité d’Agostino et de Jarque-Bera Ils sont fondés sur les coefficients d'asymétrie et d'aplatissement. Ils évaluent les écarts simultanés de ces coefficients avec les valeurs de référence de la loi normale. La formulation est très simple pour le test de Jarque-Bera par rapport au test de D'Agostino, le prix est une puissance moindre. Il ne devient réellement intéressant que lorsque les effectifs sont élevés. En vérité, le test de Jarqu

                    本文档为【CM statistique Licence 1 géographie】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

CM statistique Licence 1 géographie

你可能还喜欢