1
Université de Franche-Comté
Cours de statistiques
Licence 1 de géographie
Présence obligatoire lors des TD, si absence il faut un justificatif.
Contrôle des connaissances : 2 notes, une pour le CM et une pour le TD, on essaiera de faire
au moins trois contrôles pour avoir 3 notes. Contrôles sans ordinateur à priori.
Introduction
Quelle est l’utilité d’apprendre les statistiques en géographie ???
L’objet de la géographie est de travailler sur des pays variés, des territoires, des populations,
des paysages, des climats, des pollutions… en bref, des éléments qui se déploient dans
l’espace et qui se déploient de manière différenciée dans l’espace :
- des zones plus ou moins polluées ;
- des populations plus ou moins urbanisées, plus ou moins denses, plus ou moins
jeunes ;
- des paysages plus ou moins agricoles, industriels, naturels ou artificiels…
Pour analyser la variété de ces éléments, la façon dont ils se différencient les uns des autres,
et comprendre la manière dont ils se déploient dans l’espace, le fait de les compter est
nécessaire. Grâce aux calculs statistiques, aux traitements statistiques, on va pouvoir mieux
comprendre quelles sont les différences et leur signification :
- Par exemple les caractéristiques de population d’une ville par rapport à une autre
(degré de jeunesse de la population, le type de résidence, la part de propriétaire ou
non propriétaire, les CSP de la population, les types d’emplois ou d’activités,
- L’utilisation d’un territoire : pourcentage de surface urbanisée/artificialisée, agricole,
forêts, zones humides surfaces en eau) Corinne Land Cover.
On va commencer par faire de la statistique simple : en gros il existe trois niveaux de
difficultés en statistique et on se contentera du premier et du second.
- Les statistiques univariées : une seule variable, par exemple le nombre d’habitants
d’un pays ou d’une commune. On n’a qu’une seule variable, mais en géographie on
bosse rarement sur une seule commune ou un seul pays. Ce qui va avoir de l’intérêt
c’est justement de voir les différences entre pays ou communes. On va donc
travailler sur la variable « nombre d’habitants » pour tout un tas de communes ou
pays (différents individus). Pour faciliter la compréhension rapide de cette variable
sur un grand nombre d’individus, on procède à des calculs simples qui synthétisent la
variable : la moyenne, la médiane, la variance… ou on calcule la part que les jeunes
représentent dans l’ensemble de la population (pourcentage).
- Les statistiques bivariées : on procède à la comparaison entre deux variables ou à la
mesure d’une relation entre deux variables. Est-ce qu’elles sont proches, inverses,
2
est-ce qu’elles fonctionnent de manière simultanée : si l’une croît, l’autre aussi et au
même rythme ??? Ceci se fait grâce à des calculs de régressions linéaires ou pas et de
corrélations.
- Les statistiques multivariées : on élargit le travail à plusieurs variables soit avec des
méthodes similaires de régressions (multiples), soit avec des méthodes d’analyses
factorielles, d’analyses discriminantes ou de classifications.
Bouquins à lire :
- Dumolard P., Dubus N. et Charleux L. : Les statistiques en géographie, Editions Belin,
2005
- Béguin M., Pumain D. : La représentation des données géographiques, statistique et
cartographie, « Cursus » éditions A. Colin, 2007. (Aborde notamment le problème du
découpage en classes, problème statistique complexe nécessaire pour une cartographie)
- Guéguen N. : Statistique pour psychologues, cours et exercices, éditions Dunod, 2005
- Lethielleux M. : Exercices de statistique et probabilités, éditions Dunod, 2012.
- Goldfarb B., Pardoux C. : Introduction à la méthode statistique : manuel et exercices
corrigés, Dunod, 2011.
- Lebart L., Piron M., Morineau A. : Statistique exploratoire multidimensionnelle, Cours et
exercices corrigés, Masters et écoles d’ingénieurs, éditions Dunod, 2006.
Ricco Rakotomalala, Université Lumière Lyon 2, Tests de normalité, Techniques empiriques
et tests statistiques, http://eric.univ-lyon2.fr/~ricco/cours/cours/Test_Normalite.pdf.
1. Les données statistiques : notions fondamentales
Individus, population, échantillon, variables
On nomme population l’ensemble des éléments, unités statistiques, auxquels on
s’intéresse. Ces éléments sont appelés individus statistiques : très souvent en géographie ils
correspondent à des unités spatiales (communes, régions…) et non à des hommes.
Expliquer la notion d’échantillon grâce à ce schéma.
3
Particularité des données géo :
Elles correspondent souvent à des lieux et sont donc géolocalisables dans des
systèmes d’information géographique (SIG) et sont donc cartographiables.
Elles correspondent souvent à des agrégats à une certaine échelle : ce sont des
regroupements de données individuelles (par ex : le recensement). Les individus
statistiques sont alors des entités spatiales comme communes, dép, Iris… ou alors ce
sont des individus humains qui ont fait l’objet d’une enquête. Quand on agrège des
données individuelles à une échelle agrégée, problème du secret statistique et de la
validité des données.
Les individus sont décrits par des descripteurs,
appelés variables statistiques, appelés également
caractères, modalités, valeurs… C’est la CSP, l’âge
de la population, la hauteur de précipitation, le
type de sol…
Les variables peuvent être quantitatives et
qualitatives.
• Les variables quantitatives peuvent être
issues :
- d’une mesure physique ou d’un calcul, comme
la température mesurée dans une série de
stations météorologiques par exemple (dans ce
cas elles sont de nature continue);
- d’un comptage, comme un nombre de
personnes ou d’objets dans des unités spatiales
(dans ce cas, elles sont de nature discrète).
• Les variables qualitatives correspondent à
des valeurs non mesurées.
4
- variables binaires, quand elles expriment une opposition présence / absence ;
- variables ordinales, quand
elles se composent de
classes ordonnées comme
des classes d’âge;
- variables nominales, quand
elles se composent de
catégories sans ordre,
comme les catégories socio-
professionnelles.
On peut toujours exprimer
une variable initialement
quantitative en une variable
qualitative en effectuant un
découpage en classes. Les
questions du mode de
découpage et du nombre de
classes sont vues en
cartographie.
Notation d’un tableau de
données
Où trouver des donnés pour étudier la géographie, données qui vont nécessiter des
traitements statistiques ?
A l’échelle de la France :
INSEE, recensement de population ; IFEN pour les données Corinne Land Cover par
département et les indicateurs de qualité environnementale ; IFREMER pour les ressources
marines ; le BRGM pour la géologie ; l’INRA pour la pédologie ; les Agences de bassins pour la
qualité des eaux ; Météo France pour les données climatiques…
A l’échelle de l’Europe :
5
Eurostat qui rassemble des données des différents pays d’Europe en les harmonisant à deux
niveaux d’échelle géographique Nuts 2 (région) et 3 ( département).
Corinne Land Cover : fournit des données environnementales à partir d’images satellites sur
l’utilisation du sol dans toute l’Europe (Est-Ouest)
A l’échelle du monde :
Images économiques du monde, Organisation des nations unies, Atlas…
Attention :
Les données pour pouvoir être utilisées et parfaitement comprises doivent être fournies
selon une certaine nomenclature : sur le site de l’Insee, on trouve des définitions très
précises (qu’est-ce qu’une population, sans double compte, avec double compte, popluation
légale… ou nomenclature de PCS…)
Les données sont toujours fournies avec des métadonnées qui explicitent tout ce qui les
concerne :
- définition et nomenclature utilisée,
- lieux et dates de l’observation
- observations exhaustives ou sondage, et en cas de sondage, conditions de celui-ci.
2. Les logiciels de statistiques
Les logiciels de statistiques/tableur : logiciels gratuits ou payants et plus ou moins
complexes, plus ou moins complets également.
Excel et XLSTAT
SPSS
Sphinx
STATistica
Mathématica
R
SAS…
Logiciel free sur internet :
Statpages.org en anglais, mais développé par un chercheur en sciences humaines,
The visual statistics system : http://forrest.psych.unc.edu/research
Correction Exercice :
Nombre d’habitants : quantitatif discret (en classes, cela correspond à du qualitatif ordonné)
Hauteur de précipitation : quantitatif continu
Type d’utilisation des sols : qualitatif nominal
L’âge de la population : quantitatif continu, mais souvent donnée en quantitatif discret voire
par classes, et donc qualitatif ordinal.
Nombre de licenciés de football : quantitatif discret
Nombre d’infrastructures hospitalières : quantitatif discret
Distance temps d’accès aux médecins de garde : quantitatif continu (en classes, cela
correspond à du qualitatif ordonné)
6
Nombre de piétons accidentés : quantitatif discret
Surface bâtie : quantitatif continu
Densité d’occupation du sol : quantitatif continu, relatif ou calculé ou pondéré.
3. Caractériser des variables
Les variables sont toujours de nature quantitative, mais elles peuvent être fournies par
intervalle ou non. Ici l’âge est regroupé par tranche ou classe ou intervalle.
• Importance de la représentation graphique
1968 1975 1982 1990 1999 2009
Population 621 608 626 697 698 604
Densité moyenne (hab/km²) 2,9 2,8 2,9 3,2 3,2 2,8
• Calcul de la valeur centrale, la moyenne
Moyenne arithmétique =𝑠𝑜𝑚𝑚𝑒 𝑑𝑒𝑠 𝑣𝑎𝑙𝑒𝑢𝑟𝑠 𝑑𝑒 𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛
𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑣𝑎𝑙𝑒𝑢𝑟𝑠 𝑑𝑒 𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛
Pour une données en intervalle, on part de la somme des produits des centres des classes
par les effectifs de chacune des classes : ∑fjcj et on fait une simple somme (sans pondération
par le nombre d’individus inconnus ici) ; attention, divisé par 100 si les valeurs sont en
pourcentage.
• Importance de prendre en compte la dispersion/distribution
Exemple d’un enseignant qui note 21 élèves. L’un met 10/20 à tous, même note, l’autre note
par ordre de mérite et attribue une note différente à chacun, de 1/20 à 20/20.
L’histogramme de fréquence est très différent pour l’un et l’autre, la distribution de ces
notes est très variable d’un enseignant à l’autre. Pourtant la moyenne est la même = 10/20 !
La moyenne est donc un indice de valeur centrale, mais elle ne donne aucune indication sur
la distribution des valeurs.
7
La distribution des valeurs peut se représenter graphiquement par un histogramme de
fréquence : en abscisse les valeurs et en ordonnée leur fréquence.
POP T3 - Population par sexe et âge en 2009
Hommes % Femmes %
Ensemble 304
100,0 300
100,0
0 à 14 ans 53 17,5 49 16,5
15 à 29 ans 52 17,2 55 18,4
30 à 44 ans 63 20,7 64 21,3
45 à 59 ans 76 24,8 72 23,9
60 à 74 ans 49 16,2 35 11,6
75 à 89 ans 11 3,5 24 8,1
90 ans ou plus 0 0,0 1 0,3
0 à 19 ans 76 24,8 68 22,6
20 à 64 ans 189 62,1 185 61,6
65 ans ou plus 40 13,1 47 15,8
POP G2 - Population par grande
tranche d'âge, en %
1999 2009
0-14 ans 21,6 17,0
15-29 ans 21,3 17,8
30-44 ans 24,5 21,0
45-59 ans 16,0 24,4
60-74 ans 11,5 13,9
75 ans ou + 5,0 5,9
Exemple d’histogramme de fréquence
Exemple de distributions
8
• Calcul de la variance
La variance sert à évaluer la manière dont les valeurs
se distribuent autour de la valeur centrale. Elle
suppose le calcul de la valeur centrale, la moyenne,
puis l’écart de chaque terme à cette valeur (écart à la
moyenne). On trouve alors des écarts positifs ou
négatifs, puisque certaines valeurs sont supérieures
ou inférieures à la moyenne. Pour ramener toutes ces
distances sur une échelle commune on élève tout au
carré. Et on pondère cela par le nombre de valeurs.
Variance = ∑�𝑣𝑎𝑙𝑒𝑢𝑟 – 𝑚𝑜𝑦𝑒𝑛𝑛𝑒�2
𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑣𝑎𝑙𝑒𝑢𝑟𝑠
Ecart type = √∑�𝑣𝑎𝑙𝑒𝑢𝑟 – 𝑚𝑜𝑦𝑒𝑛𝑛𝑒�2
𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑣𝑎𝑙𝑒𝑢𝑟𝑠 = √variance
• Estimation sans biais : approche de la notion de degré de liberté
Variance = ∑�𝑣𝑎𝑙𝑒𝑢𝑟 – 𝑚𝑜𝑦𝑒𝑛𝑛𝑒�2
𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑣𝑎𝑙𝑒𝑢𝑟𝑠−1
Ecart type = √∑�𝑣𝑎𝑙𝑒𝑢𝑟 – 𝑚𝑜𝑦𝑒𝑛𝑛𝑒�2
𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑣𝑎𝑙𝑒𝑢𝑟𝑠−1 = √variance
Cette estimation est plus juste que la précédente pour des échantillons de population de
faible taille. En effet, sur un individu, l’estimation n’a pas de sens : si je n’ai qu’un individu, la
moyenne lui correspond, et la variance est nulle (note de 10/20, la moyenne est 10 et la
variance est 10-10 = 0). Donc il n’y a aucune dispersion. Donc si le raisonnement sur un
individu n’a pas de sens : on l’élimine !
Autre explication : fait appel à la notion de degré de liberté.
On peut déduire de ces calculs n’importe quelle valeur manquante si l’on a la valeur de la
moyenne et toutes les autres mesures moins une. Idem avec la variance : on peut déduire
n’importe quel écart à la moyenne qui nous manque en connaissant tous les autres puisque
l’on sait que la somme de ces écarts est toujours nulle. Ainsi, on ne retient au final que le
nombre d’individus utile, que l’on appelle aussi le nombre d’individus libres : c’est toujours
le nombre de degré de liberté : nombre d’individus - 1.
• Calcul du coefficient de variation : utile pour comparer des dispersions
9
Coefficient de variation = é𝑐𝑎𝑟𝑡−𝑡𝑦𝑝𝑒
𝑚𝑜𝑦𝑒𝑛𝑛𝑒
∗ 100, par commodité ce coefficient est exprimé en
pourcentage.
• Mesure d’aplatissement d’une courbe ; coefficient Kurtosis
Il s’agit d’évaluer la façon dont les valeurs se concentrent ou pas autour de leur moyenne. Le
plus utilisé parmi ces coefficients est celui de Fisher G2.
G2 =�
∑(𝑣𝑎𝑙𝑒𝑢𝑟−𝑚𝑜𝑦𝑒𝑛𝑛𝑒)4
𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓
�
∑(𝑣𝑎𝑙𝑒𝑢𝑟−𝑚𝑜𝑦𝑒𝑛𝑛𝑒)2
𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓
�
2 � − 3
Le calcul ressemble à celui de la variance, mais élevée à la puissance 4, puis à la puissance 2.
Avec des données en intervalles, chaque écart de la moyenne au centre de la classe est
multiplié par l’effectif de celle-ci.
Ce calcul permet d’évaluer l’aplatissement de la courbe de répartition.
Courbe aplatie, dispersion très étalée, quand G2 <<<0,
Courbe normale quand G2 = 0
Courbe pointue, forte concentration autour de la moyenne quand G2 >>>0
• Autre valeur centrale : la médiane
La médiane est la valeur qui partage en 2 la série de données après que ces données ont été
ordonnées de manière croissante ou décroissante.
Médiane = n+1/2 si valeur impair.
Si le nombre d’individus est impair il est facile de trouver la valeur centrale, s’il est pair on
procède ainsi :
Médiane =
𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑣𝑎𝑙𝑒𝑢𝑟𝑠
2
+�
𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑣𝑎𝑙𝑒𝑢𝑟𝑠
2
+1�
2
Le découpage peut se poursuivre, en quatre pour des quartiles (25% par classes), en déciles
(10%) en centiles (1%) tout dépend de la taille de la distribution.
On classe toujours les données en ordre croissant ou décroissant : ici, échelle de notes allant de 0 à 9
Position 1 2 3 4 5 6 7 8 9 10 11 12
valeurs 4 5 5 6 6 6 6 7 7 8 8 9
La position du quartile est la suivante : quartile ∗ (effectif total de la distribution + 1)
4
Exemple pour le quartile 1 d’une série de 12 données : Q1 = 1∗(12+1)
4
=3,25 (entre 3 et 4)
La valeur du quartile est :
valeurQ1 = valeur position x + F*(valeur positionx+1 - valeur positionx)
10
valeur Q1 = 5+(0,25 * (6-5)) = 5,25
La position médiane : Q2 = 2∗(12+1)
4
= 6,5 (entre 6 et 7)
La valeur de la médiane est :
valeurQ2 = 6+(0,5*(6-6)) = 6
La valeur du Q3 est :
valeurQ3 = 7+(0,75*(8-7)) = 7,75
On peut au final calculer l’écart interquartile qui fournit les valeurs qui se trouvent dans un
intervalle de 25% de la distance à gauche et 25% à droite de la médiane. On le divise par la
médiane pour le pondérer et disposer d’un indicateur de comparaison de dispersion.
Ecart interquartile = quartile 3 – quartile 1
médiane ∗ 100 (équivalent du coefficient de variation)
• Moyenne, médiane, mode, quand les utiliser ?
Sur des données qualitatives nominales, on ne peut calculer la médiane, mais on donne
comme valeur centrale le mode : ex. de distribution bimodale avec annonce d’emploi et
relations familiales
Mode de recrutement par effectif
Annonce d’emploi
CV spontané
Relations familiales ou personnelles
Recrutement à l’issue d’un stage
Contact avec école
Forum d’emplois
autres
39
22
41
18
9
26
9
Il est toujours intéressant de comparer moyenne et médiane, cela donne une idée de la
forme de la distribution. Si normalité, la médiane est confondue avec la moyenne.
• Analyse de l’asymétrie d’une distribution (coefficient Skweness)
On utilise le plus connu, le coefficient d’asymétrie de Fisher G1, un peu complexe à mettre
en œuvre :
G1=�
�
∑(𝑣𝑎𝑙𝑒𝑢𝑟−𝑚𝑜𝑦𝑒𝑛𝑛𝑒)3
𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓
�
��
∑(𝑣𝑎𝑙𝑒𝑢𝑟−𝑚𝑜𝑦𝑒𝑛𝑛𝑒)2
𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓
�
3 �
Si la distribution est unimodale, on peut utiliser le coefficient d’asymétrie de Pearson, un
peu plus simple :
Coefficient de Pearson = 𝑚𝑜𝑦𝑒𝑛𝑛𝑒−𝑣𝑎𝑙𝑒𝑢𝑟 𝑐𝑜𝑟𝑟𝑒𝑠𝑝𝑜𝑛𝑑𝑎𝑛𝑡 𝑎𝑢 𝑚𝑜𝑑𝑒é𝑐𝑎𝑟𝑡−𝑡𝑦𝑝𝑒
L’un et l’autre s’interprète de la même façon : ils mesurent l’amplitude des valeurs
supérieures à la moyenne par rapport à l’amplitude des valeurs inférieures à la moyenne. Si
11
le coefficient est proche de 0, la distribution est normale, si le coefficient >>> 0, il y a plus de
dispersion pour des valeurs supérieures à la moyenne (asymétrie sur la droite), si le
coefficient <<< 0, il y a plus de dispersion pour des valeurs inférieures à la moyenne
(asymétrie sur la gauche).
4. Tester la normalité d’une variable : est-ce que la distribution obéit bien à
une loi de Gauss ?
12
13
Test de Shapiro-Wilk
Le test consiste à mesurer la conformité de la distribution observée avec une distribution
normale théorique, sur une représentation permettant de visualiser la distribution de
fréquence cumulée normale comme une droite. Particulièrement puissant pour les petits
effectifs (n< ou égal à 50).
14
Test de Kolmogorov-Smirnov ou plutôt Liliefors
Ce test non paramétrique consiste à comparer la distribution de fréquences relatives
cumulées d'une variable observée avec la distribution théorique que cette variable aurait si
elle était distribuée normalement. On superpose les deux distributions, on cherche la classe
où l'écart entre la distribution théorique et la distribution observée est le plus grand, et on
vérifie (dans une table conçue à cet effet ou en calculant directement la valeur critique D α,
voir plus bas) si cet écart est significativement grand, c'est-à-dire si l'hypothèse de normalité
(H0) distribution normale peut être rejetée au seuil considéré.
Test d’Anderson-Darling
Le test d’Anderson-Darling est une autre variante du test de Kolmogorov-Smirnov, à la
différence qu'elle donne plus d'importance aux queues de distribution. De ce point de vue,
elle est plus indiquée dans la phase d'évaluation des données précédant la mise en œuvre
d'un test paramétrique (comparaison de moyenne, de variances, etc.) que le test de
Lilliefors.
Les tests de normalité d’Agostino et de Jarque-Bera
Ils sont fondés sur les coefficients d'asymétrie et d'aplatissement. Ils évaluent les écarts
simultanés de ces coefficients avec les valeurs de référence de la loi normale.
La formulation est très simple pour le test de Jarque-Bera par rapport au test de D'Agostino,
le prix est une puissance moindre. Il ne devient réellement intéressant que lorsque les
effectifs sont élevés.
En vérité, le test de Jarqu
本文档为【CM statistique Licence 1 géographie】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑,
图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。