Академический Документы
Профессиональный Документы
Культура Документы
1 – DEFINITION
La statistique est une branche des sciences mathématiques basée sur l'observation des faits. Elle se
compose d'un ensemble de méthodes, de techniques et d'outils mathématique utilisés pour collecter,
décrire et analyser des données concernant des ensembles nombreux appelés population constitués
d'objets matériels ou immatériels appelés individus et cela dans le but de résumer l'information, ou
généraliser l'information contenue dans ces données afin de faciliter la prise de décision malgré la
présence d'incertitude (ou erreur).
La statistique emploie le terme " les paramètres" pour désigner les caractéristiques de la population
et le terme "les statistiques" pour désigner les caractéristiques de l'échantillon
Les paramètres se rapportant à la population, sont généralement inconnus, mais considérés comme
des valeurs fixes au sein de la population.
Les statistiques se rapportant à l'échantillon, sont généralement connues, mais considérés comme
des valeurs variables au sein de l'échantillon.
La statistique
Elle permet de traiter méthodiquement les données pour condenser l'information qu'elles
contiennent, car en calculant les pourcentages, les moyennes, les écarts et les coefficients de corrélation,
on arrive à une vision globale des données. Cependant, il faut savoir qu'en résumant les données, on laisse
de coté une partie de l'information qu'elles contiennent. Cet état de fait peut induire des erreurs.
La statistique descriptive (ou exploratoire) est une manière scientifique de passer du général
(population) au particulier (Echantillon)
2
1.2.2 – La statistique inductive
Elle permet de dégager des conclusions générales quant aux diverses caractéristiques de la
population et cela à partir de faits observés sur un échantillon tiré de cette population, Elle se base sur
des méthodes d'induction qui sont une expression mathématique de principes épistémologiques en vertu
desquels, à partir de l'information contenue dans un ensemble de données particulier, on arrive à des
propositions de portées plus générales.
La statistique inductive (ou inférentielle) est une manière scientifique de passer du particulier
(Echantillon) au général (population)
Problématique On ne peut pas savoir avec certitude dans quelle mesure une statistique calculée à partir des données
d'un échantillon peut se rapprocher du paramètre inconnu correspondant dans la population.
Formulation de la Evaluer quelle sera la probabilité pour que l'écart (ou l'erreur estimée) entre une statistique et un
problématique paramètre puisse se situer à l'intérieur d'une marge.
Voie de solution La théorie des probabilités donne et fournit les méthodes, les outils et les techniques nécessaires pour
pouvoir évaluer la probabilité du rapprochement d'une statistique et d'un paramètre
Conclusion: Les règles de la statistique inductive se fondent sur la théorie des probabilités.
3
1.4 – TERMIMOLOGIE
1° - Population:
C'est une collection complète (dans le sens où elle inclut tous les individus à étudier)
d'individus sur laquelle porte l'étude.
C'est un ensemble que l'on observe et qui sera soumis à une analyse statistique. Chaque élément
de cet ensemble est appelé individus ou unité statistique.
C'est un ensemble d'objets ou de personnes d'une étude statistique. un élément de cet ensemble est
appelé individus.
C'est un ensemble de sujets (objets, éléments) qui ont au moins une propriété en commun
2° - Echantillon:
C'est un sous ensemble d'individus obtenu à partir de la population (méthode de sondage)
C'est un sous ensemble de la population considérée. Le nombre d'individus dans l'échantillon
représente la taille de l'échantillon.
C'est un sous ensemble représentatif de la population.
3° - Le caractère:
Le caractère, c'est la propriété ou l'aspect singulier que l'on se propose d'observer dans la population
ou dans l'échantillon. Un caractère qui fait le sujet d'une étude statistique s'appelle "variable statistique":
Caractère = variable statistique
4° - La variable:
La variable est une grandeur caractéristique à laquelle on s'intéresse.
- Si on s'intéresse à une seule variable, on parle de statistique univariée
- Si on s'intéresse à deux ou plusieurs variables, on parle de statistique multivariée
La variable est une caractéristique dont la valeur change d'un individu à un autre dans la
population.
On distingue les types suivants:
Variable statistique
4
5° - Le Paramètre:
Un paramètre est une mesure numérique qui décrit une caractéristique de la population
6° - Une Statistique:
Une statistique est une mesure numérique qui décrit une caractéristique de l'échantillon
7° - La Donnée:
C'est un fait numérique ou non porteur d'informations
C'est une réalisation de variables (aléatoire) mesurées (ou récoltées) sur des sujets, on suppose la
mesure correcte et le choix des sujets aléatoire.
8° - Le Sujet:
C'est une entité matérielle ou immatérielle sur les quelles on mesure les différentes variables
- pour les sciences sociales les sujets sont : les êtres humains ou groupe de personne
- pour les sciences naturelles les sujets sont : les animaux, les plantes, les insectes,
- pour les sciences de l'ingénieur les sujets sont: les matériaux, les pièces mécaniques, ..
- pour les sciences économiques: les sujets sont: les pays, les entreprises, etc..
9° - L'Effectif:
L'effectif, c'est le nombre d'éléments qui présente un caractère commun.
C'est le nombre total d'individus d'une population.
C'est le nombre d'observation de la modalité
5
Suite à cela, on pourra:
1° - évaluer une grandeur statistique comme la moyenne ou la variance (estimateurs, intervalle de
confiance).
2° - Savoir si deux populations sont comparables (test d'hypothèse).
3° - Déterminer si deux grandeurs sont liées et de quelle façon (corrélation, ajustement analytique)
Les conclusions qui permettent de prendre une décision seront toujours entachées d'un certain
pourcentage ou d'un taux d'incertitude.
6
1.6.2 – Constitution d'un échantillon
Dans le cas d'une étude par sondage, l'échantillon n'est pas observé pour lui-même, mais en vue
d'extrapoler, c'est-à-dire d'étendre les caractères qui auront été observés à l'ensemble dont il est issu.
1.7.2 - Dépouillement
Le dépouillement peut être manuel ou automatique. Si les observations sont peu nombreuses, on peut
procéder au tri, au dénombrement et à leur totalisation à la main. Si par contre les observations sont
nombreuses on procède au tri, au dénombrement et à la totalisation en utilisant des machines telles que les
ordinateurs, les mini-ordinateurs ou les micro-ordinateur (PC)
7
Statistique Descriptives
2.1 – INTRODUCTION
x , x , x ,.... x ........, x
1 2 3 i p i=1àp
Exemple:
Supposons que l'on veut faire une étude statistique sur les 50 notes attribuées par un jury à un
examen. On dispose pour cette étude de la liste des notes obtenues :
Echantillon de données
représentatif de lui même
Etant donné que la statistique descriptive ne fait de distinction entre échantillon et population
Pour résumer les données des observations, la statistique descriptive dispose de deux approches:
1 – Approche graphique
2 – Approche numérique
La collecte des 50 notes, nous permet de former deux types de séries, tel que les résultats seront
inscrits dans trois types de tableaux
2,14,10,16,20,19,7,5,13,14,6,9,16,13,12,3,7,8,18,12,4,8,15,10,8,11,13,9,9,13,5,8,14,5,11,12,2,1,7,1,6,12,
3,11,19,17,18,3,0,4.
Cours de statistique 2
2.2.2 – Tableau ordonné
Il ne contient que les données brutes triées par ordre croissant des observations recueillies. Si on trie
cet échantillon, on obtient une série ordonnée:
0,1,1,2,2,3,3,3,4,4,5,5,5,6,6,7,7,7,8,8,8,8,9,9,9,10,10,11,11,11,12,12,12,12,13,13,13,13,14,14,14,15,16,
16,17,18,18,19,19,20
2.2.3.1 - Effectif
Note attribuée [Xi] Effectif [ni] Effectif cumulée [Ni] Fréquence [fi] Fréquence cumulée [Fi]
0 1 1 0,02 0,02
1 2 3 0,04 0,06
2 2 5 0,04 0,1
3 3 8 0,06 0,16
4 2 10 0,04 0,2
5 3 13 0,06 0,26
6 2 15 0,04 0,3
7 3 18 0,06 0,36
8 4 22 0,08 0,44
9 3 25 0,06 0,5
10 2 27 0,04 0,54
11 3 30 0,06 0,6
12 4 34 0,08 0,68
13 4 38 0,08 0,76
14 3 41 0,06 0,82
15 1 42 0,02 0,84
16 2 44 0,04 0,88
17 1 45 0,02 0,9
18 2 47 0,04 0,94
19 2 49 0,04 0,98
20 1 50 0,02 1
50 567 1
Cours de statistique 4
TABLEAU
Cours de statistique 5
(10 000 – 15 000) 15
15 000 et + 4
TOTAL 311
4° - Tableau à 2D
Exp: répartition des employés selon leur "situation familiale" et leur" nombre d'enfants".
Nombre Situation familiale
d'enfants Mariés Célibataires Veufs Divorcés TOTAL
0 7 15 10 17 49
1 44 42 2 9 97
2 64 37 3 12 106
3 20 2 10 10 42
4 10 0 2 1 13
5 2 0 1 0 3
6 et + 1 0 0 0 1
TOTAL 138 96 28 49 311
5° - Tableau 3D
Exp: répartition des employés d'une entreprise selon leur " situation familiale", leur "nombre
d'enfant" et leur "sexe".
Cours de statistique 6
Fig 1 : Courbe Fig 2 : Histogramme
28 % 11 %
5%
28%
24 %
9%
13 %
10 % 10 %
24 %
9%
5%
11 % 13 %
Cours de statistique 7
Fig 5 : Diagramme à bande Fig 6 : Diagramme à secteur
2.3 – APPROCHE NUMERIQUE DE LA STATISTIQUE DESCRIPTIVE
Dans l'approche numérique de réduction des données, les traitements statistiques d'une population et
des échantillons, se fera à travers deux types de caractéristiques :
Les caractéristiques de tendance centrale (position): moyenne, mode, médiane, quantiles,……
les caractéristiques de variabilité, dispersion, risque: écart-type, variance, étendue,…..
Si à chaque valeur x i ne correspond qu’une seule observation ni dans ce cas, on calcule la moyenne
arithmétique simple:
p
xi
p
ou bien
x i
x i 1
p x i 1
n i
i
N
n x
p
n .x i i i i
x i 1
p
ou bien x i 1
n i
i
N
La moyenne géométrique doit être utilisée lorsqu’on désire calculer une moyenne de taux de
variations observés au cours de périodes de temps successives. Elle peut être ainsi interprétée comme le
taux de variation constant au cours de ces périodes équivalant aux divers taux observés en réalité.
Cours de statistique 8
a - Moyenne géométrique simple :
G p
x1 x2 ....... xi ........ x p
ou, en utilisant les logarithmes: p
log x i
G i 1
N
Exemple:
Une entreprise exportatrice a vu son chiffre d’affaires vers l'étranger progresser pendant les quatre
dernières années de 25%,18% ,28%,13%. .La moyenne géométrique des taux de croissance est:
n log x i i
Pour le calcul, il est préférable d’utiliser les logarithmes: log G 11
p N
avec: N n
i 1
i
2.3.1.3 – Le mode [ Mo ]
On appelle le mode Mo d’une distribution statistique, la valeur de la variable correspondant au
plus grand effectif. C’est donc aussi la valeur que l’on rencontre le plus souvent et la plus probable. la
série 1,2,2,3,4,4,4,5,5,6,7,7, le mode est 4 puisque c’est cette valeur qui apparaît le plus souvent
60 Série1
fréquence maximale. Dans l'exemple, la 41
40
classe modale est l’intervalle [6 000 - 20
15
7000]. 0
Cours de statistique (5000 - (6000 - (7000 - (8000 - 10 (10 000 - 9
6000) 7000) 8000) 000) 15 000)
Salaires
2.3.1.4 – La médiane [Me]
1°- Définition
On appelle la médiane Me, la valeur du caractère qui partage la distribution d’une série statistique
en deux parties égales. C’est donc la valeur de la variable pour laquelle la distribution des valeurs qui lui
sont supérieures est égale à la distribution des valeurs qui lui sont inférieures.
Du point de vue géométrique, la médiane est l'abscisse du point divisant en deux parties égales la
surface limitée par la courbe F(x) et l'axe des abscisses.
F(x) F(x)
S1 S2
x
0 Me
2° - Calcul de la médiane
a - Variable discrète
La médiane se calcule à partir des fréquences cumulées. Nombre d’enfants Fréquences cumulées
Nombre d'enfants Effectif (ni) Fréquence (fi) Effectif cumulé (Ni) Fréquence cumulée (Fi)
0 49 0.16 49 0.16
1 97 0.31 146 0.47
2 106 0.34 252 0.81
3 42 0.14 294 0.95
4 13 0.04 307 0.99
5 3 0.01 310 1.00
6 et + 1 0 311 1.00
TOTAL 311 1.00
La fréquence cumulée 0,5 qui correspond au taux de 50%, apparaît entre deux lignes du tableau
ligne. La médiane correspond à la ligne du bas. Ici, la médiane est donc égale à 2.
Salaires (Xi) Effectif (ni) Fréquence (fi) Effectif cumulé (Ni) Fréquence cumulée (Fi)
[5000 – 6000[ 63 0.21 63 156 0.21 0.5
[6000 – 7000[ 107 0.34 170 0.55
[7000 – 8000[ 81 0.26 251 0.81
[8000 – 10 000[ 41 0.13 292 0.94
[10 000 – 15 000[ 15 0.05 307 0.09
15 000 et + 4 0.01 311 1.00
TOTAL 311 1.00
A1 C1 B1
Ni
63 156 170
0
A2 C2 B2
Xi
6000 ? 7000
0
Classe médiane
Valeur de la médiane Me
Cette détermination graphique s’effectue à partir des fréquences ou des effectifs cumulés.
Lorsque, comme ici, c’est la solution des fréquences cumulées qui est choisie, il suffit de repérer les 50%
sur l’axe des ordonnées et d’effectuer une projection sur l’axe des abscisses. On confirme ainsi les
résultats de l’interpolation linéaire.
120 6800
Fréquences cumulées
100 99 100
94
80 81
60 55
50%
40
20 20
0 0
5 000 - 6000 - 7000 - 8000 - 10 000 - 15 000 -
0 -5000
6000 7000 8000 10000 15000 20000
Cours de statistique Série1 0 20 55 81 94 99 100 11
Salaires
2.3.2 – Caractéristiques de dispersion
Car ce qui différencié ces deux séries, c’est leur dispersion. On peut mesurer cette dispersion par
des écarts (à la moyenne, par exemple).
" Etendue ou écart de variation d’une série statistique mesure la différence entre la plus petite et la
plus grande valeur de la variable étudiée. C’est donc une manière très simple de mesurer la dispersion
d’une série".
Dans la première série ci-dessus, l’écart de variation est égal à 10, dans la deuxième, il est égal à 2.
L’écart absolu moyen est la moyenne arithmétique des écarts à la moyenne. Ces écarts doivent
être pris pour leur valeur absolue : xi x , sinon le résultat serait systématiquement nul.
p
n
p
n i xi x Avec: N
i 1
i
e i 1
N
1° - Variables discrètes :
ni Xi X Xi X ni X i X e
1 8 7.75 62
2 10 5.75 57.5
3 11 4.75 52.25
4 15 0.75 11.25
5 18 15.75 2.25 40.5 73.18
6 20 4.25 85
7 21 5.25 110.25
8 23 7.25 166.75
n i 8 X i 126 n i X i X 585.5
p
x x
i 1
i N 126 / 8 15.75
Cours de statistique 12
2° - variables continues
Calculer l’écart absolu moyen de la série suivante: 5500, 6500, 7500, 9000,12 500, 17 500
Dans le cas des séries statistiques à variables continues, on passe par deux étapes:
L’écart type, comme l’écart absolu moyen, est une moyenne d’écarts. Mais pour éviter les valeurs
négatives, on utilise cette fois les élévations au carré et non plus les valeurs absolues.
p
n (x i i x)2
La variance: V ( X ) i 1
L'écart type: X V (x)
N
Classes Centre classes xi Effectif ni Effectif ni Xi Xi X ni ( X i X ) 2
[5000 – 6000[ 5500 63 346 500 -1 818 208 297 947
[6000-7000[ 6500 107 695 500 -818.3 71 653 692
[7000-8000[ 7500 81 607 500 181.6 2 673 382
[8000 –10 000[ 9000 41 369 000 1 661.6 115 948 852
[10000-15000[ 12 500 15 187 500 5 181.6 402 745 874
[150000-20000[ 17 500 4 70 000 10 181.6 414 665 780
311 2 2726 000 1 215 985 530
Cours de statistique 13