Академический Документы
Профессиональный Документы
Культура Документы
NOTIONS DE LA STATISTIQUE
DESCRIPTIVE
17/02/2018
17/02/2018
1
Variable (caractère): caractéristique des éléments que l’on désire étudier
Modalité: les différentes valeurs que peuvent prendre une variable
Observations: l’ensemble des mesures collectées pour un élément
particulier
Un caractère est une propriété des individus d’une population, que l’on
décide d’observer et analyser.
Dans une même étude statistique, on pourra considérer plusieurs
caractères simultanément sur une même population.
On distingue deux types de caractères :
Les caractères qualitatifs: lorsqu’il prend des modalités non numériques,
il est dans ce cas nominal ou ordinal.
Les caractères quantitatifs: quand les modalités sont numériques.
- Si le caractère ne prend qu’un nombre fini de valeurs, on dira de
plus qu’il est discret (nombre d’enfants par famille, nombre de jours de
retard d’un étudiant…).
- S’il peut prendre toute valeur dans un intervalle donné, il sera dit
continu (tailles, poids, durée…).
17/02/2018
SCHEMA RECAPITULATIF
17/02/2018
2
Dans le cas d’un caractère qualitatif ou quantitatif discret, On
recense les k différentes modalités prises par la variable.
Pour chaque modalité, on compte le nombre d’individus
pour les quels la variable prend cette modalité. On appelle
ce nombre effectif de la modalité et on note ni l’effectif de
la i-ème modalité.
La somme des effectifs des différentes modalités doit être égale
à l’effectif totale, k n n n .... n N
i 1
i 1 2 k
Exemple 1:
Dans une école d’ingénieurs, on a voulu connaitre les préférences des étudiants par rapport
Aux filières qu’ils voudront choisir à la fin du 1er cycle, l’enquête a donné les résultats
Suivants:
Modalités Effectifs Fréquences %
GCI 60 0.200 20,0
GIA 160 0,533 53,3
GMA 40 0,133 13,3
GLA 40 0,133 13,3
Total : 300 1 100
Diagramme circulaire ou camembert Diagramme en barres
180
GMAA GCI 160
160
13%
20%
140
GLA 120
13% 100
80
60
60
40 40
40
20
GIA 0
54%
GCI
Bleu GIA
Noir GMA
Noisette GLA
Vert
3
Exemple 2:
On a questionné les étudiants de la classe 2AP2 sur le nombre des modules estimés
Par eux les plus difficiles dans ces deux années préparatoires, les réponses recensés
sont les suivantes:
2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 7 7 8
Modalité Effectif Fréquence
(fréquence relative
absolue) (proportion)
Nombre de ni fi = (ni / n)
chambres
2 6 0,0741
3 25 0,3086
4 29 0,3580
5 10 0,1235
6 8 0,0988
7 2 0,0247
8 1 0,0123
Total ni = n = 81 1
0,3
fréquence relative
20
E ffec tif
0,2
10
0,1
0
0
2 3 4 5 6 7 8
2 3 4 5 6 7 8
Nombre desde
Nombre modules
chambres Nombre dedes
chambres
Nombre modules
17/02/2018
4
Variable quantitative Continue
Quand le nombre de modalités pour une variable statistique est assez grand,
on serait ramené des fois à regrouper les données dans des intervalles.
Les intervalles ou les classes sont toujours adjacentes recouvrant l'ensemble
des valeurs : chaque individu appartient à une classe et une seule.
Quel que soit le type de variable on a finalement, pour toute classe [ ei , ei+1 [,
un effectif ni , tel que k
n n1 n2 .... nk N
i
i 1 n
et de fréquence (relative) f i la valeur f i i ,que l'on peut aussi exprimer en
pourcentage par f x 100, c'est le pourcentage N d'individus pour lesquels la
i
variable a pris une valeur de la classe [ ei , ei+1 [.
o On note ci le centre de la classe [ ei , ei+1 [
ei ei 1
ci
2
Exemple 3:
Voici en ordre croissant la note sur 1000 obtenue par 81 élèves
bacheliers dans un test en culture générale:
17/02/2018
5
• Regroupons d’abord ces données dans des classes
de même amplitude
Classe des valeurs Effectif Fréquence
totales relative (%)
[ 0 ; 50[ 10 12,34%
[50 ; 100[ 28 34,56%
[100 ; 150[ 15 18,51%
[150 ; 200[ 11 13,58%
[200 ; 250[ 2 2,46%
[250 ; 300[ 2 2,46%
[300 ; 350[ 3 3,7%
[350 ; 400[ 4 4,93%
[400 ; 450[ 2 2,46%
[450 ; 500[ 0 0%
[500 ; 550[ 2 2,46%
[550 ; 600[ 0 0%
[600 ; 650[ 0 0%
[650 ; 700[ 0 0%
[700 ; 750[ 0 0%
[750 ; 800[ 1 1,23%
[800 ; 850[ 0 0%
[850 ; 900[ 0 0%
[900 ; 950[ 0 0%
[950 ; 1000[ 1 1,23%
Total 81 100%
Histogramme pour
Histogramme pour la superficie
la note desleterrains
obtenue dans test
30 28
20
15
Effectif
11
10
10
4
3
2 2 2 2
1 1
0
0 1 2 3 4 5 6 7 8 9 10
Acres
17/02/2018
6
Pour éliminer les classes dont l’effectif est nul, on passe à des
classes d’amplitudes différentes:
Classe des valeurs Effectif Fréquence
totales relative (%)
[ 0 ; 50[ 10 12,34%
[50 ; 100[ 28 34,56%
[100 ; 150[ 15 18,51%
[150 ; 200[ 11 13,58%
[200 ; 300[ 4 2,46%
[300 ; 400[ 7 8,46% Histogramme avec classes élargies:
[400 ; 500[ 2 2,46% exemple de ce qu’il ne faut pas faire!!
[500 ; 600[ 2 2,46%
[600 ; 1000[ 2 2,46% Histogramme pour lapour
Histogramme note obtenue des
la superficie dans le test
terrains
Total 81 100% 30 28
20
15
Effec tif
11
10
10
7
4
2 2 2
0
0 1 2 3 4 5 6 7 8 9 10
Acres
Histogramme pour
Histogramme la note
pour obtenuedes
la superficie dans le test
terrains
0,7
Échelle mathématique
0,6
0,5
0,4
0,3
0,2
0,1
0,0
0 1 2 3 4 5 6 7 8 9 10
Acres
7
L'effectif cumulé croissant (ECC) d'une valeur (ou d'une classe)
est la somme des effectifs de cette valeur (ou de cette classe) et des
effectifs (ou des classes) précédentes.
Effectif 3 7 16 13 5 3 2 1
Effectif cumulé 3 10 26 39 44 47 49 50
croissant
Effectif cumulé 50 47 40 24 11 6 3 1
décroissant
Fréquence cumulée 6% 20% 52% 78% 88% 94% 98% 100
croissante %
Fréquence cumulée 100 94% 80% 48% 22% 12% 6% 2%
décroissante %
8
Nous allons maintenant étudier les données relatives à la taille des
soldats incorporés dans un régiment.
Tailles des 1,50 ;1,60 1,60 ;1,70 1,70 ;1,80 1,80 ;1,90 1,90 ;2,00
soldats
Effectif 4 25 40 28 3
E.C.D 100 96 71 31 3
9
LES PARAMETRES STATISTIQUES
Les paramètres statistiques ou les indicateurs statistiques sont
des valeurs calculées pour les caractères quantitatifs, elles ont pour
but de résumer, à partir de quelques nombres clés, l'essentiel de
l'information et de permettre l’interprétation des données
statistiques.
Les paramètres les plus utilisées sont ceux de position et de
dispersion:
Les indicateurs de position les plus utilisées sont ceux de tendance
centrale car ils représentent une valeur numérique autour de
laquelle les observations sont réparties.
Les indicateurs de dispersion permettent de nous renseigner sur la
manière dont les différentes observations sont réparties autour des
différentes caractéristiques de tendance centrale.
10
Considérons la série statistique (xi, 1≤ i ≤ n) regroupée dans m
classes ei , ei 1 dont ci est le centre. On note ni les effectifs
correspondants aux mêmes classes. La moyenne arithmétique dans ce
cas serait égale à: 1 m
x ni ci
n i 1
Si fi est la fréquence correspondante à la classe ei , ei 1 , la
moyenne arithmétique est calculée par:
m
x f i ci Abs Effectif Classes Effectif
i 1
Exemple: Un chef d’entreprise 5 3 [2000, 4000[ 20
11
Supposons que [ei , ei 1[ est la classe modale et ai ei 1 ei
l’amplitude de la classe modale.
i ni ni 1 : la différence entre l’effectif de la classe modale et la
classe qui lui est inférieure.
s ni ni 1: la différence entre l’effectif de la classe modale et la
classe qui lui est supérieure. La valeur modale est donnée
approximativement par la formule suivante:
i
M o ei ai
i s
Si les amplitudes sont inégales : on définit la classe ei , ei 1
modale comme étant la classe correspondant à la densité ou l’effectif
corrigé le plus élevé. La valeur modale est calculée dans ce cas
à l’aide des effectifs corrigés ou des densités.
ic
M o ei ai ; i c nic ni 1c
i c s c
• Si l’effectif total est paire, on n’a pas une valeur médiane mais un
intervalle médian et on prend comme valeur médiane le centre de
cette classe: [ x n , x n 1[ càd
2 2
xn x n
1
2 2
Me
2
12
Cas d’une variable continue: Pour déterminer la médiane on fait
L’interpolation dans la classe médiane. Considérons pour cela la série statistique
Suivante:
1
[ei – ei+1[ Fcc
0,9
0,8
[0-3[ 0,391 0,7
0,6
M [3-5[ 0,680 0,5 0,5 0,5
0,4
[ 5 - 10 [ 0,920 0,3
0,2
[30 - 50 [ 1
De manière générale si a et b sont les
M-3 0,5-0,391 bornes de la classe contenant la médiane,
F(a) et F(b) les valeurs de la fréquence
5-3 0,680-0,391
0,5 0,391 cumulée croissante en a et b, alors
D'où M 3 5 3 3,22
0,680 0,391
0,5 F (a )
Me a (b a )
F ( b) F ( a )
13
Modalités 7 11 13 17 19
n / 4 39 / 4 9,75 i 10 et Q1 x10 7
Effectifs 11 12 7 4 5
ECC 11 23 30 34 39 3n / 4 29,25 i 30 et Q3 x30 13
Effectifs 6 10 8 8 6
Fréquence 15,78% 26,31% 21,05% 21,05% 15,78%
FCC 15,78% 42,09% 63,14% 84,19% 100%
Q1 10 0 , 25 0 ,1578
18 10 0 , 4209 0 ,1578
0 , 25 0 ,1578
Q1 10 (18 10 ) 12 ,8
0 , 4209 0 ,1578
PARAMETRES DE DISPERSION
L’étendu d’une série statistique est la différence entre la plus
grande valeur de la série et la plus petite. Par nature très sensible
aux valeurs extrêmes.
Exemple:
S1: 3 4 8 9 12 15 17 21 39 E1=36
S2: 1 4 8 9 12 15 17 21 52 E2=51
L’Ecart absolu Moyen: On calcule la moyenne des valeurs
absolues des écarts à la moyenne.
1 n
La variance: e xi x
n i 1
Soit X une variable statistique définie par:
X : ( x1 , x2 , x3 ,......., xn ) ( x1 , x2 , x3 ,......., xn )
La variance observée est la moyenne arithmétique des carrés des
écarts par rapport à la moyenne: 1
x x
2
V (X ) i
n i 17/02/2018
14
On simplifie la formule de la variance dans le cas observé pour
obtenir ce qu’on appelle Formule de Koenig :
i ni xi 2 1 2 2
V(X)
1
n i
i
x x
2
1
n i
x2
i i 2 x x x2
1
i
n i
x 2
2 x
n
x xi x
n i
2
xi2 x
L’écart type est la racine carrée de la variance: X V (X )
• La variance et l’écart type sont toujours positifs.
• Considérons la distribution Y aX b , donc V (Y ) a 2V ( X )
et Y a X .
Coefficient de variation: Le coefficient de variation est un
coefficient sans unité défini par: C.V X
x
• Plus ce coefficient est proche de 0 plus la série statistique est
homogène. Généralement on considère qu’une série est dispersée une
fois le coefficient de variation dépasse 0,15.
15
On fait l’étude de deux caractères X et Y sur une population de n
individus.
Les modalités de X et Y sont:
X: x1, x2, …, xi, …, xk
Y: y1, y2, …, yj, …, yr
L’effectif de la classe (xi, yj) est noté : nij
nij est le nombre d’individu ayant la modalité xi et la modalité yj.
L’effectif total est : n nij
i j
Y y1 y2 …. yj …. yr Marge
X
x1 n11 n12 n1j n1r n1.
x2 n21
16
n = 17500 salariés jeunes
X : âge
Y(x1000 Dh) : salaire
Y [5, 6[ [6, 7[ [7, 8[ ni•
X
[20, 22[ 1200 500 100 1800
[22, 24[ 2500 3500 600 6600
[24, 26[ 1800 5000 2300 9100
n•j 5500 9000 3000 17500
17
Exemple
Un responsable de ventes de magasin analyse l'évolution
de son chiffre d'affaires sur la dernière période. Il relève
pour cela le montant des frais de publicité engagés sur la
même période. Il dresse le tableau suivant (les montants
sont exprimés en centaines d'euros)
Frais de 10 6 6,5 11,5 11 8 7 6,5 11 9
publicité Xi
Chiffre 250 220 228 262 268 244 240 222 259 246
d'affaires yi
280
270
260
250
C.A
240 C.A
230
220
210
200
5 6 7 8 9 10 11 12
F.B
18
95
90
Poids
Nom Taille xi (cm) Poids yi (kg)
85
ALI 175 73
80
AHMED 168 56
75
….. ….. …..
SALMA 185 87 70
65
60
55
50
Taille
150 160 170 180 190 200
19
DEFINITION DE LA COVARIANCE:
1 n
Cov x,y = x i -x y i -y
n i=1
On simplifie cette formule pour retrouver la suivante:
Cov ( x , y ) xy x y
Propriétés :
Cov x,y 0 x et y varient dans le même sens
Chiffre 250 220 228 262 268 244 240 222 259 246
d'affaires Y
243,9
yi
XiYi 2500 1320 1428 3013 2948 1952 1680 1443 2849 2214 XY
2140,1
COV(X,Y)=30,36
20
MESURE DE L’INFLUENCE MUTUELLE DE DEUX VARIABLES
STATISTIQUES (Corrélation linéaire)
cov(x,y)
Corrélation linéaire: ρ =
σ(x) σ(y)
Propriétés:
1 ρ 1
ρ = 1 si a > 0
y=ax+b
ρ = -1 si a < 0
95
90 y = Poids
85
80
75
70
65
60
55
50
x = Taille
150 160 170 180 190 200
21
95
90 y = Poids
85
80
75
70
65
60
55
50
x = Taille
150 160 170 180 190 200
« au mieux »
n n
2
2
Minimiser S = ei Minimiser S' = e'i
i=1 i=1
95 95
90
y = Poids 90
y = Poids
85 85
80 80
e'i
75 ei 75
70 70
65 65
60 60
55 55
50
x = Taille 50
x = Taille
150 160 170 180 190 200 150 160 170 180 190 200
22
95
90
85
y = Poids
80
y = f(x) = ax + b axi+b
65
ei = |yi-axi-b|
60
55
50
150 155 160 165 170 175 180
x185= Taille
190
xi
n n
2 2
La droite de régression linéaire de y en x, notée Dy/x , minimise S = e i=1
i = y -ax -b
i=1
i i
x -x y -y
i=1
i i
Cov x,y b = y - ax
a= n
=
2 V(x)
x -x
i=1
i Dy/x passe par le point moyen x , y
F.B
23