Академический Документы
Профессиональный Документы
Культура Документы
Dr. KHALFAOUI S.
Objectif
Ensembles de méthodes dont le but est de
présenter les données pour que l'on puisse en
prendre connaissance facilement.
Cela peut concerner :
une variable à la fois : statistique à une dimension,
deux variables à la fois : statistique à deux
dimensions,
plus de deux variables à la fois : statistique
multidimensionnelle.
Objectif
combien d'individus ?
combien de variables ?
Exemple 2 : Un contrôleur doit vérifier le bon
fonctionnement d'une chaîne d'embouteillage.
On considère que le remplissage est correct
si le contenu des bouteilles se situe entre 74
cl et 76 cl.
Il note exactement le contenu de 100
bouteilles testées (en cl) :
74.3 75.2 73 75 75.6 ....
Il s'agit d'une série statistique brute
résultant de la mesure de la variable (ou
caractère) ……..sur les individus (ou
unités statistiques)…..… ?
individus ?
variables ?
Notons que la statistique descriptive
traite des propriétés des populations,
plus que de celles d'individus
particuliers. Ainsi pour la population de
100 bouteilles, on s'intéressera à la
proportion de bouteilles trop ou pas
assez remplies, et non au fait que la
10ème bouteille testée était ou non bien
remplie.
En résumé la statistique descriptive
s'applique au cas où l'on dispose
des valeurs prises par une ou
plusieurs variables statistiques sur
un ensemble d'individus, la
population statistique.
Les différents aspects de la
statistique descriptive
La Statistique Descriptive est
l'ensemble des méthodes et techniques
permettant de présenter, de décrire, de
résumer, des données nombreuses et
variées.
Il faut préciser d'abord quel est
l'ensemble étudié, appelé population
statistique, dont les éléments sont des
individus ou unités statistiques.
Chaque individu est décrit par une ou
plusieurs variables, ou caractères
statistiques.
Chaque variable peut être, selon le cas
1. Quantitative : ses valeurs sont des
nombres exprimant une quantité,
sur lesquels les opérations
arithmétiques (somme, etc...) ont un
sens.
La variable peut alors être discrète ou
continue selon la nature de
l'ensemble des valeurs qu'elle est
susceptible de prendre (valeurs
isolées ou intervalle).
Exemples
Taille
Chiffre d’affaire
Nombre d’enfants
2. Qualitative :
ses valeurs sont
des modalités, ou catégories,
exprimées sous forme littérale
ou par un codage numérique.
Exemple : taille de vêtement :
…. …. …. …. ….
Le nombre d'individus étant généralement
grand, voire très grand, une telle série brute
est difficilement lisible et interprétable. Il
est indispensable de la résumer.
Modalités Effectifs
Marié 80
Célibataire 30
Veuf 20
Divorcé 20
On notera x1, x2, ..., xk les différentes
modalités, et n1, n2, ... , nk les effectifs
associés.
Dans le tableau ci-dessus, x1 = "marié",
n1 =
k=
La somme des effectifs vaut :
La variable que nous venons de voir
est…
On aurait pu tout aussi bien présenter les résultats
sous la forme ci-dessus, par exemple.
Modalité Effectif
Célibataire 30
Marié 80
Divorcé 20
Veuf 20
Par contre, s'il s'agit d'une variable ordinale, les
modalités sont toujours présentées dans l'ordre :
x1 x2 .... xk , comme dans l'exemple ci-dessous.
effectif total
Pour ce qui est des variables continues, on
peut faire de même. Voyons l'exemple
d'une série brute de 60 valeurs du CA
mensuelle d’une entreprise (en 1000dh), et
le tableau des effectifs obtenus.
Marié 80
Divorcé 20
Veuf 20
2 23 0.2396 23.96
3 24 0.2500 25.00
4 18 0.1875 18.75
5 9 0.0938 9.38
6 6 0.0625 6.25
Total : 96 1 100
Combien y-a-t-il eu de jours où le nombre
d'appels a été inférieur ou égal à 2 ?
2 23 0.2396 23.96
3 24 0.2500 25.00
4 18 0.1875 18.75
5 9 0.0938 9.38
6 6 0.0625 6.25
Total : 96 1 100
Quelle est la proportion de jours où le
nombre d'appels a été supérieur ou égale
à 3?
2 23 0.2396 23.96
3 24 0.2500 25.00
4 18 0.1875 18.75
5 9 0.0938 9.38
6 6 0.0625 6.25
Total : 96 1 100
Plus généralement, si
{ (xi , ni ), i = 1, ..., K }
est la distribution observée d'une variable
discrète, n1 + n2 + ... + ni = Ni est le
nombre d'individus pour lesquels la
variable a été inférieure ou égale à xi..
On peut calculer Ni de proche en proche :
N1 = n1, N2 = N1 + n2, N3 = N2 + n3, etc ...
Les Ni sont les effectifs cumulés
croissants.
De même ni + ni+1 + ... + nk = N'i est le
nombre d'individus pour lesquels la
variable a été supérieure ou égale à xi.
Il peut se calculer de proche en proche :
N'k = nk , N'k-1 = nk + nk-1 ,
Les N'i sont les effectifs cumulés
décroissants.
On peut définir de même :
Fi = f1 + f2 + ... + fi , fréquences cumulées
croissantes obtenues de proche en proche
par Fi+1 = fi+1 + Fi
F'i = fi + fi+1 + ... + fk , fréquences cumulées
décroissantes obtenues de proche en
proche par F'i = F'i+1 + fi
Fi et F'i peuvent s'exprimer aussi en
pourcentage (en multipliant tout par 100).
Complétez le tableau :
Nombre Fréquence Fréquences cumulées Fréquences cumulées
d'appels en % croissantes décroissantes
0 2.08 2.08
4 18.75 84.37
Divorcé 20
Veuf 20
Total : 150
Une représentation équivalente
consiste à construire un
diagrammes en barres : chaque
rectangle a une base constante et
une hauteur proportionnelle à
l'effectif ni ou à la fréquence fi .
CSP ni fi
Cadres 10 0,05
Agents de maîtrise 40 0,2
Employés 60 0,3
Ouvriers 90 0,45
90
80
70
60
50
40 Série1
30
20
10
0
cadres ouvriers employés ouvriers
Variable Quantitative
2 5 0.28
3 2 0.11
4 1 0.06
18 1
Cas d'une variable continue
On a vu que si l'on compte les effectifs
par valeur on risque souvent d'avoir un
trop grand nombre de valeurs
différentes, avec de trop faibles
effectifs, et qu'il convient de regrouper
les données en classes.
Variable quantitative
continue: représentée sous
forme d'un histogramme :
Un histogramme est une surface
composée d'une suite de rectangles
adjacents dont la hauteur de chacun est
proportionnelle à l'importance de
chaque classe, avec éventuellement une
correction des fréquences ou effectifs si
les amplitudes des classes ne sont pas
égales
Nombre de
personnes
Age (ans)
dans cette
tranche d'âge
20 à 30 100
30 à 40 150
40 à 50 90
50 à 65 20
La correction des effectifs ou des
fréquences se fait en trois
étapes :
Première étape: calcul des amplitudes
des classes ai.
Deuxième étape: Choix d'une
amplitude de base a (généralement
l'amplitude la plus petite) et calcul du
rapport amplitude de la classe sur
l’amplitude de base (ai/a)
Troisième étape : calcul des effectifs
corrigés : ni' = ni/(ai/a) ou fi'= fi/(ai/a)
Exemple : Considérons la
distribution suivante :
xi fi en %
[0 - 10[ 10
[10-20[ 15
[20 - 30[ 35
[30 - 50[ 30
[50 - 70[ 8 20 2 4
[70 - 80[ 2
La correction se fait de la
manière suivante :
xi fi en % ai ai/a fi en % corrigée
[0 - 10[ 10 10 1 10
[10 - 20[ 15 10 1 15
[20 - 30[ 35 10 1 35
[30 - 50[ 30 20 2 15
[50 - 70[ 8 20 2 4
[70 - 80[ 2 10 1 2
Total 100 - -
L’histogramme se présente
ainsi :
fi en %
xi
PARAMETRES STATISTIQUES
Les paramètres statistiques ont
pour but de résumer, à partir de
quelques nombres clés,
l'essentiel de l'information
relative à l'observation d'une
variable quantitative.
On définira plusieurs sortes de paramètres :
Certains, comme la moyenne, seront dits de
tendance centrale car ils représentent une
valeur numérique autour de laquelle les
observations sont réparties.
D'autres, par exemple, seront dits de
dispersion car ils permettent de résumer le
plus ou moins grand étalement des
observations de part et d'autre de la tendance
centrale.
I - Paramètres de tendance
centrale
La moyenne arithmétique d'une série statistique
(xi, ni) se calcule de la manière suivante :
2 0.2396 23.96
3 0.2500 25.00
4 0.1875 18.75
5 0.0938 9.38
6 0.0625 6.25
Total : 1 100
Classes de
Effectifs Centre de classe
valeur
[ e1 e2 [ n1 x1
[ e2 e3 [ n2 x2
[ ei ei+1 [ ni xi = ei + ei+1 / 2
[ eK eK+1 [ nK xK
Total : n
on calculera la moyenne par :
Une seule valeur (sur 100) peut donc beaucoup modifier la moyenne.
Entreprise A :
1/ 3 de femmes , salaire moyen 8000Dh
2/3 hommes, salaire moyen 11000
Dans l'entreprise A le salaire moyen est de : ….
Entreprise B :
2/ 3 de femmes , salaire moyen 9000Dh
1/3 hommes, salaire moyen 12000
Dans l'entreprise B le salaire moyen est de : ….
On constate donc que le salaire moyen
de B est égal à celui de A. Pourtant le
salaire moyen des hommes est
supérieur en B à celui des hommes en
A. Il en est de même pour les femmes.
D'où vient ce résultat paradoxal ?
Il s'agit d'un effet de structure : cela
vient du fait que les femmes (au salaire
plus bas) sont plus nombreuses en B
qu'en A.
Cela montre aussi qu'une moyenne ne
résume pas bien une population
hétérogène, comprenant des sous-
populations différentes vis à vis du
caractère étudié (ici le salaire).
La médiane : M
Si la série brute des valeurs observées est
triée par ordre croissant :
Détermination du mode :
0-5 3
5-10 10
10-50 20
50-100 1
Si la distribution présente 2 ou plus maxima
relatifs, on dit qu'elle est bimodale ou
plurimodale. Cela signifie que la population
est hétérogène du point de vue de la variable
observée.
1
( x)
n
ni( xi x)²
s'exprime, contrairement à la variance, dans la
même unité que les xi
Une variance (et donc un écart-type) est
d'autant plus faible que les données sont
groupées autour de
1
V ( x)
n
ni( xi x)²
1
V(x) nixi² x
2
n
Nombre d'enfants Nombre de
xi salariés ni
Calculons par 0 6
exemple l'écart-type 1 4
de la série "nombre 2 5
3 2
d'enfants par
4 1
famille" Total : n = 18
V(x) =
donc
= enfants
Le coefficient de variation :
x948
158
6
y168
28
6
Nombre de visites Nombre de (xi-x)² (yi-y)²
de prospection xi commandes yi
152 26 36 4
155 27 9 1
160 28 4 0
155 28 9 0
162 29 16 1
164 30 36 4
948 168 110 10
V(x) 1 (xix)²11018.33
N i 6
V(y) 1 (yiy)²101.67
N i 6
Pour avoir une idée sur la variation simultanée
de X et Y on peut utiliser la covariance :
yiaxib
cov( x, y )
a
V( x)
b y ax
Exemple : reprenons l’exemple précédent ou r=0.93
x 150 V ( x) 18.33
y 28
V ( y ) 1.67 cov(x, y) 31 5.17
6
cov( x ,y)5 .
17
a 0.
28 b y
a
x16
.
24
V (x) 18 .33
On aura donc l’équation suivante :
yi = 0.28xi – 16.24
avec
n : nombre de fois que l’expérience se répète
et
n A
f n A : fréquence de la réalisation de
n
l’événement A au cours des n répétitions.
Exemple :
Un professeur de statistique a enseigné
à 12848 personnes, parmi celles-ci 542
ont échoué
La probabilité d’échouer est
542/12848=0.0422
Les règles de calcul des
probabilités :
La probabilité de réalisation d’un événement
impossible est égale à 0.
La probabilité de réalisation d’un événement
certain est égale à 1.
Si A et B sont deux événements
incompatibles, alors la probabilité de la
réalisation simultanée des deux événements
est la somme des probabilité : P (A B) =
P(A) + P(B).
La probabilité de l’événement contraire de A
est 1-P(A)
Remarque :
Si A et b ne sont pas deux événements
compatible, alors :
P(A B) = P(A) +P(B)-P (A B)
Exemple :
On jette un dé une seule fois, soient les deux événements
suivants :
A : obtenir un chiffre pair
B : obtenir un chiffre inférieur à 3
Calculer p(A /B) ?
P(A) = 3/6
P(B) = 3/6
P(AB) = 1/6
P( A/B) = (1/6) / (3/6) = 1/3
xi 0 1 2 3 4 5
E X xi p i p E X p
V X x i2 p i x i p i 2 p p 2 p 1 p p .q V X p .q
Loi BINOMIALE
L a d is tr ib u tio n d e p r o b a b ilité d ’u n e V .A .
X e s t d ite d is tr ib u tio n d e P O IS S O N
s i e lle e s t d é fin ie p a r le s c o u p le s (x i , p i)
o ù x p r e n d le s v a le u r s 0 , 1 , 2 , … …
a v e c le s p r o b a b ilité s r e s p e c tiv e s d o n n é e s p a r :
x
P (X x) e
x!
est un par mètre réel positf. Notaion : X Po ( )
Caractéristiques
E( X )
V(X).
Conditions d’application de la loi
de Poisson :
Soit une approximation de la loi binomiale :
lorsque n est élevé et p très faible (proche de
0). Généralement l'approximation est valable
dés que n > 50 et p < 0.1
X ‑‑> B(n;p) ‑‑> Po(= n.p)
Soit une résultante d’un processus aléatoire
particulier , le processus de Poisson
La loi de POISSON s'applique en particulier dans le cas
d'événements se réalisant de façon aléatoire dans le temps ou
l'espace (pannes de machines, arrivées de clients à un comptoir, appels téléphoniques sur
une ligne ……). Si la réalisation d'un événement donné vérifie les
conditions suivantes :
Le nombre moyen de fois qu'un événement se réalise dans un
intervalle de temps ou dans un espace est connu ,
La probabilité que cet événement se produise dans un
intervalle de temps est proportionnelle à la longueur de cet
intervalle et ne dépend en aucun cas du nombre d'événements
qui se sont produits antérieurement,
La probabilité que l'événement se produise plus d'une fois
dans un intervalle de temps très court est négligeable
alors le nombre X d'événements réalisés au cours d'une
période de temps t est une variable de POISSON ayant pour
paramètre = p.t.
Exemple 1:
L’arrivé des clients à un supermarché
est considérée comme un processus de
POISSON. On sait que le nombre
moyen de clients arrivant par minute au
supermarché est égale à 2.
Calculer la probabilité pour que pendant
une période particulière de 5 minutes il
arrive 12 clients.
Exemple 2:
Une entreprise utilise des pots de
peinture dont 0.2% sont défectueux.
Quelle est la probabilité que sur les
1000 pots qu’il utilise , il en trouve un
défectueux?
La loi normale
On parle de loi normale ou de loi de
LAPLACE – GAUSS, lorsque l’on a affaire
à une variable aléatoire continue
dépendant d’un grand nombre de
causes indépendantes, dont les effets
s’additionnent et dont aucune n’est
prépondérante.
Exemple : une caractéristique de qualité, La durée d’un
trajet, les fluctuations accidentelles d’une grandeur ..
f(x)
x
m- m m+
Définition :
Une V.A continue X est dite distribuée
selon une loi normale si sa densité de
probabilité est :
f(x) 1 exp[ 1 ( x m)²]
2 2
Caractéristiques :
E(X) = m
V(X) = ²
Propriétés :
Le graphique de la fonction de densité de
probabilité de la Loi normale est une courbe
en cloche symétrique par rapport au point
d'abscisse x=m.
La droite verticale x=m divise l'aire comprise
entre la courbe et l'axe des abscisses en deux
parties égales P(X<m) = 0,5 et P(X>m) = 0,5
La grande partie des observations se situe
dans l'intervalle [m-3 ; m+3]
f(x)
x
m- m m+
m-2 m+2
68%
m-3 95% m+3
99%
Intervalles remarquables :
X m
z
Z X x X 345
167
On cherche p(X < 500)=
p(X < 500)= p(Z 500 345) p(Z 0.93) (0.93) 0.8238
167
Remarque :
la table ne donne que les valeurs
p(Z ≤ z) . Il se peut que l'on cherche
p(Z ≥z). Il faut utiliser alors les deux
propriétés suivantes:
- la surface totale de la courbe est égale à
1;
- la courbe est symétrique par rapport à
l'axe des ordonnées.
Exemple :
Le poids moyen de 500 colis est de
141kg et l’écart type est de 15kg, en
supposant que ces poids sont
normalement distribués, calculer le
nombre de colis pesant :
- Entre 120 et 155kg
- Plus de 185 kg
Intervalle de confiance :
Dans le paragraphe précédent on a cherché à calculer
la probabilité que les valeurs de la variable soient
comprises dans un intervalle donné.
O
ns
ai
tqu
e:Z
X
xdo
n
cZ
Xx
D
'o
ù X
xZ
Si on multiplie chaque membre des inégalités
dans l'expression p(‑z <Z < +z) par , on
peut écrire:
p(‑z <Z < +z) = p (‑ z < Z < + z ).
Si on ajoute à chaque membre, on trouve:
p ( x - z < x+Z < x + z ).
L'intervalle dans lequel X a 95 % de chances de se
trouver est :
x z,x z
Loi de KHI-DEUX
Définition
Soit X 1 , X 2 ,......, X v v variables aléatoires
indépendantes telles que :
i 1,2,3,.....,v X i 0;1. Si X X 2 X 2 ..... X v2
1 2
alors, X est une V.A continue soumise à
v
une loi de à v degrés de liberté 0;1 2
2 2
i 1
C a r a c t é r is t iq u e s
E 2 v V 2 2 . v
Introduction au test
d’indépendance du
-Calculer les effectifs théoriques (en cas d’indépendance)
-Calculer le 2
-Comparer la valeur calculé avec une valeur observée sur la
table de la loi du KHI-deux
Exemple :
On a interrogé des habitants de Casablanca, de Rabat
et Marrakech sur l’appréciation de 4 stations de radio.
Le croisement de ces deux variables donne le tableau
de contingence suivant :
Radio 1 18 18 11 47
Radio 2 12 15 18 45
Radio 3 32 20 23 75
Radio 4 15 12 6 32
n.j 77 65 58 200
Etape 1 : Calcul du tableau théorique
Considérons les marges qui correspondent aux distributions
des variables VILLE (77, 65, 58) et RADIO (47, 45, 75, 33).
n.j 77 65 58 200
Etape 2 : Calcul de la valeur du Khi2
Pour évaluer l’écart entre ce tableau et le
tableau précédent,
on calcule, pour chaque case :
Définition
X
Soit X 0 ;1 et Y v2 2 V.A indépedant es. Si T alors,
Y
v
T est une variable soumise à une loi de Student à v degré de libeté. On note T T v .
Caractéristiques :
v
E T 0 V T si v 2.
v2