Академический Документы
Профессиональный Документы
Культура Документы
Adil ELMARHOUM
Docteur Ingnieur
Prsident Fondateur de lIGA
STATISTIQUE DESCRIPTIVE
Cours et exercices
STATISTIQUE DESCRIPTIVE
Cours et exercices
A la mmoire de Myriam
M D
LIMINAIRE
On dit souvent que lon peut faire dire ce quon veut aux statistiques ! Cest bien connu,
entre le verre moiti plein et le verre moiti vide la diffrence dinterprtation nous
interpelle, mais avant de pouvoir interprter un ensemble de donnes, il est indispensable de
savoir comment reprsenter, dans un tableau ou par un graphique, une srie statistique,
comment en faire les premiers traitements et surtout comment prsenter les rsultats de ces
calculs.
Ce sont l, les objectifs de ce livre !
Le prsent livre est un livre de cours.
La mthode adopte peut se rsumer dans les deux points suivants :
-
Chaque chapitre est trait dune faon exhaustive pour englober tous les concepts et
toutes les dmonstrations des formules statistiques.
Il renferme, en plus, un ensemble dexemples dapplication avec solutions et surtout les
mthodes de rsolution.
A la fin de chaque chapitre, le lecteur trouvera, ensuite un ensemble dexercices
dapplication qui lui permettra de sentraner rsoudre des problmes classiques de
statistique.
Signalons, cet effet, que pour toutes les solutions proposes pour les exemples, nous avons
utilis lordinateur avec des logiciels de graphisme et de gestionnaires de tableaux et nous
encourageons vivement autant les tudiants que les professeurs den faire de mme pour tout
problme de statistique.
Cette utilisation de lordinateur nous amne avertir nos lecteurs que les rsultats des
calculs donns dans les tableaux et ailleurs diffreront de ceux quon pourrait obtenir grce
une calculette pour la simple raison que la puissance de prcision dun ordinateur ne peut
jamais tre gale par une calculette.
Ce livre est ainsi destin aux tudiants qui dsirent acqurir une certaine adresse la
rsolution de problmes de statistique descriptive et aux professeurs qui recherchent un
ensemble dexercices didactiques de statistique descriptive proposer la rflexion de leurs
tudiants.
Les auteurs
Casablanca, octobre 2006.
SOMMAIRE
INTRODUCTION
13
CH. 1.
1.1.
1.2.
1.3.
TABLEAUX ET GRAPHIQUES
Tableaux statistiques
Reprsentations graphiques
Exercices dapplication
15
15
28
37
CH. 2.
2.1.
2.2.
2.3.
2.4.
2.5.
2.6.
43
43
61
63
66
69
73
REGRESSION ET CORRELATION
Introduction
Rgression simple
Qualit de lajustement
Calcul des prvisions
Rgression non linaire simple
Rgression multiple
Exercices dapplication
78
78
82
86
87
93
104
111
113
113
113
130
137
138
142
153
CH. 5.
5.1.
5.2.
5.3.
5.4.
5.5.
5.6.
5.7.
5.8.
163
163
164
166
167
169
178
183
195
CH. 6.
6.1.
6.2.
6.3.
6.4.
6.5.
6.6.
6.7.
INDICES STATISTIQUES
Les indices lmentaires
Les indices synthtiques
Les indices synthtiques pondrs
Les principaux indices synthtiques
Lindice des prix la consommation
Indices boursiers
Exercices dapplication
205
205
211
216
217
220
233
234
BIBLIOGRAPHIE
246
Statistique descriptive
Introduction
INTRODUCTION
HISTORIQUE.
Lactivit qui consiste recueillir des donnes permettant de connatre la situation des tats
remonte la plus haute antiquit. On cite, dune part, lempereur chinois Yao, organisant le
recensement des productions agricoles en 2238 avant J.-C., et, dautre part, linstitution des
recensements de la population chez les gyptiens, en 1700 avant J.-C.
Au dbut du XVIe sicle, on commena tenir en Angleterre un registre des dcs et des
naissances. En France, les intendants Sully, Colbert et Vauban commandrent de nombreux
inventaires et enqutes. En 1662, l'Anglais John Graunt constata une certaine constance dans le
rapport du nombre de naissances fminines celui des naissances masculines.
On attribue la cration du terme statistique un professeur allemand Gttingen,
G. Achenwall (1719-1772), qui aurait en 1746 cr le mot Statistik, driv de la notion
Staatskunde.
Mais c'est seulement au XIXe sicle qu'on dcouvrit que la thorie des probabilits pouvait
constituer une aide prcieuse la mthode statistique. Ce rapprochement, dj peru par le
mathmaticien Laplace, fut l'uvre d'Adolphe Qutelet (1796-1874), statisticien belge qui fut
l'initiative du premier congrs international de statistiques en 1853. Ds lors, la statistique se
dveloppa dans la plupart des sciences.
Lapparition dune relle mthodologie statistique a t initie par des statisticiens anglais
autour de 1900. Cest--dire une thorie bien formalise du raisonnement qui permet, partir
des donnes observes, de tirer des conclusions sur les lois de probabilit des phnomnes.
Cest la statistique mathmatique, qui sest dveloppe entre 1900 et 1950 et dont les succs
ont impos, au cours de cette priode, une interprtation particulire du concept de probabilit.
Statistique descriptive
Introduction
partir des annes cinquante, lapparition de calculateurs puissants a donn naissance aux
mthodes danalyse des donnes multidimensionnelles, qui ont connu une grande vogue,
parfaitement justifie par leur efficacit. Ces mthodes permettent de dcrire, de classer et de
simplifier des donnes, les rsultats auxquels elles conduisent peuvent suggrer des lois, des
modles ou des explications des phnomnes.
Aujourd'hui, les statistiques sont considres comme des outils fiables qui peuvent fournir
une reprsentation exacte des valeurs de donnes conomiques, politiques, sociales,
psychologiques, biologiques ou physiques. Elles permettent de mettre en corrlation de telles
donnes et de les analyser. Le travail du statisticien ne se limite plus recueillir des donnes et
les prsenter sous forme de tableaux, mais il consiste principalement interprter
l'information.
DEFINITION.
Statistique, une discipline qui a pour objet la collecte, le traitement et l'analyse de donnes
numriques relatives un ensemble d'individus ou d'lments. Elle constitue un outil prcieux
pour l'exprimentation, la gestion des entreprises ou encore l'aide la dcision.
Une tude statistique se dcompose en quatre tapes : la dfinition et la collecte des
donnes, leur prsentation en tableaux, leur analyse et enfin la comparaison des rsultats avec
des lois statistiques connues.
1 - Dfinition et collecte des donnes
La matire premire des mthodes statistiques est constitue d'ensembles de nombres,
obtenus en comptant ou en mesurant des lments. Il est donc indispensable, lors de la collecte
de donnes statistiques, de s'assurer de l'exhaustivit et de la fiabilit des informations
recueillies.
Avant la collecte des donnes, on commence par dfinir la nature et la quantit des donnes
recueillir. Cette collecte s'effectue par recensement ou par sondage. Les donnes recueillies
peuvent faire l'objet d'une vrification partielle par mesure de scurit.
2 - Reprsentation des donnes
Les donnes recueillies sont classes et ranges dans des tableaux de faon permettre une
analyse et une interprtation directes. Ensuite, On peut reprsenter graphiquement les donnes
du tableau.
10
Statistique descriptive
Introduction
11
Statistique descriptive
Introduction
12
Statistique descriptive
PARTIE 1
STATISTIQUE DESCRIPTIVE A UNE VARIABLE
La statistique descriptive une variable est lensemble des mthodes qui permet dobtenir et
de faire un 1er traitement des informations relatives un caractre particulier dindividus dune
population donne.
La statistique descriptive a plusieurs objectifs :
- recueillir lensemble des donnes relatives un caractre particulier dindividus dune
population donne ;
- classer lensemble de ces donnes selon des sries statistiques afin de permettre den
faire :
* des reprsentations graphiques pour en visualiser lallure ;
* des traitements mathmatiques pour en dterminer certaines caractristiques.
Dans cette partie, nous axerons notre propos, dabord sur la dfinition des diffrents
concepts que nous venons dintroduire, ensuite sur les premiers traitements mathmatiques en
vue de la dtermination de certaines caractristiques.
13
Statistique descriptive
14
Statistique descriptive
1. Tableaux et graphiques
CHAPITRE 1
TABLEAUX ET GRAPHIQUES
Statistique descriptive
1. Tableaux et graphiques
Modalits
Rose, rouge, blanc, bleu,
Marocain, Franais, Suisse,
Mari, clibataire, veuf, divorc,
Oui, non.
16
Genres
Qualitatif
Qualitatif
Qualitatif
Qualitatif
Statistique descriptive
1. Tableaux et graphiques
k
ni n
i1
et
k
fi 1
i1
Exemples 7 : Dans un chantillon de 2000 habitants dune ville, en relve que 900
personnes sont maries, on a ainsi, pour la modalit habitants maris :
ni = 900 et fi = 900/2000 = 45 % ;
- Dans une bibliothque constitue de 5000 livres on relve que 120 livres ont pour thme
les mathmatiques, on a ainsi pour la modalit livres de mathmatiques :
ni = 120 et fi = 120/5000 = 2,4 %
- On considre lensemble des touristes qui visitent le Maroc pendant une priode donne et
on considre comme caractre la nationalit. Si lon relve quil y a 300 Franais parmi un
ensemble de 900 touristes on a pour la modalit nationalit franaise :
ni = 300 et fi = 300/900 = 33,33 %
Caractre quantitatif : Un caractre est dit quantitatif quand il peut tre mesur. Il peut
alors tre continu ou discret :
- il est discret dans le cas doprations de dnombrement ou de comptage ;
- il est continu dans le cas doprations de mesures.
Exemples 8 : Le tableau ci-dessous donne quelques exemples de caractres quantitatifs et
de modalits.
Caractres
Modalits
Genres
Poids
60,5 Kg; 59,2 Kg; 65,3 Kg;
Continu
Anciennet en entreprise
10 ans et 2 mois ; 9ans ;
Continu
Volume
1 m3 ; 2,3 m3 ; 3 m3 ;
Continu
Longueur
1 m ; 2,75 km ; 350 dm ;
Continu
Notation
10/20 ; 9,5/10 ;
Continu
Annes dtudes
2 ans ; 3 ans ; 6 ans ;
Discret
Nombre de frres et surs
1;2;3;
Discret
Nombre denfants
0;1;2;
Discret
17
Statistique descriptive
1. Tableaux et graphiques
Fi :
f
j 1
Effectifs concerns
ni
54
132
27
34
247
Unit statistique
Population
Caractre tudi
Type de caractre
:
:
:
:
Frquences relatives
fi
21.86%
53.44%
10.93%
13.77%
100%
Frquences relatives
cumules Fi
21.86%
75.30%
86.23%
100.00%
-
habitant de la ville ;
lensemble des habitants de la ville ;
le poids ;
variable statistique discrte. (dans le cas de lexemple).
Statistique descriptive
1. Tableaux et graphiques
xi
ni
fi
0
1
2
3
4
5
6
7
Total
50
100
200
150
120
160
130
90
1000
5%
10 %
20 %
15 %
12 %
16 %
13 %
9%
100 %
Unit statistique
Population
Caractre tudi
Type de caractre
Frquence
absolue
cumule
croissante
50
150
350
500
620
780
910
1000
:
:
:
:
Frquence
absolue
cumule
dcroissante
1000
950
850
650
500
380
220
90
-
Frquence
relative
cumule
croissante
5%
15 %
35 %
50 %
62 %
78 %
91 %
100 %
-
Frquence
relative
cumule
dcroissante
100 %
95 %
85 %
65 %
50 %
38 %
22 %
9%
-
Un commerant ;
lensemble des 1000 commerants ;
Nombre demploys ;
Variable statistique discrte.
Le nombre de commerants n'employant aucun employ est 50, ce qui reprsente 5 % des
commerants.
Les frquences absolues ou relatives cumules croissantes sont calcules en cumulant les
frquences absolues ou relatives du haut du tableau vers le bas. Elles permettent de rpondre
aux questions du genre : quel est le nombre ou la proportion au plus ?
Par contre, les frquences absolues ou relatives cumules dcroissantes sont calcules en
cumulant les frquences absolues ou relatives du bas du tableau vers le haut. Elles permettent
de rpondre aux questions du genre : quel est le nombre ou la proportion au moins (au
minimum ou plus de) ?
Le nombre de commerants employant au plus 5 employs (au maximum 5 employs ou
moins de 6 employs) est 780, ils reprsentent 78 % des commerants.
Le nombre de commerants employant au moins 3 employs (au minimum 3 employs ou
plus de 2 employs) est 650, ils reprsentent 65% des commerants.
19
Statistique descriptive
1. Tableaux et graphiques
Si le caractre est continu : [Ci ; Ci+1[ est lintervalle ou classe des modalits avec :
Ci et Ci+1 les bornes de la classe ;
ci : centre de la classe ;
ai : amplitude de la classe ;
di : densit de la classe.
ni : effectif de la classe i, nombre dindividus dont la modalit du caractre est
comprise entre Ci et Ci+1.
C i 1 C i
,
2
ci =
ai = Ci+1 Ci et
di = ni/ai
Fi :
f
j 1
ci
(en m)
[1,50 ; 1,60[
[1,60 ; 1,70[
[1,70 ; 1,80[
[1,80 ; 1,90[
Total
1.55
1.65
1.75
1.85
-
Effectifs
concerns
ni
35
42
53
39
169
Frquences
relatives
fi
20,71 %
24,85 %
31,36 %
23,08 %
100 %
Frquences
relatives cumules
Fi
20,71 %
45,56 %
76,92 %
100 %
-
Parmi les 169 personnes, 35 mesurent entre 1,50 m et moins de 1,60 m, ce qui reprsente
20,71 % de lensemble de lchantillon.
76,92 % de lchantillon mesurent moins de 1,80 m.
Le fait de remplacer la classe Ci ; Ci+1 par ci permet de faire des calculs car on ne sait pas
faire des calculs sur des intervalles.
Srie statistique : Une srie statistique est lensemble constitu des xi et ni. On parle aussi
de distribution statistique une seule variable, comme par exemple :
Tailles et effectifs ;
Situations matrimoniales et effectifs ;
Ages et effectifs.
Etc.
20
Statistique descriptive
1. Tableaux et graphiques
:
:
:
:
Effectifs
ni
5
14
20
40
18
15
8
120
On remplace chaque classe par le centre de cette classe, on obtient alors la srie quivalente
suivante :
Poids (kg)
Effectifs
Frquence relative
ci
ni
fi
57,5
5
4.17%
62,5
14
11.67%
67,5
20
16.67%
72,5
40
33.33%
77,5
18
15.00%
82,5
15
12.50%
87,5
8
6.67%
Total
120
100%
21
Statistique descriptive
1. Tableaux et graphiques
Exemple 13 : On considre la srie statistique relative aux notes obtenues dans une matire,
par les tudiants dune classe dcole :
Notes
Ci ; Ci+1
6 ; 8
8 ; 10
10 ; 12
12 ; 14
14 ; 16
Total
Unit statistique
Population
Caractre
Type de caractre
:
:
:
:
Effectifs
ni
2
6
12
7
3
30
Un tudiant ;
Lensemble des tudiants dune classe dcole
Note dtudiant
Variable statistique continue
On remplace chaque classe par le centre de cette classe, on obtient alors la srie quivalente
suivante :
Notes
ci
7
9
11
13
15
Total
Effectifs
xi
2
6
12
7
3
30
Frquences relatives
fi
6.67%
20%
40%
23.33%
10%
100%
Statistique descriptive
1. Tableaux et graphiques
:
:
:
:
Effectifs
ni
6
4
12
4
Un tudiant ;
Lensemble des tudiants dune classe dcole
Note dtudiant
Variable statistique continue
Dans cette srie, les amplitudes des diffrentes classes sont : 6 ; 2 ; 6 ; 4. Leur PGCD est 2.
On remplace chaque classe par plusieurs autres classes et on obtient alors la srie quivalente
suivante :
Notes
Ci ; Ci+1
[0 ; 2[
[2 ; 4[
[4 ; 6[
6 ; 8
8 ; 10
10 ; 12
12 ; 14
[14 ; 16
16 ; 18[
Effectifs
ni
2
2
2
4
4
4
4
2
2
23
Statistique descriptive
1. Tableaux et graphiques
On remplace, aprs cette opration, chaque classe par le centre de cette classe, on obtient
alors la srie quivalente suivante :
Notes
Ci ; Ci+1
[0 ; 2[
[2 ; 4[
[4 ; 6[
6 ; 8
8 ; 10
10 ; 12
12 ; 14
[14 ; 16
16 ; 18[
ci
1
3
5
7
9
11
13
15
17
Effectifs
ni
2
2
2
4
4
4
4
2
2
Remarque : Ainsi on peut considrer que toute srie statistique est donne, selon les
besoins du traitement numrique :
- Soit sous forme dune suite de classes [Ci ; Ci+1[et deffectifs ni.
- Soit sous forme dune suite de valeurs xi et deffectifs ni
Question 2 : Comment passer dune srie statistique relative un caractre discret ou
continu donne sous forme dune suite de valeurs xi une srie donne sous forme dune suite
de classes [Ci , Ci+1[ et deffectifs ni par classe ?
Pour ce faire, on utilise la rgle de STURGES donnant le nombre k de classes en fonction
du nombre n des donnes :
k = 1 + 3,322 log10 n
Ce calcul donne un nombre rel, on prend alors pour k le nombre entier trs proche du
rsultat de calcul de la formule prcdente.
Et tant ltendue E de toute la srie statistique, on dtermine e, tendue de chaque classe :
e = E / k avec E = xmax - xmin
xmax et xmin tant la valeur maximale et la valeur minimale prises par le caractre, les
diffrentes classes seront alors :
La borne infrieure de la premire classe C1 est gale xmin ou une valeur lgrement
infrieure xmin.
24
Statistique descriptive
1. Tableaux et graphiques
C1 ; C1+e
C1+e ; C1+2e
C1+2e ; C1+3e
C1+(k-1)e ; C1+ke
Exemple 15 : En prenant la taille comme caractre des habitants dune ville on a les
rsultats relatifs un chantillon de 169 habitants :
Tailles (en m)
xi
1.45
1.55
1.65
1.75
1.85
Total
Unit statistique
Population
Caractre
Type de caractre
:
:
:
:
Effectifs concerns
ni
5
30
42
53
39
169
N = 169
E = 1,85 1,45 = 0.40
25
Statistique descriptive
1. Tableaux et graphiques
84
79
65
78
78
62
80
67
Unit statistique
Population
Caractre
Type de caractre
75
88
75
82
89
67
73
73
:
:
:
:
82
73
87
75
61
97
57
81
68
60
74
94
75
78
88
72
90
93
62
77
95
85
78
63
62
71
95
69
60
76
62
76
88
59
78
74
79
65
76
75
76
85
63
68
83
71
53
85
93
75
72
60
71
75
74
77
Statistique descriptive
1. Tableaux et graphiques
ci
(1)
55
61
67
73
79
85
91
97
---
ni
(2)
2
12
10
19
16
9
7
5
80
Ni cr
(3)
2
14
24
43
59
68
75
80
---
Ni d
(4)
80
78
66
56
37
21
12
5
---
fi
(5)
2,5%
15%
12,5%
23,75%
20%
11,25%
8,75%
6,25%
100%
Fi cr
(6)
2,5%
17,5%
30%
53,75
73,75
85%
93,75%
100%
---
Fi d
(7)
100%
97,5%
82,5%
70%
46,25%
26,25%
15%
6,25%
---
Lgende du tableau :
- (1) : point central de la classe ;
- (2) : effectif de la classe, frquence absolue ;
- (3) : frquence absolue cumule croissante ;
- (4) : frquence absolue cumule dcroissante ;
- (5) : pourcentage de la classe, frquence relative ;
- (6) : frquence relative cumule croissante ;
- (7) : frquence relative cumule dcroissante.
Le nombre de personnes pesant entre 64 et moins de 70 kilogrammes est 10, ils reprsentent
12,5 % des personnes peses.
Le nombre de personnes pesant au moins 70 kilogrammes est 56, ils reprsentent 70 % des
personnes peses.
Le nombre de personnes pesant moins de 82 kilogrammes est 59, ils reprsentent 73,75 %
des personnes peses.
27
Statistique descriptive
1. Tableaux et graphiques
Pour rcapituler toute cette premire partie, donnons, dans un tableau synthtique, grce
des exemples, lensemble des concepts que nous avons introduits jusque l :
Population
Echantillon
30 lves tris
Caractres
-taille
-poids
-etc.
-notes
Modalits
- 1m65
- 65kg
- etc.
- 13,5
- math
Production dune
usine
-poids de lunit
-dimension de
lunit
- 8g
Effectifs
200
125
30
1500
- 37cm
Le tri ou le choix pour constituer un chantillon se fait selon des processus bien prcis.
1.2. REPRESENTATIONS GRAPHIQUES.
Il est trs courant, dans un premier traitement, pour bien visualiser lallure dune srie
statistique, de la reprsenter par un graphe. Cette reprsentation peut tre faite selon plusieurs
manires, en effet on peut citer les diffrentes reprsentations suivantes :
- le diagramme bandes ;
- le diagramme secteurs ;
- le diagramme btons ;
- lhistogramme des frquences simples ;
- le polygramme des frquences simples ;
- la courbe des frquences cumules.
Chaque type de reprsentation convient un type de caractre (qualitatif ou quantitatif,
quantitatif discret ou quantitatif continu) et un type de srie.
Nous donnons dans ce qui suit un ensemble de possibilits de reprsentations dune srie
statistique en indiquant, chaque fois, le choix du graphe adquat selon le type de caractre ou
de la srie ainsi que les raisons de ce choix.
1.2.1. Caractre qualitatif : Rappelons quun caractre qualitatif est un caractre quon ne
peut pas mesurer. Dans ce cas, deux types de reprsentations sont conseills :
Diagramme bandes :
Exemple 17 : On considre la srie statistique relative la situation familiale dun
chantillon de 130 personnes :
28
Statistique descriptive
1. Tableaux et graphiques
Situations familiales
Clibataires
Maris
Divorcs
Veufs
Total
xi
1
2
3
4
---
Effectifs concerns : ni
30
35
40
25
130
La reprsentation graphique dune telle srie peut tre trs bien faite par un diagramme
bandes.
45
40
Effectifs
35
30
25
20
15
10
5
0
clibataires
maris
divorcs
veufs
Modalits de la variable
Remarques : La largeur des bandes est quelconque mais identique pour toutes les bandes.
Seules les hauteurs des bandes indiquent les effectifs ou les frquences relatives.
La numrotation des classes de modalits de 1 4 est faite uniquement dans le but de
faciliter les reprsentations graphiques.
Diagramme secteurs :
Exemple 18 : On reprend lexemple 7 et lon considre la mme srie statistique relative
la situation familiale dun chantillon de 130 personnes pour laquelle nous avons converti les
effectifs en pourcentage :
29
Statistique descriptive
1. Tableaux et graphiques
Situations familiales
xi
Clibataires
Maris
Divorcs
Veufs
Total
1
2
3
4
---
Effectifs concerns : ni
Frquences relatives : fi
30 = 23%
35 = 27%
40 = 31%
25 = 19%
130 = 100%
La reprsentation graphique dune telle srie peut tre trs bien faite par un diagramme
secteurs.
veufs
19%
clibataires
23%
divorcs
31%
maris
27%
Remarque 1 : le mme caractre, situation familiale a pu tre reprsent par deux types de
diagrammes.
Remarque 2 : La surface de chaque secteur reprsente, en pourcentage, la frquence
relative de la modalit indique.
Le rayon du cercle est quelconque.
1.2.2. Caractre quantitatif discret : Rappelons quun caractre quantitatif est discret
dans le cas doprations de comptage, dans ce cas, plusieurs types de reprsentation sont
possibles.
Diagramme btons :
Exemple 19 : On considre la srie statistique des notes obtenues dans une matire, par un
chantillon de 200 tudiants dun amphithtre de 500.
30
Statistique descriptive
1. Tableaux et graphiques
Notes : xi
10
12
14
16
Total
Effectifs : ni
55
40
60
45
200
Pour reprsenter une telle srie, on a habituellement recours aux diagrammes btons.
70
60
Effectifs
50
40
30
20
10
0
10
12
14
16
Modalits de la variable
31
Statistique descriptive
1. Tableaux et graphiques
70
60
Effectifs
50
40
30
20
10
0
10
12
14
16
Modalits de la variable
Effectifs : ni
55
40
60
45
200
Effectifs cumuls Fi
55
95
155
200
---
Effectifs cumuls
250
200
150
100
50
0
10
12
14
Modalits de la variable
32
16
Statistique descriptive
1. Tableaux et graphiques
1.2.3. Caractre quantitatif continu : Rappelons quun caractre quantitatif est continu
dans le cas doprations de mesures, dans ce cas, plusieurs types de reprsentation sont
possibles.
Histogramme :
Un histogramme est un graphique constitu de bandes verticales jointives. On dlimite en
abscisses les classes successives de la variable continue, en principe de mme amplitude, et sur
chaque base ainsi dlimite, on lve un rectangle de hauteur proportionnelle la frquence
correspondante de telle sorte que la surface du rectangle soit proportionnelle l'effectif
correspondant.
Quand les classes sont de mme amplitude, la hauteur des rectangles est proportionnelle aux
frquences des classes, elle est gale numriquement la frquence correspondante. Si les
classes n'ont pas la mme amplitude, il est ncessaire d'ajuster la hauteur des rectangles de telle
sorte que la surface du rectangle soit proportionnelle l'effectif correspondant, la hauteur des
rectangles est gale dans ce cas la densit de la classe.
Histogramme des frquences classes damplitudes gales :
Exemple 21 : On considre un chantillon de 530 personnes et lon prend pour caractre la
somme en DH quelles ont dans leur poche.
Montant dargent DH
Effectifs ni
110
20 ; 30
120
30 ; 40
100
40 ; 50
200
50 ; 60
Total
530
Pour reprsenter une telle srie statistique on a habituellement recours lhistogramme des
frquences classes damplitudes gales.
33
Statistique descriptive
1. Tableaux et graphiques
250
ni ou fi
200
150
100
50
0
25
35
45
55
Xi
Remarque : On peut regrouper les valeurs discrtes par classes de mme amplitude, il suffit
alors que la hauteur de chaque rectangle soit proportionnelle ni ou fi .
Sur laxe des x, on reporte les valeurs Ci, bornes des classes
du caractre x.
Histogramme des frquences classes damplitudes ingales :
On peut regrouper les valeurs discrtes par classes damplitudes diffrentes, il suffit alors
que la hauteur de chaque rectangle soit proportionnelle di, densit de la classe considre.
Sur laxe des x, on reporte les valeurs Ci, bornes des classes du caractre x.
Exemple 22 : La rpartition de la surface, en m, de 100 logements est reprsente dans le
tableau suivant :
Surface en m
Nombre de logements
Densits
0 20
10
0,5
20 40
20
1
40 60
40
2
60 100
18
0,45
100 160
8
0,13
160 260
4
0,04
Total
100
Les amplitudes des classes tant ingales, il convient de calculer les densits afin de
reprsenter l'histogramme.
34
Statistique descriptive
1. Tableaux et graphiques
2,5
densit di
1,5
0,5
0
10
30
50
70
90
110
130
150
170
190
210
230
250
ci
en 1000 DH
10
20
30
40
50
---
35
Effectif
ni
25
35
45
30
15
150
Statistique descriptive
1. Tableaux et graphiques
50
45
40
ni ou fi
35
30
25
20
15
10
5
0
10
20
30
40
50
Xi
Ci en 1000 DH
10
20
30
40
50
---
36
Effectif ni
25
35
45
30
15
150
Fi
25
60
105
135
150
---
Statistique descriptive
1. Tableaux et graphiques
160
140
120
Fi
100
80
60
40
20
0
10
20
30
40
50
Xi
Les individus sont classs en classes, la frquence cumule associe la classe numro i
correspond la proportion dindividus dont la valeur du caractre est strictement infrieure la
limite suprieure de la classe numro i.
1.3. EXERCICES DAPPLICATIONS.
1.3.1. Exercice.
A partir des tableaux suivants prciser :
a) l'unit statistique et la population ;
b) le caractre tudi ;
c) la nature du caractre tudi ;
d) reprsenter graphiquement la distribution ;
Structure de l'emploi au Maroc :
Secteurs d'activits
Agricole, fort, pche et mine
Industrie, btiment
Commerce
Htels et restaurants
Transport et communications
Finances et banques
Emploi domestique
Secteur public
Total
Part en %
4,9
34,5
19
2,7
7,9
6,6
20,3
4,1
100
37
Statistique descriptive
1. Tableaux et graphiques
Niveau
Technicien spcialis
Technicien
Qualification
Spcialisation
Total
2me anne
8487
9293
1335
19115
Total
1031
18214
21835
7908
48988
Part en %
24,68
21,45
20,50
16,54
16,83
100
Nombre de tubes
90
88
120
105
102
75
20
600
1.3.2. Exercice.
Une tude de march a mesur le degr de satisfaction dun chantillon de 500 clients dune
banque. Les rsultas sont prsents dans le tableau suivant :
Degr de satisfaction
Effectifs
Pas du tout satisfait
223
Insatisfait
187
Indiffrent
32
Satisfait
55
Trs satisfait
3
Total
500
a) Quelle est la population tudie ?
38
Statistique descriptive
1. Tableaux et graphiques
Effectifs
35
51
68
55
49
42
300
1.3.4. Exercice.
On a relev la recette hebdomadaire en milliers de dirhams de 40 commerces. Les donnes
brutes sont :
57
86
47
67
60
93
87
89
52
77
92
69
49
67
55
72
56
81
48
75
46
70
90
48
51
71
49
85
63
91
50
90
49
67
58
83
1.3.5. Exercice.
39
57
82
62
66
Statistique descriptive
1. Tableaux et graphiques
Le tableau suivant prsente le nombre de femmes en activit selon l'ge de 500 femmes actives
Tranche d'ges
[15 20[
[20 25[
[25 30[
[30 35[
[35 40[
[40 45[
[45 50[
[50 55[
55 et plus
a)
b)
c)
d)
Effectif
14
70
100
65
69
56
63
61
2
1.3.6. Exercice.
Le tableau suivant donne le niveau de scolarit en nombre dannes passes lcole dun
chantillon de 200 personnes.
Niveau de scolarit
[0 ; 6[
[6 ; 12[
[12 ; 14[
[14 ; 16[
Total
Effectif
40
80
50
30
200
1.3.7. Exercice.
Soit la rpartition des travailleurs d'une entreprise selon l'ge :
40
Statistique descriptive
1. Tableaux et graphiques
Effectifs
8
12
35
40
20
10
Statistique descriptive
1. Tableaux et graphiques
Total
a)
b)
c)
d)
e)
f)
g)
300
1.3.10. Exercice.
Une cooprative laitire fabrique un fromage qui doit contenir, selon les tiquettes, 45 % de
matires grasses. Un institut de consommation dont le rle est de vrifier que la qualit des
produits est bien celle qui est affirme par l'tiquette, fait prlever et analyser un chantillon de
100 fromages. Les rsultats de l'analyse sont consigns dans le tableau suivant :
Taux de matires grasses
[41,5 - 42,5[
[42,5 - 43,5[
[43,5 - 44,5[
[44,5 - 45,5[
[45,5 - 46,5[
[46,5 - 47,5[
[47,5 - 48,5[
Nombre de fromages
1
11
24
38
22
3
1
42
Statistique descriptive
CHAPITRE 2
CARACTERISTIQUES DE TENDANCE CENTRALE
Pour les caractristiques centrales, nous ne nous intressons quaux sries statistiques
relatives des caractres quantitatifs discrets ou continus, cest--dire des sries statistiques
donnes sous les formes : (xi) , (xi ; ni) ; (xi ; fi) ; (ci ; ni) ou (ci ; fi).
2.1. LES MOYENNES.
On peut rduire un ensemble d'observations en une seule observation constante
appele moyenne. La moyenne est donc une valeur qui se prsente comme si toutes les
observations lui taient gales.
On distingue plusieurs types de moyennes :
- la moyenne arithmtique ;
- la moyenne gomtrique ;
- la moyenne harmonique ;
- la moyenne quadratique.
2.1.1. Moyenne arithmtique.
2.1.1.1. Moyenne arithmtique simple.
La moyenne arithmtique simple, qu'on appelle couramment moyenne, d'une srie de
plusieurs observations est gale la somme de toutes les observations divise par le
nombre de ces observations.
43
Statistique descriptive
Dans le cas d'une suite de n observations : x1, x2, , xi, , xn la moyenne est gale, par
dfinition :
n
x x x ... x n
x 1 2 3
i 1
Lintroduction du terme
i 1
dcrire, en mathmatique :
n
x
i 1
= x1 + x2 + x3 + . . . + xi + . . . + xn
Dans le cas dune srie statistique donne par un ensemble (xi , ni), c'est--dire lorsque
chaque valeur xi est rpte ni fois et quil y a k valeurs xi diffrentes, la moyenne arithmtique
simple dune telle srie se dduit de la formule prcdente :
k
n x
i 1
k
avec
ni
n=
n
i 1
i 1
De mme dans le cas dune srie statistique donne par un ensemble (x i , fi) la moyenne
arithmtique simple se dduit de la formule prcdente :
k
x fi xi
i 1
avec n =
n
i 1
fi
ni
n
et
f
i 1
=1
Dans le cas d'une variable statistique continue groupe en classes, la moyenne arithmtique
simple est donne par les formules suivantes :
44
Statistique descriptive
n c
i i
i 1
k
f c
i i
i 1
i 1
ci
C i C i 1
2
Exemple 1 : On considre lensemble des notes obtenues par les tudiants dune classe
dune cole, dans une matire ; on a la srie statistique suivante donne sous la forme simple
(xi) et pour laquelle on demande de calculer la moyenne arithmtique simple.
12
15
13
12
11
13
15
12
13
12
11
10
12
13
11
12
13
11
12
15
La moyenne arithmtique simple de cette srie est facile calculer, elle est gale :
20
x
i 1
248
12,4
20
ni
1
4
7
5
3
45
Statistique descriptive
Le calcul de la moyenne arithmtique simple peut tre facilement fait selon le tableau
suivant :
xi
10
11
12
13
15
Total
Moyenne
ni
1
4
7
5
3
20
---
ni xi
10
44
84
65
45
248
12,4
Exemple 3 : On considre la mme srie statistique quon reprsente sous la forme (xi ; fi)
pour laquelle on demande de calculer la moyenne arithmtique simple.
xi
10
11
12
13
15
Total
ni
1
4
7
5
3
20
fi
5%
20%
35%
25%
15%
100%
Le calcul de la moyenne arithmtique simple peut tre facilement fait selon le tableau
suivant :
xi
10
11
12
13
15
Total
Moyenne
ni
1
4
7
5
3
20
---
fi
0,05
0,20
0,35
0,25
0,15
100%
---
fi xi
0,5
2,2
4,2
3,25
2,25
12,4
12,4
On voit, sur ces 3 exemples, que pour calculer la moyenne arithmtique simple, on utilise
lune des 3 formules selon la forme dans laquelle est donne la srie statistique.
Exemple 4 : On a procd au recensement des 50 salaris de la socit STM en relevant les
salaires horaires quils peroivent. Les donnes brutes sont :
46
Statistique descriptive
34
51
92
43
93
36
30
77
52
82
45
61
60
63
83
62
63
36
71
47
37
47
48
43
54
43
105
49
42
61
42
52
65
51
102
102
43
71
55
33
31
81
78
61
48
42
95
81
41
55
x
i 1
50
2939
58,78 DH / h
50
Nombre de commerants
ni
50
100
200
150
120
160
130
90
1000
n x
i 1
8
n
i 1
f x
i 1
3640
3,64 employs par commerant
1000
47
Statistique descriptive
Surface en m
0 20
20 40
40 60
60 100
100 160
160 260
Nombre de logements
10
20
40
18
8
4
Point central
10
30
50
80
130
210
n c
i i
i 1
6
i 1
i 1
x
i 1
k
i 1
48
Statistique descriptive
x
i
i 1
3
i 1
1 14 2 12 4 13
12,86
1 2 4
y
i 1
(ax
i 1
b)
a x i n b
i 1
y a
x
i 1
b a x b
Nombre dordinateurs
9
10
10
14
16
14
12
15
100
49
Statistique descriptive
Pour calculer la moyenne des prix des ordinateurs, on peut utiliser la proprit de la
transformation linaire dans le but de simplifier les calculs.
On effectue un changement de variable, c'est--dire, on remplace la variable prix par une
autre variable y de telle sorte que le prix soit une transformation linaire de y.
p = ay + b
Donc :
y=
pb
a
Il faut choisir les constantes a et b qui donnent des valeurs trs simples de y. On choisit la
constante b parmi les valeurs de p, de prfrence une valeur du milieu, pour avoir une valeur
nulle de y au milieu. On choisit la constante a comme tant le plus grand diviseur commun des
valeurs de (p - b) (le plus souvent a est l'amplitude constante des classes) pour avoir des valeurs
entires de y.
Pour notre exemple, on choisit :
b = 13500
Y=
et
a = 1000
p 13500
1000
Prix
10000 11000
11000 12000
12000 13000
13000 14000
14000 15000
15000 16000
16000 17000
17000 18000
Total
Nombre
dordinateurs
(ni)
9
10
10
14
16
14
12
15
100
Point central
(ci)
yi
ni yi
10500
11500
12500
13500
14500
15500
16500
17500
-3
-2
-1
0
1
2
3
4
-27
-20
-10
0
16
28
36
60
83
n y
i i
i 1
8
83 0,83
100
i 1
Statistique descriptive
(x i x) x i n x n x n x 0
i 1
i 1
* Proprit 3 : La somme des carres des carts par rapport la moyenne est
minimale.
n
(x i a) 2 [(x i x) (x a)]2
i 1
i 1
( x i x ) 2 2( x i x )( x a ) ( x a ) 2
i 1
(x
i 1
i 1
i 1
a ) 2 ( x i x ) 2 2( x a ) ( x i x ) ( x a ) 2
i 1
i 1
( x a) ( x x)
2
i 1
i 1
i 1
n ( x a) 2
51
Statistique descriptive
La moyenne gomtrique est gale, par dfinition, dans le cas dune suite de n observations
x1, x2, , xi, , xn :
1
1
n
x g n x1 x x ( x1 x x ) n [ x ] n
2
n
2
n
i
i 1
Exemple 9 : On considre une action qui a accus, en bourse, durant le 1er semestre de
lanne 2005, les taux daugmentation mensuels suivants : +2,1% ; 1,3% ; 0,5% ; 0,9% ; 1,4% ;
3,8%. Calculer le taux daugmentation mensuel moyen de laction durant le 1 er semestre 2005.
Cest lexemple type de lapplication de la moyenne gomtrique simple :
Remarque : Rappelons que pour une variable qui a accus un taux daugmentation de 2%
par exemple, on multiplie cette variable par 1,02 pour trouver la nouvelle valeur de la
variable.
Ainsi si laction a comme valeur 25,35 DH en Janvier et quelle subisse un taux
daugmentation de 2,1% entre janvier et fvrier, sa valeur, en fvrier est gale :
25,35 x 1,021 = 25,88 DH.
Donc nous allons, tout le temps, utiliser cette remarque lorsquil sagit de taux.
Revenons lexemple 9 et calculons le taux daugmentation mensuel moyen de laction :
Exemple 10 : La population marocaine est passe, entre 1994 et 2004 de 26 019 000
29 800 000.
Quel est le taux global daugmentation de la population pendant les 10 annes ?
Quel est le taux annuel moyen daugmentation de la population ?
Entre 1994 et 2004, le taux global d'accroissement de la population marocaine est :
29800 26019
100 14,53%
26019
52
Statistique descriptive
t tel que :
(1 t )10
10
29800
1,1453
26019
1,1453 1 0 , 0137 1, 37 %
Entre 1994 et 2004, la population marocaine a augment en moyenne, de 1,37 % par an.
2.1.2.2. Moyenne gomtrique pondre.
De mme que pour la moyenne arithmtique simple qui suppose que toutes les
observations aient la mme importance, ce qui n'est pas toujours le cas, la moyenne
gomtrique pondre intervient dans le cas o les observations n'ont pas la mme
importance. Il s'agit d'associer chaque observation un coefficient de pondration
indiquant son poids parmi les autres observations.
x g x1 1x 22 x n n
1
x g (x11x 2 2 x n n ) n
1 k
k
x g [ xii ] xifi
i1
i1
Avec
i
i 1
Cest le cas de sries statistiques discrtes donnes sous la forme (xi ; ni) ou (xi ; fi), lorsque,
dans les sries, la variable xi est rpte ni fois (ou fi en %) et quil y a k observations distinctes.
Dans le cas d'une srie statistique continue, on dfinit la moyenne gomtrique
pondre comme suit :
53
Statistique descriptive
ci
C i C i 1
2
Quel est le taux global de variation de la valeur de laction entre janvier et dcembre 2005 ?
Quel est le taux mensuel moyen de variation de la valeur de laction entre janvier et
dcembre 2005 ?
Sagissant de taux daugmentation mensuels relatifs des priodes diffrentes, de nombres
de mois diffrents, il y a lieu daffecter chaque taux dun poids gal aux nombres de mois
contenu dans la priode ;
Le taux daugmentation global de la valeur de laction est :
t 12 1,2294 11,73%
2.1.2.3. Proprits de la moyenne gomtrique.
54
Statistique descriptive
n
1
Log x
i
n
n
1
Log x g Log[ x ] n Log[ x ] i 1
i
i
n
n
i 1
i 1
n
Log x
i
i 1
x exp (
)
g
n
2.1.3. Moyenne harmonique.
2.1.3.1. Moyenne harmonique simple.
La moyenne harmonique simple est gale l'inverse de la moyenne arithmtique des
inverses des observations. Son usage s'impose lorsque la variable statistique est un
quotient (cot moyen, vitesse moyenne, etc.).
Dans le cas d'une suite de n observations x1, x2, , xi, , xn, toutes distinctes et de poids
identiques, la moyenne harmonique simple est gale :
xh
n
1
i 1 x i
n
Statistique descriptive
t t1 t 2 t 3 t 4
4
d
d d1 d 2 d 3 d 4
i
v V1 V2 V3 V4 i 1 Vi
i 1
4
n
V
i 1
1
1 1
1
1
1
=
(
) 0,01123
4 90 75 85 115
v
Soit aprs calcul :
v = 89,077 km/h
xh =
i 1
k
ni
i 1 x i
56
1
fi
x
i 1 i
k
Statistique descriptive
ni
1
k n
k f
i
i
i 1 c i
i 1 c i
C i C i 1
ci est le point central de la classe i, il est tel que : c i
2
xh
i 1
Trajets
d1 = 10 km
d2 = 30 km
d3 = 60 km
100 km
Comme il sagit de vitesses moyennes relatives des distances diffrentes, elles doivent tre
affectes de poids diffrents. Montrons donc que la vitesse moyenne sur les 100 km est la
moyenne harmonique pondre des vitesses.
En effet, le temps t mis pour parcourir une distance d la vitesse v est donn par la formule
simple : t = d / v.
Ainsi le temps global t est la somme des quatre temps ti :
t t1 t 2 t 3 t 4
4
d
d d1 d 2 d 3 d 4
i
v V1 V2 V3 V4 i 1 Vi
57
i di / d, on trouve
Statistique descriptive
i 1
1
Vi
10
0,10
100
i 1
1
Vi
v = 109,8 km/h.
Etapes
N 1
10
12,35 DH
N 2
25
13,12 DH
N 3
20
13,46 DH
N 4
45
14,07 DH
Comme le cot est un rapport, montrons que le cot moyen est la moyenne
harmonique pondre des diffrents cots. En effet, les cots moyens auxquels les
pices de rechange ont t achetes sont relatifs des lots de diffrentes tailles, ce qui
fait que ces cots doivent tre affects de diffrents poids.
Convenons dappeler, dans ce qui suit, pour le lot i, cui le cot unitaire, cti le cot total
et ni le nombre de pices de rechange achetes.
Nous avons lgalit suivante vidente relative aux nombres de pices de rechange :
4
n n1 n 2 n 3 n 4 n i
i 1
Or comme
ni
4
ct
ct i
ct
i
on a : n
cu i
cu i 1 cu i
58
Statistique descriptive
i cti / ct on
4
4
ct 1
1
1
i
i
cu i 1 ct cu i i 1 cu i
ct 2
ct
i 1
25 13,12
10 12,35 25 13,12 20 13,46 45 14,07
0,2422
Le cot moyen dapprovisionnement de la pice de rechange est, aprs calculs, gal :
13,51 DH/unit.
2.1.4. Moyenne quadratique.
La moyenne quadratique est la racine carre de la moyenne arithmtique des carres.
Elle est trs rarement utilise.
* Cas d'une suite de n observations : x1, x2, , xi, , xn
n
xq
2
i
i 1
* Cas d'une srie statistique discrte : lorsque chaque variable xi est rpte ni (ou fi en
%) fois dans la srie et quil y a k valeurs diffrentes.
k
xq
n x
i
i 1
2
i
n
i 1
n=
f x
i 1
2
i
avec
ni et
i 1
59
f
i 1
Statistique descriptive
n c
i i
xq
i 1
k
f c
i i
i 1
i 1
avec
n=
n
i 1
et
f
i 1
ci
Ci Ci 1
2
Exemple 15 : Dans une entreprise produisant des pices pour lassemblage dune machine
on veut contrler si la longueur moyenne des pices est conforme la norme de 12 cm. La
production est juge comme conforme si lcart moyen par rapport la norme ne dpasse pas 1
cm. cette fin on a mesur la longueur dun chantillon de 16 pices dont les rsultats sont :
11
10
12,5
10,8
13,5
11,5
13
12,5
13
13,5
11,5
13,2
10,5
12,5
11
11,5
Peut-on admettre que le produit de lentreprise est conforme la norme ?
Calculons les carts par rapport la norme :
-1
+1
-2
1,5
0,5
-0,5
-1,2
1,2
1,5
-1,5
-0,5
0,5
1
-1
0,5
-0,5
On voit bien que certains carts sont positifs et dautres sont ngatifs ; le calcul de la
moyenne arithmtique nest pas appropri car les carts ngatifs vont compenser les carts
positifs. La moyenne quil faut calculer est la moyenne quadratique.
xq
2
i
i 1
16
1 1,5 (0,5) 1,2 (1,5) 0,5 (1) (0,5)
16
x q = 1,09 cm
Lcart moyen par rapport la norme est de 1,09 cm, il dpasse lcart moyen tolr qui est
de 1 cm, on ne peut donc admettre que le produit de lentreprise est conforme la norme.
60
Statistique descriptive
xh x g x xq
Exemple 16 : On peut aisment vrifier de telles ingalits dans lexemple simple
suivant.
On considre la srie statistique simple constitue des cinq observations suivantes : 2 ;
5 ; 6 ; 8 et 10.
On trouve, aprs un calcul facile que :
1 1 (1 1 1 1 1 ) 0,2729 x h 3,664
x h 4 2 5 6 8 10
x g 5 256810 5,448
x
256810
6,2
5
xq
256810
6,767
5
Et lon a bien :
Statistique descriptive
Nombre de commerants
(ni)
50
100
200
150
120
160
130
90
1000
proportion des
commerants (fi)
5%
10 %
20 %
15 %
12 %
16 %
13 %
9%
100 %
Nombre de logements
10
20
40
18
8
4
Les amplitudes des classes tant ingales, il convient de calculer les densits.
62
Statistique descriptive
Surface en m
0 20
20 40
40 60
60 100
100 160
160 260
Total
Nombre de logements
10
20
40
18
8
4
100
Densits
0,5
1
2
0,45
0,13
0,04
Me x n 1
n 1
.
2
Si le nombre d'observations est pair, la mdiane est comprise entre l'observation de rang
et l'observation de rang
n
2
n
1 . On prend comme valeur de la mdiane la moyenne arithmtique
2
x n Me x n
2
xn xn
Me
63
Statistique descriptive
Nombre d'employs
xi
0
1
2
3
4
5
6
7
Total
Nombre de commerants
(ni)
50
100
200
150
120
160
130
90
1000
Le nombre d'observations, 1000, est pair, la mdiane est comprise entre l'observation de
rang 500 et l'observation de rang 501. On prend comme valeur de la mdiane la moyenne
arithmtique simple des deux observations.
x 500 Me x 501
Me
x 500 x 501
2
Me
3 4
3,5
2
n < Fi
2
64
Statistique descriptive
Frquence cumule
Fi
50 % = n/2
Fi-1
Caractre
Ci
Me
Ci+1
Ci 1 Ci = Me Ci
n Fi 1
Fi Fi 1
2
Ce qui donne : Me Ci Ci 1 Ci ( n Fi 1)
Fi Fi 1
2
Ainsi :
Nombre de logements
10
10
50
18
8
4
100
F. cumules croissantes
10
20
70
88
96
100
Statistique descriptive
40 < Me < 60
20 < 50 < 70
60 40 = Me 40
70 20
50 20
Me = 40 +
20 x 30 = 52 m
50
La moiti des logements ont une superficie infrieure ou gale 52 m et la moiti des
logements ont une superficie suprieure ou gale 52 m.
2.4. LA MEDIALE.
La mdiale est une valeur telle que la somme des observations qui lui sont infrieures
est gale la somme des observations qui lui sont suprieures. La mdiale partage
donc la somme des observations en deux parties gales. La mdiale est un paramtre
statistique qui dpend de la somme de toutes les observations.
S=
n c
i 1
j i
Si =
n c
j1
S < Si
2
Sommes cumules
66
Statistique descriptive
Si
50 % = S/2
Si-1
Caractre
Ci
Ml
Ci+1
Ainsi :
Ci 1 Ci = Ml Ci
S Si 1
Si Si 1
2
Ml Ci Ci 1 Ci (S Si 1)
Si Si 1 2
Nombre de
logements ni
10
20
40
18
8
4
100
Point central ci
10
30
50
80
130
210
Sommes
nixi
100
600
2000
1440
1040
840
6020
n c
i i
i 1
6020
3010
2
67
Sommes cumules
croissantes
100
700
2700
4140
5180
6020
Statistique descriptive
En consultant les sommes cumules croissantes, la classe mdiale est la classe 60 100
m. La mdiale est donc :
10060 = Ml60
41402700 30102700
Ml = 60 +
40 x 310 = 68,61 m
1440
La moiti de la superficie totale des 100 logements est rpartie sous forme de
logements dont la superficie est infrieure ou gale 68,61 m et l'autre moiti sous
forme de logements dont la superficie est suprieure ou gale 68,61 m.
2.5. LES FRACTILES.
De mme que la mdiane nous a permis de partager la population en deux parties
gales, le fractile d'ordre p permet de partager la population en p parties gales,
chaque partie contient
100
% du nombre total des observations. Ainsi les quartiles,
p
Le deuxime quartile Q2 : C'est une valeur pour laquelle deux quarts des observations
(50%) lui sont infrieures ou gales et deux quarts des observations (50%) lui sont
suprieures ou gales. Il est aussi gal la mdiane.
Le troisime quartile Q3 : C'est une valeur pour laquelle trois quarts des observations
(75%) lui sont infrieures ou gales et un quart des observations (25%) lui sont
suprieures ou gales.
68
Statistique descriptive
Pour le calcul des quartiles, on utilise la mme mthode de calcul que pour la mdiane.
Pour des donnes groupes en classes, on dtermine un quartile par interpolation
linaire.
Dsignons par :
[Ci ; Ci+1[ : la classe qui contient le quartile ;
n
: le nombre total des observations ;
Fi
: la frquence absolue cumule croissante ;
ni
: la frquence absolue de la classe qui contient le quartile ;
Le quartile numro j, Qj est compris entre Ci et Ci+1
Ci < Qj < Ci+1
Fi-1 <
j n
< Fi
4
Frquence cumule
Fi
j n /4
Fi-1
Caractre
Ci
Qj
Ci+1
Ci 1 Ci = Qj Ci
Fi Fi 1
j n
Fi 1
4
j n
Qj Ci Ci 1 Ci (
Fi 1)
Fi Fi 1
4
69
Statistique descriptive
Q1 Ci Ci 1 Ci ( n Fi 1)
Fi Fi 1
4
Q2 Ci Ci 1 Ci ( n Fi 1) = Me
Fi Fi 1
2
C
i 1 Ci
3
Q3 Ci
( n Fi 1)
Fi Fi 1
4
Exemple 23 : La rpartition de la surface, en m, de 100 logements est reprsente dans le
tableau suivant :
Surface en m
0 20
20 40
40 60
60 100
100 160
160 260
Total
Nombre de logements
10
20
40
18
8
4
100
100
10
q 1 20 20 4
35 m
20
3 100
70
4
q 3 60 40
71,11 m
18
25 % des logements ont une superficie infrieure ou gale 35 m.
75 % des logements ont une superficie infrieure ou gale 71,11 m.
50 % des logements ont une superficie comprise entre 35 m et 71,11 m.
2.5.2. Les dciles.
Les dciles partagent le nombre total des observations en dix parties gales, chaque
partie contient 10% des observations. On dfinit neuf dciles.
70
Statistique descriptive
Le premier dcile d1 : C'est une valeur pour laquelle un dixime des observations
(10%) lui sont infrieures ou gales et neuf diximes des observations (90%) lui sont
suprieures ou gales.
Le deuxime dcile d2 : C'est une valeur pour laquelle deux diximes des observations
(20%) lui sont infrieures ou gales et huit diximes des observations (80%) lui sont
suprieures ou gales.
Le kme dcile dk : C'est une valeur pour laquelle k dixime des observations lui sont
infrieures ou gales et (10 - k) dixime des observations lui sont suprieures ou
gales.
Le cinquime dcile correspond aussi la mdiane et au deuxime quartile.
Pour le calcul des dciles, on utilise la mme mthode de calcul que pour la mdiane et
les quartiles. Pour des donnes groupes en classes, on dtermine un dcile par
interpolation linaire.
Dsignons par :
[Ci ; Ci+1[ : la classe qui contient le dcile ;
n
: le nombre total des observations ;
Fi
: la frquence absolue cumule croissante ;
ni
: la frquence absolue de la classe qui contient le dcile ;
Le dcile dk est compris entre Ci et Ci+1
Ci < dk < Ci+1
Fi-1 <
k n < Fi
10
71
Statistique descriptive
Frquence cumule
Fi
k n /10
Fi-1
Caractre
Ci
Qj
Ci+1
Ci 1 Ci = d k Ci
k n Fi 1
Fi Fi 1
10
Ainsi :
d k Ci Ci 1 Ci ( k n Fi 1)
Fi Fi 1
10
Exemple 24 : La rpartition de la surface, en m, de 100 logements est reprsente dans le
tableau suivant :
Surface en m
0 20
20 40
40 60
60 100
100 160
160 260
Total
Nombre de
logements
10
20
40
18
8
4
100
72
Frquences cumules
croissantes
10
30
70
88
96
100
Statistique descriptive
100
0
10
d1 0 20
20 m 2
10
9 100
88
d9 100 60 10
115 m 2
8
- 10 % des logements ont une superficie infrieure ou gale 20 m.
- 90 % des logements ont une superficie infrieure ou gale 115 m.
- 80 % des logements ont une superficie comprise entre 20 m et 115 m.
2.6. EXERCICES DAPPLICATION.
2.6.1. Exercice.
Soit la distribution suivante du nombre de pices dans 300 logements :
Nombre de pices
1
2
3
4
5
6
Total
Effectifs
35
51
68
55
49
42
300
Solution :
73
Statistique descriptive
2.6.2. Exercice.
On a relev la recette hebdomadaire en milliers de dirhams de 40 commerces. Les donnes
brutes sont :
57
86
47
67
60
93
87
89
52
77
92
69
49
67
55
72
56
81
48
75
46
70
90
48
51
71
49
85
63
91
50
90
49
67
58
83
57
82
62
66
x f i x i = 68 200 DH ; Me = 66 444 Dh
i 1
Statistique descriptive
Solution :
Effectif
40
80
50
30
200
Solution :
Me = 10,5 annes
q1 = 6,75 annes ; q2 = Me = 10,5 annes et q3 = 13,2 annes
2.6.5. Exercice.
Un organisme charg de raliser des enqutes statistiques gre un rseau de 125 enquteurs. La
direction de cet organisme dcide d'tudier la rpartition de ses enquteurs selon le nombre
d'enqutes qu'ils ont ralises. Les donnes collectes ce sujet sont rsumes dans le tableau
ci-aprs :
Nombre d'enqutes ralises
5
10
15
20
25
30
Effectifs
8
12
35
40
20
10
75
Statistique descriptive
Solution :
enqutes environ.
2.6.6. Exercice.
Une cooprative laitire fabrique un fromage qui doit contenir, selon les tiquettes, 45 % de
matires grasses. Un institut de consommation dont le rle est de vrifier que la qualit des
produits est bien celle qui est affirme par l'tiquette, fait prlever et analyser un chantillon de
100 fromages. Les rsultats de l'analyse sont consigns dans le tableau suivant :
Taux de matires grasses
Nombre de fromages
[41,5 - 42,5[
1
[42,5 - 43,5[
11
[43,5 - 44,5[
24
[44,5 - 45,5[
38
[45,5 - 46,5[
22
[46,5 - 47,5[
3
[47,5 - 48,5[
1
On demande de dterminer pour la srie statistique la moyenne arithmtique, le mode, la
mdiane, la mdiale et les quartiles.
k
Solution :
2 -1 = 0,189 = 18,9 %
2.6.8. Exercice.
Une enqute, abordant la crise de logement, a t ralise auprs d'un chantillon de 1000
personnes choisies dans quatre rgions diffrentes. Parmi les rsultats de cette enqute on a
relev le nombre moyen de personnes par pice pour chaque rgion.
76
Statistique descriptive
Rgion
Nord
Est
Ouest
Sud
Quel est le nombre moyen de personnes par pice pour l'ensemble des quatre rgions ?
Solution : Moyenne harmonique = 2,78 personnes par pices soit 278 personnes pour 100
pices.
2.6.9. Exercice.
Le coefficient budgtaire de la consommation des mnages en services de sant est pass de 6,9
% en 1990 8,5 % en 1995, puis 9,8 % en 2000, 10,6 % en 2004 et enfin 10,9 % en 2005.
a) Calculer les taux annuels moyens de croissance pour les priodes suivantes : (1990 1995) ;
(1995 2000) ; (2000 2004) et (2004 2005).
b) Dterminer le taux de croissance annuel moyen de 1990 2005.
c) Donner une estimation du coefficient budgtaire en 2010 si la tendance relative de la priode
2000 - 2005 se maintenait.
Solution : a) t1995/1990 = 4,26 % par an ; t2000/1995 = 2,89 % par an ; t2004/2000 = 1,98 % par an et
t2005/2004 = 2,83 %. b) t2005/1995 = 3,10 % par an. c) Coefficient budgtaire estim en 2010 = 12,1
%.
2.6.10. Exercice.
Le prix la tonne d'une matire premire a volu au cours de la priode allant de 2001 2005,
comme suit :
Anne
Prix unitaire
2001
310
2002
266
2003
220
2004
200
2005
150
a) Sachant que chaque anne une socit achte la mme quantit de cette matire premire,
calculer le cot moyen pour les cinq annes.
b) Quel est le cot moyen si la socit dpense, chaque anne, la mme somme : 1 00 000 DH,
pour l'achat de cette matire premire ?
Solution : a) Cot moyen = 229,2 DH/t. b) Cot moyen = 215,54 DH/t.
77
Statistique descriptive
3. Caractristiques de dispersion
CHAPITRE 3
CARACTERISTIQUES DE DISPERSION
Les paramtres de dispersion dune srie statistique permettent de chiffrer la variation des
valeurs observes autour d'un paramtre de position. Les principaux paramtres de dispersion
sont : lcart absolu moyen, la variance, l'cart type, le coefficient de variation et le coefficient
de concentration.
Comme pour les caractristiques centrales, nous ne nous intressons ici quaux sries
statistiques relatives des caractres quantitatifs discrets ou continus, cest--dire des sries
statistiques donnes sous les formes : (xi) , (xi ; ni) , (xi ; fi) ou {[Ci ; Ci+1[ ; fi }.
3.1. LECART ABSOLU MOYEN.
Lcart absolu dune variable xi par rapport la moyenne de la srie est donn par la
formule simple :
Lcart absolu moyen Em est la moyenne de tous les carts ainsi dfinis, il est donn par la
formule simple suivante :
Em
x
i 1
Dans le cas dune srie statistique donne par un ensemble (xi , ni), c'est--dire lorsque
chaque valeur xi est rpte ni fois et quil y a k valeurs xi diffrentes, lcart absolu moyen se
dduit simplement de la formule prcdente :
Em
n x x
i
i 1
n
i 1
78
Statistique descriptive
3. Caractristiques de dispersion
En effet : n =
n
i 1
et
x x n
i
i 1
i 1
Em f i xi x
i 1
En effet lorsque chaque valeur xi est rpt ni fois dans la srie, c'est--dire fi % , on peut
crire :
k
n=
ni ;
fi
i 1
et
f
i 1
=1
Em
ni
n
ni xi x
i 1
n
i xi x =
i 1 n
k
ni
f
i 1
xi x
i 1
Dans le cas dune srie statistique donne sous la forme de classes [Ci ; Ci+1[, sachant que
pour faire des calculs, on doit remplacer cette srie par une srie quivalente en remplaant
chaque classe [Ci ; Ci+1[ par le point central ci , la formule de lcart absolu moyen devient :
Em
n i ci x
i 1
n
i 1
Avec ci =
C i C i 1
2
i 1
ni
ci x =
n
f
i 1
ci x
Remarque : On parle dcart absolu plutt que dcart tout court car lcart moyen est nul.
Exemple 1 : On considre lensemble des notes obtenues par les tudiants dune cole, dans
une matire ; on a la srie statistique suivante donne sous la forme simple (xi) et pour laquelle
on demande de calculer lcart absolu moyen.
79
Statistique descriptive
3. Caractristiques de dispersion
12
15
13
12
11
13
15
12
13
12
11
10
12
13
11
12
13
11
12
15
La moyenne de cette srie est facile calculer, elle est gale 12,4. De l nous pouvons
calculer les carts absolus de chaque variable par rapport la moyenne :
0,4
2,6
0,6
0,4
1,4
0,6
2,6
0,4
0,6
0,4
1,4
2,4
0,4
0,6
1,4
0,4
0,6
1,4
0,4
2,6
La somme de tous ces carts absolus est 21,6 et la moyenne est 1,08 qui est lcart absolu
moyen.
Exemple 2 : On considre la mme srie statistique quon reprsente sous la forme (xi ; ni)
pour laquelle on demande de calculer lcart absolu moyen.
xi
10
11
12
13
15
ni
1
4
7
5
3
La moyenne de la srie tant toujours gale 12,4, le calcul des carts absolus puis de
lcart absolu moyen peut tre facilement fait selon le tableau suivant :
xi
ni
ni xi
xi x
10
11
12
13
15
Total
Moyenne
1
4
7
5
3
20
---
10
44
84
65
45
248
12,4
2,4
1,4
0,4
0,6
2,6
-----
ni
xi x
2,4
5,6
2,8
3
7,8
21,6
1,08
Exemple 3 : On considre la mme srie statistique quon reprsente sous la forme (xi ; fi)
pour laquelle on demande de calculer lcart absolu moyen.
80
Statistique descriptive
3. Caractristiques de dispersion
xi
10
11
12
13
15
Total
ni
1
4
7
5
3
20
fi
5%
20%
35%
25%
15%
100%
La moyenne de la srie tant toujours gale 12,4, le calcul des carts absolus des variables
xi par rapport la moyenne puis de lcart absolu moyen peut tre facilement fait selon le
tableau suivant :
xi
ni
fi
fi xi
xi x
10
11
12
13
15
Total
Moyenne
1
4
7
5
3
20
---
0,05
0,20
0,35
0,25
0,15
100%
---
0,5
2,2
4,2
3,25
2,25
12,4
12,4
2,4
1,4
0,4
0,6
2,6
-----
fi
xi x
0,12
0,28
0,14
0,15
0,39
1,08
1,08
On remarque que sur ces 3 exemples, pour calculer lcart absolu moyen, on utilise lune
des 3 formules selon la forme sous laquelle la srie statistique est donne.
Exemple 4 : On considre un chantillon de 30 personnes pour lesquelles on mesure la
taille. On demande de calculer lcart absolu moyen sachant que les rsultats des mesures sont
donns dans le tableau suivant.
Tailles [Ci ; Ci+1[ en m
[1,50 ; 1,60[
[1,60 ; 1,70[
[1,70 ; 1,80[
[1,80 ; 1,90[
[1,90 ; 2,00[
Total
Effectifs ni
2
4
18
5
1
30
Aprs avoir remplac la srie donne sous la forme ([Ci ; Ci+1[) en une srie quivalente
reprsente sous la forme (ci ; ni), avec ci = (Ci + Ci+1) / 2, les calculs de lcart absolu moyen
peuvent tre rsums dans le tableau synthtique suivant :
81
Statistique descriptive
3. Caractristiques de dispersion
xi x
ci
ni
ni ci
1,55
1,65
1,75
1,85
1,95
Total
Total / n
2
4
18
5
1
30
3,10
6,60
31,50
9,25
1,95
52,40
1,75
0,20
0,10
0,00
0,10
0,20
---
ni
xi x
0,40
0,40
0,00
0,50
0,20
1,50
0,050
S2
(x i x) 2
i 1
Dans le cas dune srie statistique donne par un ensemble (xi , ni), c'est--dire lorsque
chaque valeur xi est rpte ni fois et quil y a k valeurs xi diffrentes, la variance se dduit
simplement de la formule prcdente :
S2
n (x
i
i 1
ni et
i 1
x) 2
n
i 1
En effet : n =
i 1
i 1
S 2 f i ( x i x )
i 1
82
Statistique descriptive
3. Caractristiques de dispersion
En effet lorsque chaque valeur xi est rpt ni fois dans la srie, c'est--dire fi % , on peut
crire :
k
n=
i 1
S2
n (x
i
i 1
x) 2
i 1
fi
ni
n
et
fi = 1
i 1
ni
(x i x) 2 =
n
i 1
f (x
i 1
x) 2
Dans le cas dune srie statistique donne sous la forme de classes [Ci ; Ci+1[, sachant que
pour faire des calculs, on doit remplacer cette srie par une srie quivalente en remplaant
chaque classe [Ci ; Ci+1[ par le point central ci , la formule de la variance devient :
k
S2
Avec ci =
n (c
i 1
C i C i 1
2
x) 2
n
i 1
i 1
ni
(c i x ) 2 =
n
f (c
i 1
x) 2
Formule dveloppe de la variance : elle est donne, selon la forme de la srie statistique :
* Cas dune srie statistique de n observations xi distinctes :
n
xi
2
2
x x2 x
i 1
* Cas dune srie statistique de k observations xi distinctes dont chacune est rptes ni
fois :
k
nixi
i 1
ni
x x2 x
i 1
* Cas dune srie statistique de k observations xi distinctes dont chacune est prsentes fi fois
(en %) :
k
S f i x i x x 2 x
2
i 1
83
Statistique descriptive
3. Caractristiques de dispersion
* Cas dune srie statistique donne sous la forme de k classes [Ci ; Ci+1[ayant chacune un
effectif ni ou une frquence fi :
k
S f i c i x x 2 x
2
i 1
Avec ci =
C i C i 1
2
Toutes ces formules peuvent tre crites, comme nous lavons bien montr, sous la forme
simple et condense :
S2 x 2 x
Transformation linaire
Si Y = ax + b avec a et b deux constantes quelconques alors la variance de y est :
Sy a Sx .
2
Nombre dordinateurs
9
10
10
14
16
14
12
15
100
Pour calculer la variance des prix des ordinateurs, on peut utiliser la proprit de la
transformation linaire dans le but de simplifier les calculs.
On effectue un changement de variable, c'est--dire, on remplace la variable prix par une
autre variable y de telle sorte que le prix soit une transformation linaire de y.
p = ay + b
Donc :
84
y=
pb
a
Statistique descriptive
3. Caractristiques de dispersion
Il faut choisir les constantes a et b qui donnent des valeurs trs simples de y. On choisit la
constante b parmi les valeurs de p, de prfrence une valeur du milieu, pour avoir une valeur
nulle de y au milieu. On choisit la constante a comme tant le plus grand diviseur commun des
valeurs de (p - b) (le plus souvent a est l'amplitude constante des classes) pour avoir des valeurs
entires de y.
Pour notre exemple, on choisit :
b = 13500
Y=
et
a = 1000
p 13500
1000
Les valeurs de y deviennent trs simples, on peut alors calculer facilement la moyenne et la
variance de y.
Prix
[10000 ; 11000[
[11000 ; 12000[
[12000 ; 13000[
[13000 ; 14000[
[14000 ; 15000[
[15000 ; 16000[
[16000 ; 17000[
[17000 ; 18000[
Total
Nombre
dordinateurs
(ni)
9
10
10
14
16
14
12
15
100
Point central
(ci)
yi
niyi
ni yi
10500
11500
12500
13500
14500
15500
16500
17500
-3
-2
-1
0
1
2
3
4
-27
-20
-10
0
16
28
36
60
83
81
40
10
0
16
56
108
240
551
n y
i i
i 1
8
83 0,83
100
i 1
n y
i i
Sy
2
i 1
8
2
2
i 1
85
Statistique descriptive
3. Caractristiques de dispersion
(x x)
i
i 1
* Cas dune srie statistique de k observations xi distinctes dont chacune est rptes ni fois
:
n (x
i 1
x) 2
i 1
* Cas dune srie statistique de k observations xi distinctes dont chacune est prsentes fi fois
(en %) :
f (x
i 1
x)
* Cas dune srie statistique donne sous la forme de k classes [Ci ; Ci+1[ ayant chacune un
effectif ni ou une frquence relative fi :
f i (c i x ) 2
i 1
avec ci =
C i C i 1
2
86
Statistique descriptive
3. Caractristiques de dispersion
Dune faon gnrale, nous pouvons utiliser, quelque soit la forme sous laquelle est donne
la srie statistique, la formule condense simple :
S x2 x
CV
100 en %
x
Le coefficient de variation est indpendant des units choisies, il est utile pour comparer des
distributions qui ont des units diffrentes.
Exemple 6 : On considre toujours la mme srie, des 3 premiers exemples de ce chapitre.
Soit lensemble des notes obtenues par les tudiants dune cole, dans une matire ; on a la
srie statistique suivante donne sous la forme simple (xi ; ni) et pour laquelle on demande de
calculer la variance, lcart type et le coefficient de dispersion.
xi
10
11
12
13
15
Total
Moyenne
ni
1
4
7
5
3
20
---
fi
0,05
0,20
0,35
0,25
0,15
100%
---
fi xi
0,5
2,2
4,2
3,25
2,25
12,4
12,4
xi
100
121
144
169
225
-----
fi xi
5
24,2
50,4
42,25
33,75
155,6
155,6
1,356
100 10,94% ce qui dnote dune lgre
12,4
Statistique descriptive
3. Caractristiques de dispersion
Effectifs ni
2
4
18
5
1
30
Aprs avoir remplac la srie donne sous la forme ([Ci ; Ci+1[) en une srie quivalente
reprsente sous la forme (ci ; ni)
avec ci = (Ci + Ci+1) / 2, les calculs de la variance, de lcart type et du coefficient de variation
peuvent tre rsums dans le tableau synthtique suivant :
ci
1,55
1,65
1,75
1,85
1,95
Total
Total / n
ni
2
4
18
5
1
30
ni ci2
4,8050
10,8900
55,1250
17,1125
3,8025
91,7350
3,0578
ni ci
3,10
6,60
31,50
9,25
1,95
52,40
1,7467
Le coefficient de dispersion est gal 0,08 / 1.75 = 4,57% ce qui dnote dune trs faible
dispersion de la srie autour de sa moyenne.
Exemple 8 : Allal est un marchand de journaux, il comptabilise le nombre de journaux quil
vend, par jour, en un mois et dresse ses rsultats dans le tableau suivant.
125
118
107
107
110
118
110
125
118
125
127
107
118
125
127
110
125
107
127
127
107
127
107
125
125
125
127
118
107
125
Statistique descriptive
3. Caractristiques de dispersion
Commenons dabord par reprsenter cette srie, donne sous la forme (xi) en une srie
quivalente sous la forme (xi ; ni) aprs avoir compt combien de fois chaque valeur xi est
rpte.
On obtient la srie quivalente suivante :
Nombre de journaux vendus
107
110
118
125
127
Total
Nombre de fois
7
3
5
9
6
30
ni
7
3
5
9
6
30
ni xi
749
330
590
1125
762
3556
118,53
ni xi
80143
36300
69620
140625
96774
423462
14115,40
La moyenne de la srie se situe entre 118 et 119 journaux vendus par jour.
La variance est gale V = 14115,40 118,53 = 66,04
Lcart type est gal
S 66,04 = 8,13
Le coefficient de dispersion est gal 8,13 / 118,53 = 6,86% ce qui dnote dune lgre
dispersion de la srie.
Exemple 9 : Les salaires verss, par une entreprise, ses 130 salaris sont rpartis comme
suit :
89
Statistique descriptive
Tranches de salaire
[1000 ; 2000[
[2000 ; 3000[
[3000 ; 4000[
[4000 ; 5000[
[5000 ; 6000[
[6000 ; 7000[
[7000 ; 8000[
[8000 ; 10000[
[10000 ; 15000[
[15000 ; 20000[
Total
3. Caractristiques de dispersion
Nombre de salaris
hommes
8
12
10
14
11
8
7
5
3
1
79
Nombre de salaris
femmes
4
9
6
10
8
6
5
2
1
0
51
Total
12
21
16
24
19
14
12
7
4
1
130
ci
1500
2500
3500
4500
5500
6500
7500
9000
12500
17500
-
ni
12
21
16
24
19
14
12
7
4
1
130
ni ci
18000
52500
56000
108000
104500
91000
90000
63000
50000
17500
650500
90
ci
2250000
6250000
12250000
20250000
30250000
42250000
56250000
81000000
156250000
306250000
-
ni ci
27000000
131250000
196000000
486000000
574750000
591500000
675000000
567000000
625000000
306250000
4179750000
Statistique descriptive
3. Caractristiques de dispersion
2667,10
x 100 = 53,3 %
5003,85
ci
ni
ni ci
ci
ni ci
1500
2500
3500
4500
5500
6500
7500
9000
12500
17500
-
8
12
10
14
11
8
7
5
3
1
79
12000
30000
35000
63000
60500
52000
52500
45000
37500
17500
405000
2250000
6250000
12250000
20250000
30250000
42250000
56250000
81000000
156250000
306250000
18000000
75000000
122500000
283500000
332750000
338000000
393750000
405000000
468750000
306250000
2743500000
ci
1500
2500
3500
4500
5500
6500
ni
4
9
6
10
8
6
ni ci
6000
22500
21000
45000
44000
39000
91
ci
2250000
6250000
12250000
20250000
30250000
42250000
ni ci
9000000
56250000
73500000
202500000
242000000
253500000
Statistique descriptive
3. Caractristiques de dispersion
[7000 ; 8000[
[8000 ; 10000[
[10000 ; 15000[
[15000 ; 20000[
Total
7500
9000
12500
17500
-
5
2
1
0
51
37500
18000
12500
0
245500
56250000
81000000
156250000
306250000
281250000
162000000
156250000
0
1436250000
Moyenne
5126,58
4794,12
5003,85
Ecart type
2906,20
2275,57
2667,10
Coefficient de variation
56,7 %
47,47 %
53,3 %
92
Statistique descriptive
3. Caractristiques de dispersion
densit di
0,012
0,01
0,008
0,006
0,004
0,002
0
19500
18500
17500
16500
15500
14500
13500
12500
11500
10500
9500
8500
7500
6500
5500
4500
3500
2500
1500
salaires
hommes
femmes
Indice de concentration
Mdiale - Mdiane
100
Etendu
Exemple 10 : On considre lensemble des buts marqus par une quipe durant les 30
matchs du championnat de football, on a la srie statistique suivante donne sous la forme
simple (xi) et pour laquelle on demande de calculer la moyenne, la variance, lcart type, le
coefficient de variation et le coefficient de concentration.
1
3
0
2
1
5
2
1
2
0
3
2
1
3
0
1
2
1
2
2
1
3
0
2
xi = 55
i 1
30
x
i 1
= 155
93
0
4
1
2
5
3
Statistique descriptive
3. Caractristiques de dispersion
Pour dterminer la mdiane de cette srie, on considre le nombre d'observations, 30 qui est
pair, la mdiane est comprise entre l'observation de rang 15 et l'observation de rang 16. On
prend comme valeur de la mdiane la moyenne arithmtique simple des deux observations. La
srie classe par ordre croissant est :
0
0
0
0
0
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
3
3
3
3
3
4
5
5
ni
5
8
9
5
1
2
30
94
Statistique descriptive
3. Caractristiques de dispersion
n x
i
= 55
i 1
n x
i
= 155
i 1
1,35
x 100 = 73,77 %
1,83
ni
5
8
9
5
1
2
30
Fi
5
13
22
27
28
30
---
ni xi
0
8
18
15
4
10
55
ni xi cumul
0
8
26
41
45
55
---
Pour dterminer la mdiane de cette srie on considre le nombre d'observations, 30 qui est
pair ; la mdiane est comprise entre l'observation de rang 15 et l'observation de rang 16. On
prend comme valeur de la mdiane la moyenne arithmtique simple des deux observations.
x15 < Me x16
2 Me 2 ce qui donne : Me = 2 buts
La mdiale de cette srie est la moiti de la somme totale, cest dire 22,5 qui correspond
la valeur 2
La mdiane est gale la mdiale, le coefficient de concentration de cette srie est donc nul.
Exemple 12 : Une cooprative laitire fabrique un fromage qui doit contenir, selon les
tiquettes, 45 % de matires grasses. Un institut de consommation dont le rle est de vrifier
que la qualit des produits est bien celle qui est affiche par l'tiquette, fait prlever et analyser
95
Statistique descriptive
3. Caractristiques de dispersion
un chantillon de 120 fromages. Les rsultats de l'analyse sont consigns dans le tableau suivant
:
Taux de matires grasses
[41,5 - 42,5[
[42,5 - 43,5[
[43,5 - 44,5[
[44,5 - 45,5[
[45,5 - 46,5[
[46,5 - 47,5[
[47,5 - 48,5[
Nombre de fromages
10
11
24
38
22
4
11
ni
10
11
24
38
22
4
11
120
fi
8,33%
9,17%
20%
31,67%
18,33%
3,33%
9,17%
100%
f i ci
3,4986
3,9431
8,8
14,2515
8,4318
1,551
4,4016
44,8776
44,8776
ci
1764
1849
1936
2025
2116
2209
2304
fi ci
146,9412
169,5533
387,2
641,3175
387,8628
73,5597
211,2768
2017,7113
2017,7113
Les calculs de lindice de concentration peuvent tre rsums dans le tableau suivant :
Taux de matires
grasses
[41,5 42,5[
[42,5 43,5[
[43,5 44,5[
ni
fi
Fi
f i ci
fi ci cumul
10
11
24
8,33%
9,17%
20%
8,33%
17,5%
37,5%
3,4986
3,9431
8,8
3,4986
7,4417
16,2417
96
Statistique descriptive
[44,5 45,5[
[45,5 46,5[
[46,5 47,5[
[47,5 48,5[
Total
3. Caractristiques de dispersion
38
22
4
11
120
31,67%
18,33%
3,33%
9,17%
100%
69,17%
87,5%
90,83%
100%
---
14,2515
8,4318
1,551
4,4016
44,8776
30,4932
38,925
40,476
44,8776
---
En consultant les frquences cumules croissantes, la classe mdiane qui correspond 50%,
est la classe [44,5 45,5[. La mdiane est donc :
44,5 < Me < 45,5
37,5 < 50 < 69,17
Un calcul simple dextrapolation donne pour la mdiane :
45,544,5
Me44,5
=
69,1737,5
5037,5
1 x 12,5 = 44,89
Me = 44,5 +
31,67
En consultant les sommes cumules croissantes, la moiti de la somme totale (soit 22,4388)
se trouve dans la classe [44,5 45,5[. La mdiale est donc :
44,5 < Ml < 45,5
16,2417 < 22,4388 < 30,4932
Un calcul simple dextrapolation donne pour la mdiale :
45,544,5
Ml44,5
=
30,493216,2417 22,438816,2417
1
Ml = 44,5 +
x 6,1971 = 44,93
14,2515
Ltendu de la srie est : 48,5 41,5 = 7
Lindice de concentration est donn par la formule :
Indice de concentration
Mdiale - Mdiane
100 =0,57%
Etendu
Exemple 13 : On reprend les donnes de lexemple 8 relatives aux ventes de journaux faites
par Allal, pour calculer lindice de concentration de la srie qui est donne par le tableau
suivant :
125
118
127
110
97
107
125
Statistique descriptive
118
107
107
110
3. Caractristiques de dispersion
110
125
118
125
107
118
125
127
125
107
127
127
127
107
125
125
127
118
107
125
107
110
118
125
127
107
110
118
125
127
107
110
125
125
127
107
118
125
125
127
107
118
125
125
127
Xi
107
110
118
125
127
ni
7
3
5
9
6
fi
0,2333
0,1000
0,1667
0,3000
0,2000
Fi
0,2333
0,3333
0,5000
0,8000
1,0000
Somme ni xi
749
330
590
1125
762
98
Statistique descriptive
3. Caractristiques de dispersion
En consultant les sommes cumules croissantes, la moiti de la somme totale (soit 1778) se
trouve entre les valeurs 118 et 125. La mdiale est donc :
118 < Ml < 125
1669 < 1778 < 2794
Un calcul simple dextrapolation donne pour la mdiale :
125 118
= Ml118
2794 1669 17781669
La mdiale est : Ml = 118 + 109 x 0,006 222 = 118,68
Ltendu de la srie est : 127 107 = 20
Lindice de concentration est donn par la formule :
Indice de concentration
Mdiale - Mdiane
100 =3,4%
Etendu
ci
1500
2500
3500
4500
5500
6500
7500
9000
12500
17500
Total
ni
12
21
16
24
19
14
12
7
4
1
130
ni cumul
12
33
49
73
92
106
118
125
129
130
99
ni ci
18000
52500
56000
108000
104500
91000
90000
63000
50000
17500
650500
ni ci cumul
18000
70500
126500
234500
339000
430000
520000
583000
633000
650500
Statistique descriptive
3. Caractristiques de dispersion
1000 x 16 = 4666,67 DH
24
En consultant les sommes cumules croissantes, la moiti de la somme totale (325250 DH)
se trouve dans la classe [5000 ; 6000[. La mdiale est donc :
5000 < Ml < 6000
234500 < 325250 < 339000
6000 - 5000 =
Ml - 5000
339000 - 234500 325250 - 234500
Ml = 5000 +
Mdiale - Mdiane
100
Etendu
5868,42 - 4666,67
Indice de concentration
100 = 6,33 %
19000
Indice de concentration
ci
1500
2500
3500
4500
ni
8
12
10
14
100
ni cumul
8
20
30
44
ni ci
12000
30000
35000
63000
ni ci cumul
12000
42000
77000
140000
Statistique descriptive
[5000 6000[
[6000 7000[
[7000 8000[
[8000 10000[
[10000 15000[
[15000 20000[
Total
3. Caractristiques de dispersion
5500
6500
7500
9000
12500
17500
Total
11
8
7
5
3
1
79
55
63
70
75
78
79
60500
52000
52500
45000
37500
17500
405000
200500
252500
305000
350000
387500
405000
7000 - 6000 =
Ml - 6000
252500 - 200500 202500 - 200500
Ml = 6000 + 1000 x 2000 = 6038,46 DH
52000
Ltendu de la srie est : 20000 1000 = 19000
Lindice de concentration est donn par la formule :
Indice de concentration
Mdiale - Mdiane
100
Etendu
Indice de concentration
6038,46 - 4678,57
100 = 7,16 %
19000
101
Statistique descriptive
Tranches de salaire
[1000 ; 2000[
[2000 ; 3000[
[3000 ; 4000[
[4000 ; 5000[
[5000 ; 6000[
[6000 ; 7000[
[7000 ; 8000[
[8000 ; 10000[
[10000 ; 15000[
[15000 ; 20000[
Total
3. Caractristiques de dispersion
ci
1500
2500
3500
4500
5500
6500
7500
9000
12500
17500
Total
Ni
4
9
6
10
8
6
5
2
1
0
51
ni cumul
4
13
19
29
37
43
48
50
51
51
ni ci
6000
22500
21000
45000
44000
39000
37500
18000
12500
0
245500
ni ci cumul
6000
28500
49500
94500
138500
177500
215000
233000
245500
245500
En consultant les sommes cumules croissantes, la moiti de la somme totale (122750 DH) se
trouve dans la classe [5000 6000[. La mdiale est donc :
102
Statistique descriptive
3. Caractristiques de dispersion
6000 - 5000 =
Ml - 5000
138500 - 94500 122750 - 94500
Ml = 5000 +
Indice de concentration
Mdiale - Mdiane
100
Etendu
Indice de concentration
5642,05 - 4650,00
100 = 7,09 %.
14000
Moyenne
Ecart type
5126,58
4794,12
5003,85
2906,20
2275,57
2667,10
Coefficient de
variation
56,7 %
47,47 %
53,3 %
Indice de
concentration
7,16 %
7,09 %
6,33 %
103
Statistique descriptive
3. Caractristiques de dispersion
densit di
0,012
0,01
0,008
0,006
0,004
0,002
0
19500
18500
17500
16500
15500
14500
13500
12500
11500
10500
9500
8500
7500
6500
5500
4500
3500
2500
1500
salaires
hommes
femmes
1,62
1,70
1,82
1,58
1,75
1,58
1,70
1,62
1,58
1,62
1,58
1,70
1,70
1,82
1,75
1,85
104
Statistique descriptive
CA en DH
[2 000 ; 4 000[
[4 000 ; 6 000[
[6 000 ; 8 000[
[8 000 ; 10 000[
3. Caractristiques de dispersion
Nombre de jours
2
6
8
10
CA en DH
[10 000 ; 12 000[
[12 000 ; 14 000[
[14 000 ; 16 000[
[16 000 ; 18 000[
Nombre de jours
14
11
5
4
x 10366,67 DH et S = 3549,491356 DH ; b) CV = 34 %
3.6.3. Exercice.
On a recens lanciennet, en annes par dfaut, de 45 agents dune entreprise, elle se rpartit
comme suit :
2
3
1
5
3
6
3
2
5
2
3
2
3
1
3
5
5
5
2
3
3
6
2
2
3
2
1
5
3
6
6
4
6
3
5
5
5
1
6
5
1
6
3
6
1
Nombre
de classes
3
5
9
Nombre
dtudiants
[24 ; 28[
[28 ; 32[
[32 ; 36[
Nombre
de classes
12
7
4
Statistique descriptive
3. Caractristiques de dispersion
Nombre
de lots
3
5
9
12
18
Rendements en
quintaux
[25 ; 27[
[27 ; 29[
[29 ; 31[
[31 ; 33[
[33 ; 35[
Nombre
de lots
26
28
33
34
32
Statistique descriptive
3. Caractristiques de dispersion
13,13 et S = 1,54
11,40 et S = 1,87
Micro
40
41
40
42
43
Total CA
100
100
100
100
100
a) Calculer les moyennes et les carts types des pourcentages des chiffres daffaires de chaque
dpartement ;
b) lentreprise SONFI ralise, en 2006, un chiffre daffaires de 2 524 312,36 DH dans le
dpartement micro, combien a-t-elle ralis, en moyenne, dans les 2 autres dpartements ?
Solution : a) Pour le dpartement micro :
Pour le dpartement logiciels :
x 41,2 et S = 1,30
x 33,2 et S = 2,59
x i 125 000,00 DH
i 1
25
et
2
x i 652 456 000,00 DH
i 1
Statistique descriptive
Solution : a)
3. Caractristiques de dispersion
x 5 000,00 DH et S = 1047,97 DH
b)
y 5 500,00 DH et Sy = 1 152,77 DH
c)
y 6 000,00 DH et Sy = 1 047,97 DH
3.6.9. Exercice.
Le relev statistique des poids et des longueurs des barres de fer fabriques par la socit
MARFER a donne, pour une journe de production, les rsultats suivants :
Poids
Longueurs
Poids
Longueurs
ni
ni
(Kg)
(cm)
(Kg)
(cm)
[490 ; 500[
12
[540 ; 550[
2
5,80
[500 ; 510[
25
[550 ; 560[
4
[510 ; 520[
5
[560 ; 570[
8
6,20
[500 ; 510[
4
[570 ; 580[
12
5,90
[510 ; 520[
36
[580 ; 590[
6
[520 ; 530[
9
[590 ; 600[
2
[510 ; 520[
8
[560 ; 570[
1
6,00
[520 ; 530[
41
[570 ; 580[
5
[530 ; 540[
10
[580 ; 590[
4
6,30
[540 ; 550[
3
[590 ; 600[
20
6,10
[550 ; 560[
14
[600 ; 610[
10
[560 ; 570[
2
[610 ; 620[
4
ni : nombre de barres ayant les caractristiques de poids et de longueur indiques dans le
tableau.
a) Calculer la longueur moyenne et lcart type des barres de fer de 6,20 Kg de poids ;
b) Calculer le poids moyen et lcart type des barres de fer de longueurs comprises entre 560 et
570 cm ;
c) Calculer le poids moyen et lcart type dune barre de fer ;
d) Calculer la longueur moyenne et lcart type dune barre de fer ;
e) Quels sont les modes en poids et en longueur des barres de fer fabriques par la socit
MARFER ?
f) Quelle est la longueur mdiane des barres de fer ?
g) Quel est le poids mdiant des barres de fer ?
Solution : a)
Statistique descriptive
3. Caractristiques de dispersion
f) Me = 526,7 cm ; g) Me = 5,9 +
0,1
x 0,13 = 5,95 Kg
0,24
3.6.10. Exercice.
Le relev des entres des 5 salles dun cinma, releves au cours de la semaine passe, a donn
le tableau suivant :
Jours
Lundi
Mardi
Mercredi
Jeudi
Vendredi
Samedi
Dimanche
Capacits
Cin N 1
100
102
110
105
100
102
121
250
Cin N 2
201
210
204
206
212
220
231
250
Cin N 3
350
362
342
382
366
354
328
400
Cin N 4
250
242
236
246
283
255
222
350
Cin N 5
283
241
263
285
299
201
204
300
a) Calculer la moyenne et lcart type des entres de lensemble des cinmas pour chaque jour
de la semaine ;
b) Calculer la moyenne et lcart type des entres de chaque cinma pendant la semaine
passe ;
c) Quel est le cinma qui affiche le meilleur taux de remplissage pour la semaine passe ?
d) Quel est le jour qui affiche le meilleur taux de remplissage global pour les 5 cinmas ?
Solution
a)
Jours
Lundi
Mardi
Mercredi
Jeudi
Vendredi
Samedi
Dimanche
b)
Moyenne
236,8
231,4
231,0
244,8
252,0
226,4
221,2
Ecart type
62,5
67,2
59,0
75,4
63,2
68,1
55,6
Cin N 1
Cin N 2
Cin N 3
Cin N 4
Cin N 5
Moyenne
105,7
212,0
354,9
247,7
253,7
Ecart type
7,6
10,4
17,4
18,9
39,6
c) Cest le cinma N3 qui affiche le meilleur taux de remplissage pour la semaine passe.
d) Cest le Vendredi qui affiche le meilleur taux de remplissage global pour les 5 cinmas.
109
Statistique descriptive
PARTIE 2
STATISTIQUE DESCRIPTIVE A DEUX VARIABLES
La statistique descriptive deux variables est lensemble des mthodes qui permet dobtenir
et de faire un 1er traitement des informations relatives deux caractres particuliers dindividus
dune population donne.
La statistique descriptive a plusieurs objectifs :
- recueillir lensemble des donnes relatives deux caractres particuliers dindividus dune
population donne ;
- classer lensemble de ces donnes selon des sries statistiques afin de permettre den
faire :
* des reprsentations graphiques pour en visualiser lallure ;
* des traitements mathmatiques pour en dterminer certaines caractristiques ;
* des traitements mathmatiques pour en dterminer les relations possibles existants entre
ces caractres.
Dans cette partie, nous axerons notre propos sur le dernier point relatif la dtermination
des relations de corrlation entre les caractres tudis.
111
Statistique descriptive
112
Statistique descriptive
4. Rgression et corrlation
CHAPITRE 4
REGRESSION ET CORRELATION
4.1. INTRODUCTION.
On constate, trs souvent, dans la pratique, qu'il existe des relations entre deux ou plusieurs
variables. En analyse de rgression, on cherche expliquer une variable mtrique y qui dpend
dune ou de plusieurs variables explicatives mtriques x1, x2, x3, . . . .xp. A cette fin, un modle
mathmatique peut reprsenter convenablement la relation entre y et les xi, ce modle servira
aussi pour faire des prvisions.
Y = f (x1, x2, . . . .xp)
La variable Y sappelle la variable explique, dpendante, endogne, tandis que les
variables x1, x2, x3, . . . .xp sont les variables explicatives, indpendantes, exognes.
Sappuyant sur des donnes observes, lanalyse de rgression consiste ajuster un modle
explicatif y = f(xi).
4.2. REGRESSION SIMPLE.
Sil ny a quune seule variable explicative, on dira que le modle de rgression est simple.
Son but est de confirmer empiriquement une relation de cause effet entre deux variables.
Ensuite, si cette relation est confirme, il y aura lieu den valuer lintensit.
4.2.1. Notion de covariance.
4.2.1.1. Dfinition.
On dfinit la covariance de deux variables statistiques par la moyenne arithmtique des
produits des diffrences des observations par rapport leur moyenne :
113
Statistique descriptive
4. Rgression et corrlation
COV( x , y)
( x i x ) ( y i y)
i 1
COV ( x , y)
n ij ( x i x ) ( y j y)
i 1 j1
La covariance a pour but dtudier le sens de la relation entre deux variables statistiques :
- Une covariance positive indique une relation croissante, cest--dire que les deux
variables statistiques varient dans le mme sens ; les valeurs leves d'une srie correspondent
aux valeurs leves de l'autre ;
- Une covariance ngative indique une relation dcroissante, c'est--dire que les deux
variables statistiques varient en sens inverse ; les valeurs leves d'une srie correspondent aux
valeurs faibles de l'autre.
4.2.1.1. Proprits.
- Formule dveloppe de la covariance :
n
COV ( x , y)
i 1
n
n
COV( x , y)
( x i x ) ( y i y)
( x i y i x i y x y i x y)
i 1
n
114
Statistique descriptive
4. Rgression et corrlation
COV( x , y)
x i yi y x i x yi x y
i 1
i 1
i 1
i 1
n
n
COV ( x , y)
x i yi
i 1
- y x - x y x y COV( x , y)
x i yi
i 1
- xy
La covariance est gale la diffrence entre la moyenne des produits et le produit des
moyennes.
Dans le cas d'un tableau de contingences :
n
COV( x , y)
n ij x i y i
i 1 j1
- xy
- Transformation linaire :
Soit la transformation linaire d'une variable statistique x :
x' = ax + b, avec a et b deux constantes quelconques.
Soit la transformation linaire d'une variable statistique y :
y' = a'y + b', avec a' et b' deux constantes quelconques.
n
i 1
i 1
n
n
a ( x i x ) a ' ( y i y)
i 1
115
Statistique descriptive
4. Rgression et corrlation
a a ' ( x i x ) ( y i y)
i 1
COV( x, y) Sx Sy
Exemple 1 : On considre un chantillon de 12 clients choisis au hasard. On note, pour un
trimestre :
- x : le nombre d'articles achets par chacun des 12 clients ;
- y : le nombre de visites un centre commercial, de chaque client.
On obtient les rsultats suivants :
xi
yi
34
12
42
14
53
15
30
10
50
15
60
17
46
12
57
14
32
10
24
09
36
11
28
10
Total
xi
yi
xi
yi
xi yi
34
12
1156
144
408
42
53
30
50
60
46
57
32
24
36
28
492
14
15
10
15
17
12
14
10
9
11
10
149
1764
2809
900
2500
3600
2116
3249
1024
576
1296
784
21774
196
225
100
225
289
144
196
100
81
121
100
1921
588
795
300
750
1020
552
798
320
216
396
280
6423
116
Statistique descriptive
4. Rgression et corrlation
12
12
x i 492
y i 149
et
i 1
i 1
12
12
x i 21774
y i 1921
et
i 1
i 1
12
x i y i 6423
i 1
12
xi
i 1
492
41
12
12
i 1
n
12
S x
xi
i 1
21774
41 133,5
12
S x 133,5 11,55
12
yi
S y i 1
- y
1921
- 12,4166667 = 5,91
12
S y 5,91 = 2,43
12
COV ( x , y)
x i yi
i 1
117
Statistique descriptive
4. Rgression et corrlation
La covariance est positive, il y a donc une relation croissante entre le nombre d'articles
achets et le nombre de visites au centre commercial : c'est--dire que plus il y a de visites, plus
il y a darticles achets, ce qui semble tout fait logique.
Exemple 2 : Le concours d'accs un tablissement de formation porte sur deux preuves :
"Expression et communication" et "Informatique". Les candidats qui se sont prsents ce
concours se rpartissent, en fonction des notes obtenues ces deux preuves, de la manire
suivante :
y
10
12
15
0
10
9
12
3
13
11
9
9
18
14
7
7
16
17
5
11
13
14
2
x
7
9
11
14
7
30
9
70
11
65
14
35
Total
200
nixi
2045
x
10,23
200
200
S x
n x
i 1
200
21865
10,23 4,67
200
i 1
Sx 4,67 2,16
En moyenne, les candidats qui se sont prsents au concours ont obtenu une note de 10,23
sur 20 en expression et communication.
Les notes obtenues en expression et communication s'cartent, en moyenne, de 2,16 points
de la note moyenne.
118
Statistique descriptive
4. Rgression et corrlation
Distribution marginale de Y
3
31
y
Effectifs
7
36
10
48
12
45
15
40
Total
200
S y
n i yi
1965
y
9,83
200
200
n i yi
i 1
200
22323
9,83 14,99
200
i 1
Sy 14,99 3,87
En moyenne, les candidats qui se sont prsents au concours ont obtenu une note de 9,83
sur 20 en informatique.
Les notes obtenues en informatique s'cartent, en moyenne, de 3,87 points de la note
moyenne.
Intensit de la relation linaire entre X et Y
4
COV ( x , y)
4
n
i 1 j1
ij
200
xi y j
-x y
ij
x i y j = 7x3x0+7x7x3+7x10x9+7x12x7+7x15x11
i 1 j1
+ 9x3x10+9x7x13+9x10x18+9x12x16+9x15x13
+11x3x9+11x7x11+11x10x14+11x12x17+11x15x14
+14x3x12+14x7x9+14x10x7+14x12x5+14x15x2
4
ij
x i y j = 19576.
i 1 j1
COV ( x , y)
19576
- 10,23 9,83 = -2,68
200
La covariance est ngative, il y a donc une relation dcroissante entre les notes d'expression
communication et les notes d'informatique. En dautres termes, les candidats bons en
informatique sont, en moyenne, faibles en expression et communication.
119
Statistique descriptive
4. Rgression et corrlation
300
200
100
0
10
20
30
Bien que la relation entre deux variables ne soit pas toujours linaire, on accepte, dans une
premire approximation, de considrer que cette relation est linaire et ce pour les raisons
simples suivantes :
- On peut toujours, dans une premire approximation, approcher une courbe par la
corde qui la soutient ;
- la thorie de la rgression linaire est beaucoup plus dveloppe et surtout beaucoup
plus simple appliquer et interprter que celle de la rgression non linaire ;
La rgression linaire permet donc de dterminer la droite qui s'ajuste au mieux aux valeurs
observes. Cette droite est appele droite de rgression de y en fonction de x.
Exemple 3 : Reprenons les donnes de lexemple 1, et traons le diagramme de dispersion de
Y en fonction de X :
Xi
Yi
34
12
42
14
53
15
30
10
50
15
60
17
120
46
12
57
14
32
10
24
09
36
11
28
10
Statistique descriptive
4. Rgression et corrlation
Diagramme de Y en fonction de X
Nombre d'articles achets
18
16
14
12
10
8
6
4
2
0
0
10
20
30
40
50
60
70
Nombre de visites
yaxb
Le paramtre a donne la pente de la droite, appele coefficient de rgression ; il mesure
la variation de y lorsque x augmente dune unit. Le paramtre b est l'ordonne l'origine,
cest--dire la valeur prise par y lorsque x = 0.
Reprsente l'erreur alatoire, elle est non observable et comprend la fois les erreurs de
mesure sur les valeurs observes de Y et tous les autres facteurs explicatifs non pris en compte
dans le modle.
Lanalyse de rgression repose sur un certain nombre dhypothses qui sont :
-
Il existe diffrentes mthodes pour ajuster une droite de rgression. La mthode la plus
utilise est la mthode des moindres carrs.
121
Statistique descriptive
4. Rgression et corrlation
La mthode des moindres carrs est une mthode d'ajustement qui consiste minimiser la
somme des carrs des diffrences entre les valeurs observes, yi, et les valeurs estimes par la
^
droite,
Le modle empirique, estim partir des observations, sera dsign de cette faon :
^
y a 0x b0
a0 et b0 sont des estimations des paramtres a et b du modle thorique.
y
y
e4 { ^y =a x + b
y3
y2
e2
.} e3
{.
.} e1
x
On dfinit le i-me rsidu ( not ei ) comme tant la diffrence mesure verticalement sur
^
ei yi - yi .
On remarque que :
-
le rsidu est positif (ei >0) si yi se trouve au-dessus de la droite au point xi.
le rsidu est ngatif (ei < 0) si yi se trouve au-dessous de la droite au point xi.
le rsidu est nul (ei = 0) si yi se trouve prcisment sur la droite au point xi.
On dsire expliquer les variations observes sur la variable dpendante y, c'est pour cette
raison quil faut considrer les diffrences mesures verticalement.
122
Statistique descriptive
4. Rgression et corrlation
La mthode des moindres carres est celle qui minimise la somme des carrs des rsidus;
symboliquement, on cherche :
2
n
^
2
i 1
i 1
n
Avec le critre des moindres carrs, tous les rsidus deviennent positifs; car sinon, en nous
limitant aux rsidus simples, il est impossible que des rsidus positifs annulent des rsidus
ngatifs.
Les dmonstrations algbriques sont facilites par le recours aux outils du calcul diffrentiel.
La minimisation dune fonction quadratique plusieurs variables seffectue en annulant les
drives partielles de premier ordre et en vrifiant le signe des drives partielles de deuxime
ordre.
4.2.3.1. Calcul des coefficients.
Par calcul diffrentiel, on cherche les 2 valeurs a0 et b0 qui minimisent la somme des carrs
des rsidus, cette somme quadratique est note f( a0 , b0), puisquelle est fonction de 2 termes
inconnus a0 et b0 :
^
f (a 0 , b 0 ) e i (y i - y i ) (y i - a 0 x i b 0 )
f(a0 , b0) est minimum lorsque les drives premires partielles de f(a0 , b0) par rapport a0
et b0 sont nulles et que les drives secondes partielles sont positives.
Appelons :
- f ' a 0 , la drive premire partielle de f par rapport a0;
-
f ' 'a 0 0
et
f ' ' b0 0
1re Condition : crivons que les drives premires partielles sont nulles, c'est--dire que :
f ' a 0 0 et f ' b 0 0 .
123
Statistique descriptive
4. Rgression et corrlation
f (a 0 , b 0 ) e i (y i - y i ) (y i - a 0 x i b 0 )
On a :
f 'b 0 - (yi - a 0 x i b 0 ) 0
(y i - a 0 x i b 0 ) 0
yi - n b0 - a 0 x i 0
yi n b0 a 0 x i
On a aussi :
f ' a 0 - 2 x i (y i - a 0 x i b 0 ) 0
(x y
i
- b 0 x i - a 0 x i ) 0
x i yi - b0 x i - a 0 x i 0
x i yi b0 x i a 0 x i
On a donc un systme de deux quations deux inconnues, ces deux quations qui sont
appeles quations normales sont :
yi n b0 a 0 x i
x i yi b0 x i a 0 x i
Calcul de b0 : En considrant la seconde quation, on a successivement les galits
suivantes :
y i n b 0 a 0 x i =>
n b0 yi - a 0 x i
yi
xi
- a0
n
n
b0 y - a 0 x
b0
124
Statistique descriptive
4. Rgression et corrlation
x i yi b0 x i a 0 x i
x i y i (y - a 0 x) x i a 0 x i
x i yi y x i - a 0 x x i a 0 x i
2
x i y i n x y a 0 ( x i - n x )
a0
x y -n x y
x -n x
i
y a 0 x b0
avec :
a0
x i yi - n x y
xi - n x
b0 y - a 0 x
et
a0
x i yi - n x y
xi - n x
COV ( x , y)
S 2x
Do
y a 0 x b0 a 0 x y a 0 x a 0 x x y
Ces estimateurs sont des fonctions linaires des observations x1, x2, . . . xn.
2 Condition : montrons que les drives secondes partielles sont positives, c'est--dire
que : f ' ' a 0 0 et f ' ' b 0 0 .
^
f (a 0 , b 0 ) e i (y i - y i ) (y i - a 0 x i b 0 )
125
Statistique descriptive
4. Rgression et corrlation
On a :
f ' a 0 - 2 x i (y i - a 0 x i b 0 )
f ' 'a 0
- 2 x (y
i
- a 0x i b0 )
'
et :
f ' b 0 2 - (y i - a 0 x i b 0 )
f ' ' b0
2 - (y
Nous pouvons donc conclure que les valeurs de a0 et b0 que nous avons dtermines
2
^
n
2
Total
xi
yi
xi
yi
xi yi
34
12
1156
144
408
42
53
30
50
60
46
57
32
24
36
28
492
14
15
10
15
17
12
14
10
9
11
10
149
1764
2809
900
2500
3600
2116
3249
1024
576
1296
784
21774
196
225
100
225
289
144
196
100
81
121
100
1921
588
795
300
750
1020
552
798
320
216
396
280
6423
126
Statistique descriptive
4. Rgression et corrlation
12
12
x i 492
y i 149
et
i 1
i 1
12
12
x i 21774
y i 1921
et
i 1
i 1
12
x i y i 6423
i 1
12
12
xi
i 1
yi
149
y i 1
12,42
n
12
492
41 et
12
12
S x
xi
i 1
21774
41 133,5
12
S x 133,5 11,55
12
y
i
S y
i 1
Sy 5,91 = 2,43
12
COV( x , y)
x i yi
i 1
y a 0 x b0
avec :
a0
x i yi - n x y
x i - n x
et
b0 y - a 0 x
127
Statistique descriptive
4. Rgression et corrlation
a0
6423 - 12 41 12,4166667
= 0,196005 = 0,20
21774 - 12 41
a0
COV ( x , y) 26,17
=
= 0,196005 = 0,20
133,5
S x
y 0,20 x 4,38
4.2.3.2. Proprits de la droite de rgression.
2)
yi yi
3)
(y
( x , y)
et
(yi yi ) 0
y i ) 2 est la plus petite somme des carrs des carts que l'on peut obtenir.
128
Statistique descriptive
4. Rgression et corrlation
y 0,20 x 4,38
Total
xi
yi
yi
(yi - y i )
(yi - y i )
34
12
42
53
30
50
60
46
57
32
24
36
28
492
14
15
10
15
17
12
14
10
9
11
10
149
11,04
12,61
14,77
10,26
14,18
16,14
13,40
15,55
10,65
9,08
11,44
9,87
149
0,96
1,39
0,23
-0,26
0,82
0,86
-1,40
-1,55
-0,65
-0,08
-0,44
0,13
0,00
0,91
1,92
0,05
0,07
0,67
0,74
1,95
2,41
0,43
0,01
0,19
0,02
9,37
coordonnes ( x , y) , en effet :
^
129
Statistique descriptive
4. Rgression et corrlation
(yi yi ) 0
^
3) Enfin, on vrifie bien que ( y i y i ) = 9,37 est la plus petite somme des carrs des
carts que l'on peut obtenir. Rappelons que ce minimum est assur par le choix des coefficients
a et b.
2
et
a b + b = 0
Mais comme les points de coordonnes ( xi , yi ) ne sont pas tous sur la droite de rgression
y = a x + b, la condition a a = 1 ne peut tre satisfaite avec exactitude.
La 1re condition donne, en dduisant la formule de a partir de celle de a :
a a = R =
(x i x )( y i y)
(x i x ) (y i y)
Compte tenu de lingalit :
COV( x , y)
S x S 2y
le modle dajustement adopt sera dautant plus valide que le coefficient R sera proche de 1.
On appelle R, le coefficient de dtermination du modle dajustement ; il est gal au
pourcentage de la variation totale dans la variable y qui est explique par la rgression. Il
synthtise la capacit de la droite de rgression retrouver les diffrentes valeurs de la variable
dpendante yi
130
Statistique descriptive
4. Rgression et corrlation
^
^
yi y yi y yi yi
R =
SCR =
SCT
( y y)
( yi y)
i
Etudions tous les cas possibles des valeurs que peut prendre R :
- Cas o R2 = 0 :
Il faut pour cela que SCR = 0, alors le modle utilis n'explique aucune variation dans la
variable dpendante y. En outre, SCR = 0 implique que toutes les valeurs prdites sont gales
^
y i = y pour i = 1, 2, . . . .n.
Graphiquement, dans le cas dune rgression simple, on aura la situation suivante, dans
laquelle on peut voir clairement que la variable explicative x nest daucune utilit pour
prdire y.
131
Statistique descriptive
4. Rgression et corrlation
y
y
- Cas o R2 = 1 :
Il faut pour cela que SCR = SCT, ce qui revient SCE = 0. Sil en est ainsi, le modle
utilis explique toute la variation observe sur y. En outre, SCE = 0 implique que toutes les
i
valeurs prdites sont gales aux valeurs observes correspondantes de y, cest--dire : yi = y
pour i = 1, 2, . . . n.
Graphiquement, on a la situation suivante dans laquelle le modle de rgression explique
parfaitement les variations de y. La variable explicative x peut prdire sans erreur les valeurs de
y, au moins pour les valeurs de lchantillon.
x
- Cas gnral : R < 1
En gnral, nous ne sommes ni dans le cas de R = 0 ni dans celui de R = 1 mais nous
trouvons R < 1 et plus R est proche de 1 plus le modle peut prtendre expliquer les valeurs
de y par celles de x.
Le coefficient de dtermination R sert dfinir le coefficient de corrlation de PEARSON
R comme nous allons le voir juste aprs.
Exemple 6 : Reprenons les donnes de lexemple 1 et dcomposons la somme des carrs totale
et calculons le coefficient de dtermination.
132
Statistique descriptive
4. Rgression et corrlation
xi
34
42
53
30
50
60
46
57
32
24
36
28
Total 492
SCT =
yi
Yi
12 11,04
14 12,61
15 14,77
10 10,26
15 14,18
17 16,14
12 13,40
14 15,55
10 10,65
9 9,08
11 11,44
10 9,87
149 149,00
(yi -
y i ) ( y i y ) (yi - y i )
0,18
2,50
6,66
5,86
6,66
20,98
0,18
2,50
5,86
11,70
2,02
5,86
70,92
1,89
0,04
5,52
4,66
3,10
13,84
0,95
9,81
3,12
11,13
0,97
6,51
61,55
0,91
1,92
0,05
0,07
0,67
0,74
1,95
2,41
0,43
0,01
0,19
0,02
9,37
( yi - y) = 70,92
2
SCR = y i y = 61,55
SCE = y i y i = 9,37
133
Statistique descriptive
4. Rgression et corrlation
R=
R=
( x i x ) ( y i y)
=
( x i x ) ( y i y)
x i yi n x y
x i n x yi n y
COV( x , y)
Sx Sy
Cette dfinition montre que le coefficient de corrlation possde le mme signe que la
covariance et qu'il est toujours compris entre -1 et +1 puisque comme on la vu : R < 1
Le signe du coefficient de corrlation linaire indique le sens de la relation entre x et y,
ainsi :
R = +1 : dans ce cas, les points se trouvent tous sur une mme droite croissante, on
parle de corrlation linaire positive parfaite.
R = -1 : dans ce cas, les points se trouvent tous sur une mme droite dcroissante, on
parle de corrlation linaire ngative parfaite.
R = 0 : dans ce cas, il n'y a aucune dpendance linaire entre les deux variables, on
parle de corrlation linaire nulle.
-1 < R < 0 : dans ce cas, les deux variables varient en sens inverse, la relation
linaire est faible ou forte selon que le coefficient de corrlation linaire est proche de
0 ou de -1.
0 < R < 1 : dans ce cas, les deux variables varient dans le mme sens, la relation
linaire est faible ou forte selon que le coefficient de corrlation linaire est proche de
0 ou de 1.
134
Statistique descriptive
4. Rgression et corrlation
Total
12
x
i 1
yi
12
42
53
30
50
60
46
57
32
24
36
28
492
14
15
10
15
17
12
14
10
9
11
10
149
xi
yi
xi yi
1156
1764
2809
900
2500
3600
2116
3249
1024
576
1296
784
21774
144
196
225
100
225
289
144
196
100
81
121
100
1921
408
588
795
300
750
1020
552
798
320
216
396
280
6423
12
492
xi
34
et
12
x i 21774
i 1
y i 149
i 1
12
et
y i 1921
i 1
12
x i y i 6423
i 1
12
12
xi
i 1
492
41 et
12
yi
149
y i 1
12,42
n
12
135
Statistique descriptive
4. Rgression et corrlation
12
S x
xi
i 1
21774
41 133,5
12
S x 133,5 11,55
12
y
i
S y
i 1
Sy 5,91 = 2,43
12
COV( x , y)
x i yi
i 1
R=
x i yi n x y
x i n x yi n y
R=
6423 - 12 41 12,4166667
21774 - 12 41 1921 - 12 12,4166667
= 0,93
COV( x , y)
26,17
=
= 0,93
11,552,43
Sx Sy
Il y a donc une forte corrlation linaire croissante entre le nombre d'articles achets et le
nombre de visites des clients au centre commercial.
4.3.2.2. Proprits du coefficient de corrlation.
Ces proprits sont au nombre de deux :
- Le coefficient de corrlation linaire est indpendant des units de mesure.
- Le coefficient de corrlation linaire est indpendant de toute transformation linaire positive.
136
Statistique descriptive
4. Rgression et corrlation
R ( x ' , y' )
R ( x ' , y' )
a a ' COV( x , y)
a Sx a ' Sy
R ( x ' , y' )
COV( x , y)
Sx Sy
=>
Une transformation linaire ne change pas l'intensit de la relation linaire mais elle peut
changer le sens de la relation.
4.4. CALCULS DES PREVISIONS.
Pour obtenir une prvision ponctuelle de Y pour une valeur particulire x0 de X, il suffit de
remplacer X par x0 dans le modle empirique, ce qui scrit :
^
y = a0 x0 + b0
Exemple 8 : Reprenons les donnes de lexemple 1 et effectuons une prvision du nombre
darticles que pourrait acheter un client aprs 25 visites au centre commercial.
La droite de rgression de y en fonction de x, selon la mthode des moindres carrs est la
droite d'quation :
^
y = 0,20 x 4,38
^
Si x0 = 25 alors
au centre commercial.
137
Statistique descriptive
4. Rgression et corrlation
a0 = Log(b0)
et
b0 = Log(b0)
Le modle devient :
y' = a0 + b0 x
On dtermine a0 et b0 par les formules gnrales de la rgression linaire.
a0 =
x y' x y'
x -n x
i
et
b0 =
y' - b1 ' x
a 0 ea '0
et
138
b0 e b '0
Statistique descriptive
4. Rgression et corrlation
Exemple 9 : Le tableau suivant indique lvolution des ventes d'un produit pour
les 12 premiers mois de son lancement :
Mois : xi
1
2
3
4
5
6
7
8
9
10
12
Ventes : yi
1
6
10
14
25
48
63
108
161
240
325
Diagramme de dispersion
350
300
Ventes
250
200
1 50
1 00
50
0
0
10
12
14
Mois
Le nuage de points du diagramme de dispersion indique que la relation entre le temps et les
ventes n'est pas linaire, mais exponentielle.
On ajuste une courbe exponentielle d'quation :
y = a0 b0x
Grce une transformation logarithmique, le modle devient linaire :
Log(y) = Log (a0 b0x)
Log(y) = Log (a0) + Log(b0) x
139
Statistique descriptive
4. Rgression et corrlation
On pose :
y' = Log(y),
a0 = Log(b0)
et
b0 = Log(b0)
Total
12
yi
1
6
10
14
25
48
63
108
161
240
325
y'i
0,000
1,792
2,303
2,639
3,219
3,871
4,143
4,682
5,081
5,481
5,784
38,995
xi
1
4
9
16
25
36
49
64
81
100
144
529
y'i
0,000
3,210
5,302
6,965
10,361
14,986
17,166
21,922
25,821
30,037
33,453
169,223
12
xi = 67
y'
i 1
= 38,995
i 1
12
12
xi = 529
y' = 169,223
i
i 1
i 1
12
x y'
i
= 296,773
i 1
12
67 5,58
12
i 1
n
12
y'
y
i 1
38,995
3,250
12
12
COV( x , y' )
x i y' i
i 1
- x y' =
296,773
- 5,58 x 3,25 = 6,596
12
140
xi y'i
0,000
3,584
6,908
10,556
16,094
23,227
29,002
37,457
45,733
54,806
69,406
296,773
Statistique descriptive
4. Rgression et corrlation
a0 =
x i y i ' - n x y'
-
xi - n x
-
b0 =
a0 = Log(a0)
et
141
x = Log(x)
Statistique descriptive
4. Rgression et corrlation
a0 =
et
b0 =
a 0 e a '0
et y = Y Y0
Le modle devient :
Y Y0 = a (X X0) + b (X X0) + c
Y = a X + b (1 2aX0) X+ a X0 b X0 + Y0 +c
Il suffit de prendre :
X0 = 1/2a
et
Y0 = - a X0 + b X0 c = - a/4 + b/2a c
142
S2e , ce qui a
Statistique descriptive
4. Rgression et corrlation
Les paramtre ai sont appels coefficients de rgression partielle, ils mesurent la variation
de y lorsque xi augmente dune unit et que les autres variables explicatives sont maintenues
constantes.
i reprsente l'erreur alatoire, elle est non observable et comprend la fois les erreurs de
mesure sur les valeurs observes de yi et tous les autres facteurs explicatifs non pris en compte
dans le modle.
Lanalyse de rgression repose sur les mmes hypothses prsentes dans la rgression
simple auxquels il faut ajouter quil ny a pas de colinarit parfaite entre les variables
explicatives xi, cest--dire que leurs coefficients de corrlation linaire doivent tre nuls ou
proches de zro.
4.6.2. Ajustement du modle.
De la mme manire que la rgression simple, la mthode des moindres carrs consiste
minimiser la somme des carrs des diffrences entre les valeurs observes, yi, et les valeurs
i diffrence appele rsidu.
estimes par le modle, y
Le modle empirique, estim partir des observations, sera dsign de cette faon :
^
f (a 1 , a 2 ,..., a p ,b 0 ) e y i y i y i a 1 x 1i ... a p x pi b 0
2
i
143
Statistique descriptive
4. Rgression et corrlation
En annulant simultanment les drives partielles par rapport a1, a2, . . .ap et b0, on obtient
un systme de ( p + 1 ) quations linaires homogne (p+1) inconnues qui sont justement a1,
a2, . . .ap et b0. Ce systme est semblable celui montr dans le cas de la rgression linaire
simple.
Dans le cas de la rgression multiple, les calculs deviennent trs complexes, et pratiquement
impossibles faire sans laide de lordinateur. Il existe un nombre important de logiciels
informatiques qui traitent le problme de la rgression simple et de la rgression multiple. Les
logiciels fournissent en plus des estimations des coefficients du modle, toutes les statistiques et
tests ncessaires pour juger de la validit du modle.
Nous allons, dans ce qui suit, tudier, dans les dtails, le cas de la rgression linaire simple
deux variables explicatives.
4.6.3. Rgression linaire 2 variables explicatives.
La formule gnrale du modle est : y = a1 x1 + a2 x2 + b
La mthode des moindres carrs est celle qui minimise la somme des carrs des rsidus;
symboliquement, on cherche :
2
n
^
2
i 1
i 1
n
De mme que pour la rgression simple, avec le critre des moindres carrs, tous les rsidus
deviennent positifs; car sinon, en nous limitant aux rsidus simples, il est impossible que des
rsidus positifs annulent des rsidus ngatifs.
Les dmonstrations algbriques sont facilites par le recours aux outils du calcul diffrentiel.
La minimisation dune fonction quadratique plusieurs variables seffectue en annulant les
drives partielles de premier ordre et en vrifiant que les signes des drives partielles de
deuxime ordre sont tous positifs.
4.6.3.1. Calcul des coefficients.
Par calcul diffrentiel, on cherche les valeurs a1 a2 et b0 qui minimisent la somme des carrs
des rsidus, cette somme quadratique est note f(a1,a2,b0), puisquelle est fonction des 3 termes
inconnues : les 2 termes a1 et a2 et le 3 terme b0 :
^
f (a 1 , a 2 , b 0 ) e i (y i - y i ) (y i - a 1 x 1i a 2 x 2i b 0 )
144
Statistique descriptive
4. Rgression et corrlation
f(a1,a2,b0) est minimum lorsque les drives premires partielles de f(a1, a2, b0) par rapport
a1 , a2, et b0 sont nulles et que les drives secondes partielles sont toutes positives.
Convenons de garder les mmes notations pour ai et sont estimation a0i pour simplifier les
critures.
Appelons :
- f ' a 0 , la drive premire partielle de f par rapport a0;
-
f ' 'a 0 0 ,
f' ' a 2 0
et
f ' b0 0 ;
f ' ' b0 0 .
1re Condition : crivons que les drives premires partielles sont nulles, c'est--dire que :
f ' a 0 0 , f' a 2 0 et f ' b 0 0 .
^
f (a 1 , a 2 , b 0 ) e i (y i - y i ) (y i - a 1 x 1i a 2 x 2i b 0 )
On a :
(y i - a 1 x 1i a 2 x 2i b 0 ) 0
y i - n b 0 - a 1 x 1i - a 2 x 2i 0
y i n b 0 a 1 x 1i a 2 x 2i
On a aussi :
f ' a1 - 2 x 1i (y i - a 1 x 1i a 2 x 2i b 0 ) 0
2
(x 1i y i - b 0 x 1i - a 1 x 1i - a 2 x 1i x 2i ) 0
2
x 1i y i - b 0 x 1i - a 1 x 1i - a 2 x 1i x 2i 0
2
x 1i y i b 0 x 1i a 1 x 1i a 2 x 1i x 2i
On a enfin :
145
Statistique descriptive
4. Rgression et corrlation
f ' a 2 - 2 x 2i (y i - a 1 x 1i a 2 x 2i b 0 ) 0
2
(x 2i y i - b 0 x 2i - a 1 x 1i - a 2 x 1i x 2i ) 0
2
x 2i y i - b 0 x 2i - a 1 x 1i x 2i - a 2 x 2i 0
2
x 2i y i b 0 x 2i a 1 x 1i x 2i a 2 x 2i
On a donc un systme de trois quations trois inconnues, ces deux quations qui sont
appeles quations normales sont :
y i n b 0 a 1 x 1i a 2 x 2i
2
x 1i y i b 0 x 1i a 1 x 1i a 2 x 1i x 2i
2
x 2i y i b 0 x 2i a 1 x 1i x 2i a 2 x 2i
y i n b 0 a1 x1i a 2 x 2i
yi
x 1i
x 2i
b0
- a1
a2
n
n
n
b 0 y - a1 x1 a 2 x 2
Calcul de a1 et de a2 : En considrant les deux premires quations, on a :
2
x 1i y i b 0 x 1i a 1 x 1i a 2 x 1i x 2i
2
x 2i y i b 0 x 2i a 1 x 1i x 2i a 2 x 2i
x 1 y ( y - a 1 x 1 a 2 x 2 ) x 1 a 1 x 12 a 2 x 1 x 2
146
Statistique descriptive
4. Rgression et corrlation
x 2 y ( y - a 1 x 1 a 2 x 2 ) x 2 a 1 x 1 x 2 a 2 x 22
Soit, en utilisant les notations de S et COV :
S 2x 2 et ceux
a1
a2
y a1 x1 a 2 x 2 b 0
Lestimation de a1, de a2 et de b par la mthode des moindres carrs conduit aux formules
suivantes :
b 0 y - a1 x1 a 2 x 2
a1
147
Statistique descriptive
a2
4. Rgression et corrlation
do :
y a1 x1 a 2 x 2 b 0 a1 x1 a 2 x 2 y - a1 x1 a 2 x 2
y a 1 (x 1 - x 1 ) a 2 ( x 2 x 2 ) y
Ces estimateurs sont des fonctions linaires des observations x 1i , x 2i
et y i .
2 Condition : montrons que les drives secondes partielles sont positives, c'est--dire
que : f ' ' a1 0 f ' ' a 2 0 et f ' ' b 0 0 .
f ' a1 - 2 x 1i (y i - a 1 x 1i a 2 x 2i b 0 )
f ' a 2 - 2 x 2i (y i - a 1 x 1i a 2 x 2i b 0 )
f ' b 0 - (y i - a 1 x 1i a 2 x 2i b 0 )
f ' ' b0 1
Nous pouvons donc conclure que les valeurs de a1 de a2 et b0 que nous avons dtermines
correspondent bien un minimum de lexpression :
p 1
^
n
2
yi yi ei
i 1
i 1
ap-1 x
+ . . . + a2x + a1x + a0, il suffit de remplacer
multilinaire quon vient dtudier.
Statistique descriptive
4. Rgression et corrlation
fait le cas, dans notre modle polynomial gnral transform en modle multilinaire car les
x = x2
1,21
1,69
2,89
3,24
5,76
10,24
12,25
15,21
17,64
22,09
92,22
9,222
1,1
1,3
1,7
1,8
2,4
3,2
3,5
3,9
4,2
4,7
27,8
2,78
Somme
Sommes/10
x1
1,21
1,69
2,89
3,24
5,76
10,24
12,25
15,21
17,64
22,09
92,22
9,222
x2
1,4641
2,8561
8,3521
10,4976
33,1776
104,8576
150,0625
231,3441
311,1696
487,9681
1341,749
134,1749
x1x2
1,331
2,197
4,913
5,832
13,824
32,768
42,875
59,319
74,088
103,82
340,97
34,097
On calcule les variances, les carts types des variables et leur covariance :
V(x1) = 1,4936
V(x) = 49,129656
=>
Sx1 = 1,222129
=>
Sx = 7,009255
COV(x1,x) = 8,45984
R(x1,x) = 8,45984/(1,222129x7,009255) = 0,988
k
Le mme calcul pourra montrer que les x et x ne sont pas indpendantes quels que
soient k et l mais nous admettons, dans une 1re approximation, la validit du modle malgr
cette entorse lhypothse dindpendance des variables.
Exemple 10 : Le tableau suivant regroupe les donnes relatives une variable dpendante y et 2
variables explicatives x1 et x2.
149
Statistique descriptive
4. Rgression et corrlation
x1
15
28
40
70
120
130
160
250
x2
20
15
10
9
11
8
4
7
y
90
115
120
100
130
118
98
135
Le modle empirique, estim partir des observations, sera dsign de cette faon : y = a1
x1 + a2 x2 + b.
Total
x1
15
28
40
70
120
130
160
250
813
x2
20
15
10
9
11
8
4
7
84
y
90
115
120
100
130
118
98
135
906
X1
225
784
1600
4900
14400
16900
25600
62500
126909
X2
400
225
100
81
121
64
16
49
1056
y
8100
13225
14400
10000
16900
13924
9604
18225
104378
Les moyennes :
x 1 = 101,625
x 2 = 10,5
et
y = 113,25
Les variances :
V(x1) = 5535,984V(x2) = 21,75
et V(Y) = 221,688
Les covariances :
COV(x1,x2) = -254,563
COV(x1,y) = 583,469
et COV(x2;y) = -22,125
150
x1x2
300
420
400
630
1320
1040
640
1750
6500
x1 y
1350
3220
4800
7000
15600
15340
15680
33750
96740
x2y
1800
1725
1200
900
1430
944
392
945
9336
Statistique descriptive
4. Rgression et corrlation
a1
a2
b 0 y - a1 x1 - a 2 x 2
113,25 0,1269 x101,625 0,4684 x10,5 95,4321
Le modle linaire de rgression multiple est donc :
y = 0,1269 x1 + 0,4684 x2 + 95,4321
4.6.4. Qualit de lajustement.
4.6.4.1. Coefficient de corrlation.
Dans le cas de la rgression multiple, on parle de coefficient de corrlation multiple, il
mesure la corrlation combine de toutes les variables du modle. Les valeurs du coefficient de
corrlation sinterprtent de la mme manire que pour la rgression simple.
4.6.4.2. Coefficient de dtermination multiple.
De la mme manire que pour la rgression simple, le coefficient de dtermination indique
le pourcentage de la variation totale de y autour de sa moyenne qui est explique par la
rgression.
La variation totale
en 2 parties :
^
^
y i Yy y i y y i y i
151
Statistique descriptive
4. Rgression et corrlation
R =
SCR =
SCT
( y i y)
( yi y)
Le coefficient de dtermination multiple ne peut tre infrieur au plus lev des coefficients
de dtermination simple entre y et chacune des variables explicatives. Si les variables
explicatives sont parfaitement indpendantes entre elles, le coefficient de dtermination
multiple sera gal la somme des coefficients de dtermination simple entre y et chacune des
variables explicatives.
Le coefficient de dtermination multiple tend augmenter avec le nombre de variables
explicatives. Pour pallier cet inconvnient, on calcule un coefficient de dtermination ajust
R aj2 qui tient compte du nombre de variables explicatives (p) et de la taille de lchantillon (n).
Le coefficient de dtermination ajust se calcule en terme de variances, il est dfinit par :
S e2
SCE
variance due lerreur
R 1 2 avec S e2
n p 1
Sy
2
aj
SCT
variance de y
n 1
SCE / n p 1
SCE
n 1
R aj2 1
1
x
SCT / n 1
SCT n p 1
S 2y
152
Statistique descriptive
R aj2 1
4. Rgression et corrlation
n 1
(1 R 2 )
n p 1
Le R ajust est infrieur au R. Ce dernier est un estimateur biais, tandis que le premier est
non biais.
2
Le R ajust est prfrable R si la taille de lchantillon est faible. Quand n sera suprieur
30, il ny aura habituellement pas beaucoup de diffrence entre les 2 indices.
Le R ajust est plus appropri pour comparer des modles de rgression dune variable
explique Y en fonction de diffrents sous-groupes de variables explicatives.
Exemple 11 : Reprenons les donnes de lexemple 10 et calculons le coefficient de
dtermination.
Le modle de rgression linaire multiple explique 29,83 % des variations de Y.
4.7. EXERCICES DAPPLICATION.
4.7.1. Exercice.
Lentreprise SATEX dsire contrler sa consommation dnergie lectrique, pour ce faire, elle
dresse le tableau des statistiques de consommation et de production des 10 derniers mois et
essaie, dans un premier temps de voir si la consommation dpend de la production.
Le tableau des statistiques est le suivant :
Productions
xi (kg)
125
135
154
162
175
183
195
220
235
257
Consommation lectrique yi
(kwh)
4650
5010
5800
6000
6500
7000
7100
8000
8500
9500
a) Tracer le nuage de points (xi , yi) et dire si cela inspire lexistence dune liaison entre y et x.
Donner une justification de cette liaison.
153
Statistique descriptive
4. Rgression et corrlation
Consommation deau yi
(m3)
10
10,2
11
11,5
12
12,6
12,9
13
13,6
14,3
a) Tracer le nuage de points (xi , yi) et dire si cela inspire lexistence dune liaison entre y et x.
Donner une justification de cette liaison.
b) Dterminer sil y a une corrlation entre consommation deau et poids des tissus teints et si
oui tablir la relation liant ces deux variables.
c) Interprter la valeur de la coordonne lorigine du modle linaire, cest--dire au point
dabscisse xi = 0.
d) Donner quelle serait la consommation deau pour une production de 50 kg de tissus teints.
Solution : a) Facile faire ; b) R = 0,992 avec a = 0,2 et b = 4,4
c) sans teindre de tissu, on consomme 4,4 m3 deau ; d) 14,4 m3 deau.
4.7.3. Exercice.
Un commerant dsire savoir si son chiffre daffaires dune journe est fonction du nombre de
154
Statistique descriptive
4. Rgression et corrlation
clients quil reoit pendant cette journe. Il dresse le tableau statistique de ses chiffres daffaires
et du nombre de clients quil reoit pendant les 10 derniers jours.
Nombre de clients
Chiffres daffaires
xi
yi (DH)
12
190
13
230
15
280
18
300
22
310
23
400
26
420
31
480
32
540
37
620
a) Tracer le nuage de points (xi , yi) et dire si cela inspire lexistence dune liaison entre y et x.
Donner une justification de cette liaison.
b) Dterminer sil y a une corrlation entre nombre de clients et chiffres daffaires et si oui
tablir la relation liant ces deux variables.
c) Interprter la valeur de b, coordonne lorigine du modle linaire, cest--dire au point
dabscisse xi = 0
d) Donner quel serait le chiffre daffaires pour 50 clients.
Solution : a) Facile faire ; b) R = 0,983 avec a = 16,0
et b = 10,5 ; c) sans aucun client, on peut raliser 10,5 DH de chiffre daffaires, ce qui semble
difficile croire. Il sagit dun rsultat aberrant ; d) 810,50 DH.
4.7.4. Exercice.
Le directeur dune filature de nylon dsire connatre la relation liant la consommation
nergtique de son usine avec la production de fil total et de fil teint. Pour ce faire, il dresse le
tableau de huit jours de production et classe ce tableau par ordre croissant. Etablir sil y a :
a) une corrlation entre consommation dlectricit et production totale de fil et si oui, tablir la
relation liant ces deux variables.
b) une corrlation entre consommation dlectricit et production totale de fil teint et si oui,
tablir la relation liant ces deux variables.
c) une corrlation entre consommation dlectricit, production totale de fil et production de fil
teint ; et, si oui, tablir la relation liant ces deux variables
d) Interprter la valeur de la coordonne lorigine du modle linaire, cest--dire au point
dabscisses x1i = x2i = 0.
e) Compte tenu des rsultats des questions a), b) et c) calculer de 3 faons diffrentes la
consommation lectrique pour une production globale de fil de 400kg et une production de fil
teint de seulement 300 kg ? Interprter chacun des 3 rsultats et dire lequel choisir et
pourquoi ?
155
Statistique descriptive
4. Rgression et corrlation
Statistique descriptive
4. Rgression et corrlation
Consommation en l/100 km
ci
7,05
7,21
7,41
7,81
8,12
8,65
9,41
10,13
a) Tracer le nuage de points (vi , ci) et dire si cela inspire lexistence dune liaison entre vi et ci.
Donner une justification de cette liaison.
b) On doit choisir entre un modle dajustement exponentiel et un modle dajustement
parabolique, pour ce faire, il y a lieu dabord de faire un changement de variables pour centrer
le graphe. On pose donc : Vi = vi 90
et
Ci = ci 7
Calculer le tableau des nouvelles variables.
c) Calculer les coefficients du modle exponentiel ainsi que le coefficient de corrlation
correspondant.
d) Calculer les coefficients du modle parabolique ainsi que le coefficient de corrlation
correspondant.
e) Choisir le modle qui sajuste le mieux.
f) Donner quelles seraient les consommations pour des vitesses de 50 km/h, 70 km/h et 160
km/h.
Solution : a) Facile faire ; b) Facile faire ;
c) R = 0,96 avec a = 0,06 et b = 1,11 ; d) a = 0,0021 b = -0,0098 et c = 0,0716 avec R = 0,999 ;
e) Le modle parabolique a le coefficient de corrlation le plus lev, cest donc le modle qui
sajuste le mieux ;
f) La consommation est donc Ci = 0,0021 Vi - 0,0098 Vi + 0,0716
Pour une vitesse de 50 km/h, Ci = 10,91 l/100km ;
Pour une vitesse de 70 km/h, Ci = 8,13 l/100km ;
Pour une vitesse de 160 km/h, Ci = 16,94 l/100km.
157
Statistique descriptive
4. Rgression et corrlation
4.7.7. Exercice.
Lentreprise SATEL dsire connatre comment volue son chiffre daffaires mensuel en fonction
de la publicit quelle passe dans les journaux et des prospectus quelle distribue dans les boites
aux lettres des particuliers.
Les relevs de 10 mois des chiffres daffaires, des dpenses publicitaires et des dpenses pour
les prospectus sont rsums dans le tableau ci-dessous :
Dpenses en 1 000 DH
pi
fi
100,00
1,20
125,00
2,10
130,00
3,20
132,00
3,30
140,00
4,20
152,00
4,80
155,00
5,50
157,00
5,70
159,00
5,90
163,00
6,50
CA en 1 000 DH
vi
195,25
235,65
241,15
242,85
250,55
265,25
270,15
274,55
275,95
281,45
a) Etablir sil y a une corrlation entre le chiffre daffaires mensuel et la publicit que passe
lentreprise dans les journaux.
b) Etablir sil y a une corrlation entre le chiffre daffaires mensuel et les prospectus que
distribue lentreprise dans les boites aux lettres.
c) Calculer les lments du modle dajustement linaire du chiffre daffaires mensuel en
fonction de la publicit que passe lentreprise dans les journaux.
d) Calculer les lments du modle dajustement linaire du chiffre daffaires mensuel en
fonction de la dpense pour les prospectus que distribue lentreprise dans les boites aux lettres.
e) Calculer les lments du modle dajustement linaire du chiffre daffaires mensuel en
fonction de la dpense de la publicit que passe lentreprise dans les journaux et de celle des
prospectus que distribue lentreprise dans les boites aux lettres.
f) Interprter la valeur de la coordonne aux origines (au point de coordonnes pi = 0 et fi =
0,00 DH) du modle linaire.
g) Indiquer sur quelle variable pi ou fi doit agir le chef dentreprise pour avoir la meilleure
augmentation du chiffre daffaires.
h) Compte tenu des rsultats des questions c), d) et e) calculer, de 3 faons diffrentes, le
chiffre daffaires pour des dpenses de publicit de 185 735,32 DH et des dpenses de
prospectus de 7 245,36 DH ? Indiquer lequel des 3 rsultats choisir et dire pourquoi.
Solution : a) R = 0,99619 ; b) R = 0,9637 ; c) vi = 1,31 pi + 67,54 ; d) vi = 14,34 fi + 192,48 ;
158
Statistique descriptive
4. Rgression et corrlation
e) Vi = 1,67 pi 4,08 fi + 34,79 avec R = 0,998 ; f) Sans dpense de la publicit dans les
journaux ni de dpenses dans des prospectus que distribue lentreprise dans les boites aux
lettres, on peut sattendre en moyenne un chiffre daffaires mensuel de 34790 DH ; g) La
dpense de la publicit dans les journaux est plus corrle (0,99619) la dpense dans des
prospectus que distribue lentreprise dans les boites aux lettres (0,9637). Le chef dentreprise
doit agir sur la dpense de la publicit dans les journaux pour avoir la meilleure augmentation
du chiffre daffaires ;
h) vi = 1,31 pi + 67,54 = 1,31 x 185,73532 + 67,54 = 310,853 soit 310853 DH
vi = 14,34 fi + 192,48 = 14,34 x 7,24536 +192,48 = 296,378 soit 296378 DH
vi = 1,67 pi 4,08 fi + 34,79 = 1,67 x 185,73532 4,08 x 7,24536 + 34,79 = 315,407 soit
315407 DH.
On peut retenir le troisime rsultat (315407 DH) puisque ce modle possde le coefficient de
corrlation le plus lev.
4.7.8. Exercice.
La production intrieure brute dun pays volue, avec le temps, comme indiqu, dans le tableau,
ci-dessous :
PIB en milliards de DH
annes
xi
pi
1997
1
2,79
1998
2
2,87
1999
3
2,95
2000
4
3,01
2001
5
3,15
2002
6
3,25
2003
7
3,27
2004
8
3,33
2005
9
3,45
a) Tracer le nuage de points (xi , pi) et dire si cela inspire lexistence dune liaison entre pi et xi.
Donner une justification de cette liaison.
b) On doit choisir entre un modle dajustement exponentiel et un modle dajustement
parabolique, pour ce faire comparer les coefficients de corrlation des deux modles.
c) Calculer les coefficients du modle qui possde le meilleur coefficient de corrlation.
d) Donner quelles seraient les PIB pour les annes 2006 et 2007.
Solution : a) Facile faire ; b) Pi = 2,73 x 1,03xi avec R = 0,992
c) Pi = -0,001 xi + 0,093 xi +2,69 avec R = 0,994 ;
d) Pour lanne 2006, xi = 10
Pi = -0,001 x 10 + 0,093 x 10 +2,69 = 3,52 milliards de DH
Pour lanne 2007, xi = 11
Pi = -0,001 x 11 + 0,093 x 11 +2,69 = 3,592 milliards de DH
159
Statistique descriptive
4. Rgression et corrlation
4.7.9. Exercice.
Le nombre dabonns un service tlphonique au cours des neuf premiers mois de son
lancement sont comme suit :
Mois
Janvier
Fvrier
Mars
Avril
Mai
Juin
Juillet
Aot
septembre
Priode t
1
2
3
4
5
6
7
8
9
a) Tracer le nuage de points (ti , yti) et dire si cela inspire lexistence dune liaison linaire ou
non linaire. Donner une justification de cette liaison ;
b) On doit choisir entre un modle dajustement exponentiel et un modle dajustement linaire,
pour ce faire comparer les coefficients de corrlation des deux modles ;
c) Calculer les coefficients du modle qui possde le meilleur coefficient de corrlation ;
d) Donner quelles seraient le nombre de nouveaux abonns pour les trois derniers mois de
lanne.
Solution : a) Facile faire ; b) Modle linaire R = 0,91 ; Modle exponentiel R = 0,97 ;
Modle qui possde le meilleur coefficient de corrlation : Yti = 1,29 x 1,76ti
d) Pour le mois 10 : Yti = 1,29 x 1,7610 = 368 abonns ;
Pour le mois 11 : Yti = 1,29 x 1,7611 = 647 abonns ;
Pour le mois 12 : Yti = 1,29 x 1,7612 = 1140 abonns.
4.7.10. Exercice.
Une entreprise agricole dispose de donnes observes au cours de 10 annes successives
relatives aux variables suivantes :
y : Rendement dune culture sous serre.
x1 : Quantit deau dirrigation en mm.
x2 : Temprature moyenne.
Les donnes sont les suivantes :
Anne
1
x1
87,9
160
x2
19,6
y
28,37
Statistique descriptive
4. Rgression et corrlation
2
3
4
5
6
7
8
9
10
89,9
153,0
132,1
88,8
220,9
117,7
109,0
156,1
181,5
15,2
19,7
17,0
18,3
17,8
17,8
18,3
17,8
16,8
23,77
26,04
25,74
26,68
24,29
28,00
28,37
24,96
21,66
A partir de ces donnes, on cherche le modle de rgression linaire qui permet dexpliquer au
mieux le rendement en fonction des variables mtorologiques.
a) Etablir sil y a une corrlation entre y et x1.
b) Etablir sil y a une corrlation entre y et x2.
c) Calculer les coefficients du modle dajustement linaire de y en fonction de x 1.
d) Calculer les coefficients du modle dajustement linaire de y en fonction de x2.
e) Calculer les coefficients du modle dajustement linaire de y en fonction de x 1 et de x2.
f) Calculer et interprter le coefficient de dtermination du modle dajustement linaire de y
en fonction de x1 et de x2.
g) Indiquer sur quelle variable mtorologique lexploitant agricole doit agir pour avoir le
meilleur rendement.
Solution : a) Corrlation entre y et x1 : 0,52
b) Corrlation entre y et x2 : - 0,30
c) Modle dajustement linaire de y en fonction de x1 : y = 0,31 x1 + 212,12
d) Modle dajustement linaire de y en fonction de x2 : y = - 5,86 x2 + 357,74
e) Y = 0,30 x1 5,60 x2 + 312,60 ; f) R = 0,354
g) La variable x1 est plus corrle avec y (0,52) que la variable x2 (-0,30), lexploitant agricole
doit donc agir sur la quantit deau dirrigation pour avoir le meilleur rendement.
161
Statistique descriptive
CHAPITRE 5
LES SERIES CHRONOLOGIQUES
5.1. DEFINITION.
Une srie chronologique ou temporelle, est une suite dobservations numriques dune
grandeur effectues intervalles rguliers au cours du temps.
Les exemples dans le monde conomique et social sont donc nombreux : inflation, cours
boursiers, chmage, productions, exportations, natalit, immigration, scolarisation,
logement, chiffre daffaires, stocks, ventes, prix, vie dun produit, clientle, etc.
Si on note y la grandeur laquelle se rapportent les observations, une srie chronologique
est donc une srie statistique deux variables (t , y) dont la seconde variable est le temps t.
La spcificit de lanalyse dune srie chronologique est limportance accorde lordre
dans lequel sont effectues les observations. En sries chronologiques la dpendance
temporelle entre les variables constitue la source principale dinformation.
Lchelle de mesure de la grandeur sera toujours reprsente par une variable continue
valeurs relles.
La frquence des observations peut tre journalire, hebdomadaire, mensuelle, trimestrielle,
annuelle ou autre. Dans bien des situations conomiques, un effet saisonnier li une
priode connue est pressenti. Une srie journalire sera observe pendant plusieurs
semaines avec une priodicit de 5, 6 ou 7 jours selon le cas; pour une srie mensuelle
observe sur plusieurs annes, la priode est gale 12 ; pour une srie trimestrielle
observe sur plusieurs annes, la priode est gale 4.
La variable mesure peut tre ltat dune grandeur linstant de mesure, on parle de niveau
dun stock, du chiffre daffaires, du bilan dune activit au cours de la dernire priode
coule, etc.
163
Statistique descriptive
Trimestre 1
190
320
426
558
Trimestre 2
160
290
405
525
Trimestre 3
251
359
483
607
Trimestre 4
200
317
433
550
Statistique descriptive
Pour cette prsentation, les donnes doivent tre transformes en une srie statistique deux
variables, la variable y dsignant les ventes et la variable t reprsentant le temps.
Temps t
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Vente y
190
160
251
200
320
290
359
317
426
405
483
433
558
525
607
550
Ventes trimestrielles entre 2002 et 2005
700
Ventes y
600
500
400
300
200
100
0
1
Temps t
165
10 11 12 13 14 15 16
Statistique descriptive
Statistique descriptive
Ventes Yt
700
600
500
400
300
200
100
0
1
10 11 12 13 14 15 16
Temps t
167
Statistique descriptive
Pour pouvoir sparer les quatre composantes servant dcrire la srie observe, il est
ncessaire de prciser leur mode d'interaction. La plupart des sries chronologiques entrent
dans l'un des schmas suivants :
5.4.1. Schma additif.
Selon ce schma, la srie brute rsulte de la somme du mouvement de longue dure Tt, du
mouvement saisonnier St, du mouvement cyclique Ct et du mouvement accidentel ou
rsiduel Rt :
y(t) = Tt + St + Ct + Rt
St, Ct, et Rt sont alors les lments que lon doit ajouter la valeur Tt de la tendance la
date t pour obtenir la donne observe y(t). Ce modle considre que les mouvements
saisonnier et cyclique sont indpendants du niveau de y atteint sur le trend.
5.4.2. Schma multiplicatif.
On peut au contraire penser que les variations cycliques et saisonnires suivent lvolution
gnrale de la grandeur. On adopte alors un modle multiplicatif :
Y(t) = Tt x St x Ct x Rt
O St, Ct et Rt sont les coefficients par lesquels on doit multiplier Tt, position sur le Trend
la date t, pour obtenir la donne observe y.
5.4.3. Schma mixte.
On peut aussi noter que ces deux hypothses ne sont pas incompatibles. Le schma additif
et le schma multiplicatif peuvent tre combins pour donner un schma dit mixte .
Yt = Tt x St + Ct + Rt
Les modles sus-indiqus sont tous acceptables. Cependant, il est frquemment fait usage
du modle multiplicatif pour tudier les techniques associes lanalyse des sries
chronologiques.
Exemple 4 : Reprenons le graphique de lexemple 2.
168
Statistique descriptive
Ventes Yt
600
500
400
300
200
100
0
1
10 11 12 13 14 15 16
Temps t
On peut remarquer sur le graphique que les variations saisonnires suivent lvolution
gnrale de la srie, on adopte alors un modle multiplicatif :
Y(t) = Tt x St x Rt
O St et Rt sont les coefficients par lesquels on doit multiplier Tt, position sur le Trend la
date t, pour obtenir la donne observe y(t).
5.5. LES METHODES DE LISSAGE.
Les mthodes de lissage sont des mthodes de rduction ou dlimination des fluctuations
alatoires dans le but de dcouvrir lexistence dautres composantes.
5.5.1. La mthode des moyennes mobiles.
Les oprations de lissage sont ralises par le biais de moyennes mobiles. Celles-ci sont trs
utilises car elles sont la fois de conceptions simples, faciles mettre en uvre et
suffisantes dans bien des situations.
Une srie chronologique est lisse en remplaant chaque valeur y(t) par une moyenne
arithmtique des valeurs qui lentourent. Une moyenne mobile pour une priode de temps
est une moyenne arithmtique simple des valeurs de cette priode et de celles avoisinantes.
Le lissage dune srie chronologique y(t), par une moyenne mobile dordre impair n = 2k +
1 est dfini pour t = k + 1, . . . , T - k, par :
MM(y(t)) =
1 (Y + + Yt + + Yt+k)
n t-k
169
Statistique descriptive
Par exemple, pour calculer les moyennes mobiles de longueur 3 pour une priode
quelconque, nous sommons 3 valeurs de la srie chronologique : la valeur de la srie de la
priode en question, la valeur de celle qui prcde et la valeur de celle qui suit et nous
divisons par 3. Nous calculons les moyennes mobiles pour toutes les priodes excepts la
premire et la dernire.
Il est difficile de discerner les composantes de la srie chronologique si lon se rfre
uniquement au graphe reprsentatif de la srie brute et ce en raison du large volume ou effet
de la variation alatoire prsente. Pour essayer de voir comment la mthode des moyennes
mobiles rduit les fluctuations alatoires, on se rfre la reprsentation graphique de la
srie des moyennes mobiles.
Il est noter aussi que les moyennes mobiles de longueur 5 lissent la srie brute plus que
lorsquon utilise les moyennes mobiles de longueur 3. En gnral, plus la priode sur
laquelle nous faisons les moyennes est longue, plus la srie brute devient lisse.
La srie lisse est plus courte que loriginale puisque des valeurs sont manquantes chaque
extrmit de la priode dobservation.
Exemple 5 : Reprenons les donnes de lexemple 1 et calculons les moyennes mobiles
dordre 3 et les moyennes mobiles dordre 5.
Utilisons la prsentation des donnes sous forme dune srie statistique deux variables, la
variable y(t) dsignant les ventes et la variable t reprsentant le temps.
Pour calculer les moyennes mobiles de longueur 3 pour une priode quelconque, nous
sommons la valeur de la srie chronologique de la priode en question aux valeurs de celle
qui prcde et de celle qui suit et nous divisons par 3. Nous calculons les moyennes mobiles
pour toutes les priodes excepts la premire et la dernire.
MM3(y(t)) =
1 (yt-1 + yt + yt+1)
3
Temps t
1
2
3
4
5
6
7
8
9
10
11
Ventes y
190
160
251
200
320
290
359
317
426
405
483
170
Statistique descriptive
12
13
14
15
16
433
558
525
607
550
Pour calculer les moyennes mobiles de longueur 5, pour une priode quelconque, nous
sommons la valeur de la srie chronologique de la priode en question aux 2 valeurs
prcdentes et aux 2 valeurs suivantes et nous divisons par 5. Nous calculons les moyennes
mobiles pour toutes les priodes excepts les 2 premires et les 2 dernires.
MM5(y(t)) =
Le tableau ci-dessous donne les rsultats pour les moyennes mobiles de longueur 3, MM3 et
de longueur 5, MM5 :
Temps t
Vente y
1
2
3
4
5
6
7
8
9
10
11
12
13
190
160
251
200
320
290
359
317
426
405
483
433
558
Statistique descriptive
14
15
16
525
607
550
563,33
560,67
-
534,60
-
Pour essayer de voir comment la mthode des moyennes mobiles rduit les fluctuations
alatoires, examinons les reprsentations graphiques de la srie brute, de la srie des
moyennes mobiles MM3 et de la srie des moyennes mobiles MM5.
600
500
400
300
200
100
0
Ventes Yt
MM3
10
11
12
13
14
MM5
On remarque bien, sur le graphique, que les moyennes mobiles de longueur 5 lissent la
srie brute plus que les moyennes mobiles de longueur 3. En gnral, plus la priode sur
laquelle nous faisons les moyennes est longue, plus la srie brute devient lisse.
5.5.2. La mthode des moyennes mobiles centres.
Si lon dcide dadopter un nombre pair de priodes pour calculer les moyennes mobiles,
nous serons confronts au problme de la place ou position des moyennes mobiles
calcules. Obtenir des moyennes mobiles qui se situent entre deux priodes cause des
problmes notamment dinterprtation. La mthode des moyennes mobiles centres corrige
ce problme. Cette mthode consiste calculer des moyennes mobiles dordre 2 aux
moyennes mobiles dj obtenues.
Exemple 6 : Reprenons les donnes de lexemple 5 et calculons les moyennes mobiles
dordre 4.
Pour calculer les moyennes mobiles de longueur 4 nous sommons les valeurs de la srie
chronologique de 4 priodes successives et nous divisons par 4. Les moyennes mobiles ainsi
calcules se positionnent entre 2 priodes. La mthode des moyennes mobiles centres
172
Statistique descriptive
corrige ce problme. Cette mthode consiste calculer des moyennes mobiles dordre 2 aux
moyennes mobiles dj obtenues.
Des trois galits prcdentes, nous pouvons, sans calculer les moyennes mobiles dordre 4,
donner directement lexpression de la moyenne mobile centre pour la priode t :
MMC4(yt) =
MM4(y(2 ; 3)) =
La moyenne mobile centre pour la priode 3 peut tre directement calcule par :
MMC4(y3) = 1 (0,5 x190 + 160 + 251 + 200 + 0,5 x 320) = 216,5
Le tableau ci-dessous donne les rsultats pour les moyennes mobiles de longueur 4 MM4 et
les moyennes mobiles centres MMC4 :
Temps t
1
2
Vente
Y(t)
190
160
Statistique descriptive
251
216,50
232,75
200
249,00
265,25
320
290
278,75
292,25
306,88
321,50
359
334,75
348,00
317
362,38
376,75
426
10
405
392,25
407,75
422,25
436,75
11
483
453,25
469,75
12
433
484,75
499,75
13
558
14
525
515,25
530,75
545,38
560,00
15
16
607
550
174
Statistique descriptive
600
500
400
300
200
100
0
Ventes Yt
10 11 12 13 14
MMC4
On remarque bien, sur le graphique, que les moyennes mobiles centres dordre 4 ont liss
la srie brute.
5.5.3.
La mthode exponentielle
Deux inconvnients sont associs la mthode des moyennes mobiles pour le lissage dune
srie chronologique :
- Premirement, nous navons pas de moyennes mobiles pour le premier et le dernier
groupes de priodes de la srie. Au cas o la srie chronologique serait compose dun
nombre limit dobservations, les valeurs omises peuvent reprsenter une importante perte
dinformation ;
- Deuximement, les moyennes mobiles ngligent la plupart des valeurs prcdentes de la
srie chronologique, la moyenne mobile reflte des priodes avoisinantes mais nest pas
affecte par tout le pass.
Ces deux inconvnients sont corrigs par la mthode exponentielle dune srie qui est
dfinie de la faon suivante :
St = w yt + (1-w) S t-1
pour t 2
Avec :
- St : valeur de la srie chronologique lisse exponentiellement la date t.
* y(t) = yt : valeur de la srie chronologique la date t .
* S t-1 : valeur de la srie chronologique lisse exponentiellement la date t 1.
* w : constante ou coefficient de lissage, avec 0 w 1 .
* (1-w), appel facteur doubli, reprsente le poids accord la nouvelle acquisition.
175
Statistique descriptive
Pour t 2
Statistique descriptive
Ventes yt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
190
160
251
200
320
290
359
317
426
405
483
433
558
525
607
550
Lissage exponentiel
w = 0,2
190,00
184,00
197,40
197,92
222,34
235,87
260,50
271,80
302,64
323,11
355,09
370,67
408,14
431,51
466,61
483,29
Lissage exponentiel
w = 0,7
190,00
169,00
226,40
207,92
286,38
288,91
337,97
323,29
395,19
402,06
458,72
440,72
522,81
524,34
582,20
559,66
Pour essayer de voir comment la mthode exponentielle rduit les fluctuations alatoires,
examinons les reprsentations graphiques de la srie brute, de la srie lisse
exponentiellement 0,2 et de la srie lisse exponentiellement 0,7.
700
600
500
400
300
200
100
0
Ventes Yt
10
w = 0,2
177
12
13
14
w = 0,7
15
16
Statistique descriptive
On voit bien, sur le graphique, que le lissage exponentiel w = 0,2 lissent la srie brute
plus que le lissage exponentiel w = 0,5. En gnral, plus le coefficient de lissage est faible,
plus la srie brute devient lisse.
5.6. ETUDE DU TREND.
La rgression linaire est la mthode la plus simple pour analyser la tendance gnrale
dune srie chronologique o la variable indpendante est le temps t.
Le trend peut tre soit linaire ou non linaire et par consquent peut prendre des formes
fonctionnelles assez diverses.
5.6.1.
Modle linaire.
Si nous estimons que la tendance de longue priode est essentiellement linaire, on utilisera
le modle suivant :
^
yt a t b
Lestimation de a et de b par la mthode des moindres carrs se fait par les formules
dveloppes dans le chapitre prcdent :
t y - n t y
t - n t
i i
COV(t, y)
S2t
b y-a t
et
178
10 11
12
13 14
Statistique descriptive
Total
Temps t
3
4
5
6
7
8
9
10
11
12
13
14
102
yt a t b
MMC4
216,5
249
278,75
306,875
334,75
362,375
392,25
422,25
453,25
484,75
515,25
545,375
4561,375
t
9
16
25
36
49
64
81
100
121
144
169
196
1010
t x MMC4
649,5
996
1393,75
1841,25
2343,25
2899
3530,25
4222,5
4985,75
5817
6698,25
7635,25
43011,75
t 102 8,5
12
4561,375
MMC4
380,11
12
1010
St
- 8,5 11,92
12
43011,75
COV(t ; MMC4)
- 8,5 380,11 353,3775
12
353,3775
a=
29,65
11,92
b = 380,11 29,65 x 8,5 = 128,08
^
yt = 29,65 t + 128,08
Reportons la droite dquation y = 29,65 t + 128,08 sur le graphe de la srie tel que nous
lavons reprsent pour lexemple 1.
179
Statistique descriptive
700
600
500
400
300
200
100
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Ventes Yt
trend
Modle exponentiel.
^
y t = a bt
Le modle logarithmique peut tre traduit en termes de log de la faon suivante :
^
a = log (a)
et
b = log (b)
b'
COV(t, y')
S2t
et
180
a = ea
Statistique descriptive
Priode
1
2
3
4
5
6
7
8
9
Daprs le graphique, on voit bien que la srie prsente une tendance exponentielle de la
forme :
^
y t = a bt
Le modle logarithmique peut tre traduit en termes de log de la faon suivante :
^
Statistique descriptive
b = log (b)
Total
t
1
2
3
4
5
6
7
8
9
45
yt
1
6
10
14
25
48
63
108
161
---
y'
0,000
1,792
2,303
2,639
3,219
3,871
4,143
4,682
5,081
27,730
t 45 5
9
27,73
Y'
3,08
9
St 285 - 5 6,67
9
172,561
COV(t ; Y')
- 5 3,08 3,773
9
3,773
b =
0,566
6,67
a = 3,08 0,566 x 5 = 0,25
Les constantes a et b sont alors :
b = eb = e0,566 = 1,76
a = ea = e0,25 = 1,28
^
y t = 1,28 b1,76
t
1
4
9
16
25
36
49
64
81
285
t y'
0,000
3,584
6,908
10,556
16,094
23,227
29,002
37,457
45,733
172,561
Statistique descriptive
Yt
^
Yt
*
Par un modle additif, on calcule les diffrences entre les valeurs de la srie brute et
celles de la tendance, on parle de diffrences aux trends.
rk =
csk = rk
r
Exemple 10 : Reprenons les donnes de lexercice 1 et calculons les coefficients
saisonniers.
183
Statistique descriptive
lexemple 8 savoir :
^
yt = 29,65 t + 128,08
Yt
3
4
5
6
7
8
9
10
11
12
13
14
yt
yt
rt
217,03
246,68
276,33
305,98
335,63
365,28
394,93
424,58
454,23
483,88
513,53
543,18
1,1565
0,8108
1,1580
0,9478
1,0696
0,8678
1,0787
0,9539
1,0633
0,8948
1,0866
0,9665
251
200
320
290
359
317
426
405
483
433
558
525
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Le graphique des rapports aux valeurs du trend fait apparatre des fluctuations saisonnires.
Les priodes 2 ; 4 ; 6 ; 8 ; 10 ; 12 ; 14 et 16 qui correspondent aux deuxime et quatrime
trimestres sont des basses saisons, alors que les priodes 1 ; 3 ; 5 ; 7 ; 9 ; 11 ; 13 et 15 qui
correspondent aux premier et troisime trimestres sont des hautes saisons.
Calculons les coefficients saisonniers dans le cas dun modle multiplicatif :
Annes
Trimestre 1
Trimestre 2
Trimestre 3
Trimestre 4
184
Statistique descriptive
2002
2003
2004
2005
rk
1,1580
1,0787
1,0866
1,1078
0,9478
0,9539
0,9665
0,9561
0,8108
0,8678
0,8948
0,8578
1,0915
0,8539
1,00455
Cs
1,1565
1,0696
1,0633
1,0965
1,1028
0,9518
185
Statistique descriptive
Les coefficients saisonniers du premier et troisime trimestre sont suprieurs 1 alors que
ceux du deuxime et quatrime trimestre sont infrieurs 1. Le deuxime et le quatrime
trimestre sont donc des basses saisons, alors que le premier et le troisime trimestre sont des
hautes saisons.
5.7.2. Dsaisonnalisation dune srie chronologique.
Les techniques de dsaisonnalisation consistent liminer dune srie chronologique leffet
de la composante saisonnire.
La srie dsaisonnalise est obtenue :
*
*
dans le cas du modle multiplicatif, en divisant les valeurs de la srie brute par les
coefficients saisonniers moyens correspondants ;
dans le cas du modle additif, en soustrayant des valeurs de la srie brute les
coefficients saisonniers moyens correspondants.
Trimestre 1
172,29
290,17
386,29
505,98
Trimestre 2
168,10
304,69
425,51
551,59
Trimestre 3
229,96
328,91
442,51
556,12
Trimestre 4
234,22
371,24
507,09
644,10
S rie dsaisonnalise
800
600
400
200
0
11
13
15
Statistique descriptive
rsiduelle. En effet, au deuxime trimestre 2002 et premier trimestre 2005 on note une
petite baisse accidentelle.
5.7.3. Calcul des prvisions.
A partir de lquation du trend et des coefficients saisonniers, on peut prvoir les valeurs de
la srie pour les priodes venir.
La prvision de la valeur de la srie la priode t+k est, pour un modle multiplicatif, la
valeur estime du trend multiplie par le coefficient saisonnier moyen de la saison
correspondante.
Exemple 12 : Reprenons les donnes de lexemple 10 et calculons les prvisions des ventes
pour les quatre trimestres de lanne 2006.
Lquation du trend dj calcule lexemple 8 est :
^
yt = 29,65 t + 128,08
^
yt+k =
Trimestres
anne 2006
1er trimestre
2me trimestre
3me trimestre
4me trimestre
y t k CS
Valeurs du trend :
Priodes
t = 17
t = 18
t = 19
t = 20
yt
615,13
644,78
674,43
704,08
Coefficients
saisonniers
1,1028
0,9518
1,0915
0,8539
Prvisions
^
Y t k CS
678
614
736
601
Trimestre 1
190
320
426
558
Trimestre 2
160
290
405
525
187
Trimestre 3
251
359
483
607
Trimestre 4
200
317
433
550
Statistique descriptive
Le tableau suivant regroupe la srie brute, les valeurs du trend et les diffrences au trend :
t
yt
3
4
5
6
7
8
9
10
11
12
13
14
251
200
320
290
359
317
426
405
483
433
558
525
yt
yt
dt
217,03
246,68
276,33
305,98
335,63
365,28
394,93
424,58
454,23
483,88
513,53
543,18
33,97
-46,68
43,67
-15,98
23,37
-48,28
31,07
-19,58
28,77
-50,88
44,47
-18,18
diffrences au trend
60
40
20
0
-20
-40
-60
Le graphique des diffrences aux valeurs du trend fait apparatre des fluctuations
saisonnires. Les priodes 2 ; 4 ; 6 ; 8 ; 10 ; 12 ; 14 et 16 qui correspondent aux deuxime et
quatrime trimestres sont des basses saisons, alors que les priodes 1 ; 3 ; 5 ; 7 ; 9 ; 11 ;
13 et 15 qui correspondent aux premier et troisime trimestres sont des hautes saisons.
188
Statistique descriptive
cs = d k
Trimestre 1
43,67
31,07
44,47
Trimestre 2
- 15,98
- 19,58
- 18,18
Trimestre 3
33,97
23,37
28,77
-
Trimestre 4
- 46,68
- 48,28
- 50,88
-
39,74
- 17,91
28,70
- 48,61
Les coefficients saisonniers du premier et troisime trimestre sont suprieurs 0 alors que
ceux du deuxime et quatrime trimestre sont infrieurs 0. Le deuxime et le quatrime
trimestre sont donc des basses saisons, alors que le premier et le troisime trimestre sont des
hautes saisons.
Dsaisonnalisation de la srie brute :
La srie dsaisonnalise est obtenue en soustrayant le coefficient saisonnier moyen de la
valeur de la srie brute.
Annes
2002
2003
2004
2005
Trimestre 1
150
280
386
518
Trimestre 2
178
308
423
543
Trimestre 3
222
330
454
578
Trimestre 4
249
366
482
599
Srie dsaisonnalise
700
600
500
400
300
200
100
0
1
189
10
11
12
13
14
15
16
Statistique descriptive
jan
318
342
367
392
420
453
487
529
fv
281
309
328
349
378
412
440
477
mar
278
299
320
342
370
398
429
463
avr
250
268
287
311
334
362
393
423
mai
231
249
269
290
314
341
370
398
juin
216
236
251
273
296
322
347
380
juil
223
242
259
282
305
335
357
389
ao
245
262
284
305
330
359
388
419
sep
269
288
309
328
356
392
415
448
oct
302
321
345
364
396
427
457
493
nov
325
342
367
389
422
454
491
526
Dc
347
364
394
417
452
483
516
560
Reprsentation graphique :
La prsentation des donnes doit tre transforme en une srie statistique deux variables,
la variable y(t) dsignant les ventes et la variable t reprsentant le temps.
y(t)
600
500
400
300
200
100
94
91
88
85
82
79
76
73
70
67
64
61
58
55
52
49
46
43
40
37
34
31
28
25
22
19
16
13
10
190
Statistique descriptive
600
500
400
300
200
100
0
1998
1999
2004
2005
2000
2001
10
2002
12
2003
1 (yt-1 + yt + yt+1)
3
191
Statistique descriptive
jan
fv
292,3
3
316,6
7
338,3
3
mars
269,6
7
405
361
389,3
3
439
421
470
507,3
3
452
489,6
7
334
360,6
7
390,6
7
420,6
7
454,3
3
332,6
7
353
378,3
3
avr
292
311,6
7
253
mai
232,3
3
272
251
292
314,3
3
339,3
3
269
291,3
3
314,6
7
341,6
7
367
397,3
3
juin
223,3
3
242,3
3
259,6
7
281,6
7
305
332,6
7
228
246,6
7
264,6
7
286,6
7
310,3
3
338,6
7
358
364
389
396
370
400,3
3
428
juil
aot
245,6
7
sept
oct
298,6
7
272
290,3
3
312,6
7
332,3
3
360,6
7
392,6
7
264
284
305
330,3
3
362
386,6
7
418,6
7
317
340,3
3
360,3
3
391,3
3
424,3
3
454,3
3
420
453,3
3
489
nov
324,6
7
342,3
3
368,6
7
390
423,3
3
454,6
7
dc
338
357,6
7
384,3
3
408,6
7
442,3
3
474,6
7
488
526,3
3
512
Pour essayer de voir comment la mthode des moyennes mobiles rduit les fluctuations
alatoires, examinons la reprsentation graphique de la srie des moyennes mobiles MM3.
MM3
600,00
500,00
400,00
300,00
200,00
100,00
95
92
89
86
83
80
77
74
71
68
65
62
59
56
53
50
47
44
41
38
35
32
29
26
23
20
17
14
11
0,00
On voit bien, sur le graphique, que la srie des moyennes mobiles de longueur 3 est plus
lisse que la srie brute.
Dtermination du trend :
Daprs le graphique de la srie brute, on peut affirmer que la tendance de longue priode
est linaire, on utilisera le modle suivant :
^
yt a t b
192
Statistique descriptive
Lestimation de a et de b par la mthode des moindres carrs se fait par les formules :
t y - n t y
t - n t
i i
COV(t, y)
S2t
b y-a t
et
Total
moyenne
variance
covariance
a
b
MM3
33480,66
356,2
t
290319
3088,5
t x MM3
1775869,35
18892,2
yt = 2,2 t + 249,6
fv
254,0
280,4
306,8
333,2
359,6
386
412,4
438,8
mars
256,2
282,6
309
335,4
361,8
388,2
414,6
441
avr
258,4
284,8
311,2
337,6
364
390,4
416,8
443,2
mai
260,6
287
313,4
339,8
366,2
392,6
419
445,4
juin
262,8
289,2
315,6
342
368,4
394,8
421,2
447,6
juil
265,0
291,4
317,8
344,2
370,6
397
423,4
449,8
aot
267,2
293,6
320
346,4
372,8
399,2
425,6
452
sept
269,4
295,8
322,2
348,6
375
401,4
427,8
454,2
oct
271,6
298
324,4
350,8
377,2
403,6
430
456,4
nov
273,8
300,2
326,6
353
379,4
405,8
432,2
458,6
dc
276,0
302,4
328,8
355,2
381,6
408
434,4
460,8
avr
mai
juin
juil
aot sept
0,979 0,892 0,850 0,860 0,919 1,010
0,955 0,875 0,838 0,846 0,899 0,982
0,938 0,858 0,823 0,833 0,888 0,970
0,931 0,857 0,824 0,833 0,880 0,953
0,932 0,859 0,828 0,837 0,886 0,962
0,940 0,870 0,843 0,853 0,907 0,978
0,953 0,883 0,850 0,860 0,909 0,982
0,966 0,899 0,869 0,880 0,926 0,998
Calcul des rapports moyens par mois
1,155 1,106 1,017 0,949 0,874 0,840 0,850 0,902 0,979
Calcul de la moyenne des rapports moyens
193
oct
1,100
1,064
1,049
1,027
1,037
1,051
1,057
1,071
nov
1,186
1,140
1,129
1,105
1,116
1,120
1,129
1,148
dc
1,225
1,183
1,169
1,151
1,159
1,163
1,179
-
fv
1,151
1,129
1,103
1,083
1,083
1,091
1,096
1,116
mars
1,053
1,033
1,009
0,996
0,997
1,006
1,015
1,030
Statistique descriptive
0,964
Calcul des coefficients saisonniers moyens
1,198 1,148 1,055 0,985 0,907 0,872 0,882 0,936 1,016 1,097 1,177 1,610
rapports au trend
1,4
1,2
1,0
0,8
0,6
0,4
0,2
95
92
89
86
83
80
77
74
71
68
65
62
59
56
53
50
47
44
41
38
35
32
29
26
23
20
17
14
11
0,0
Le graphique des rapports aux valeurs du trend fait apparatre des fluctuations saisonnires.
Les mois 4 ; 5 ; 6 ; 7 et 8 correspondent une basse saison, alors que les mois 1 ; 2 ; 3 ; 9 ;
10 ; 11 et 12 correspondent une haute saison.
Dtermination de la srie dsaisonnalise :
1998
1999
2000
2001
2002
2003
2004
2005
jan
265
285
306
327
351
378
407
442
fv
245
269
286
304
329
359
383
416
mars
264
283
303
324
351
377
407
439
avr
254
272
291
316
339
368
399
429
mai
255
275
297
320
346
376
408
439
juin
248
271
288
313
339
369
398
436
194
juil
253
274
294
320
346
380
405
441
aot
262
280
303
326
353
384
415
448
sept
265
283
304
323
350
386
408
441
oct
275
293
314
332
361
389
417
449
nov
276
291
312
331
359
386
417
447
Dc
216
226
245
259
281
300
320
348
Statistique descriptive
srie dsaisonnalise
500
450
400
350
300
250
200
150
100
50
94
91
88
85
82
79
76
73
70
67
64
61
58
55
52
49
46
43
40
37
34
31
28
25
22
19
16
13
10
1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005
50
36,5
43
44,5 38,9 38,1 32,6 38,7 41,7 41,1 33,8
yt = - 0,54 t + 42,95.
5.8.2. Exercice.
195
Statistique descriptive
Au cours des deux exercices 2004, 2005, les chiffres daffaires mensuels d'une entreprise de
transports ont t les suivants :
ans
2004
2005
jan
50
54
fv
46
51
mar
64
69
avril
65
71
mai
63
70
juin
70
78
juil
85
93
aot
63
70
Sept
59
65
oct
56
62
nov
49
54
dc
56
61
a) Lisser la srie, selon le modle multiplicatif, par la mthode des moyennes mobiles d'ordre 12.
b) Reprsenter graphiquement la srie lisse. Interprter.
c) Dterminer lquation du trend.
Solution : On ne donnera que la rponse la question c.
^
yt = 0,5 t + 51,6.
5.8.3. Exercice.
Considrons la production trimestrielle, en tonnes, durant 5 annes de lentreprise SATAM.
Annes
1
2
3
4
5
Trimestre 1
920
953
1002
1128
1257
Trimestre 2
1114
1241
1343
1544
1589
Trimestre 3
1310
1468
1571
1747
1911
Trimestre 4
1047
1183
1314
1446
1465
a) Reprsenter graphiquement la srie brute. Quelle est la nature du trend ? Juger les
fluctuations alatoires et leffet saisonnier.
b) Lisser la srie brute, selon un modle multiplicatif, par la mthode des moyennes mobiles.
Reprsenter graphiquement la srie des moyennes mobiles et interprter.
c) Dterminer lquation du trend.
d) Calculer les coefficients saisonniers.
e) Dsaisonnaliser la srie chronologique. Reprsenter graphiquement la srie dsaisonnalise
et interprter.
f) Calculer les prvisions des ventes trimestrielles pour lanne 6.
Solution : On ne donnera que la rponse la question c, d, et f.
^
yt = 31,74 t + 994,36 ;
0,8254
1,0424
Trimestres anne 6
196
1,1925
Prvisions
0,9397
Statistique descriptive
1er trimestre
2me trimestre
3me trimestre
4me trimestre
1371
1765
2056
1650
5.8.4. Exercice.
Le tableau ci-dessous indique les ventes mensuelles, en millions de dirhams, pendant les annes
1998 2005, de lentreprise MOTEL :
ans
1998
1999
2000
2001
2002
2003
2004
2005
jan
12,63
11,84
13,05
12,34
13,15
13,73
14,74
15,29
fv
11,72
11,74
12,33
12,06
12,64
13,55
14,06
13,78
mars
13,43
12,74
13,96
13,54
14,57
15,72
15,79
15,55
avr
12,53
13,40
14,17
14,32
15,49
14,89
16,44
16,27
mai
13,29
14,85
14,66
14,25
15,33
16,11
17,20
17,36
juin
13,27
13,81
14,58
14,66
15,60
16,58
17,11
16,60
juil
12,36
13,40
14,38
14,39
15,26
15,38
16,86
16,60
aot
13,27
13,45
14,18
13,90
15,48
16,19
17,49
17,00
sept
13,10
13,62
14,08
14,14
15,76
15,58
16,37
16,33
oct
13,86
14,82
14,95
14,66
15,68
16,13
16,95
17,36
nov
13,39
14,01
13,96
14,53
15,75
16,49
17,13
17,04
Dc
15,38
16,91
16,44
17,87
19,12
19,38
19,84
21,17
a) Reprsenter graphiquement la srie brute. Quelle est la nature du trend ? Juger les
fluctuations alatoires et leffet saisonnier.
b) Lisser la srie brute, selon le modle multiplicatif, par la mthode des moyennes mobiles.
Reprsenter graphiquement la srie des moyennes mobiles et interprter.
c) Dterminer lquation du trend.
d) Calculer les coefficients saisonniers.
e) Dsaisonnaliser la srie chronologique. Reprsenter graphiquement la srie dsaisonnalise
et interprter.
f) Calculer les prvisions des ventes mensuelles pour lanne 2007.
Solution : On ne donnera que la rponse la question c, d, et f.
^
yt = 0,04 t + 11,62
0,99
1,03
1,02
0,99
1,00
f)
Anne 2007
Janvier
Prvisions
14,31
197
0,99
1,03
1,01
1,20
Statistique descriptive
Fvrier
Mars
Avril
Mai
Juin
Juillet
Aot
Septembre
Octobre
Novembre
Dcembre
13,66
15,44
15,71
16,45
16,32
15,82
16,12
15,88
16,61
16,29
19,44
5.8.5. Exercice.
L'volution du chiffre d'affaires trimestriel (en milliers de dirhams) d'une entreprise
commerciale a t la suivante, au cours de trois annes conscutives :
Trimestres
1er trimestre
2me trimestre
3me trimestre
4me trimestre
2003
880
960
1030
920
2004
810
880
950
840
2005
740
800
960
760
a) Reprsenter graphiquement la srie brute. Quelle est la nature du trend ? Juger les
fluctuations alatoires et leffet saisonnier.
b) Lisser la srie brute, selon le modle multiplicatif par la mthode des moyennes mobiles
dordre 4. Reprsenter graphiquement la srie des moyennes mobiles et interprter.
c) Dterminer lquation du trend.
d) Calculer les coefficients saisonniers.
e) Dsaisonnaliser la srie chronologique. Reprsenter graphiquement la srie dsaisonnalise
et interprter.
f) Calculer les prvisions des chiffres daffaires trimestriels pour lanne 2008.
Solution : On ne donnera que la rponse la question c, d, et f.
^
yt = - 12,83 t + 960,91
d)
Trimestres
1er trimestre
2me trimestre
198
Cs
0,9023
0,9943
Statistique descriptive
3me trimestre
4me trimestre
1,1261
0,9773
f)
Trimestres anne 2008
1er trimestre
2me trimestre
3me trimestre
4me trimestre
Prvisions
624
675
750
638
5.8.6. Exercice.
Les ventes quotidiennes dune socit commerciale sont consignes dans le tableau ci-dessous :
Jours
Lundi
Mardi
Mercredi
Jeudi
Vendredi
Semaine 1
43
45
22
25
31
Semaine 2
51
41
37
22
25
Semaine 3
40
57
30
33
37
Semaine 4
64
58
33
38
25
a) Reprsenter graphiquement la srie brute. Quelle est la nature du trend ? Juger les
fluctuations alatoires et leffet saisonnier.
b) Lisser la srie brute par la mthode des moyennes mobiles. Reprsenter graphiquement la
srie des moyennes mobiles et interprter.
c) Dterminer lquation du trend.
d) Calculer les coefficients saisonniers.
e) Dsaisonnaliser la srie chronologique. Reprsenter graphiquement la srie dsaisonnalise
et interprter.
f) Calculer les prvisions des ventes pour la cinquime semaine et pour la sixime semaine.
Solution : On ne donnera que la rponse la question c, d, et f.
^
yt = 0,85 t + 29,50.
d)
Jours
Lundi
Mardi
Mercredi
Jeudi
Cs
1,3395
1,3139
0,8015
0,7217
199
Statistique descriptive
0,8235
Vendredi
f)
Semaines 5 et 6
Lundi
Mardi
Mercredi
Jeudi
Vendredi
Lundi
Mardi
Mercredi
Jeudi
Vendredi
Prvisions
63
63
39
36
42
69
69
43
39
45
5.8.7. Exercice.
Le tableau suivant donne l'volution trimestrielle des exportations par tonne denres pour une
entreprise donne.
Anne
2002
2003
2004
2005
Trimestre 1
185
315
421
553
Trimestre 2
155
285
400
520
Trimestre 3
246
354
478
602
Trimestre 4
195
312
428
545
Cs
1,1202
0,9236
1,0854
0,8708
Anne 2006
Trimestre 1
Trimestre 2
Trimestre 3
Trimestre 4
Prvisions
692
597
733
613
b)
200
Statistique descriptive
5.8.8. Exercice.
Le tableau ci-dessous indique la quantit mensuelle de marchandises transportes, en tonnes,
pendant les annes 1998 2005.
ans
1998
1999
2000
2001
2002
2003
2004
2005
jan
3661
3562
3351
2967
2505
2713
2565
2164
fv
2834
2911
2730
2462
2556
2751
2616
2108
mars
2999
2868
2801
2412
3256
3517
3446
2702
avr
3152
2912
2957
2445
2757
2971
2696
2105
mai
3977
3678
3883
3345
3754
3835
3558
2729
juin
3295
2606
3204
2730
3052
3143
2959
2489
juil
3807
2969
3758
3251
3015
2397
2708
2138
aot
3307
3149
3229
2708
3883
3700
3737
3146
sept
3312
3364
3153
2711
3148
3155
2849
2570
oct
4317
4156
4024
3629
3282
3284
2920
2733
nov
3139
3139
2797
2685
3758
3740
3223
2462
Dc
2700
2672
2413
2518
2669
2641
2221
2188
a) Reprsenter graphiquement la srie brute. Quelle est la nature du trend ? Juger les
fluctuations alatoires et leffet saisonnier.
b) Lisser la srie brute, selon un modle multiplicatif, par la mthode des moyennes mobiles.
Reprsenter graphiquement la srie des moyennes mobiles et interprter.
c) Dterminer lquation du trend.
d) Calculer les coefficients saisonniers.
e) Dsaisonnaliser la srie chronologique. Reprsenter graphiquement la srie dsaisonnalise
et interprter.
f) Calculer les prvisions pour les annes 2006 et 2007.
Solution : On ne rpondra quaux questions c, d et f.
^
cs
1,115
2
1,004
2
1,170
3
1,039
1
f)
Annes 2006
Janvier 2006
Fvrier
Mars
Avril
Prvisions
2441
2189
2518
2294
Annes 2007
Janvier
Fvrier
Mars
Avril
201
Prvisions
2385
2139
2459
2241
0,833
6
Statistique descriptive
Mai
Juin
Juillet
Aot
Septembre
Octobre
Novembre
Dcembre
3000
2453
2497
2815
2530
2943
2608
2088
Mai
Juin
Juillet
Aot
Septembre
Octobre
Novembre
Dcembre
2931
2396
2439
2749
2471
2874
2546
2039
5.8.9. Exercice.
La srie chronologique dfinie par le tableau ci-aprs reprsente l'volution, de 2002 2005, du
nombre trimestriel de mariages enregistrs dans un pays donn (donnes brutes en milliers).
Trimestres
1er trimestre
2me trimestre
3me trimestre
2002
64
82
76
2003
60
80
70
2004
58
76
66
2005
57
73
64
a) Dterminer l'quation du Trend linaire ;
b) Dsaisonnaliser la srie brute ;
c) Calculer les prvisions pour lanne 2007.
Annes
4me trimestre
68
66
65
63
5.8.10. Exercice.
Le tableau suivant donne, pour 15 trimestres conscutifs, les valeurs des deux variables
suivantes :
X : l'indice d'offre d'emploi.
Y : le taux de chmage.
202
Statistique descriptive
Annes
Trimestres
1
2
2002
3
4
1
2
2003
3
4
1
2
2004
3
4
1
2
2005
3
4
Etudier les deux sries chronologiques : l'indice d'offre
dterminer quels devraient tre l'indice d'offre d'emploi
trimestres de 2006.
Indice de loffre demploi :
t 5,76 t 149,43
Equation du Trend : y
X
Y
159
8,40
154
8,50
161
8,40
187
8,16
175
7,96
186
7,70
198
7,13
196
7,23
204
7,50
195
7,70
204
7,50
210
7,40
231
7,30
221
7,15
241
7,13
252
7,11
d'emploi et le taux de chmage et
et le taux de chmage pour les 4
Coefficients saisonniers :
Trimestres
Trimestre 1
Trimestre 2
Trimestre 3
Trimestre 4
CS
1,014
1
0,969
2
0,999
1
1,017
6
Prvisions 2006 :
Trimestres Prvisions
Trimestre 1
251
Trimestre 2
245
Trimestre 3
259
Trimestre 4
269
Taux de chmage :
203
Statistique descriptive
CS
1,003
5
1,011
6
0,994
7
0,990
2
Prvisions 2006 :
Trimestres Prvisions
Trimestre 1
6,9
Trimestre 2
6,9
Trimestre 3
6,7
Trimestre 4
6,5
204
Statistique descriptive
6. Indices statistiques
CHAPITRE 6
INDICES STATISTIQUES
Les indices sont des instruments de mesure de lvolution des grandeurs, ils sont
habituellement exprims en pourcentage.
Un indice est donc destin comparer deux grandeurs ou les valeurs dune mme grandeur
deux moments ou dans deux espaces diffrents. Ces grandeurs peuvent tre soit simples, et
lindice est dit lmentaire ou simple, soit des grandeurs complexes, et lindice est dit
synthtique.
6.1. LES INDICES ELEMENTAIRES.
6.1.1. Dfinition.
Considrons une grandeur simple, G, mesure par un nombre qui caractrise directement
une situation, si nous notons Go la valeur de la grandeur G la date 0, appele date ou priode
de base ou de rfrence et Gt sa valeur la date t, appele date ou priode courante, lindice
lmentaire de la grandeur G la date t, par rapport la date 0 est :
It / 0
Gt
100
G0
1999
4,50
2000
4,65
2001
4,97
2002
5,12
On pourra calculer les indices du prix du sucre, selon les priodes, avec comme date de
rfrence 1999, on a :
Dates
1999
2000
205
2001
2002
Statistique descriptive
6. Indices statistiques
100
103,33
110,44
113,78
Cette faon de faire permet de remplacer la suite des prix du sucre, diffrentes priodes,
par la suite des indices, plus facile manipuler.
Pour mieux comprendre cette affirmation on considre lvolution du prix de la tonne du
fuel domestique sur plusieurs annes :
Exemple 2 : On donne lvolution du prix du fuel domestique entre 1999 et 2005. On
demande de calculer les indices du prix du fuel domestique pour les mmes dates avec comme
date de base 1999.
Dates
Prix (DH/t)
Indices des prix
avec 1999 base
1999
4926,84
2001
5237,77
2003
5876,34
2005
6735,98
100
106,31
119,27
136,72
Ainsi, au lieu de manipuler des prix qui sont des nombres plusieurs chiffres, on se
contente, avec les indices, de ne manipuler que des pourcentages qui sont faciles transcrire
et mmoriser. Do lintrt considrable des indices.
Remarques :
1) Il ne faut jamais oublier quun indice est un pourcentage. Bien quil soit not
conventionnellement, par exemple, 121,67 ou 95,32 il faut avoir, constamment lesprit quen
fait il sagit de 121,67% c'est--dire 1,2167 ou 95,32% c'est--dire 0,9532.
2) Lorsquon manipule des indices et conformment la premire remarque, il faut, selon le
cas, utiliser la notation en pourcentage (121,67% ou 94,32%) ou la notation en dcimale
(1,2167 ou 0,9532).
3) Pour nous rsumer et tre le plus explicite possible, il est important de comprendre et
daccepter les notations suivantes, mme si elles paraissent, premire vue, incorrectes :
- Pour laddition dindices :
121,67 + 95,32 = 216,99 = 216,99% = 2,1699
- Pour la multiplication dindices :
121,67 x 95,32 = 115,98 = 115,98% = 1,1598
Statistique descriptive
6. Indices statistiques
G0
100 100 %
G0
I0 / t
En effet, on a :
1
It /0
I0 / t G 0 1 1
G t G t It / 0
G0
I t / 0 I t / t ' I t '/ 0
En effet, on a :
It /0
G t G t G t'
I t / t ' I t '/ 0
G 0 G t' G 0
Cette proprit de circularit est essentielle pour les indices simples car elle permet :
-
Statistique descriptive
6. Indices statistiques
1999
2000
2001
2002
100
103,33
110,44
113,78
Pour changer la date de base, nous utilisons la proprit de circularit des indices simples et
nous essayons de calculer lindice des prix du sucre avec comme date de base 2000 partir des
indices du prix du sucre ayant comme date de base 1999.
I t / 2000
Gt
Gt
G
1999
G 2000 G 1999 G 2000
Gt
G
I
1999 t / 1999
G 2000
I 2000 / 1999
G 1999
Nous pouvons alors dresser le tableau des indices du prix du sucre, avec comme base de
rfrence 2000, partir du tableau des indices du prix ayant comme base 1999.
Dates
Indices des prix
avec 1999 base
Indices des prix
avec 2000 base
1999
2000
2001
2002
100
103,33
110,44
113,78
96,78
100
106,88
110,11
Statistique descriptive
6. Indices statistiques
Exemple 4 : On considre deux indices relatifs deux grandeurs diffrentes, ayant la mme
date de rfrence 2001 et ayant les valeurs suivantes ; on demande lequel des 2 indices a
augment le plus entre 2003 et 2006.
Dates
Indice I1 ayant 2001 comme base
Indice I2 ayant 2001 comme base
2003
124
117
2006
145
137
Pour faire une telle comparaison, il est ncessaire de changer de base de rfrence et de
prendre comme nouvelle base, 2003. Le tableau prcdant devient dans ce cas :
Dates
Indice I1 ayant 2003 comme base
Indice I2 ayant 2003 comme base
2003
100
100
2006
116,94
117,09
Pour calculer la valeur des indices, en 2006, on utilise la proprit de circularit des indices,
savoir :
I2006/2003 =
I 2006 / 2001
I 2003 / 2001
On voit sur ce nouveau tableau que le deuxime indice a augment plus que le premier.
6.1.2.5.3. Comparaison de deux indices ayant des dates de base diffrentes.
La proprit de circularit permet aussi de comparer deux indices, ayant des dates de base
diffrentes, en effet considrons lexemple suivant :
Exemple 5 : On considre les indices des quantits consommes dorge et de bl, I o et Ib et
on demande laquelle de ces quantits a subi la plus forte augmentation, entre 2000 et 2004,
sachant que les indices Io et Ib qui ont des dates de base diffrentes ont les valeurs suivantes :
Dates
2000
2004
2 345 965,00
2 607 070,90
Quantits dorge consommes en Kg
124,87
138,77
Indice Io ayant 1998 comme base
1 634 961,00
1 729 461,75
Quantits de bl consommes en Kg
132,65
140,32
Indice Ib ayant 1997 comme base
Afin de faire une telle comparaison, il est ncessaire de changer, pour les 2 indices, les dates
de base de rfrence et de prendre comme nouvelle base, 2000. Le tableau prcdent devient
dans ce cas :
Dates
2000
209
2004
Statistique descriptive
6. Indices statistiques
2 345 965,00
100
1 634 961,00
100
2 607 070,90
111,13
1 729 461,75
105,78
Pour calculer la valeur des indices, en 2004 avec 2000 comme date de rfrence, on utilise
la proprit de circularit des indices, savoir :
Io2004/2000 =
I 2004 / 1998
I 2000 / 1998
et
Ib2004/2000 =
I 2004 / 1997
I 2000 / 1997
On voit, sur ce nouveau tableau, que le premier indice a augment plus que le deuxime ;
c'est--dire quentre 2000 et 2004, la quantit consomme dorge a augment, en pourcentage,
plus que celle du bl.
6.1.2.5.4. Dtermination de lindice simple moyen.
La dtermination dun indice simple moyen est ncessaire lorsque des donnes relatives
certaines priodes sont manquantes.
Exemple 6 : En effet prenons lexemple 2 relatif aux indices du prix du fuel domestique.
Dates
Prix (DH/t)
Indices des prix
avec 1999 base
1999
4926,84
2001
5237,77
2003
5876,34
2005
6735,98
100
106,31
119,27
136,72
Dans cet exemple, les indices de prix relatifs aux annes 2000, 2002 et 2004 manquent ; la
question qui se pose est la suivante : Comment dterminer les indices de prix des annes 2000,
2002 et 2004 ?
Pour ce faire, nous devons faire une hypothse vraisemblable ; elle consiste supposer
quentre 1999 et 2001, le prix du fuel domestique a augment rgulirement, cest--dire quil a
subi le mme taux daugmentation entre 2000 et 2001 quentre 1999 et 2000.
Soit t ce taux moyen daugmentation annuel du prix du fuel domestique entre 2000 et 2001
puis entre 1999 et 2000.
On a, si lon se rappelle quun indice de prix est justement le taux de variation du prix entre
deux priodes et quil est donn en pourcentage :
I2001/1999 = I2001/2000 x I2000/1999 = t
210
Statistique descriptive
6. Indices statistiques
G
i 1
It /0
G
i 1
it
i0
n
211
G
i 1
n
G
i 1
it
i0
Statistique descriptive
6. Indices statistiques
Par un tel indice des moyennes des grandeurs entre linstant t et la date de rfrence, on
estime donner une image de lvolution de lensemble des grandeurs Gi.
6.2.1.2. Proprits de lindice des moyennes.
Lindice synthtique simple des moyennes possde la proprit :
- de rversibilit ;
- de circularit.
Nous pouvons montrer cela dans les exemples 7 et 8 suivants.
Exemple 7 : Proprit de rversibilit de lindice des moyennes : Reprenons lexemple 5
relatif aux quantits consommes dorge et de bl entre 1998 et 2004 et posons-nous la
question suivante : Comment valuer lvolution des quantits consommes de crales entre
1998 et 2004 ?
Rappelons le tableau qui nous a servi pour les calculs de lexemple 5.
Dates
Quantits dorge consommes en Kg
Indice Io ayant 2000 comme base
Quantits de bl consommes en Kg
Indice Ib ayant 2000 comme base
2000
2 345 965,00
100
1 634 961,00
100
2004
2 607 070,90
111,13
1 729 461,75
105,78
2000
2 345 965,00
1 634 961,00
3 980 926,00
2004
2 607 070,90
1 729 461,75
4 336 532,65
212
Statistique descriptive
6. Indices statistiques
G
I2000 / 2004 =
i 1
i 2000
G
i 1
1
I 2004 / 2000
i 2004
2000
2004
2006
2 345 965,00
2 607 070,90
2 876 554,12
1 634 961,00
1 729 461,75
2 347 885,23
3 980 926,00
4 336 532,65
5 224 439,35
5 224 439,35 / 3 980 926,00
= 131,24
5 224 439,35 / 4 336 532,65
--= 120,48
4 336 532,65 /
3 980 926,00
--= 108,93
213
Statistique descriptive
6. Indices statistiques
G
I2006 / 2000 =
i 1
n
i 2006
G i 2000
i 1
G
i 1
i 2006
G i 2004
i 1
G
i 1
i 2004
G
i 1
i 2000
It /0
1 n G
it
n i 1 G i 0
I
i 1
i t/0
Par un tel indice moyenne des indices des grandeurs Gi entre linstant t et la date de
rfrence, on estime donner une image de lvolution de lensemble des grandeurs G i.
6.2.2.2. Proprits de lindice synthtique moyenne des indices.
Lindice synthtique moyenne des indices ne possde :
- ni la proprit de rversibilit ;
- ni la proprit de circularit.
Nous pouvons montrer cela dans les exemples suivants.
Exemple 9 : Reprenons lexemple 5 relatif aux quantits consommes dorge et de bl entre
2000 et 2004 et posons-nous la question suivante : Comment valuer lvolution des quantits
consommes de crales entre 2000 et 2004.
Rappelons le tableau qui nous a servi pour les calculs de lexemple 5.
Dates
2000
2 345 965,00
Quantits dorge consommes en Kg
100
Indice Io ayant 2000 comme base
1 634 961,00
Quantits de bl consommes en Kg
100
Indice Ib ayant 2000 comme base
Calculons, pour ce cas, lindice moyenne des indices.
214
2004
2 607 070,90
111,13
1 729 461,75
105,78
Statistique descriptive
6. Indices statistiques
Dates
Indice Io ayant 2000 comme base
Indice Ib ayant 2000 comme base
Sommes des indices
I2004 / 2000 (moyenne des indices)
2000
2004
100
111,13
100
105,78
200
216,91
216,91 / 2 = 108,46
Pour le calcul de lindice synthtique moyenne des indices I2000 / 2004 , nous devons, dabord,
reprendre le tableau ci-dessus et calculer les indices simples avec 2004 comme date de
rfrence :
Dates
Indice Io ayant 2004 comme base
Indice Ib ayant 2004 comme base
Sommes des indices
I2000 / 2004 (moyenne des indices)
2000
2004
89,98
100
94,54
100
184,52
200
184,52 / 2 = 92,26
It /0
Ii t / 0
i 1
et
I0 / t
I
i 1
i 0/ t
Ii t / 0
1
Ii 0 / t
on a, en gnral,
Ii t / 0
i 1
I
i 1
i 0/ t
Pour montrer que lindice synthtique moyenne des indices ne possde pas la proprit de
circularit, nous conservons lexemple prcdent en y ajoutant les donnes de lanne 2006.
Exemple 10 : Reprenons donc lexemple 5 relatif aux quantits consommes dorge et de
bl, pour 2000, 2004 et 2006 et calculons les diffrents indices synthtiques simples.
Rappelons le tableau qui nous a servi pour les calculs de lexemple 7.
Dates
Indice Io ayant 2000 comme
base
Indice Ib ayant 2000 comme
base
Sommes des indices
2000
2004
2006
100
111,13
122,62
100
105,78
143,60
200
215
216,91
266,22
Statistique descriptive
6. Indices statistiques
(122,62 + 143,60) / 2
= 133,11
(110,34 + 135,75) / 2
--= 123,05 (1)
(111,13 + 105,78) / 2
--= 108,46
I2006 / 2000
(moyenne des indices)
I2006 / 2004
(moyenne des indices)
I2004 / 2000
(moyenne des indices)
Pour le calcul de I2006 / 2004 indice moyenne des indices, pour lanne 2006, avec comme date
de rfrence 2004, nous devons changer de dates de base des indices du tableau, et prendre
lanne 2004 comme date de rfrence :
Dates
Indice Io ayant 2004 comme
base
Indice Ib ayant 2004 comme
base
I2006 / 2004
(moyenne des indices)
0n voit bien que
2000
2004
2006
89,98
100
110,34
94,54
100
135,75
---
(110,34 + 135,75) / 2
= 123,05
Et que
Lindice synthtique moyenne des indices ne possde donc pas la proprit de circularit.
Mais de tels indices, quoique synthtiques, restent simples. On leur prfre dautres indices
plus explicites. Ce sont les indices synthtiques pondrs.
6.3. LES INDICES SYNTHETIQUES PONDERES.
Si les grandeurs simples Gi sont de mme nature (mme unit) mais n'ont pas la mme
importance, on associe chaque grandeur Gi un poids diffrent. Si lon note i le coefficient de
pondration affect la grandeur Gi, la formule retenue pour le calcul de l'indice synthtique
devient :
6.3.1. Indice synthtique pondr des moyennes.
216
Statistique descriptive
6. Indices statistiques
i G it
It /0
i 1
n
i G i0
i 1
It /0
i (
i 1
G it
)
G i0
i
i 1
Nous verrons, dans la suite du cours, que le problme le plus important qui se pose au
statisticien est justement la pertinence du choix des coefficients de pondration i .
6.4. LES PRINCIPAUX INDICES SYNTHETIQUES.
Les indices synthtiques les plus couramment utiliss sont les indices de LASPEYRES et de
PAASCHE.
6.4.1. Indice de LASPEYRES.
Lindice de LASPEYRES adopte des coefficients de pondration de la priode de base, soit
i0, il est gal la moyenne arithmtique des indices lmentaires, pondrs par les coefficients
de la priode de rfrence. Sa formule est donc :
Pour lindice de LASPEYRES, moyenne pondre des grandeurs :
n
Lt /0
i 0 G it
i 1
n
i0 G i0
i 1
Lt /0
i0 (
i 1
G it
)
G i0
i0
i 1
REMARQUE.
217
Statistique descriptive
6. Indices statistiques
Le choix des coefficients de pondration, pour les indices LASPEYRES, ceux relatifs la
priode 0, fait que les indices de LASPEYRES ne sont reprsentatifs de la ralit que dans la
mesure o les valeurs des coefficients de pondration restent stables, avec le temps, ou varient
dans les mmes proportions ou varient trs peu. Cela nous permet de comparer des indices
des dates t1 et t2 diffrentes, bien que les indices de LASPEYRES ne possdent pas la proprit
de circularit.
Dans le cas o les coefficients de pondration varient significativement beaucoup, on est en
droit de parler de dure de vie dun indice, c'est--dire le temps au bout duquel les coefficients
de pondration ont tellement vari au point que la situation, linstant t, soit trs diffrente par
rapport linstant zro.
On effectue, ce moment l, pour les indices de LASPEYRES, un changement de date de
rfrence pour prendre comme nouvelle base, la date laquelle les coefficients de pondration
ont beaucoup vari, cest--dire, lexpiration de la dure de vie de lindice.
Mais se pose alors la question de circularit des indices de LASPEYRES pour pouvoir
relier les indices ayant diffrentes dates de rfrence. Et, traditionnellement, bien que lon
sache pertinemment que les indices LASPEYRE ne possdent pas la proprit de circularit,
nous faisons comme sils la possdaient parce que nous ne pouvons pas faire autrement.
6.4.2. Indice de PAASCHE.
Lindice de PAASCHE adopte des coefficients de pondration de la priode courante, soit
it, il est gal la moyenne harmonique des indices lmentaires, pondrs par les coefficients
de la priode courante. Sa formule est donc :
Pour lindice de PAASCHE, moyenne pondre des grandeurs :
n
Pt / 0
it G it
i 1
n
it G i 0
i 1
Pt / 0
i 1
i 1
Remarque.
218
it
it
Gi0
)
G it
Statistique descriptive
6. Indices statistiques
Le choix des coefficients de pondration, pour les indices PAASCHE, ceux relatifs la
priode t, fait que les indices de PAASCHE ne sont reprsentatifs de la ralit que dans la
mesure o les valeurs des coefficients de pondration de linstant t soient les mmes que ceux
des priodes antrieures.
Dans le cas contraire, on est en droit de parler de dure de vie dun indice, c'est--dire le
temps en de duquel les coefficients de pondration sont tellement diffrents par rapport
ceux de la priode t que la situation ce moment l ne soit pas traduite assez fidlement par des
coefficients de la priode t.
On pourrait alors effectuer, ce moment l, pour les indices de PAASCHE, un changement
de date de rfrence pour prendre comme nouvelle base, la date laquelle les coefficients de
pondration sont trs diffrents par rapport ceux de la priode t.
Mais se pose alors la question de circularit des indices de PAASCHE pour pouvoir relier
les indices ayant diffrentes dates de rfrence. Et, traditionnellement, bien que lon sache
pertinemment que les indices PAASCHE ne possdent pas la proprit de circularit, nous
faisons comme sils la possdaient parce que nous ne pouvons pas faire autrement.
6.4.3. Relation entre indice de LASPEYRES et indice de PAASCHE.
Les indices de LASPEYRES et de PAASCHE ne satisfont ni la condition de rversibilit, ni
celle de circularit, ils ont la proprit de schanger lun contre lautre lorsquon permute la
date de rfrence et la date courante. En effet :
n
L0/ t
it (
i 1
G i0
)
G it
it
1
Pt / 0
1
Lt /0
i 1
n
P0 / t
i0
i 1
i0 (
i 1
G it
)
G i0
Ft / 0 L t / 0 Pt / 0
219
Statistique descriptive
6. Indices statistiques
F0 / t L 0 / t P0 / t
F0 / t
1
1
L t / 0 Pt / 0
1
1
L t / 0 Pt / 0 Ft / 0
d 0 p i0 q i0
i 1
220
Statistique descriptive
6. Indices statistiques
d t p it q it
i 1
A la date t, les prix et les quantits ont vari. On peut calculer pour chaque produit :
Indices lmentaires de prix du produit i :
I pi t / 0
p it
p i0
I qi t / 0
q it
q i0
I di t / 0 D it / 0
p it q it
I qi t / 0 I pi t / 0
p i0 q i0
A la date 0,
i0
p i0 q i0
n
p
i 1
A la date t,
it
i0
q i0
p it q it
n
p q
i 1
it
it
i 1
i 1
i 0 it 1
On peut ds lors crire les indices de LASPEYRES et de PAASCHE des prix et des
quantits.
6.5.1. Indices de prix.
Indice LASPEYRES de prix :
221
Statistique descriptive
6. Indices statistiques
L pt / 0 i0 (
i 1
n
p it
p q
p
) n i 0 i 0 ( it )
p i0
p
i 1
p i0 q i0 i0
i 1
n
L pt / 0
Soit :
p
i 1
n
p
i 1
it
q i0
i0
q i0
Pp t / 0
1
n
i 1
it
p i0
)
p it
1
n
i 1
p it q it
n
p
i 1
it
q it
p i0
)
p it
Soit :
Pp t / 0
p it q it
i 1
n
p i 0 q it
i 1
L qt / 0 i0 (
i 1
n
q it
p q
q
) n i 0 i 0 ( it )
q i0
q
i 1
p i0 q i0 i0
i 1
n
Soit :
Lq t / 0
q p
i 1
n
q
i 1
222
it i 0
i0 i0
Statistique descriptive
6. Indices statistiques
Pq t / 0
1
n
i 1
it
q i0
)
q it
1
n
i 1
p it q it
n
p
i 1
it
q it
q i0
)
q it
Pq t / 0
Soit :
q
i 1
n
q
i 1
it
p it
i0
p it
N
1
2
3
4
5
Priode 1
Quantit
Prix
q1
p1
2,5
10,45
5,9
43,87
4,8
120,78
1,2
156,98
0,5
548,67
Priode 2
Quantit
Prix
q2
p2
3,2
10,65
6,8
43,88
5,7
121,76
1,6
166,87
0,7
650,88
Priode 3
Quantit
Prix
q3
p3
4,4
11,32
6,7
43,90
6,1
135,99
1,7
178,91
0,8
700,76
On demande de calculer, pour le cas de ce mnage, les indices prix et les indices quantits
de LASPEYRES relatifs aux 3 dernires annes.
On demande aussi dvaluer, pour chaque type dindice, lordre de grandeur de lerreur
quon commet en appliquant injustement la proprit de circularit aux indices de
LASPEYRES.
Il sagit, en fait, dun cas trs particulier de calcul de lindice du cot de la vie.
a) Calculons les indices de prix de LASPEYRES, pour ce faire, on dresse le tableau de
calculs suivant :
N
1
2
3
4
5
pi1qi1
26,13
258,83
579,74
188,38
274,34
pi2qi1
26,63
258,89
584,45
200,24
325,44
pi3qi1
28,30
259,01
652,75
214,69
350,38
223
pi2qi2
34,08
298,38
694,03
266,99
455,62
pi3qi2
36,22
298,52
775,14
286,26
490,53
Statistique descriptive
6. Indices statistiques
1327,41
1395,65
1,0514
Lp2/1
Lp3/1
Lp3/2
1505,13
--1,1339
1749,10
-----
1886,68
----1,0787
Nous pouvons alors calculer lerreur quon commet en appliquant, injustement, la proprit
de circularit lindice de prix de LASPEYRES, en effet :
Lp3/2 x Lp2/1 = 1,0787 x 1,0514 = 1,1341 or Lp3/1 = 1,1339
L p3/2 L p 2 / 1 L p 3 / 1
L p3 / 1
1,1341 1,1339
0,0002 0,02%
1,1339
On voit bien que lerreur est minime puisquelle est peine gale 0,02%.
b) Calculons maintenant les indices de quantits de LASPEYRES, pour ce faire, on dresse
le tableau de calculs suivant :
N
1
2
3
4
5
qi1pi1
26,13
258,83
579,74
188,38
274,34
qi2pi1
33,44
298,32
688,45
251,17
384,07
qi3pi1
45,98
293,93
736,76
266,87
438,94
qi2pi2
34,08
298,384
694,032
266,992
455,616
qi3pi2
46,86
293,996
742,736
283,679
520,704
1327,41
1655,44
1,2471
1782,47
--1,3428
1749,104
-----
1887,975
----1,0794
Lq2/1
Lq3/1
Lq3/2
Nous pouvons alors calculer lerreur quon commet en appliquant, injustement, la proprit
de circularit lindice de quantit de LASPEYRES, en effet :
Lq3/2 x Lq2/1 = 1,0794 x 1,2471 = 1,3461
L q3/2 L q 2 / 1 L q 3 / 1
L q3 /1
or
L3/1 = 1,3428
1,3461 1,3428
0,25%
1,3428
On voit bien que lerreur est minime puisquelle est peine gale 0,25%.
Exemple 12 : Reprenons les donnes de lexemple 11, On demande de calculer, pour le cas
de ce mnage, les indices prix et les indices quantits de PAASCHE relatifs aux 3 dernires
annes.
224
Statistique descriptive
6. Indices statistiques
On demande aussi dvaluer, pour chaque type dindice, lordre de grandeur de lerreur
quon commet en appliquant injustement la proprit de circularit aux indices de PAASCHE.
a) Calculons les indices de prix de PAASCHE, pour ce faire, on dresse le tableau de calculs
suivant :
N
1
2
3
4
5
pi1qi2
33,4
298,3
688,4
251,2
384,1
pi2qi2
34,08
298,38
694,03
266,99
455,62
pi1qi3
45,98
293,93
736,76
266,87
438,94
1655,4
1749,10
1,0566
1782,47
Pp2/1
Pp3/1
Pp3/2
pi3qi3
pi2qi3
49,81
294,13
829,54
304,15
560,61
46,86
293,996
742,736
283,679
520,704
2038,23
--1,1435
1887,98
----1,0796
Nous pouvons alors calculer lerreur quon commet en appliquant, injustement, la proprit
de circularit lindice de prix de PAASCHE, en effet :
Pp3/2 x Pp2/1 = 1,0796 x 1,0566 = 1,1407
or
Pp3/1 = 1,1435
0,0025 0,25%
Pp3/1
1,1435
On voit bien que lerreur est minime puisquelle est peine gale 0,25%.
b) Calculons les indices de quantits de PAASCHE, pour ce faire, on dresse le tableau de
calculs suivant :
N
1
2
3
4
5
Pq2/1
Pq3/1
qi1pi2
26,63
258,89
584,45
200,24
325,44
1395,6
qi2pi2
34,08
298,38
694,03
266,99
455,62
1749,10
1,2533
qi1pi3
28,30
259,01
652,75
214,69
350,38
1505,13
--225
qi3pi3
49,81
294,13
829,54
304,15
560,61
2038,23
--1,3542
qi2pi3
36,22
298,52
775,14
286,26
490,53
1886,68
-----
Statistique descriptive
6. Indices statistiques
1,0803
Pq3/2
Nous pouvons alors calculer lerreur quon commet en appliquant, injustement, la proprit
de circularit lindice de quantit de PAASCHE, en effet :
Pq3/2 x Pq2/1 = 1,0803 x 1,2503 = 1,3507 or Pq3/1 = 1,3542
Pq3/2 Pq 2 / 1 Pq 3 / 1
Pq 3 / 1
1,3507 1,3542
0,26%
1,3542
On voit bien que lerreur est minime puisquelle est peine gale 0,26%.
Exemple 13 : Reprenons les donnes de lexemple 11, On demande de calculer, pour le cas
de ce mnage, les indices prix et les indices quantits de FISCHER relatifs aux 3 dernires
annes.
On demande aussi dvaluer, pour chaque type dindice, lordre de grandeur de lerreur
quon commet en appliquant injustement la proprit de circularit aux indices de FISCHER.
a) Calculons les indices de prix de FISCHER, pour ce faire, on dresse le tableau de calculs
suivant :
Lp2/1
1,0514
Pp2/1
1,0566
Lp3/1
1,1339
Fp2/1
1,0540
Pp3/1
1,1435
Lp3/2
1,0787
Fp3/1
1,1387
Pp3/2
1,0796
Fp3/2
1,0791
Nous pouvons alors calculer lerreur quon commet en appliquant, injustement, la proprit
de circularit lindice des prix de FISCHER, en effet :
Fp3/2 x Fp2/1 = 1,0791 x 1,0540 = 1,1374
Fp3/2 Fp 2 / 1 Fp 3 / 1
Fp 3 / 1
or
Fp3/1 = 1,1387
1,1374 1,1387
0,0011 0,11%
1,1387
On voit bien que lerreur est minime puisquelle est peine gale 0,11%.
b) Calculons les indices de quantit de FISCHER, pour ce faire, on dresse le tableau de
calculs suivant :
Lq2/1
1,2471
Pq2/1
1,2533
Fq2/1
1,2502
Lq3/1
1,3428
Pq3/1
1,3542
Fq3/1
1,3485
226
Lq3/2
1,0794
Pq3/2
1,0803
Fq3/2
1,0798
Statistique descriptive
6. Indices statistiques
Nous pouvons alors calculer lerreur quon commet en appliquant, injustement, la proprit
de circularit lindice des quantits de FISCHER, en effet :
Fq3/2 x Fq2/1 = 1,0798 x 1,2502 = 1,3500
Fq3/2 Fq 2 / 1 Fq 3 / 1
Fq 3 / 1
or
Fq3/1 = 1,3485
1,3500 1,3485
0,11%
1,3485
On voit bien que lerreur est minime puisquelle est peine 0,11%.
On voit bien sur cet exemple que tant pour lindice prix que pour lindice quantit de
FISCHER, lapplication de la proprit de circularit induit de faibles erreurs.
6.5.3. Indice des valeurs globales.
Les indices synthtiques de prix et de quantits de LASPEYRES et de PAASCHE, peuvent
tre combins deux deux pour retrouver lindice des dpenses totales ou indice des
valeurs globales.
Cet indice des dpenses totales est le rapport des valeurs globales aux prix et quantits de la
priode t sur les valeurs globales aux prix et quantits de la priode 0.
Il est gal, par dfinition :
n
Dt /0
p
i 1
n
p
i 1
it
q it
i0
q i0
Nous pouvons calculer cet indice en fonction des indices de prix et de quantits de
LASPEYRES et de PAASCHE.
n
Dt /0
p it q it
i 1
n
p
i 1
i0
q i0
p it q i0
i 1
n
p
i 1
it
q i0
i 1
n
p
i 1
n
p
i 1
it
q i0
i0
q i0
it
p
i 1
n
p
i 1
q i0 :
it
q it
it
q i0
Statistique descriptive
6. Indices statistiques
q :
i0 it
i 1
pi0
p q p q q
pi0
it it
Dt / 0
p q p q q
i0 it
i 1
n
i 1
n
i0 i0
i 1
it
i0 it
i0
i 1
it it
i 1
n
i 1
p q
i 1
n
p q
i0 it
i 1
p it q it
Dt/t x Dt/0 =
i 1
n
p
i 1
it '
q it '
p it ' q it '
i 1
n
p
i 1
i0
q i0
p
i 1
n
p
i 1
it
q it
= Dt/0
i0
q i0
Exemple 14 : Reprenons les donnes de lexemple 11, On demande de calculer, pour le cas
de ce mnage, lindice des valeurs globales relatif aux 3 dernires annes.
Calculons les indices de valeurs globales, pour ce faire, on utilisera lune des deux formules
quon vient dtablir comme indiqu dans le tableau de calculs suivant :
Lp2/1
1,0514
Pq2/1
1,2533
Lp3/1
1,1339
D2/1
1,3177
D3/2xD2/1 = 1,1653 x 1,3177 = 1,5355
Pq3/1
1,3542
D3/1
1,5355
or
Lp3/2
1,0787
Pq3/2
1,0803
D3/2
1,1653
D3/1 = 1,5355
On voit bien que lindice des valeurs globales possde la proprit de circularit puisque :
228
Statistique descriptive
6. Indices statistiques
D3/2xD2/1 = D3/1
Les indices de prix servent aussi dterminer les indices de rvision de prix, dans les
marchs de travaux dont la dure de ralisation stale sur plusieurs annes. Ces marchs
comportent, la plupart du temps, des formules de rvision de prix simples ou complexes.
6.5.4. Formules de rvision des prix dun march.
Une formule de rvision des prix est un indice synthtique qui permet de calculer les prix,
la date de ralisation des travaux, partir des prix la date de signature du contrat.
Le principe de rvision des prix dun march vient du fait que le contrat est sign, une
date 0 et les travaux sont raliss, des dates ultrieures t1, t2, tn, il est donc normal de
recalculer les nouveaux prix auxquels doivent tre facturs les travaux.
La formule gnrale de rvision des prix dun march est un indice synthtique qui donne le
rapport de prix Pt / Po entre les instants t et 0, elle scrit de la faon suivante :
Pt / Po =
0 +
i 1
i0
I it
)
I i0
Avec
0 + i0 = 1
i 1
Les rapports Iit et Ii0 donnent lvolution de lindice dun constituant du march : main
duvre, matires premires, produits finis ou semi finis, etc. Ces indices peuvent tre simples
ou synthtiques. En gnral, on admet que 10 20% du montant du march ne soit pas
rvisable et que le reste le soit au prorata des montants des diffrents corps dtat dans le
montant total du march
Exemple 15 : On considre un march pass, en mars 2004, entre la socit SAMTOL et
lentreprise BATIMAROC pour la construction du local pour stockage de la socit SAMTOL.
Le montant de ce march se dcompose comme suit :
Intituls
Gnie civil
Electricit
Plomberie
Menuiserie
Appareillages lectriques
:
:
:
:
:
Montants HT
2 358 500,00
452 360,00
235 125,00
354 750,00
175 855,00
Total
3 576 590,00
229
Statistique descriptive
6. Indices statistiques
On suppose que 15% du march ne sont pas rvisables et que le reste lest au prorata des
montants des diffrents corps dtat que sont le gnie civil, llectricit, la plomberie, la
menuiserie et lappareillage lectrique dont les indices sont respectivement I gc, Ilec, Ipl, Ime et Iap
Pour des raisons dautorisations administratives, les travaux de ce march nont dmarr
quen mai 2005, ont dur 3 mois et ont t facturs selon lavancement des travaux comme
suit :
- Juin 2005 : 1 249 965,00 DH
- Juillet 2005 : 1 103 769,00 DH
- Aot 2005 : 1 222 856,00 DH
On demande de donner la formule de rvision de prix de ce march et de dterminer le
montant total de la rvision de prix si lon suppose que les indices des diffrents corps dtat
ont volu, entre mars 2004 et les mois de ralisation, comme lindique le tableau suivant :
Intituls/mois
Igc Gnie civil
Ilec Electricit
Ipl Plomberie
Ime Menuiserie
Aap Appar lec
Mars 04
425,32
256,54
356,23
332,56
517,31
Juin 05
471,22
281,62
392,26
382,12
550,21
Juillet 05
475,52
293,22
394,66
390,21
562,38
Aot 05
482,61
301,05
400,02
392,35
581,54
Pt
= 0 +
P0
Avec
i 1
i0
I it
)
I i0
Intituls
Gnie civil
Electricit
Plomberie
Menuiserie
Appareillages lectriques
Montants HT
2 358 500,00
452 360,00
235 125,00
354 750,00
175 855,00
Total
3 576 590,00
En % de 85%
56,05
10,75
5,59
8,43
4,18
85%
Statistique descriptive
6. Indices statistiques
I gc t
I lec t
I pl t
Pt
= 0,15 + 0,5605
0,1075
0,0559
P0
I gc 0
I lec 0
I pl 0
0,0843
I me t
I me 0
0,0418
I ap t
I ap 0
gale 1, en effet :
Indices
Invariant
Igc
Ilec
Ipl
Ime
Aap
Mars 04
Mars 04
Juillet 05
coeff
----0,1500
425,32
475,52
0,5605
256,54
293,22
0,1075
356,23
394,66
0,0559
332,56
390,21
0, 0843
517,31
562,38
0,0418
Total de la rvision pour juillet 2005
taux
Coeff x taux
1,0000
1,1079
1,0978
1,1011
1,1490
1,0636
0,1500
0,6215
0,1180
0,0616
0,0969
0,0445
1,0920
taux
1,0000
1,1180
1,1430
1,1079
1,1734
1,0871
Coeff x taux
0,1500
0,6267
0,1229
0,0619
0,0989
0,0454
1,1058
Invariant
Igc
Mars 04
--425,32
Aot
05
--482,61
231
coeff
0,1500
0,5605
taux
1,0000
1,1347
Coeff x taux
0,1500
0,6360
Statistique descriptive
Ilec
Ipl
Ime
Aap
6. Indices statistiques
256,54
301,05
0,1075
356,23
400,02
0,0559
332,56
392,35
0, 0843
517,31
581,54
0,0418
Total de la rvision pour aot 2005
1,1735
1,1229
1,1798
1,1242
0,1262
0,0628
0,0995
0,0470
1,1215
P P1 P2 P3 P0
or
Ce qui donne :
232
Statistique descriptive
6. Indices statistiques
En toute rigueur, un indice synthtique de la bourse doit tre un indice de valeurs globales,
sous la forme :
n
I t / 0 N it
i 1
I it
I i0
Avec :
- I t / 0 indice boursier t par rapport linstant 0 ;
- Nit nombre daction i existant en bourse ;
- Iit indice actuel de laction i ;
- Ii0 indice de dpart de laction i.
Cependant et traditionnellement, dans le calcul des indices boursiers, on se contente de ne
considrer que les valeurs mobilires les plus significatives, c'est--dire celle relatives aux
entreprises les plus importantes en capitalisation mobilires (cest--dire les plus fortes
n
sommes :
N
i 1
it
Pit : Nombre daction i multipli par le prix de cette action linstant t).
Prix
2000
t=0
132,00
2002
t=2
125,00
233
2004
t=4
121,00
2006
t=6
130,00
Statistique descriptive
6. Indices statistiques
25
112,00
26
Quantits
Prix
Quantits
30
121,00
33
31
126,00
34
35
137,00
36
a) Calculer les indices lmentaires de prix des biens A et B avec lanne 2000 comme date
de base.
b) Calculer les indices de prix de LASPEYRES suivants : Lp2/0 et Lp4/0.
c) Calculer l'indice de PAASCHE suivant : Pp6/0.
Solution :
a) Indices lmentaires de prix des biens A et B avec lanne 2000 comme date de base :
2000 (t = 0)
2002 (t = 2)
2004 (t = 4)
2006 (t = 6)
Produits/Annes
A
100
94,70
91,67
98,48
B
100
108,04
112,5
122,32
b) Indices de prix de LASPEYRES : Lp2/0 et Lp4/0.
Produits
pi0qi0
pi2qi0
pi4qi0
A
B
3300
2912
6212
3125
3146
6271
100,95
3025
3276
6301
Lp2/0
Lp4/0
101,43
pi6qi6
pi0qi6
A
B
4550
4932
9482
4620
4032
8652
109,59
Pp6/0
6.7.2. Exercice.
On donne les relevs des prix et des quantits consomms pour deux groupes de produits,
alimentation et habillement, deux priodes diffrentes : 2002 et 2006.
Priodes
Groupe de produits
Alimentation
Habillement
Prix
21,00
18,00
2002
Quantits
29
19
234
Prix
22,00
25,00
2006
Quantits
27
21
Statistique descriptive
6. Indices statistiques
pi2002qi2002
I2006/2002
pi2002qi2002 x I2006/2002
Alimentation
Habillement
609
342
951
104,76
138,89
-
63798,84
47500,38
111299,22
117,03
Lp2006/2002
- Indice des quantits PAASCHE de lanne 2006 partir des indices calculs aux deux
questions prcdentes.
Groupe de produits
pi2006qi2006
I2006/2002
pi2006qi2006 / I2006/2002
Alimentation
Habillement
594
525
1119
93,10
110,53
-
6,3802
4,7498
11,1300
100,54
Pq2006/2002
6.7.3. Exercice.
On donne les prix et les consommations suivantes pour 4 produits A, B, C et D.
Produits
Prix en 2002
A
35,00
B
15,00
235
C
93,00
D
278,00
Statistique descriptive
6. Indices statistiques
40,00
93
Prix en 2004
Consommation en 2002
18,00
110
110,00
30
301,00
171
Calculer un indice de prix global base 100 en 2002. Justifier votre choix et interprter votre
rsultat.
Solution :
On calcule lindice de prix LASPEYRES puisquon ne dispose que de la consommation de
lanne de base.
Produits
A
B
C
D
pi2002qi2002
3255
1650
2790
47538
55233
Lp2004/2002
pi2004qi2002
3720
1980
3300
51471
60471
109,48
6.7.4. Exercice.
On donne les relevs des prix et des quantits consomms pour
logement et transport, deux priodes diffrentes : 2002 et 2006.
Priodes
2002
Groupe de produits
Prix
Quantits
25,00
125
Logement
Transport
7,25
56
Prix
26,0
7,85
2006
Quantits
125
60
Statistique descriptive
6. Indices statistiques
100
107,14
Logement
Transport
c) Indices pour les annes 2003, 2004 et 2005.
Indice des prix de logement annuel moyen = 100,99
Indice des prix de transport annuel moyen = 102,01
Indice des quantits de logement annuel moyen = 100
Indice des quantits de transport annuel moyen = 101,74
Groupe de
produits
Indice des
prix
200
2
2003
2004
2005
2006
100
100,9
9
101,9
8
102,9
9
104
100
102,0
1
104,0
6
106,1
5
108,2
8
100
100
100
100
100
100
101,7
4
103,5
1
105,3
1
107,1
4
Logement
Transport
Indice des
quantits
Logement
Transport
6.7.5. Exercice.
Considrons un portefeuille de valeurs mobilires, compose de 2 actions X et Y dont les cours
sont donns dans le tableau suivant :
Cours des actions
X
Y
31/12/2001
625
1000
237
31/12/2005
700
1800
Statistique descriptive
6. Indices statistiques
a) Calculer les indices simples pour lanne 2005 avec comme date de base 2001.
b) Calculer les indices synthtiques pour lanne 2005 avec comme date de base 2001.
c) Interprter les rsultats des questions a) et b)
d) En supposant que le 1er indice volue rgulirement, dterminer le mme indice pour les
annes 2002, 2003 et 2004.
Solution :
a) Indices simples pour lanne 2005 avec comme date de base 2001.
Cours des actions
I2005/2001
112
X
180
Y
b) Indices synthtiques pour lanne 2005 avec comme date de base 2001.
112180 = 146
2
- Indice des moyennes : I2005/2001 = 7001800 = 153,85
6251000
- Moyenne des indices : I2005/2001 =
Prix
11
18
2001
Quantits
35
10
Prix
12
21
2003
Quantits
41
12
Prix
15
24
2005
Quantits
42
?
Statistique descriptive
6. Indices statistiques
i2005 i2005
Pq2005/ 2001 i n1
i2001 i2005
4215q24
= 1,2627 soit : q = 14
35151024
i 1
b) Indices de prix des 2 produits pour les annes 2003 et 2005 en prenant 2001 comme date
de rfrence.
Produits/Annes
2001
2003
2005
A
100
109,09
136,36
B
100
116,67
133,33
c) Indices de prix de LASPEYRES et de PAASCHE, partir des indices simples de la
question b).
- Indices de prix LASPEYRES.
Produits pi2001qi2001 I2003/2001 pi2001qi2001 x I2003/2001 I2005/2001 pi2001qi2001 x I2005/2001
A
B
385
180
565
109,09
116,67
-
Lp2003/2001
Lp2005/2001
41999,65
136,36
21000,60
133,33
63000,25
111,50
52498,60
23999,40
76498,00
135,39
492
252
744
Pp2003/2001
Pp2005/2001
109,09
116,67
-
4,51
2,16
6,67
630
336
966
136,36
133,33
-
4,62
2,52
7,14
111,54
135,29
6.7.7. Exercice.
239
Statistique descriptive
6. Indices statistiques
Noms
Alma
Blal
Cali
Dile
Elma
Faty
Grs
Hly
Ikam
Joly
Total
Nombre
actions
250
200
125
230
410
210
230
245
185
245
2330
Valeur
V( j-1 )
52,23
31,00
52,00
36,12
19,85
21,13
28,36
46,32
71,11
39,46
Valeur
V( j )
53,11
31,25
55,25
37,86
19,85
19,22
25,41
46,32
70,08
45,96
Mvt
Nbre
21
62
38
150
10
51
21
23
0
150
Total
capitalisation
13277,50
6250,00
6906,25
8707,80
8138,50
4036,20
5844,30
11348,40
12964,80
11260,20
88733,95
Mvt
DH
1115,31
1937,50
2099,50
5679,00
198,50
980,22
533,61
1065,36
0,00
6894,00
20503,00
Solution :
a) Valeur de lindice global de cette bourse qui tient compte de toutes les actions cotes.
Ij/j-1 =
2349,49
x 100 = 101 %
2330
b) Valeur de lindice partiel de cette bourse relatif aux 4 plus fortes capitalisations.
Ij/j-1 =
966,89
x 100 = 105 %
925
c) Valeur de lindice partiel de cette bourse relatif aux 4 plus fortes valeurs liquides en
valeur.
Ij/j-1 =
814,34
x 100 = 101 %
805
6.7.8. Exercice.
240
Statistique descriptive
6. Indices statistiques
Le tableau suivant donne quelques produits imports par le Maroc partir de la France en 2002
et 2006.
Produits
Acier
Aluminium
Cuivre
Prix en 1.000.000 DH
2002
2006
23
41
126
195
201
168
Ip2004/2002
133,51
124,40
91,42
Iq2004/2002
117,26
120
96,61
Statistique descriptive
6. Indices statistiques
2006/2002
116
124,38
110,74
118,74
120,12
114,67
2004/2002
107,7
111,53
105,23
108,97
109,60
107,08
6.7.9. Exercice.
Un march pass, en mars 2002 na t excut quen octobre 2002. Calculer la rvision de
prix faire si la formule de rvision est donne par :
Pt = P0 ( 0,20 + 0,15Alt/Al0 + 0,30ACut/Cu0 + 0,35Fet/Fe0)
Les indices Fet/Fe0 , Alt/Al0 et Cut/Cu0 sont ceux du fer, de laluminium et du cuivre,
principales fournitures du march qui ont volu de mars octobre, respectivement de 5%, de
7% et de 4%.
Solution : Poct 2002 / Pmars 2002 = 104 %
6.7.10. Exercice.
Ladministration a sign un march avec lentreprise SOTAG pour la ralisation dun projet sur
plusieurs mois. MATAG facture ses travaux tous les deux mois.
Calculer les rvisions de prix dues pour toutes les factures que SOTAG soumet au
paiement, sachant que :
Date de signature du march : Mars 2001.
Dbut des travaux : Septembre 2001.
Fin des travaux : Mars 2002.
Base de rfrence des indices : Janvier 2000
Formule de rvision des prix : Pt = P0(0,25 + 0,25St/S0 + 0,30GOt/GO0 + 0,20CSt/CS0)
Lvolution des indices est donne par le tableau suivant:
Mois / Anne
Mars 2001
Si
124
242
GOi
345
CSi
225
Statistique descriptive
Septembre 2001
Novembre 2001
Janvier 2002
Mars 2002
Avec
6. Indices statistiques
125
125
126
130
345
355
365
370
233
245
256
261
Coeff x taux
0,2500
0,2520
0,30
0,2071
1,0091
taux
1,0000
1,0081
1,0290
1,0889
Coeff x taux
0,2500
0,2520
0,3087
0,2178
1,0285
taux
1,0000
1,0161
Coeff x taux
0,2500
0,2540
janvier 2002
--126
243
coeff
0,25
0,25
Statistique descriptive
IGO
ICS
6. Indices statistiques
345
365
0,30
225
256
0,20
Total de la rvision pour fin janvier 2002
1,0580
1,1378
0,3174
0,2276
1,0490
taux
1,0000
1,0484
1,0725
1,1600
Coeff x taux
0,2500
0,2621
0,3217
0,2320
1,0658
244
Statistique descriptive
Bibliographie
BIBLIOGRAPHIE
TITRES
AIDE MEMOIRE DE PROBABILITES ET
STATISTIQUES
ANALYSE STATISTIQUE DES DONNEES
APPLICATIONS ET CAS POUR LE
MARKETING
COURS DE STATISTIQUE
COURS DE STATISTIQUE DESCRIPTIVE
DE L'ANALYSE A LA PREVISION
ELEMENT DE MATHEMATIQUES ET
STATISTIQUES POUR L'ECONOMIE TOME
1 ET TOME 2
ETUDE STATISTIQUE DES DEPENDANCES
EXERCICES CORRIGES DE STATISTIQUES
DESCRIPTIVE
EXERCICES DE PROBABILITES ET
STATISTIQUE
EXERCICES ET PROBLEMES RESOLUS DE
STATISTIQUE PROBABILITE
EXERCICES ET PROBLEMES RESOLUS DE
STATISTIQUES
EXERCICES RESOLUS DE STATISTIQUES
APPLIQUEES A L'ECONOMIE
FORMULAIRE DE PROBABILITES ET DE
STATISTIQUES
INTRODUCTION A LA METHODE
STATISTIQUE
INTRODUCTION A LA STATISTIQUE
INTRODUCTION A LA STATISTIQUE
APPLIQUEE
INTRODUCTION A LA STATISTIQUE
DESCRIPTIVE
INTRODUCTION AUX PROBABILITES ET A
LA STATISTIQUE
AUTEURS
J. MARCEIL
EDITIONS
ELLIPSES 92
H. FENNETEAU
ELLIPSES 93
G. HERNIAUX
G. CALOT
D. SCHLACTHER
NAJIB MIKOU
MASSON 71
DUNOD 73
ELLIPSES 86
WALLADA 93-94
S. AIVAZIAN
B. GRAIS
MOSCOU 70
DUNOD 83
D. DACCUNHA
MASSO 96
M. ELLATIFI
AFRIQUE ORIENT 84
M. ELLATIFI
AFRIQUE ORIENT 84
J. FOURASTIE
MASSON 93
J. RENAULT
DUNOD 92
B. GOLDFARB
DUNOD 99
J. P. BELISLE
S. ALALOUF
GAETAN MORIN 83
WESLEY 90
G. BAILLAGEON
S.M.G. 81
E. AMIOT
GAETAN MORIN 90
246
Statistique descriptive
TITRES
METHODES STATISTIQUES
METHODES STATISTIQUES
METHODES STATISTIQUES EN GESTION
PREVISION Approche empirique d'une mthode
statistique
PROBABILITES ET STATISTIQUE ET
TECHNIQUES DE REGRESSION
PROBABILITES ET STATISTIQUES
PROBABILITES ET STATISTIQUES
PROBABILITES ET STATISTIQUES COURS
DE MATHEMATIQUES
REGRESSION Nouveaux regards sur une
ancienne mthode statistique
STATISTIQUE APPLIQUEE
STATISTIQUE CONCEPTS ET METHODES
AVEC EXERCICES CORRIGES
STATISTIQUE DESCRIPTIVE
STATISTIQUE DESCRIPTIVE
STATISTIQUE DESCRIPTIVE - MANUEL
STATISTIQUE DESCRIPTIVE : EXERCICES
CORRIGES
STATISTIQUE DESCRIPTIVE EXERCICES
RESOLUS
STATISTIQUE ET CALCUL DES
PROBABILITES
STATISTIQUE ET PROBABILITE :
TRAVAUX DIRIGES
STATISTIQUE ET PROBABILITES
STATISTIQUE EXERCICES CORRIGES
AVEC RAPPELS DE COURS TOMME 1 ET
TOME 2
STATISTIQUE INITIATION PRATIQUE
STATISTIQUE RESUME DE COURSEXERCICES-PROBLEMES
STATISTIQUE SANS MATHEMATIQUE
STATISTIQUES : ANNALES CORRIGES
STATISTIQUES ET PROBABILITES EN
MATHEMATIQUES
STATISTIQUES EXERCICES CORRIGES
AVEC RAPPELS DE COUR
STATISTIQUES POUR L'ECONOMIE
STATISTIQUES UN OUTIL DU
MANAGEMENT
Bibliographie
AUTEURS
P. TASSI
B. GRAIS
M. TENENHAUS
M. DAVID
EDITIONS
ECONOMICA 89
DUNOD 2000
DUNOD 96
MASSON 89
G. BAILLARGEON
S.M.G 89
J. FOURASTIE
AUDET, BOUCHER
L. CACOGNE
DUNOD 87
GAETAN MORIN 93
EYROLLES 90
R. TOMASSONE
MASSON 92
G. BAILLARGEON
S. LESSARD
SMG 79
MASSON 93
B. GRAIS
BERNARD PY
B. GRAIS
B. GRAIS
DUNOD 91
ECONOMICA 88
DUNOD 94
DUNOD 99
I. ABBASSI
A. EL MARHOUM
W. MASIERI
LA SOURCE 94
J. P. LECOUTRE
DUNOD 2000
ERIC FAVRO
C. LABROUSSE
DUNOD 91
DUNOD
J. P. CABANNES
P. JAFFARD
HACHETTE 90
MASSON 90
J. BADIA
G. PUPION
C. M. BAUMONT
ELLIPSES 97
DUNOD 94
ELLIPSES 90
C. LABROUSSE
DUNOD 78
J. HUBLER
C. RAMEAU
BREAL 96
ORGANISATION 7
247
SIREY 82
Statistique descriptive
Bibliographie
248