Академический Документы
Профессиональный Документы
Культура Документы
4. Multicolinéarité
et sélection
du modèle optimal
D
ans ce chapitre, nous examinons comment gérer l’abondance de
l’information. En effet, il est fréquent, lorsque l’économiste spé-
cifie un modèle, qu’il hésite à intégrer telle ou telle variable
explicative. La question essentielle qu’il se pose est la suivante : comment
déterminer le mix optimal des variables explicatives ? Formulée en terme
statistique, cette question se résume à trouver les variables explicatives
qui maximisent leur coefficient de corrélation avec la série à expliquer,
tout en étant les moins corrélées entre elles.
Nous présentons, en I., tout d’abord la notion de corrélation partielle qui
permet de déterminer l’apport relatif de chaque série explicative à l’ex-
plication de la série endogène.
Les relations entre les coefficients de corrélation simple, partielle et mul-
tiple sont examinées en II.
Les conséquences de la multicolinéarité sur l’estimation des coefficients
de régression font l’objet du III.
Enfin, les techniques de sélection de variables explicatives sont exposées
et illustrées à partir d’exemples en IV.
I. Corrélation partielle
A. Exemple introductif
Un marchand de glaces, situé près de la tour Eiffel, cherche à calculer le coeffi-
cient de corrélation entre ses ventes (x1 ) et le nombre de touristes visitant ce
monument (x2 ) . Ces deux variables sont influencées par le climat : la consom-
mation de glaces est plus importante lorsqu’il fait chaud et les touristes sont peu
enclins à visiter un monument extérieur en cas de froid ou de pluie, on appelle
x3 cette variable climatique.
Nous pouvons penser que la corrélation entre x1 et x2 est positive, cependant
un calcul de coefficient de corrélation simple n’est pas révélateur du degré de liai-
son réelle entre ces deux variables ; en effet, la variable climat influence la vente
des glaces et la fréquentation des touristes. En d’autres termes, le coefficient de
corrélation simple calculé ainsi intègre l’apport de la variabilité des conditions
climatiques sans pouvoir isoler l’influence relative du nombre de touristes.
Cette notion de corrélation partielle est très importante car elle permet de
juger de la pertinence d’inclure une variable explicative dans un modèle.
Plus le coefficient de corrélation partielle d’une variable est élevé, plus la
contribution de cette variable est importante à l’explication globale du modèle.
Le coefficient de corrélation partielle peut se calculer de deux manières à
partir :
108 ÉCONOMÉTRIE
9782100721511-Bourbo-C04.qxd 20/10/14 15:16 Page 109
3.x 1 x 2 = re1,e2
2 2
r yx
2) Du t de Student
Dans un modèle à k variables explicatives, il existe une relation entre le coeffi-
cient de corrélation partielle et le t de Student1 :
ti2
variables) =
2
r yxi.(autres [1]
ti2 + (n − k − 1)
Exercice n° 1
fichier C4EX1
Calcul des coefficients de corrélation partielle du premier ordre et
du deuxième ordre
Une entreprise cherche à déterminer quelles sont les influences respectives de la
publicité (x1 ) , de la promotion auprès des distributeurs (x2 ) , et de la promotion auprès
des consommateurs (x3 ) exprimées en milliers d’euros sur les ventes en tonnes (y) .
Pour ce faire, elle dispose, sur 10 ans, des séries statistiques du tableau 1.
Tableau 1 – Ventes, publicité et promotions
Année y x1 x2 x3
1 49,0 35,0 53,0 200,0
2 40,0 35,0 53,0 212,0
3 41,0 38,0 50,0 211,0
4 46,0 40,0 64,0 212,0
5 52,0 40,0 70,0 203,0
6 59,0 42,0 68,0 194,0
7 53,0 44,0 59,0 194,0
8 61,0 46,0 73,0 188,0
9 55,0 50,0 59,0 196,0
10 64,0 50,0 71,0 190,0
Solution
2 2
Nous traitons complètement le calcul de r yx1.x2 et r yx3.x1 x2 , les résultats des autres
coefficients sont fournis afin que le lecteur puisse vérifier ses propres calculs.
2
a) Calcul de r yx1.x2 par corrélation entre les résidus
Étape 1 : régression de y sur x2
2
b) Calcul de r yx3.x1 x2 par corrélation entre les résidus
110 ÉCONOMÉTRIE
9782100721511-Bourbo-C04.qxd 20/10/14 15:16 Page 111
2
c) Calcul de r yx3.x1 x2 à partir du t Student
Dans le cas d’un modèle à une seule variable explicative x1 , la somme des car-
rés des résidus est égale à :
SC R = et2 = (yt − y)2 (1 − R 2y.x 1 ) = (yt − y)2 (1 − r yx
2
1)
t t t
2
R y.x1 = coefficient de détermination de la régression de y sur x1 .
Supposons maintenant un modèle à deux variables explicatives :
y =
a0 +
a1 x 1 +
a2 x 2 + e
La somme des carrés des résidus, après avoir retiré l’influence de x1 et x2 , est
égale à :
SC R = et2 = (yt − y)2 (1 − R 2y.x 1x 2 )
t t
R 2
y.x1 x2 = coefficient de détermination de la régression de y sur x1 et x2 .
2
Or r est la proportion du résidu expliquée par la variable x2 seule, cette
yx2.x1
dernière expression peut donc s’écrire :
(yt − y)2 (1 − R y.x1x2
2
) = (1 − r yx2.x1
2
) (yt − y)2 (1 − r yx1
2
) [2]
t t
D’où 1 − R y.x1
2
x2 = (1 − r yx2.x1 )(1 − r yx1 )
2 2
[3]
112 ÉCONOMÉTRIE
9782100721511-Bourbo-C04.qxd 20/10/14 15:16 Page 113
Il est à noter que les indices peuvent permuter, ainsi, dans l’ordre, 3, 4, 1, 2 ;
la relation précédente devient :
1 − R y.x1
2
x2 x3 x4 = (1 − r yx3 )(1 − r yx4.x3 )(1 − r yx1.x3 x4 )(1 − r yx2.x1 x3 x4 )
2 2 2 2
Exercice n° 2
Relation entre coefficients de corrélation simple, partielle et multiple
Un économètre estime un modèle à trois variables explicatives :
y = 348,4 + 56,3 x1 − 9,5 x2 + 234,8 x3
(4,5) (8,3) (2,1) (4,6)
R = 0,76
2
n = 65
(.) = t de Student
2
Le coefficient de corrélation linéaire entre y et x1 est connu, r yx1 = 0,52 .
2
On demande de calculer le coefficient de corrélation partielle r yx2.x1 .
Solution
2
tâ3 4,62
2
Le coefficient r yx3.x1 x2 est égal à : =
2
tâ3 + (n − k − 1) 4,6 + (65 − 4)
2
x2 = 0,257
2
r yx3.x1
1 − R 2y.x1 x2 x3 = (1 − r yx1
2
)(1 − r yx2.x1
2
)(1 − r yx3.x1
2
x2 )
III. Multicolinéarité :
conséquences et détection
A. Conséquences de la multicolinéarité
Nous pouvons citer trois effets principaux :
a) augmentation de la variance estimée de certains coefficients lorsque la
colinéarité entre les variables explicatives augmente (le t de Student dimi-
nue) ;
b) instabilité des estimations des coefficients des moindres carrés, des faibles
fluctuations concernant les données entraînent des fortes variations des
valeurs estimées des coefficients ;
c) en cas de multicolinéarité parfaite, la matrice X X est singulière (le déter-
minant est nul), l’estimation des coefficients est alors impossible et leur
variance est infinie.
Exercice n° 3
Conséquences de la multicolinéarité
Soit un modèle à deux variables explicatives dont les matrices X X et X Y sont
calculées à partir d’un échantillon d’observations de variables centrées.
200 150 350
X X = X Y =
150 113 263
114 ÉCONOMÉTRIE
9782100721511-Bourbo-C04.qxd 20/10/14 15:16 Page 115
Solution
2
et les coefficients de corrélation simple r xi, x j entre les variables explicatives
pour i
= j .
Si R y2 < r xi,
2
x j , il y a présomption de multicolinéarité.
Il ne s’agit pas d’un test statistique au sens test d’hypothèses mais simple-
ment d’un critère de présomption de multicolinéarité.
116 ÉCONOMÉTRIE
9782100721511-Bourbo-C04.qxd 20/10/14 15:16 Page 117
. y x1 x2 x3 x4
8,40 82,90 17,10 92,00 94,00
9,60 88,00 21,30 93,00 96,00
10,40 99,90 25,10 96,00 97,00
11,40 105,30 29,00 94,00 97,00
12,20 117,70 34,00 100,00 100,00
14,20 131,00 40,00 101,00 101,00
15,80 148,20 44,00 105,00 104,00
17,90 161,80 49,00 112,00 109,00
19,30 174,20 51,00 112,00 111,00
20,80 184,70 53,00 112,00 111,00
Solution
1) Test de Klein
a) Régression : y = a0 + a1 x1 + a2 x2 + a3 x3 + a4 x4 + ε.
Les résultats de l’estimation sont les suivants :
y = −13,53 + 0,096 x1 + 0,015 x2 − 0,199 x3 + 0,34 x4 + e
(1,80) (3,66) (0,30) (2,20) (2,27)
n = 10
R 2 = 0,998
(.) = t de Student
b) Calcul des coefficients de corrélation simple entre les variables explicatives :
x2 = 0,976 x3 = 0,960 x4 = 0,974
2 2 2
r x1, r x1, r x1,
x3 = 0,938 x4 = 0,938 x4 = 0,982
2 2 2
r x2, r x2, r x3,
À la lecture de ces coefficients il ne semble pas ressortir des risques graves de mul-
ticolinéarité puisque tous les coefficients de corrélation simple sont inférieurs au coeffi-
cient de détermination. Toutefois, nous observons qu’ils sont tous très élevés.
2) Test de Farrar-Glauber
Calcul du déterminant
1 r x1 x2 r x1 x3 r x1 x4
r 1 r x2 x3 r x2 x4
D = x2 x1 =
r x3 x1 r x3 x2 1 r x3 x4
r x4 x1 r x4 x2 r x4 x3 1
1 0,988 0,980 0,987
0,988 1 0,969 0,969
= = 0,92198 × 10−5
0,980 0,969 1 0,991
0,987 0,969 0,991 1
118 ÉCONOMÉTRIE
9782100721511-Bourbo-C04.qxd 20/10/14 15:16 Page 119
Face à ces artifices de calcul, la seule parade vraiment efficace consiste, lors
de la spécification de modèle, à éliminer les séries explicatives susceptibles de
représenter les mêmes phénomènes et donc d’être corrélées entre elles, ceci afin
d’éviter l’effet de masque.
Au paragraphe suivant, nous présentons des méthodes permettant de déter-
miner le « mix optimal » de variables explicatives.
Avec :
Ln = Logarithme népérien,
SCR = somme des carrés des résidus du modèle,
n = nombre d’observations,
k = nombre de variables explicatives.
Nous allons examiner cinq méthodes qui vont nous permettre de retenir le
meilleur modèle, celui qui est composé des variables qui sont :
– les plus corrélées avec la variable à expliquer ;
– les moins corrélées entre elles.
120 ÉCONOMÉTRIE
9782100721511-Bourbo-C04.qxd 20/10/14 15:16 Page 121
• 1re étape
La variable explicative dont le coefficient de corrélation simple est le plus
élevé avec la variable y est sélectionnée, soit xi cette variable.
• 2e étape
Calcul du résidu de la régression de y sur xi :
e1 = y −
a0 −
a1 x i
Les coefficients de corrélation simple entre le résidu e1 et les variables expli-
catives sont calculés, nous retenons la variable explicative dont le coefficient est
le plus élevé. Soit x j cette variable explicative.
• 3e étape
Nous calculons un nouveau résidu :
e2 = y −
a0 −
a1 x i −
a2 x j
Exercice n° 5
fichier C4EX4
Solution
M1 Séries X1 R2 AIC 1 SC
Coefs. 0,118 0,995 – 2,185 – 2,125
t de Student 41,9
M2 Séries X2
Coefs. 0,327 0,967 – 0,199 – 0,138
t de Student 15,3
M3 Séries X3
Coefs. 0,516 0,952 0,185 0,245
t de Student 12,5
M4 Séries X4
Coefs. 0,663 0,978 – 0,583 – 0,523
t de Student 18,6
M5 Séries X1 X2
Coefs. 0,132 – 0,039 0,996 – 2,058 – 1,967
t de Student 6,91 0,72
M6 Séries X1 X3
Coefs. 0,126 – 0,036 0,996 – 2,026 – 1,936
t de Student 8,42 0,53
M7 Séries X1 X4
Coefs. 0,102 0,090 0,996 – 2,087 – 1,996
t de Student 5,60 0,86
M8 Séries X2 X3
Coefs. 0,209 0,194 0,975 – 0,273 – 0,183
t de Student 2,55 1,48
M9 Séries X2 X4
Coefs. 0,137 0,395 0,988 – 0,993 – 0,903
t de Student 2,42 3,45
M10 Séries X3 X4
Coefs. – 0,166 0,871 0,979 – 0,457 – 0,366
t de Student 0,73 3,04
M11 Séries X1 X2 X3
Coefs. 0,139 – 0,038 – 0,035 0,996 – 1,898 – 1,778
t de Student 5,58 0,66 0,49
M12 Séries X1 X2 X4
Coefs. 0,115 – 0,028 0,074 0,996 – 1,926 – 1,805
t de Student 3,55 0,48 0,64
M13 Séries X1 X3 X4
Coefs. 0,104 – 0,188 0,319 0,998 – 2,59 – 2,469
t de Student 7,46 2,47 2,62
M14 Séries X2 X3 X4
Coefs. 0,164 – 0,300 0,720 0,993 – 1,304 – 1,183
t de Student 3,32 1,99 3,81
M15 Séries X1 X2 X3 X4
Coefs. 0,097 0,015 – 0,199 0,340 0,998 – 2,408 – 1,804
t de Student 3,66 0,30 2,20 2,27
1. Nous utilisons les formules de la section IV afin de calculer les critères d’information de Akaike
et de Schwarz, le logiciel Eviews utilise des formules légèrement différentes.
122 ÉCONOMÉTRIE
9782100721511-Bourbo-C04.qxd 20/10/14 15:16 Page 123
choix : x1 x3 x4
À partir de cet exemple, nous prenons la dimension du travail à mener2 et les limites,
donc, de cette méthode.
b) L’élimination progressive
• Estimation à 3 variables
Le modèle estimé est le modèle [M13], toutes les variables sont significatives
(t ∗ > 2,30) , la procédure de sélection s’arrête :
choix : x1 x3 x4
c) La sélection progressive
1. Nous constatons qu’il s’agit aussi de l’équation dont le R 2 est le plus élevé.
2. Et pourtant nous n’avons que quatre variables explicatives candidates.
e1
––
1 −0,123762
2 0,475231
3 −0,127120
4 0,236519
5 −0,424754
6 0,007913
7 −0,419014
8 0,078300
9 0,017027
10 0,279659
Commentaires :
124 ÉCONOMÉTRIE