Вы находитесь на странице: 1из 44

La rgression linaire

multiple
Aspects thorique et pratique
ENSEIGNANT : Mustapha BERROUYNE

Quand utiliser la rgression


multiple ?
Pour estimer la relation entre une
variable dpendante (Y ) et plusieurs
variables indpendantes (X1, X2, , Xp)
Exemples

Expliquer le prix dun appartement par la


superficie, les prestations, lemplacement,
lemplacement,
Expliquer les ventes dun magasin par le
march total, le prix, linvestissement, la
publicit,
publicit,
Expliquer la consommation des mnages par
le revenu, le milieu de rsidence, etc
etc..

Le modle linaire de
rgression multiple
Equation de rgression multiple
Cette quation prcise la faon dont la
variable dpendante est relie aux variables
explicatives :

Y a 0 a1X1 a 2 X 2 ... a p X p
a0, a1, a2, . . . , ap
paramtres et e est un bruit
o

reprsentant le terme derreur.


derreur.

sont les
alatoire

Le modle linaire de
rgression multiple
Les termes de lquation

yi a0 a1 x1i a2 x2i ...a p x pi i

ime observation
de Y

Terme constant
Influence de la
variable X1

Influence de
la variable Xp

Rsidu de la ime
observation

.
.

Le modle linaire de
rgression multiple
Le modle: observation par observation

Le modle linaire de rgression


multiple
Ecriture matricielle du modle

y1 1 x1,1


y n 1 x1, n

a0
x1, p 1
a1

xn , p n
a p

y Xa

Le modle linaire de rgression multiple


HYPOTHESES
HYPOTHESES STOCHASTIQUES (de nature probabiliste)
Les hypothses stochastiques se prsentent comme suit :
H1 : Les Xj sont non alatoires ; xij sont observs sans erreur.
H2 : E[i] = 0, l'esprance de l'erreur est nulle. En moyenne, le modle est bien spcifi.
H3 : E[

2
i

]=

2
,

la variance de l'erreur est constante, (hypothse de lhomoscdasticit).

H4 : COV (i,i) = 0 pour i i, les erreurs sont indpendantes, (hypothse de non


autocorrlation des rsidus).
H5 : COV (xij, i) = 0, l'erreur est indpendante des variables exognes.
H6 : i N(0,

2
),

les erreurs sont distribus selon une loi normale.

HYPOTHESES STRUCTURELLES
H1 : La matrice (XX) est rgulire cest dire det(XX) 0 et (XX)1 existe. Elle indique
l'absence de colinarit entre les exognes. Nous pouvons aussi voir cette hypothse sous
l'angle rang(X) = p + 1 et rang(XX) = p + 1.

Le processus destimation
Modle de rgression multiple

Donnes:
Donnes:

Y = a0 + a1X1 + a2X2 +. . .+ apXp + e


E(Y|X1,,Xp) = a0 + a1X1 + a2X2 +. . .+ apXp

x1 x2 . . . xp y
. .
. .
. .
. .

Paramtres inconnus

a0, a1, a2, . . . , ap


Equation estime

a0 , a1 , a 2 ,..., a p
Estimateurs de

a0, a1, a2, . . . , ap

Y a0 a1 X 1 a 2 X 2 ... a p X p
Estimateurs

a0 , a1 , a 2 ,..., a p

Le processus destimation
ESTIMATION DES COEFFICIENTS DE RGRESSION
La mthode : les moindres carrs
ordinaires
Le principe de lestimation des coefficients
de rgression :
a 0 , a 1 , a 2 ,..., a p

consiste minimiser la somme des carrs


des rsidus : n
n
2

i
i 1

(
y

y
)
i i
i 1

Le calcul numrique lui-mme (calcul


matriciel) peut seffectuer laide de
logiciels statistiques ( SPSS, SAS, R, etc)
ou par un tableur (EXCEL, )

Le processus destimation
Estimation des coefficients de rgression

(p + 1) quations (p + 1) inconnues

criture difficile manipuler. On passe aux matrices

Le processus destimation
Estimation des coefficients de rgression

(1,p+1) x (p+1,1)
(1,1)

(1,p+1) x (p+1,1)

(1,p+1) x (p+1,n) x (n,1)

(1,1)

(1,p+1) x (p+1,n) x (n,p+1) x (p+1,1)

(1,1)

(1,1)

En notant que : (Xa) = aX et (YXa) = aXY

a X X
'

'

XY

Si Det(XX)0

Le processus destimation
Retrouvons les rsultats de la rgression
linaire simple (p = 2)

x i i

n i
i

xi

x2
i

;
1

x2
i (i
i

xi )
2

i
i

yi

xi yi

x2
i
2
i

i
n
xi

xi

Exemple avec EXCEL


X
Constante Cylindre Puissance
1
846
32
1
993
39
1
899
29
1
1390
44
1
1195
33

Poids
650
790
730
955
895

Y
Consommation
5,7
5,8
6,1
6,5
6,8

1
1
1
1
1
1
1
1
1
1
1
1

658
1331
1597
1761
2165
1983
1984
1998
1580
1390
1396
2435

32
55
74
74
101
85
85
89
65
54
66
106

740
1010
1080
1100
1500
1075
1155
1140
1080
1110
1140
1370

6,8
7,1
7,4
9,0
11,7
9,5
9,5
8,8
9,3
8,6
7,7
10,8

1
1
1
1
1
1
1
1
1
1
1

1242
2972
2958
2497
1998
2496
1998
1997
1984
2438
2473

55
107
150
122
66
125
89
92
85
97
125

940
1400
1550
1330
1300
1670
1560
1240
1635
1800
1570

6,6
11,7
11,9
10,8
7,6
11,3
10,8
9,2
11,6
12,8
12,7

28
50654
2176
33515

X'X
50654
2176
102138444
4451219
4451219
197200
65113780
2831550

33515
65113780
2831550
42694125

(X'X)-1
0,70598604 -0,00014708 0,00558634 -0,00070038
-0,00014708 0,00000107 -0,00001589 -0,00000047
0,00558634 -0,00001589 0,00035837 -0,00000392
-0,00070038 -0,00000047 -0,00000392 0,00000155
X'Y
254,1
493218,1
21473,7
321404,5

Constante
Cylindre
Puissance
Poids

1,7020
0,0005
0,0183
0,0042

Exemple avec DROITEREG

Exemple avec DROITEREG


X
Constante Cylindre Puissance Poids
1
846
32
650
1
993
39
790
1
899
29
730
1
1390
44
955
1
1195
33
895
1
658
32
740
1
1331
55
1010
1
1597
74
1080
1
1761
74
1100
1
2165
101
1500
1
1983
85
1075
1
1984
85
1155
1
1998
89
1140
1
1580
65
1080
1
1390
54
1110
1
1396
66
1140
1
2435
106
1370
1
1242
55
940
1
2972
107
1400
1
2958
150
1550
1
2497
122
1330
1
1998
66
1300
1
2496
125
1670
1
1998
89
1560
1
1997
92
1240
1
1984
85
1635
1
2438
97
1800
1
2473
125
1570

Y
Consommation
5,7
5,8
6,1
6,5
6,8
6,8
7,1
7,4
9,0
11,7
9,5
9,5
8,8
9,3
8,6
7,7
10,8
6,6
11,7
11,9
10,8
7,6
11,3
10,8
9,2
11,6
12,8
12,7

DROITEREG
Constante
cylindree
puissance
poids

1,702
0,000
0,018
0,004

n
p
ddl
SCR

28
3
24
13,58
0,57
0,75

0,632
poids puissance cylindree Constante
0,001
0,004
0,018
0,000
1,702
0,014
0,001
0,014
0,001
0,632
0,001 R 0,89911 0,75224 #N/A
#N/A
F
71,30
24 #N/A
#N/A
SCE 121,03
13,58 #N/A
#N/A
SCR

Exemple

avec SPSS

Exemple avec le logiciel R


> donnes = read.table("fichier1.csv", h=T, sep=";", dec=".")
> attach(donnes)
> reg=lm(consommation~cylindre+puissance+poids)
> reg
Call:
lm(formula = consommation ~ cylindre + puissance + poids)
Coefficients:
(Intercept) cylindre puissance poids
1.7020484 0.0004935 0.0182505 0.0042288

Exemple avec le logiciel R


> summary(reg)
Call:
lm(formula = consommation ~ cylindre + puissance + poids)
Residuals:
Min
1Q Median
3Q
Max
-1.7902 -0.5390 0.1446 0.5175 1.0647
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.7020484 0.6320524 2.693 0.012712 *
cylindre 0.0004935 0.0007796 0.633 0.532695
puissance 0.0182505 0.0142403 1.282 0.212223
poids
0.0042288 0.0009359 4.518 0.000141 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 0.7522 on 24 degrees of freedom
Multiple R-squared: 0.8991, Adjusted R-squared: 0.8865
F-statistic: 71.3 on 3 and 24 DF, p-value: 4.266e-12

Remarques sur les matrices

Remarques sur les matrices


Matrice (XY)

Dimension (p+1,1)
Produit crois entre les exognes et l'endogne
Indique le degr de liaison entre chaque exogne et Y

Interprtation des coefficients


Coefficients bruts

Une augmentation du poids d'un vhicule de 1kg entrane


une consommation supplmentaire de 0,007 litres au km.
On mesure l'association brute, en dehors de toute
considration des autres variables qui pourraient
influencer la consommation.

Interprtation des coefficients


Coefficients partiels

La modification du coefficient de poids s'explique


par le fait que la variable poids est lie la variable
cylindre (rpoids,cylindree = 0,8616).
> cor(cylindre,poids)
[1] 0.8615565

Interprtation des coefficients


Coefficients partiels

Une augmentation du poids d'un vhicule de 1kg entrane


une consommation supplmentaire de 0,007 litres au km.
> cor(cylindre,poids)
[1] 0.8615565

Lorsque la cylindre augmente,


galement, dans le mme sens :
compte.

le

poids varie
en tient

Interprtation des coefficients


Coefficients partiels

Le nouveau coefficient se lit de la manire suivante :


cylindre gale, lorsque le poids augmente de 1kg,
la consommation s'accrotra de 0 ,004 litres au km.
C'est le fameux "toutes choses gales par ailleurs" .
On parle alors de coefficient partiel.
Nous avons neutralis l'impact de la cylindre sur le
poids dans la dtermination de l'influence de ce
dernier sur la consommation.

Interprtation des coefficients


Coefficients partiels
Explication de ce phnomne
Poids = 0,427 x cylindree + 424,75

Rsidus(poids/cylindree) = poids

Y = 0,004 x rsidus + 9,075


0,004 reprsente l'impact du poids sur la consommation en
dehors de (en contrlant, en neutralisant) l'infl uence de la
cylindre.
Nous retrouvons le coefficient partiel de la rgression
multiple.

Interprtation des coefficients


Coefficients partiels
Explication de ce phnomne

0,001 reprsente limpact du Cylindre sur la consommation en


dehors de (en contrlant/en neutralisant) linfluence du Poids.
Nous trouvons le coefficient partial de la rgression multiple.

Interprtation des coefficients


Les E.RCoefficients
dcrivent la relation
entre la VD et
un groupe de VI
standardiss
(Bta)
Leurs coefficients mesurent les effets des variables
indpendantes sur la variable dpendante.
Cependant, la taille du coefficient de rgression dpend des
units de mesure des variables.
units de mesure des variables.
Dans ce cas, cest difficile de savoir laquelle des variables est
la plus importante.
On ne peut pas comparer directement les coefficients de
rgression des variables car ils dpendent de lchelle de
mesure des variables prdictrices et de la variable
expliquer.

Interprtation des coefficients


Coefficients standardiss (Bta)
Il nous faut une bonne mesure des effets des VI qui tienne compte
des diffrences dunits de mesure tout en contrlant les effets des
autres variables indpendantes.
Cette statistique existe et sappelle les coefficients de rgression
standardiss, ou de faon plus simple, les coefficients Bta.

Quelle est la variable qui a le plus d'influence sur la consommation,


le poids ou la cylindre ?
Les variations d'une unit de poids et d'une unit de cylindre ne
reprsentent pas la mme chose, elles ne sont pas opposables.
Pour les rendre comparables, nous devons standardiser les coeffi cients et
raisonner en termes d'carts-type.
Nous obtiendrions une lecture du type : lorsque le poids (la cylindre) varie
de 1 cart-type, la consommation varie de a 1 (a2) carts-type.

Interprtation des coefficients


Coefficients standardiss (Bta)
Rgression sur donnes centres et rduites

Ycr = 0,613 x poids cr + 0,364 x cylindre cr + 0,000

Lorsque le poids (respectivement la cylindre) augmente de 1 cart-type, la


consommation augmente de 0,613 fois (respectivement 0,364) son cart-type.
Maintenant, nous pouvons dire que le poids pse, comparativement, plus sur
la consommation que la cylindre.

Interprtation des coefficients


Coefficients standardiss (Bta)

Correction des coefficients de la rgression usuelle

=
,

= ,

= ,

,
= ,
,

Proprits des estimateurs

L'estimateur est sans biais

E[(XX)1X] = (XX)1XE()
De plus E() = 0

(H1) X est non alatoire, les exognes sont mesures sans erreur
(H2) la moyenne de l'erreur est nulle E() = 0

Variances - Covariances

I est la matrice unit de dimension (n, n)

ESTIMATION

DE LA VARIANCE DES RSIDUS

Constante Cylindre Puissance Poids

Consommation

1
1
1
1
1
1
1
1
1

846
993
899
1390
1195
658
1331
1597
1761

32
39
29
44
33
32
55
74
74

650
790
730
955
895
740
1010
1080
1100

5,7
5,8
6,1
6,5
6,8
6,8
7,1
7,4
9

5,4523
6,2447
5,7621
7,2296
6,6789
5,7402
7,6339
8,4079
8,5734

0,2477
-0,4447
0,3379
-0,7296
0,1211
1,0598
-0,5339
-1,0079
0,4266

0,0613
0,1978
0,1142
0,5324
0,0147
1,1233
0,2850
1,0159
0,1820

2165

101

1500

11,7

10,9571

0,7429

1983

85

1075

9,5

8,7780

0,7220

0,5212

1
1
1
1
1

1984
1998
1580
1390
1396

85
89
65
54
66

1155
1140
1080
1110
1140

9,5
8,8
9,3
8,6
7,7

9,1168
9,1333
8,2353
8,0676
8,4164

0,3832
-0,3333
1,0647
0,5324
-0,7164

0,1468
0,1111
1,1336
0,2834
0,5133

2435

106

1370

10,8

10,6319

0,1681

0,0283

1
1
1
1
1
1
1
1
1
1
1

1242
2972
2958
2497
1998
2496
1998
1997
1984
2438
2473

55
107
150
122
66
125
89
92
85
97
125

940
1400
1550
1330
1300
1670
1560
1240
1635
1800
1570

6,6
11,7
11,9
10,8
7,6
11,3
10,8
9,2
11,6
12,8
12,7

7,2939
11,0420
12,4542
10,7853
9,3902
12,2774
10,9094
9,6105
11,1467
12,2875
11,8432

-0,6939
0,6580
-0,5542
0,0147
-1,7902
-0,9774
-0,1094
-0,4105
0,4533
0,5125
0,8568

0,4815
0,4329
0,3072
0,0002
3,2047
0,9553
0,0120
0,1685
0,2055
0,2626
0,7342

Constante
cylindree
puissance
poids
n
p
ddl
SCR

0,5519

1,7020
0,0005
0,0183
0,0042
28
3
24
13,5807

0,6321
0,0008
0,0142
0,0009

0,5659
0,7522
0,7059860
-0,0001471
0,0055863
-0,0007004

(X'X)-1
-0,0001471
0,0055863
0,0000011
-0,0000159
-0,0000159
0,0003584
-0,0000005
-0,0000039

0,3994902
-0,0000832
0,0031611
-0,0003963

-0,0000832
0,0000006
-0,0000090
-0,0000003
Constante
Cylindre
Puissance
Poids
Constante
Cylindre
Puissance
Poids

-0,0007004
-0,0000005
-0,0000039
0,0000015

0,0031611
-0,0003963
-0,0000090
-0,0000003
0,0002028
-0,0000022
-0,0000022
0,0000009
Variances des estimateurs
0,3994902
0,0000006
0,0002028
0,0000009
Ecart-types des estimateurs
0,6321
0,0008
0,0142
0,0009

Tests de signification des coefficients


Le test consiste opposer :

La suppression de la variable X j de la rgression est possible si


l'hypothse nulle est vraie. Sinon (H1 vraie) variable conserve.
Par rapport aux autres variables, la contribution de Xj dans
l'explication de Y n'est pas significative.
Toutefois, des problmes de colinarit peuvent parfois perturber
les rsultats. Nous en reparlerons lors du traitement du fi chier
"Consommation de vhicules".

, on montre que :

La statistique de test s'crit :

Et la rgion critique pour un risque , le test tant bilatral :

Tests de signification des coefficients


Application sur la consommation des vhicules

R
F
SCE

t-calcul
ddl
t-thorique
p-value

poids
0,00423
0,00094
0,89911
71,29651
121,03183

DROITEREG
puissance
cylindree
0,01825
0,00049
0,01424
0,00078
0,75224
#N/A
24,00000
#N/A
13,58067
#N/A
SCR

Constante
1,7020
0,63205
#N/A
#N/A
#N/A

Test de significativit des coefficients


4,51838
1,28161
0,63304
2,6929
24
24
24
24
2,06390

2,06390

2,06390

2,0639

0,00014

0,21222

0,53269

0,0127

p-value
Cylindre LOI.STUDENT(0.6330;24;2)
Puissance LOI.STUDENT(1.2816;24;2)
LOI.STUDENT(4.5184;24;2)
Poids

Les intervalles de confiance


des estimateurs de la MCO
On peut calculer pour chaque coefficient
du modle un intervalle de confiance
de niveau (1-) donn par :

t suivant une de Student n-p-1 ddl


ddl..

Les intervalles de confiance


des estimateurs de la MCO
Application sur la consommation des vhicules
Intervalle de confiance des coefficients

R
F
SCE

poids
0,00423
0,00094
0,89911
71,29651
121,03183

t_(1-alpha/2)

2,06390

b.basse
b.haute

0,00230
0,00616

DROITEREG
puissance cylindree
Constante
0,01825
0,00049
1,7020
0,01424
0,00078
0,63205
0,75224
#N/A
#N/A
24,00000
#N/A
#N/A
13,58067
#N/A
#N/A
SCR
2,06390
2,06390
2,06390
-0,01114
0,04764

-0,00112
0,00210

0,39756
3,00654

Les intervalles de confiance des E de la MCO


Application sur la consommation des vhicules (SPSS)

Prdiction ponctuelle et par


intervalle

Prdiction ponctuelle

Prdiction ponctuelle
Comme pour la RLS, pour un nouvel individu i , il sagit de fournir
une prdiction de la valeur de l'endogne partir de sa description
cest dire les valeurs prises par les exognes (x i ,1, . . . , xi ,p).

La prdiction ponctuelle est obtenue en appliquant les


coefficients estims sur la description de l'individu traiter.

O Xi* est un vecteur ligne de dimension (1, p+1) : X i* = (1 ; x


Xi*,1, , Xi*,p). La premire valeur 1 permet de prendre en
compte la constante . Le rsultat est bien un scalaire puisque
est de dimension (p + 1, 1).

Prdiction ponctuelle
On peut montre que la prdiction ponctuelle est sans biais. Pour
ce faire, intressons nous l'erreur de prdiction

Par consquent, la prdiction ponctuelle est sans biais :

Prdiction ponctuelle et par


intervalle

Prdiction par intervalle

Prdiction par intervalle


Nous devons connatre la variance estime de l'erreur de
prdiction et la distribution de cette dernire.
Soit :

Le ratio erreur/cart-type est distribu selon une loi de Student


(n-p-1) degrs de libert :
t(n-p-1)

On en dduit lIC au niveau de confiance (1 ):

Prdiction par intervalle


Application sur le modle Consommation des vhicules

Nous souhaitons prdire la consommation d'un vhicule


prsentant les caractristiques suivantes :
cylindre = 1984 cm 3, puissance = 85 ch et poids = 1155 kg.

Вам также может понравиться