Вы находитесь на странице: 1из 12

Introduction lconomtrie S6-LEF sc. co. & gestion Prof.

Mohamed El Merouani
1

Chapitre 1 : REGRESSION LINAIRE SIMPLE
Plan du Chapitre :
I. Introduction
II. Prsentation du modle
III. Hypothses sur le modle
IV. Estimation des paramtres du modle (Mthode de moindres carres)
V. Caractristiques et proprits des estimateurs
VI. Intervalle de confiance sur les paramtres
VII. Qualit de lajustement
VIII. Fiabilit de la reprsentation
IX. Prvisions laide du modle
I.- Introduction :
En analyse de rgression, on cherche expliquer une variable Y qui dpend dune ou de
plusieurs variables explicatives X
1
, X
2
, ,X
k
.
Pour cela, un modle peut reprsenter la relation existante entre Y et les X
i
. Ce modle servira
aussi pour faire des prvisions :
+ = ) , , , (
2 1 k
X X X f Y L
La variable Y sappelle la variable explique, dpendante ou endogne. Alors que les variables
X
i
sappellent explicatives, indpendantes ou exognes. Il est ncessaire de prciser la nature
de la fonction f : fonction linaire, affine, exponentielle,Dans le cas o : f (X)=aX+b, le
modle est dit linaire, avec a et b sont des constantes inconnues.
Le facteur est de nature alatoire et il suit une loi de probabilit. appel bruit blanc ou
facteur de perturbation. Il reprsente les erreurs sur les observations de Y.
Sappuyant sur des observations y
1
, y
2
,,y
n
de la variable Y, lanalyse de rgression consiste
laborer un modle explicatif qui sera analys statistiquement par lestimation de ses
paramtres et par divers tests dhypothses.
II.- Prsentation du modle :
Lorsquil ny a quune seule variable explicative, on dira que le modle de rgression est
simple. Le modle de rgression linaire simple scrit :
+ + = aX b Y ,
o Y est la variable expliquer, variable dpendante ou variable endogne.
X est la variable explicative, variable indpendante ou variable exogne.
a et b son les paramtres du modle.
w w w . e lm e ro u a n i. jim d o . co m

E
l

M
e
r
o
u
a
n
i

F
P

T
e
t
o
u
a
n
Introduction lconomtrie S6-LEF sc. co. & gestion Prof. Mohamed El Merouani
2

a est le coefficient de rgression, cest la pente de la droite (il mesure la variation de Y lorsque
X augmente dune unit).
b est la valeur prise par Y lorsque X=0.
est le facteur erreur alatoire, non observable. Il comprend les erreurs de mesure et les autres
facteurs explicatifs non pris en compte.
III.- Hypothses sur le modle :
Dabord, on suppose lexistence dune relation linaire entre Y et X.
La variable explicative X est mesure sans erreur.
Aussi, on suppose labsence des erreurs de spcification, c'est--dire que toutes les variables
X qui sont importantes ou principales pour lexplication de la variable Y sont inclus dans la
dfinition du modle.
Les erreurs alatoires suivent une loi de probabilit normale de moyenne nulle et de variance
constante : ) , 0 (

N .
Le fait de supposer que
2

est constante, sappelle hypothse de Homoscdasticit .


Comme est alatoire, alors Y est aussi une variable alatoire. Alors quil nest pas ncessaire
que la variable X soit aussi alatoire.
( ) ( ) ( ) ( )
i i i i i i i
ax b y E E ax b ax b E y E + = + + = + + =
[ ] [ ]
2 2 2
) (
i i i i i Y
bx a bx a E y E y E + + = =
[ ]
2 2

= =
i
E
( )
2
); (

i i
y E N y
Les erreurs alatoires sont non corrles avec X.
Les erreurs sont non corrles entre elles. C'est--dire ( ) j i Cov
j i
= ; 0 , cette
hypothse sappelle de non-auto corrlation des erreurs.
IV.- Estimation des paramtres :
La mthode que lon utilise pour estimer les paramtres dun modle de rgression est la
mthode des moindres carres, bien que lon peut aussi utiliser la mthode de maximum de
vraisemblance.. Soient, donc, n observations de la variable Y : y
1
, y
2
, , y
n
. Do, on peut
crire le modle :
y
i
=b+ax
i
+ ; i=1,2,,n
Le modle estim partir des n observations sera :
w w w . e lm e ro u a n i. jim d o . co m

E
l

M
e
r
o
u
a
n
i

F
P

T
e
t
o
u
a
n
Introduction lconomtrie S6-LEF sc. co. & gestion Prof. Mohamed El Merouani
3

i i
x a b y

+ =
Il sagit de trouver a et b

telle que si on dfinit le i


me
rsidu
i i i
y y e = , la mthode des
moindres carres consiste minimiser la somme des carres des rsidus
Min

n
i
i
e
1
2
Min ( )
2
1

n
i
i i
y y
On pose ( )
2
1
2

=
=
n
i
i i
x a b y e
Alors,
( ) ( )
( ) ( )

=
=

=
=
n
i
i i i
n
i
i i
x x a b y
x a b y
a
e
b
e
1
1
2
2
0

2
0 1

2
0

+ + +
= + +



= = =
= =
n
i
n
i
n
i
i i i i
n
i
n
i
i i
x a x b x y
x a b n y
1 1 1
2
1 1
0

= +
= +



= = =
= =
n
i
n
i
n
i
i i i i
n
i
n
i
i i
y x x a x b
y x a b n
1 1 1
2
1 1
) 2 (

) 1 (



= =
i i
i i
X a Y b x
n
a y
n
b

) 1 (
( )

= = = = = = =
= + = +
n
i
j i
n
i
n
i
i i
n
i
n
i
i i i
n
i
n
i
i i
y x x a x X a x Y y x x a x X a Y
1 1 1
2
1 1 1 1
2
) 2 (

( )( )
( )

=
=
=
=

=
n
i
i
n
i
i i
n
i
i
n
i
i i
X x
Y y X x
X n x
Y X n y x
a
1
2
1
1
2 2
1

Ces estimateurs sont les mmes que ceux que lon obtiendrait par la mthode de maximum de
vraisemblances en supposant que les erreurs thoriques sont normalement distribues.
V.- Caractristiques des estimateurs :
Ces estimateurs sont des fonctions linaires des observations
n
y y y , , ,
2 1
L . Ces estimateurs
sont non-biaiss,
( ) a a E = et ( ) b b E =


en effet :
w w w . e lm e ro u a n i. jim d o . co m

E
l

M
e
r
o
u
a
n
i

F
P

T
e
t
o
u
a
n
Introduction lconomtrie S6-LEF sc. co. & gestion Prof. Mohamed El Merouani
4

( )
( )( )
( ) ( )
( ) ( ) [ ] ( )

=
= =
=

=
(
(
(
(


=
n
i
i i
n
i
i
n
i
i
n
i
i i
Y E y E X x
X x X x
Y y X x
E a E
1
1
2
1
2
1
) (
1


( )
( )

= +

=
=
=
2
2
1
1
2 ) (
) (
) )( (
1
X x
X x
a X a b ax b X x
X x
i
i
n
i
i i
n
i
i

( ) a a E =
et ( ) ( ) ( ) ) (

a E X Y E X a Y E b E = =

Mais,
( ) [ ] ( )

+ = + = =
|
|

\
|
= X a b ax b
n
y E
n n
y
E Y E
i i
i
1
) (
1
, parce que
i i
ax b y E + = ) (

Donc
( ) b X a X a b b E = + =


Les variances thoriques de ces estimateurs sont :


( )
( )

=
n
i
i
X x
a Var
1
2
2

et ( )
( )
(
(
(
(

+ =

=
2
1
2
2
2
1

i
i
X x
X
n
b Var


On peut dmontrer que les estimateurs des moindres carres sont des estimateurs linaires non
biaiss variance minimale (c'est--dire efficace). On dit aussi quils sont des estimateurs
BLUE Best Linear Unbiased Estimators .
Connaissant la moyenne et la variance des estimateurs et ayant suppos que les erreurs, et
donc les y
i
, sont distribues normalement, on peut conclure que les estimateurs a et b

, tant
des fonctions linaires des observations, obissent eux-mmes une loi normale.
VI.- Intervalle de confiance sur les paramtres :
Les estimateurs a et b

suivent une loi normale, parce quils sont des fonctions linaires des
observations y
i
, qui sont distribues selon une loi normale.
On peut construire des intervalles de confiance pour chacun des paramtres a et b, pour cela,
il faut au pralable estimer la variance des erreurs,
2

.
Les rsidus e
i
tant des estimateurs des erreurs thoriques
i
, on doit se servir de la variance
des rsidus (note
2
e
S ) comme estimateur de la variance des erreurs, la formule est donne
par :
w w w . e lm e ro u a n i. jim d o . co m

E
l

M
e
r
o
u
a
n
i

F
P

T
e
t
o
u
a
n
Introduction lconomtrie S6-LEF sc. co. & gestion Prof. Mohamed El Merouani
5

( ) ( )
2 2

2 2 2
2 2

= =

n
ax b y
n
y y
n
e
S
i
i i
i
i i
i
i
e

On peut montrer que cet estimateur est non biais, c'est--dire : ( )
2 2


= E .
Les estimateurs des paramtres de la droite de rgression sont des statistiques qui suivent des
lois de Student (n-2) degrs de libert :
( )
2
1
2
2
1

n
n
i
i
e
t
X x
X
n
S
b b
et
( )
2
1
2
1

n
n
i
i
e
t
X x
S
a a

Les intervalles de confiance un seuil pour les paramtres a et b sont donnes par :
Pour a :

( ) ( )
(
(
(
(


=

=

n
i
i
e
n
n
i
i
e
n
X x
S t a
X x
S t a
1
2
2 ;
2
1
1
2
2 ;
2
1
1
;
1



Pour b :
( ) ( )
(
(
(
(

+ +

+

=

=

n
i
i
e
n
n
i
i
e
n
X x
X
n
S t b
X x
X
n
S t b
1
2
2
2 ;
2
1
1
2
2
2 ;
2
1
1

;
1



Comme
2

tait aussi inconnue et on la estim, on peut aussi construire un intervalle de


confiance pour cette variance.
On sait que
2
2

) 2 (

n suit une loi de


2
(n-2) degrs de libert. On part donc de

=
|
|

\
|
< < 1

) 2 (
2
2
B n A P , lintervalle de confiance pour
2

est alors


(


A
n
B
n
2 2
) 2 (
;
) 2 (


, ou A et B sont dduit partit de la table statistique de la loi
2

(n-2) degrs de libert.
VII.- Qualit de lajustement :
Plusieures tests sont utilisables pour dterminer la qualit de la reprsentation. Ces tests sont
centrs autour de deux questions:
w w w . e lm e ro u a n i. jim d o . co m

E
l

M
e
r
o
u
a
n
i

F
P

T
e
t
o
u
a
n
Introduction lconomtrie S6-LEF sc. co. & gestion Prof. Mohamed El Merouani
6

1) dans quelle mesure le phnomne est-il bien reprsent par la droite qui vient dtre
dfinie?
2) dans quelle mesure peut-on faire confiance aux coefficients b et a du modle?
VII.-1.- Validit globale du modle:
En construisant le modle de rgression nous avons suppos que Y dpendait de X. Il convient
de tester cette hypothse en la comparant avec lhypothse nulle selon laquelle Y est
indpendant de X, cest--dire que quelle que soit la valeur de X, nous obtenons toujours
approximativement la mme valeur de Y.
Avec lhypothse Y dpend de X, nous obtenons des prvisions plus proches de la ralit. Il
sagit de voir si cette seconde hypothse amliore suffisament la prvision pour pouvoir
rejeter lhypothse nulle.
a.- Lois des carts:
La loi des carts permet de relier lerreur associe lhypothse nulle et lerreur associe
lhypothse Y dpend de X.
Lerreur attache lhypothse nulle est mesure par la dispersion totale des Y
i
, cest--dire
par la somme des carrs des carts des Y
i
par rapport la moyenne Y:
Dipersion totale= ( )
2


i
i
Y Y
Lerreur attache la seconde hypothse, ou encore dispersion rsiduelle est donne par e
2
,
somme des carrs des carts entre les observations Y
i
et les valeurs estimes
i
par le modle:
Dispersion rsiduelle= ( )
2


i
i i
Y Y
La diffrence entre la dispersion totale et la dispersion rsiduelle correspond la dispersion
explique par le modle de rgression, compte tenu du fait que
(Y
i
-Y)
2
=(
i
-Y)
2
+(
i
-Y
i
)
2

On en tire la dcomposition suivante:
(Y
i
-Y)
2
=(
i
-Y)
2
+(
i
-Y
i
)
2

relation connue sous le nom de loi des carts, nous pouvons crire:
Dispersion explique = (
i
-Y)
2

Donc on a:
Dispersion totale=Dispersion explique+Dispersion rsiduelle.

w w w . e lm e ro u a n i. jim d o . co m

E
l

M
e
r
o
u
a
n
i

F
P

T
e
t
o
u
a
n
Introduction lconomtrie S6-LEF sc. co. & gestion Prof. Mohamed El Merouani
7

b.- Coefficient de dtermination et coefficient de corrlation:
Coefficient de dtermination R
2
:
Un premier indicateur de qualit de la reprsentation consiste mettre en relation la
dispersion explique par le modle et la dispersion totale des donnes: le coefficient de
dtermination R
2
mesure le pouvoir explicatif du modle en valuant le pourcentage de
linformation restitue par le modle par rapport la qualit dinformation initiale:
( )
( )
totale dispersion
explique dispersion

2
2
2
=

i
i
i
i
Y Y
Y Y
R
Coefficient de corrlation linaire R:
Le coefficient de corrlation est R, racine carr du coefficient de dtermination. Cest
lindicateur le plus couramment employ.
Le coefficient de corrlation linaire a pour objet de mesurer lintensit de la liaison linaire
entre deux variables statistiques X et Y.
On peut le calculer laide de plusieurs formules diffrentes.
En premier lieu, daprs la dfinition qui vient dtre donne, nous avons:
( )
( )

=
i
i
i
i
Y Y
Y Y
R
2
2


On montre que R est obtenu galement laide des formules suivantes, o
X
et
Y

reprsentent les carts-type respectives des X


i
et des Yi:
( )( ) [ ] ( )
Y X
Y X Cov
Y Var X Var
Y E Y X E X E
R

,
) ( ) (
) ( ) (
=

=
Y X
XY
R

= et
Y
X
a R

=
Racine care de R
2
, cest--dire dun chiffre au plus gal 1, R a une valeur absolue
galement au plus gale 1. Cette dfinition montre que le coefficient de corrlation possde
le mme signe que la covariance et quil est toujours compris entre -1 et 1. Donc -1 R 1.
Le signe du coefficient de corrlation linaire indique le sens de la relation entre X et Y. R est
positif (covariance ou coefficient de rgression a positifs) ou ngatif (cas inverse).
w w w . e lm e ro u a n i. jim d o . co m

E
l

M
e
r
o
u
a
n
i

F
P

T
e
t
o
u
a
n
Introduction lconomtrie S6-LEF sc. co. & gestion Prof. Mohamed El Merouani
8

Un R trs lev en valeur absolue concrtise une relation troite entre X et Y, croissante si R
est positif et dcroissante, si R est ngatif.
R=1 : dans ce cas les points se trouvent tous sur une mme droite croissante, on parle de
correlation linaire positive parfaite.
R=-1 : dans cas les points se trouvent tous sur une mme droite dcroisaante, on parle de
corrlation linaire ngative parfaite.
R=0 : dans ce cas il ny a aucune dpendance linaire entre les deux variables, on parle de
corrlation linaire nulle.
Une valeur de R faible en termes absolus caractrise une absence de relation linaire entre X
et Y, mais pas ncessairement labsence de liaison entre les variables.
c.- Analyse de la variance pour la rgression (test F):
La valeur du coefficient de correlation est calcule partir des donnes disponibles.
Un coefficient de correlation trs lev, mais obtenu sur peu de donnes est moins significatif
quun coefficient plus faible, mais dtermine sur un grand nombre de donnes.
A la limite, si nous navions que deux observations, R serait gal 1, mais aucune conclusion
ne saurait en tre dduite.
Obtenu sur un chantillon de taille rduite, R devrait tre rectifi. La formule suivante est
utilise, ou k est le nombre de variables explicatives et n le nombre de donnes:
1
1
1

=
k n
n
totale dispersion
rsiduelle dispersion
R
Le test F (analyse de la variance) permet dintgrer la taille de lchantillon dans
lapprciation de la qualit de la reprsentation:
( )
( )
moyenne rsiduelle dispersion
moyenne explique dispersion
1

2
2
=

k n
Y Y
k
Y Y
F
i i
i

Cette valeur doit tre compare celle qui est lue dans une table de Fisher-Sndcor pour k
degr de libert au numrateur et n-k-1 au dnominateur un seuil de confiance .

Le tableau suivant rsume cette tude dite Analyse de la variance


w w w . e lm e ro u a n i. jim d o . co m

E
l

M
e
r
o
u
a
n
i

F
P

T
e
t
o
u
a
n
Introduction lconomtrie S6-LEF sc. co. & gestion Prof. Mohamed El Merouani
9

Tableau danalyse de la variance pour la rgression linaire simple (test F):
Source Somme des
carres
Degrs de
libert
Moyenne des
carrs
F
Rgression
( )
2

Y Y
i

k
( )
k
Y Y
i
2



( )
( )
1

2
2

k n
Y Y
k
Y Y
F
i i
i

Erreur
( )

i i
Y Y
n-k-1
( )
1

k n
Y Y
i i


Total
( )
2

Y Y
i

n-1
F lue partir dune table de Fisher-Sndcor pour k degr de libert au numrateur et
n-k-1 au dnominateur un seuil de confiance .

VII.-2.- Validit des coefficients:
Les tests prcdents permettent davoir une ide de la validit de la rgression dans son
ensemble. Il importe de connatre galement la validit des coefficients du modle, cest--
dire de a dans le cas de la rgression linaire simple.
Cette validit est vrifie par le biais du test t et travers le calcul de lintervalle de confiance
du paramtre a.
Si lon admet que les valeurs estimer partir de diffrents chantillons dobservations
suivent une loi de Student dcart-type S
a
, nous pouvons valuer la probabilit que la valeur a
soit diffrente de zro. La statistique t suivante
a a
S
a
S
a
t =

=
0

nous donne le nombre dcarts-type qui sparent la valeur observe de 0.
La statistique t mesure ainsi le degr de raret, dans une population o la valeur de a est 0,
dchantillons dobservations pour lesquels a=a
0

Lintervalle de confiance de a est obtenu comme on a dj vu. Si t

est le nombre dcarts-


types correspondant au seuil de confiance , il y a une probabilit (1-) que la valeur de a soit
comprise dans lintervalle [a-t
/2
S
a
; a+t
/2
S
a
].
VIII.- Fiabilit de la reprsentation:
En ajustant le nuage de points reprsentatifs des diffrents observations par une droite, nous
avons admis implicitement que la relation liant X et Y tait du type Y
i
=aX
i
+b+e
i
(i=1,2,,n)
o e
i
est un terme derreur alatoire appel aussi le rsidus et respectant les conditions
suivantes:
w w w . e lm e ro u a n i. jim d o . co m

E
l

M
e
r
o
u
a
n
i

F
P

T
e
t
o
u
a
n
Introduction lconomtrie S6-LEF sc. co. & gestion Prof. Mohamed El Merouani
10

e
i
est une variable alatoire normale de moyenne nulle,
e
i
est indpendant de e
k
: aucune corrlation nexiste entre les rsidus,
e
i
est indpendant de X
i
: aucune corrlation ne peut tre trouve entre le terme derreur et la
valeur de la variable.
Il convient de vrifier si ces conditions sont bien respectes, en particulier les deux dernires.
Lorsquil y a autocorrlation entre les rsidus, les erreurs ne sont plus indpendantes:
Lautocorrlation positive caractrise une situation o
e
i
> 0 e
i+1
> 0
e
i
< 0 e
i+1
< 0 .
Un tel phnomne est enregistr par exemple sur le graphique suivant:

Lautocorrlation ngative caractrise les situations o
e
i
> 0 e
i+1
< 0
e
i
< 0 e
i+1
> 0 .
le graphique suivant montre un tel cas:

w w w . e lm e ro u a n i. jim d o . co m

E
l

M
e
r
o
u
a
n
i

F
P

T
e
t
o
u
a
n
Introduction lconomtrie S6-LEF sc. co. & gestion Prof. Mohamed El Merouani
11

Lapparition dun certain degr dautocorrlation entre les erreurs peut indiquer que le modle
a t mal spcifi, omettant par exemple dintgrer une variable explicative importante.
Le test de Durbin-Watson permet de reprer le degr dautocorrlation des rsidus: il
demande de calculer
( )

=
2
2
1
i
i i
e
e e
d
Un valeur de d proche de 2 manifeste labsence dautocorrelation, alors quune valeur faible
correspond une situation dautocorrlation positive et une valeur leve une situation
dautocorrlation ngative.
L htroscdasticit est un phnomne li au fait que la variance des erreurs nest pas
constante sur lensemble des observations, mais au contraire dpend de X
i
.
Cest ce qui se produit par exemple si lerreur est de plus en plus importante en valeur absolue
pour des valeurs plus leves de X
i
, comme on le voit sur le graphique suivant:

Lapparation de tels phnomnes altre la fiabili des tests prsents prcdement. Lorsquils
se produisent, la formulation du modle doit tre revue.
IX.- Prvisions laide du modle :
Un modle de rgression est construit dans le but dexpliquer partir des observations dans
quelles conditions se dtermine la valeur de la variable dpendante, mais aussi de prvoir les
valeurs futures de cette variable.
En fait, il faut tenir compte de ce que le modle a t construit partir dun chantillon de
donnes et quil existe de toute faon un certain ala sur les relations entre X et Y.
w w w . e lm e ro u a n i. jim d o . co m

E
l

M
e
r
o
u
a
n
i

F
P

T
e
t
o
u
a
n
Introduction lconomtrie S6-LEF sc. co. & gestion Prof. Mohamed El Merouani
12

Deux types de prvisions peuvent tre poss: Prvoir la moyenne des Y pour une valeur
donne de X=X
0
, ou prvoir une valeur individuelle de Y=Y
0
pour une valeur donne de
X=X
0
.
1) Prvision par un intervalle pour la moyenne de Y en un point donn X
0
:
Lintervalle de confiance: un seuil de confiance , pour la moyenne de Y en X=X
0
est donn
par:
( ) ( )
(
(

+ +

+


2 2
2
0
2 ,
2
1
2 2
2
0
2 ,
2
1
1

;
1

0 0
X n X
X X
n
Se t Y
X n X
X X
n
S t Y
n
X e
n
X

O, on le rappelle, S
e
est lcart-type des erreurs du modle, avec t
1-/2,n-2
lue dans la table de
Student n-2 degrs de libert. Lintervalle de confiance est dautant plus important que Se
est lev et n est faible.
2) Prvision dun intervalle pour une observation Y
0
en un point donn X
0
:
Lintervalle de prvision ou de confiance pour une seule valeur Y0 pour une valeur donn X0
de X, est donn par :
( ) ( )
(
(

+ + +

+ +


2 2
2
0
2 ,
2
1
2 2
2
0
2 ,
2
1
1
1

;
1
1

0 0
X n X
X X
n
Se t Y
X n X
X X
n
S t Y
n
X e
n
X

Cet intervalle de prvision est plus large que celui de la moyenne (pour une mme valeur X
0

de X) parce quil est plus difficile en effet de prvoir une valeur individuelle que de prvoir la
moyenne dun ensemble de donnes.

La rgression linaire simple nous a, donc, permis de prsenter les aspects principaux des
techniques de rgression qui peuvent tre utilises dans llaboration de modles de prvision.


w w w . e lm e ro u a n i. jim d o . co m

E
l

M
e
r
o
u
a
n
i

F
P

T
e
t
o
u
a
n

Вам также может понравиться