Вы находитесь на странице: 1из 17

w

w
w
.
.
c
o
m
M
a
t
e
m
a
t
i
c
a
1
Modelo de Regresin Lineal Mltiple
Proyecto e-Math 3
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
CONCEPTOS FUNDAMENTALES ______________________________


Hiptesis del modelo de regresin lineal mltiple (MRLM)


Mediante un modelo de regresin lineal mltiple (MRLM) tratamos de explicar el
comportamiento de una determinada variable que denominaremos variable a explicar,
variable endgena o variable dependiente, (y representaremos con la letra Y) en funcin de
un conjunto de k variables explicativas X
1
, X
2
, ..., X
k
mediante una relacin de dependencia
lineal (suponiendo X
1
= 1):

U X X Y
k k
+ + + + ...
2 2 1
siendo U el trmino de perturbacin o error

Para determinar el modelo anterior, es necesario hallar (estimar) el valor de los coeficientes

1
,
2
, ...,
k
. La linealidad en parmetros posibilita la interpretacin correcta de los
parmetros del modelo. Los parmetros miden la intensidad media de los efectos de las
variables explicativas sobre la variable a explicar y se obtienen al tomar las derivadas
parciales de la variable a explicar respecto a cada una de as variables explicativas:

k j
X
Y
j
j
,..., 1 ;

.

Nuestro objetivo es asignar valores numricos a los parmetros
1
,
2
, ...,
k
. Es decir,
trataremos de estimar el modelo de manera que, los valores ajustados de la variable
endgena resulten tan prximos a los valores realmente observados como sea posible.

A fin de poder determinar las propiedades de los estimadores obtenidos al aplicar distintos
mtodos de estimacin y realizar diferentes contrastes, hemos de especificar un conjunto de
hiptesis sobre el MRLM que hemos formulado. Existen tres grupos de hiptesis siguientes:
las hiptesis sobre el trmino de perturbacin, las hiptesis sobre las variables explicativas, y
las hiptesis sobre los parmetros del modelo.


Hiptesis sobre el trmino de perturbacin:


Para una muestra de n observaciones (cada observacin estar formada por una tupla con
los valores de X
2
, X
3
, ..., X
k
y el valor de Y asociado), tendremos el siguiente sistema de n
ecuaciones lineales:

+ + + +
+ + + +
+ + + +
n kn k n n
k k
k k
u X X Y
u X X Y
u X X Y



...
...
...
...
2 2 1
2 2 22 2 1 2
1 1 21 2 1 1


o, en forma matricial: Y = X B + U, donde:

]
]
]
]
]
]
,
,
,
,

n
Y
Y
Y
Y
...
2
1
,
]
]
]
]
]
]
,
,
,
,

kn n
k
k
X X
X X
X X
X
... 1
... ... ... ...
... 1
... 1
2
2 22
1 21
,
]
]
]
]
]
]
,
,
,
,

k
B

...
2
1
,
]
]
]
]
]
]
,
,
,
,

n
u
u
u
U
...
2
1

w
w
w
.
.
c
o
m
M
a
t
e
m
a
t
i
c
a
1
Modelo de Regresin Lineal Mltiple
Proyecto e-Math 4
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

En estas condiciones, las hiptesis del MRLM se resumen en la esfericidad del trmino de
perturbacin, i.e.:

a) El valor esperado de la perturbacin es cero: [ ] 0
i
u E n i ,..., 1

b) Homoscedasticidad: todos los trminos de perturbacin tienen la misma varianza
(varianza constante):

[ ] [ ]
2

j i
u Var u Var j i

Por tanto, todos los trminos de la diagonal principal de la matriz de varianzas y
covarianzas sern iguales:

[ ]
]
]
]
]
]
]
]
,
,
,
,
,

2
2
2
...
... ... ... ...
...
...

U Var


c) No Autocorrelacin: los errores son independientes unos de otros, i.e.: la matriz de
varianzas y covarianzas es una matriz diagonal (fuera de la diagonal principal todo son
ceros):

[ ]
]
]
]
]
]
]
]
,
,
,
,
,

2
2
2
2
1
... 0 0
... ... ... ...
0 ... 0
0 ... 0
n
U Var



Observar que, bajo las hiptesis de homoscedasticidad y no autocorrelacin, la matriz de
varianzas y covarianzas tendr la forma siguiente:

[ ]
n
I U Var
]
]
]
]
]
]
]
,
,
,
,
,

2
2
2
2
... 0 0
... ... ... ...
0 ... 0
0 ... 0

(I
n
es la matriz identidad de orden n)


d) El error o perturbacin sigue una distribucin normal, i.e.:

( )
n n
I N U
2
, 0


Hiptesis sobre las variables explicativas:


a) Las variables explicativas son fijas o deterministas.

b) La variables explicativas estn no correlacionadas con la perturbacin aleatoria.

w
w
w
.
.
c
o
m
M
a
t
e
m
a
t
i
c
a
1
Modelo de Regresin Lineal Mltiple
Proyecto e-Math 5
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
c) Las variables explicativas no presentan relacin lineal exacta entre si.

d) Adems, supondremos que las variables explicativas son medidas sin error.

e) En el modelo no se excluyen las variables relevantes y que tampoco no se incluyen las
variables irrelevantes, a la hora de explicar el comportamiento de la variable endgena.


Hiptesis sobre los parmetros del modelo:


a) La nica hiptesis que haremos acerca de los parmetros del modelo es la hiptesis de
permanencia estructural, lo cual quiere decir que los parmetros poblacionales,
j
, se
mantienen constantes a lo largo de toda la muestra.


Estimacin del MRLM


Estimar el modelo equivale asignar valores numricos a los parmetros desconocidos
1
,
2
,
...,
k
, a partir de la informacin muestral disponible de las variables observables del modelo.
nicamente consideraremos dos mtodos de estimacin:


El mtodo de mnimos cuadrados ordinarios (MCO)

El mtodo de mxima verosimilitud (MV)


Estimacin por mnimos cuadrados ordinarios:


Sea un modelo en forma matricial Y = X B + U. Supongamos que el modelo ha sido estimado,
obtenindose , vector de valores de la variable dependiente implicado por el modelo. La
diferencia entre los valores observados y los valores estimados, B X Y Y Y e

, la
denominaremos vector de residuos. Ahora bien, nuestro problema consiste en minimizar la
suma de los cuadrados de residuos, ee con respecto del vector de parmetros estimados, B.
De este problema de optimizacin se deduce la siguiente expresin de mnimos cuadrados
ordinarios del MRLM [7]:


( ) Y X X X B
1



cuya varianza viene dada por: [ ] ( )
1
2


X X B Var


Adems, el estimador MCO de la varianza del trmino de perturbacin es:

k n
e e
u

2


donde n es el nmero de observaciones y k es el nmero de elementos del vector B.

Bajo la hiptesis de perturbaciones esfricas, el estimador MCO del vector B cumple una
serie de propiedades que le convierten en un insesgado (el valor esperado del estimador
coincide con el valor real del parmetro), eficiente (de varianza mnima), y consistente [4].

w
w
w
.
.
c
o
m
M
a
t
e
m
a
t
i
c
a
1
Modelo de Regresin Lineal Mltiple
Proyecto e-Math 6
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Adems, bajo la hiptesis de esfericidad, el estimador MCO de la varianza del trmino de
error,
2

u
, es tambin insesgado.


Estimacin por mxima verosimilitud:


El mtodo de estimacin por MCO consiste en asignar valores numricos a los parmetros
desconocidos de manera que la suma cuadrtica de errores sea mnima y slo requiere que
la matriz XX sea invertible. A continuacin veremos un mtodo de estimacin alternativo, el
mtodo de mxima verosimilitud.

El mtodo de mxima verosimilitud (MV), en cambio, propone como un estimador el valor
que maximiza la probabilidad de obtener la muestra ya disponible.

El mtodo MV se basa, prcticamente, en la distribucin que sigue el trmino de error. A tales
efectos, se suele suponer que las perturbaciones aleatorias se distribuyen con una
distribucin Normal que, adems de cumplir las propiedades de una muestra grande, es una
aproximacin cmoda y fcil de tratar.

El modelo que utilizaremos es Y = X B + U, y supondremos que el trmino aleatorio sigue la
distribucin Normal con la siguiente funcin de densidad:

( ) . ,..., 1 ,
2
exp
2
1
2
2
N i
u
u f
i
i





Maximizar la probabilidad de obtener la muestra ya disponible equivale maximizar la funcin
de densidad conjunta del vector aleatorio, u. Para ello, hemos de suponer homoscedasticidad
y ausencia de autocorrelacin. Por tanto, la expresin de la funcin de densidad conjunta es
la siguiente:

( ) ( )
( )

2
2
2
2
1
2
exp
2
1

i
n
n
i
i
u
u f U f

Como U sigue una distribucin Normal Multivariante de orden k, la variable Y, al ser una
combinacin lineal de las perturbaciones aleatorias, tambin se distribuir con una
distribucin Normal Multivariante. As pues, para que la funcin de densidad conjunta sea una
funcin de verosimilitud, el vector aleatorio U ha de expresarse en funcin del vector Y, es
decir:

( )
( )
( ) ( )



2 2
2
2
2
'
exp
2
1
, ;


X Y X Y
Y L
n



Se trata, por tanto, de maximizar la funcin de verosimilitud. Como la expresin anterior
resulta complicada, aplicaremos una transformacin montona; en concreto, una funcin
logartmica:

( ) ( ) ( )
( ) ( )
2
2 2
2
'
2 ln
2
2 ln
2
, ; ln



X Y X Y n n
Y L



Derivando la funcin de verosimilitud con respecto de B y
2
, e igualando las derivadas a
cero, obtenemos los resultados:

w
w
w
.
.
c
o
m
M
a
t
e
m
a
t
i
c
a
1
Modelo de Regresin Lineal Mltiple
Proyecto e-Math 7
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

( ) Y X X X B
MV

1



cuya varianza es la siguiente: [ ] ( )
1
2


X X B Var
MV
.


Adems, el estimador MCO de la varianza del trmino de perturbacin es:

n
e e
MV

,

donde n es el nmero de observaciones y k es el nmero de elementos del vector B.

Observamos que el estimador de MV de B coincide con el MCO, con lo que tendr las
mismas propiedades: ser lineal, insesgado, ptimo y consistente.

Es fcil ver que el estimador de MV de
2
, en cambio, resulta diferente del MCO y no es
insesgado aunque s es asintticamente insesgado.


Medidas del bondad del ajuste


Las estimaciones por MCO y MV que hemos realizado todava no nos permite evaluar la
calidad de ajuste del modelo. Para ello, de aqu a delante iremos viendo las medidas de
bondad de ajuste.

Comenzaremos por la suma de los cuadrados de errores, SCE, que puede expresarse de
varias formas:

.

'

' '

' '
1
2
1
2
1
2



n
i
i
n
i
i
n
i
i
Y Y Y Y Y Y Y X B Y Y e e e

Despejando la suma de cuadrados de la variable endgena, queda:

e e Y Y Y Y + '

'

' , o bien,


+
n
i
i
n
i
i
n
i
i
e Y Y
1
2
1
2
1
2

.
Restando a ambos lados la cantidad
2
Y n , obtenemos:

e e Y n Y Y Y n Y Y + '

'

'
2 2
, o bien, ( ) ( )


+
n
i
i
n
i
i
n
i
i
e Y Y Y Y
1
2
1
2
1
2

.

La parte izquierda representa suma de cuadrados totales (SCT) y no es sino la suma de
cuadrados de las desviaciones respecto a su media aritmtica.

Por otra parte, si el modelo tiene trmino independiente, a la cantidad
( )


n
i
i
Y Y Y n Y Y
1
2
2

'

se le denomina suma de cuadrados de la regresin (SCR) .



En resumen, la variabilidad total de la variable endgena (SCT) puede descomponerse en
dos partes: la parte que podemos explicar mediante el modelo especificado (SCR) y la parte
que no podemos explicar, la suma de cuadrados de los errores (SCE).

w
w
w
.
.
c
o
m
M
a
t
e
m
a
t
i
c
a
1
Modelo de Regresin Lineal Mltiple
Proyecto e-Math 8
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
A partir de la descomposicin anterior de la SCT, definiremos el coeficiente de determinacin,
R
2
, el cual ser la primera medida de bondad de ajuste:

SCT
SCE
R 1
2
.

Si el modelo tiene trmino independiente, entonces se cumple la igualdad SCT = SCR + SCE,
y el coeficiente de determinacin podr expresarse de la siguiente manera alternativa:

SCT
SCR
R
2
.

El coeficiente de determinacin indica que proporcin de variabilidad total queda explicada
por la regresin. Si el modelo tiene trmino independiente, entonces R
2
toma valores entre 0
y 1.

En prctica, el uso de R
2
presenta algunas limitaciones a la hora de comparar varios modelos
desde la perspectiva de bondad del ajuste. En efecto, cuanto ms variables explicativas
incorporamos al modelo, mayor ser el coeficiente de determinacin, pues la SCR disminuye
conforme aumenta el nmero de variables explicativas. Por tanto, cuando queremos llevar a
cabo un anlisis comparativo entre varios modelos, utilizamos R
2
corregido:

( )
2 2
1
1
1 R
k n
n
R



Este estadstico es inmune ante la incorporacin de extra variables va interaccin de dos
efectos: el efecto que permite aumentar R
2
, y el efecto opuesto que surge al descontar un
mayor nmero de las variables explicativas,
k n
n

1
[7].


Significacin de los parmetros del modelo


Distinguiremos entre dos distintas dimensiones de significacin: significacin econmica y
significacin estadstica.


Significacin econmica


Significacin econmica nos permite comprobar si las estimaciones obtenidas son
coherentes con la teora econmica. Segn especificacin del modelo, la interpretacin y
significacin de los parmetros puede variar. Si el modelo est especificado en niveles, el
parmetro refleja el efecto medio que tiene una variacin unitaria de la variable explicativa
sobre la variable endgena:

j
j
X
Y

.

En cambio, si el modelo est especificado en logaritmos neperianos, los parmetros pueden
interpretarse como una elasticidad, como es el caso de la funcin de produccin de Cobb-
Douglas:

w
w
w
.
.
c
o
m
M
a
t
e
m
a
t
i
c
a
1
Modelo de Regresin Lineal Mltiple
Proyecto e-Math 9
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
j
j
X
Y
ln
ln

.


Significacin estadstica


El anlisis economtrico pretende analizar, por medio una serie de contrastes, la significacin
(o significatividad) estadstica individual y conjunta de los parmetros del modelo. En
concreto, para contrastar las hiptesis de significatividad individual, tenemos:

H
0
:
j
= 0
H
A
:
j
0.

El estadstico t-Student que se utiliza para realizar el test es el siguiente:

. ~

2
k n
jj u
l
j
t
a
t



donde
jj u
a
2

es el error estndar estimado de


l

, y
jj
a es el j-simo elemento de la
diagonal principal de la matriz (XX)
-1
.

Dado un nivel de significacin , las tablas de distribuciones nos proporcionan la cantidad t
n-
k,/2
que es el valor asociado a una t-Student con n-k grados de libertad que deja a su
derecha un rea de /2 (o, equivalentemente, deja a su izquierda un rea de 1 - /2). La
regla de decisin que utilizaremos para determinar si el parmetro asociado a la variable X
j

es individualmente significativo o no es la siguiente:

Si |t
j
| t
n-k,/2
, el estadstico cae fuera de la regin de aceptacin, por lo que rechazamos
la hiptesis nula. Concluimos, por tanto, que el parmetro es significativamente diferente
de cero.

Si |t
j
| < t
n-k,/2
, el estadstico cae dentro de la regin de aceptacin, por lo que no
podemos rechazar la hiptesis nula. Por tanto, el parmetro no es individualmente
significativo.

Nota: si en vez de realizar el contraste bilateral deseamos hacer un contraste unilateral (en el
cual la hiptesis alternativa sera H
1
:
j
> 0 H
1
:
j
< 0), deberemos sustituir en la frmula
anterior /2 por (ya que ahora trabajaremos con una nica cola de la distribucin).

En cambio, si queremos contrastar la significacin conjunta, las hiptesis especificamos de la
manera siguiente:

H
0
:
2
=
3
= ... =
k
=0
H
A
: No H
0
.

Nota: el trmino independiente no contribuye en explicar la variabilidad de la variable
endgena, con lo cual no lo incluimos en la restriccin.

El estadstico F de Snedecor que se utiliza para realizar el test es el siguiente:

k n k
F
n
k n
R
R
F

, 1
2
2
0
~
1 1
.

w
w
w
.
.
c
o
m
M
a
t
e
m
a
t
i
c
a
1
Modelo de Regresin Lineal Mltiple
Proyecto e-Math 10
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
El estadstico se distribuye bajo la hiptesis nula con una distribucin F de Snedecor con k-1
grado de libertad en el numerador y n-k grados de libertad en el denominador. La regla de
decisin utilizada para contrastar la significacin global del modelo es la siguiente:

Si F
0
F
k-1,N-k;
, el estadstico de contraste cae fuera de la regin de aceptacin, con lo
que rechazamos la hiptesis nula. Por tanto, el modelo es globalmente significativo.

Si F
0
< F
k-1,N-k;
, el estadstico de contraste cae dentro de la regin de aceptacin, de
modo que ahora la hiptesis nula no la rechazamos. En consecuencia, podemos afirmar
que el modelo no es globalmente significativo.


Prediccin


Una vez hemos especificado, estimado y validado un modelo, podemos utilizarlo con
objetivos diferentes.

Cuando trabajamos con una serie temporal, podemos estar interesados en predecir el
comportamiento futuro de la variable endgena. Si, por otro lado, trabajamos con un corte
transversal (o una seccin cruzada), podemos utilizar el modelo ajustado para predecir el
comportamiento de un individuo (o una unidad) no incluido en la muestra.

No obstante, para realizar las predicciones, hemos de suponer que todas las hiptesis que
hemos formulado sobre X, B y U se mantendrn tambin para las observaciones fuera de la
muestra. En particular, es fundamental suponer que se cumple la hiptesis de permanencia
estructural del modelo.

Cuando realizamos predicciones, podemos optar por predecir el valor puntual que tomar la
variable endgena, o bien, determinar un intervalo de posibles valores. El primer caso se
denomina prediccin puntual, y el segundo prediccin por intervalo.


Prediccin puntual


Supongamos que la variable endgena ajustada para una determinada observacin i es igual
a:

ki k i i
X X Y + + +

...

2 2 1
.

Si queremos predecir el valor de la variable endgena, para una observacin n + h, podemos
utilizar la siguiente expresin:

h n k k h n h n
X X Y
+ + +
+ + +
, , 2 2 1

...

.


Prediccin por intervalo


La fiabilidad de prediccin se caracteriza por el intervalo de prediccin. Distinguimos entre la
prediccin por intervalo sobre Y
n+h
y la prediccin por intervalo sobre su valor esperado,
E(Y
n+h
).

En primer lugar, para obtener el intervalo del valor esperado de la variable endgena para la
observacin n+h, E(Y
n+h
), utilizaremos la siguiente expresin:

w
w
w
.
.
c
o
m
M
a
t
e
m
a
t
i
c
a
1
Modelo de Regresin Lineal Mltiple
Proyecto e-Math 11
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
( ) ( ) [ ]

<
+

+ +
1 '

Pr
2
1
1
2
2
,
h n h n u
k n
h n h n
X X X X t Y Y E ob ,

donde t
n-k,/2
es el valor de las tablas de una t de Student de nk grados de libertad. La
expresin sirve para indicar que la probabilidad de que E(Y
N+h
) quede dentro del intervalo de

( ) [ ]
2
1
1
2
2
,
'

h n h n u
k n
h n
X X X X t Y
+


a
( ) [ ]
2
1
1
2
2
,
'

h n h n u
k n
h n
X X X X t Y
+

+
+



es (1 - ), siendo el nivel de significacin.

Nota: el intervalo de prediccin para E(Y
N+h
) coincide con el intervalo de confianza. Es decir,
el intervalo de prediccin del valor esperado no es sino el intervalo de confianza del
parmetro X
n+h
B.

En segundo lugar, para obtener la prediccin por intervalo del valor observado de la variable
endgena para la observacin n + h, Y
n+h
, utilizaremos la siguiente expresin:

( ) [ ]

+ <
+

+ +
1 ' 1

Pr
2
1
1
2
,
h n h n u
k n
h n h n
X X X X t Y Y ob

De forma anloga al caso anterior, la expresin indica que la probabilidad de que Y
n+h
se
encuentre dentro del intervalo de

( ) [ ]
2
1
1
2
,
' 1

h n h n u
k n
h n
X X X X t Y
+

+
+


a
( ) [ ]
2
1
1
2
,
' 1

h n h n u
k n
h n
X X X X t Y
+

+
+ +



es (1 - ), siendo el nivel de significacin.

Nota: A la hora de realizar las predicciones, se puede ver que el intervalo de prediccin para
el valor observado de la variable endgena resulta ms grande que el intervalo de prediccin
para el valor esperado de la variable endgena. El caso es que, al predecir E(Y
n+h
),
pretendemos prever slo componente explicada por X
n+h
, y la componente puramente
aleatoria, u
n+h
, no forma parte del objetivo de prediccin. En cambio, cuando el objetivo es
predecir Y
n+h
, hemos de prever tambin la perturbacin aleatoria u
n+h
la cual incrementa la
varianza del trmino de error.


w
w
w
.
.
c
o
m
M
a
t
e
m
a
t
i
c
a
1
Modelo de Regresin Lineal Mltiple
Proyecto e-Math 12
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
CASOS PRCTICOS CON SOFTWARE___________________________________


Estimacin MCO del modelo de regresin lineal


Ejemplo 1. Representacin grfica del ajuste de MCO. A efectos de una mejor
comprensin del mtodo de estimacin de MCO, realizaremos la representacin grfica del
ajuste de MCO. Consideremos un modelo de regresin lineal simple:

n i u X Y
i i i
,..., 1 ;
2 1
+ +

Como ya hemos dicho, nuestro objetivo es asignar valores numricos a los parmetros
desconocidos, en este caso,
1
y
2
, y as poder cuantificar la relacin de dependencia que
hay entre las dos variables. Determinar estos valores equivale a determinar una recta que
pasa por la nube de puntos que resultan al representar las observaciones correspondientes a
las variables endgena y explicativa.

Consideremos los siguientes datos anuales correspondientes al perodo 1960-1990 de la
economa de los Estados Unidos:

Observacin Ao Y (inversin real) X (PIB real)
1 1960 14,2226 95,065
2 1961 13,9336 97,281
3 1962 15,5040 103,159
4 1963 16,3105 107,607
5 1964 17,4936 113,860
6 1965 19,8906 121,153
7 1966 21,4803 129,102
8 1967 20,4046 132,340
9 1968 21,4776 138,663
10 1969 22,6821 142,856
11 1970 20,9722 143,120
12 1971 23,3538 147,928
13 1972 26,1040 155,955
14 1973 29,1101 164,946
15 1974 27,2418 163,921
16 1975 23,0096 163,426
17 1976 27,6116 172,485
18 1977 32,1111 180,519
19 1978 36,1788 190,509
20 1979 37,5671 196,497
21 1980 33,5069 196,024
22 1981 36,6088 200,832
23 1982 31,1554 196,769
24 1983 32,7752 205,341
25 1984 41,1886 220,230
26 1985 39,9715 228,703
27 1986 39,6866 236,500
28 1987 40,2991 244,560
29 1988 40,9538 254,771
30 1989 41,9323 263,683
31 1990 39,8393 268,304

Estos datos en el espacio bidimensional constituyen una nube de puntos, para los cuales
trazaremos la recta de regresin caracterizada por el mejor ajuste. Para ello, seguiremos los
siguientes pasos en el entorno de Minitab:

w
w
w
.
.
c
o
m
M
a
t
e
m
a
t
i
c
a
1
Modelo de Regresin Lineal Mltiple
Proyecto e-Math 13
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Seleccionamos Stat > Regression > Fitted Line Plot :



A continuacin completamos los campos segn se indica:



La operacin nos proporciona el siguiente grfico:

w
w
w
.
.
c
o
m
M
a
t
e
m
a
t
i
c
a
1
Modelo de Regresin Lineal Mltiple
Proyecto e-Math 14
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
100 150 200 250
15
25
35
45
Producto interior bruto real
I
n
v
e
r
s
i

n

r
e
a
l
Y = -1,92133 + 0,175617X
R-Sq = 93,7 %
Regression Plot


La recta en rojo es la que mejor se ajusta, segn el criterio de MCO, a la nube de puntos que
tenemos. Es decir, es la recta que hace que el error de estimacin, definido como la distancia
entre el valor observado y el valor estimado de la variable endgena (en el grfico, es la
distancia vertical sealada por la flecha en azul), sea la mnima para cada una de las
observaciones. La pendiente de la recta presenta signo positivo, pues es de esperar que el
un auge en el PIB genere una mayor cantidad de inversiones y viceversa. Encima de la
recta, se aparece la ecuacin de MCO con el coeficiente de determinacin, R
2
. Podemos
apreciar que el modelo se ajusta buenamente a los datos, explicando un 93,7% de la
variabilidad de la variable endgena. En consecuencia, el estadstico de significacin global
del modelo se calcula de la siguiente manera:

F
0
= (R
2
/(1 R
2
))
.
(n k)/(n-1) = (0,937/0,063)*29/30 = 14,377

Sabemos que en el modelo de regresin lineal simple se cumple que F
0
= t
2
2
, siendo t
2
el
estadstico de contraste de significacin individual. De modo que t
2
= F
0
= 3,792.

Para contrastar la significacin individual de la variable explicativa, a partir de las tablas
extraemos t
n-k,/2
= t
29;0,025
= 2,0452. Dado que t
2
= 3,792 > t
29;0,025
= 2,0452, rechazamos la
hiptesis nula. En conclusin, el PIB real es individualmente significativo para explicar la
variabilidad de la inversin real en la economa de los Estados Unidos.


Ejemplo 2: Una empresa de investigacin de mercados est interesada en realizar un
estudio para el gobierno sobre la industria aeronutica de los Estados Unidos. Para ello, va a
estimar la funcin de produccin Cobb-Douglas estocstica aumentada por la variable el
avance tecnolgico:

( ) ( ) ( ) ( ) T t u A K L Y
t t t t t
,..., 1 ; log log log log
1
+ + +

donde Y
t
es la produccin (en millones de dlares), L
t
es el nivel de empleo (que
representaremos a travs del agregado de las nminas (en millones de dlares), K
t
es el
nivel de capital utilizado (en millones de dlares), y A
t
es el avance tecnolgico, representado
por la proporcin del PIB de las empresas tecnolgicas en el PIB total en la economa
americana (en tanto por ciento). Supondremos que esta relacin satisface las hiptesis el
MRLM con normalidad del trmino de error. Se dispone de datos anuales correspondientes a
1958-1996 que se muestran en la siguiente tabla:
w
w
w
.
.
c
o
m
M
a
t
e
m
a
t
i
c
a
1
Modelo de Regresin Lineal Mltiple
Proyecto e-Math 15
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Observacin Ao log(Y) Log(L) Log(K) Log(A)
1 1958 8,7700 7,75803 9,3214 -0,44229
2 1959 8,8260 7,79136 9,3502 -0,67441
3 1960 8,6861 7,64248 9,2551 -0,04824
4 1961 8,6995 7,69871 9,2588 -0,07823
5 1962 8,7332 7,81145 9,2779 0,02132
6 1963 8,7509 7,77039 9,2977 0,06255
7 1964 8,7924 7,75307 9,3311 0,23289
8 1965 8,8750 7,82740 9,3657 0,43465
9 1966 9,1050 8,07770 9,5809 0,60064
10 1967 9,3129 8,18004 9,8358 0,77948
11 1968 9,4738 8,27055 9,9564 0,84076
12 1969 9,4291 8,31059 10,0004 1,00189
13 1970 9,3468 8,15047 9,9534 1,04609
14 1971 9,2124 7,91517 9,8486 0,95128
15 1972 9,0802 7,96106 9,8342 0,97795
16 1973 9,2748 8,02597 9,8140 1,19855
17 1974 9,3644 8,10119 9,8716 1,37927
18 1975 9,4094 8,14297 9,9271 1,21982
19 1976 9,5044 8,17836 9,9131 1,50437
20 1977 9,6047 8,28801 9,9559 1,71540
21 1978 9,7440 8,46720 10,1037 1,92360
22 1979 10,0222 8,65232 10,3419 2,16460
23 1980 10,1955 8,80499 10,5113 2,26792
24 1981 10,3034 8,98153 10,6039 2,42746
25 1982 10,2417 8,95546 10,7125 2,49750
26 1983 10,3262 8,93089 10,6632 2,47373
27 1984 10,2560 8,91690 10,7302 2,61771
28 1985 10,4624 8,98805 10,7732 2,44101
29 1986 10,5502 9,10319 10,8743 2,53751
30 1987 10,5737 9,17777 10,9206 2,85079
31 1988 10,6333 9,21186 11,0444 2,82018
32 1989 10,6768 9,25614 11,1949 2,82289
33 1990 10,8468 9,32587 11,2812 2,72615
34 1991 10,9698 9,24224 11,3309 2,54905
35 1992 11,0506 9,35001 11,3281 2,55048
36 1993 10,9173 9,28638 11,2780 2,50060
37 1994 10,8390 9,24362 11,1210 2,62398
38 1995 10,7585 9,12033 11,0568 2,77913
39 1996 10,7645 9,19414 11,1375 2,79638


La primera etapa del estudio consiste en estimar el modelo por MCO mediante el Minitab.
Para ello, seleccionamos Stat > Regression > Regression :

w
w
w
.
.
c
o
m
M
a
t
e
m
a
t
i
c
a
1
Modelo de Regresin Lineal Mltiple
Proyecto e-Math 16
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)


A continuacin completamos los campos segn se indica:




Los resultados de estimacin se muestran en el siguiente cuadro:


Regression Analysis


The regression equation is
log(Y) = - 1,17 + 0,559 log(L) + 0,601 log(K) + 0,0329 log(A)
w
w
w
.
.
c
o
m
M
a
t
e
m
a
t
i
c
a
1
Modelo de Regresin Lineal Mltiple
Proyecto e-Math 17
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Predictor Coef StDev T P
Constant -1,1666 0,4613 -2,53 0,016
log(L) 0,5585 0,1237 4,51 0,000
log(K) 0,6014 0,1018 5,91 0,000
log(A) 0,03291 0,03229 1,02 0,315

S = 0,06750 R-Sq = 99,3% R-Sq(adj) = 99,3%

Analysis of Variance

Source DF SS MS F P
Regression 3 23,5977 7,8659 1726,58 0,000
Residual Error 35 0,1595 0,0046
Total 38 23,7572


A partir de la salida de estimacin por MCO, el vector de parmetros estimados, B, resulta
ser B = (-1,17; 0,559; 0,60; 0,033). Los signos que presentan los parmetros asociados a las
variables explicativas son positivos y, por tanto, eran esperables. Puesto que la funcin de
regresin es una transformacin logartmica de la funcin de produccin de Cobb-Douglas,
los parmetros miden las elasticidades de la produccin respecto al empleo, al capital y al
avance tecnolgico respectivamente:

( )
( )
;
log
log
2 ,
L
Y
e
L Y



( )
( )
;
log
log
3 ,
K
Y
e
K Y



( )
( )
.
log
log
4 ,
A
Y
e
A Y




Una vez estimado el modelo, procedemos a analizar la validez estadstica del modelo. Por
ejemplo, para contrastar la significacin individual del la variable log(A), especificamos la
hiptesis nula H
0
:
4
= 0 frente a la hiptesis alternativa bilateral H
A
:
4
0. El contraste de
hiptesis realizaremos en base del estadstico de contraste t y el p-valor asociado.
Suponiendo cierta la hiptesis nula, el estadstico de contraste se calcula t
4
= B
4
/SE(B
4
),
siendo SE(B
4
) la desviacin tpica del estimador B
4
. A partir de los resultados de estimacin,
tenemos que t
4
= 1,02 con p-valor = 0,315. Recordemos que p-valor = Prob(t > t
4
= 1,02).
Como p-valor = 0,315 > = 0,05, no podemos rechazar la hiptesis nula para el nivel de
significacin de 5%. Tambin, haciendo el uso del valor crtico t
n-k;/2
= t
35;0,025
= 2,0301 a
partir de las tablas de una distribucin t-Student, queda t
4
= 1,02 (-2,0301; 2,0301) lo cual
nos conduce a la misma conclusin. Por tanto, la variable el avance tecnolgico resulta
estadsticamente no significativa. La evidencia emprica parece indicar que el desarrollo
tecnolgico no ha sido decisivo para la industria aeronutica. En cambio, los resultados de
los contrastes de significacin individual de log(L) y de log(K) nos llevan a rechazar la
hiptesis nula; concluimos, por tanto, que tanto el capital humano como el capital fsico son
significativos a la hora de explicar la variacin de la produccin en el sector aeronutico.

Una vez analizada la relevancia individual de las variables explicativas, pasamos a contrastar
la significacin conjunta del modelo. Utilizando el estadstico F
0
a partir del cuadro de
estimacin y comparndolo con el valor crtico F
k-1;n-k;
a partir de las tablas de una
distribucin F de Snedecor queda:

F
0
= 1726,58 > F
3;35;0,05
= 2,8742.
w
w
w
.
.
c
o
m
M
a
t
e
m
a
t
i
c
a
1
Modelo de Regresin Lineal Mltiple
Proyecto e-Math 18
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Puesto que el estadstico de contraste muestral es muy superior al valor crtico a partir de las
tablas, rechazamos la hiptesis nula de no significacin global del modelo.

A continuacin, a base del modelo estimado, pasaremos a realizar la prediccin, tanto del
valor esperado como del valor observado, de la variable endgena para el ao 1997,
teniendo en cuenta la siguiente informacin sobre las variables explicativas para el ao 1997:

log(L
97
) = 9,00; log(K
97
) = 11,50 y log(A
97
) = 2,80.

Volvemos a seleccionar Stat > Regression > Regresin y completamos los campos
en la ventana Regresin tal y como hemos hecho para estimar el modelo de regresin. A
continuacin, dentro de la misma ventana seleccionamos Options y introducimos los valores
de predictores, especificando el 95% nivel de confianza. Por ltimo, marcamos las opciones
Fits, SDs of fits, Confidence limits y Prediction limits para mostrar el ajuste de
prediccin, la desviacin tpica de prediccin, los intervalos de confianza y los intervalos de
prediccin, respectivamente:




Los resultados de prediccin aparecen en el siguiente cuadro:


Predicted Values

Fit StDev Fit 95,0% CI 95,0% PI
10,8678 0,0677 ( 10,7304; 11,0052) ( 10,6738; 11,0619) XX
X denotes a row with X values away from the center
XX denotes a row with very extreme X values


Los resultados indican que la prediccin de la produccin en el sector aeronutico (prediccin
puntual) es:

log(Y
97
) = -1,17 + 0,559
.
log(L
97
) + 0,601
.
log(K
97
) + 0,0329
.
log(A
97
) = -1,17 + 0,559
.
9,0 +
0,601
.
11,5 + 0,0329
.
2,80 = 10,865.

w
w
w
.
.
c
o
m
M
a
t
e
m
a
t
i
c
a
1
Modelo de Regresin Lineal Mltiple
Proyecto e-Math 19
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Observad que la prediccin realizada es de una transformacin logartmica; no obstante,
nuestro inters reside en la prediccin de la produccin en niveles. A tales efectos,
calculamos la exponencial del resultado anterior:

Y
97
= exp(log(Y
97
)) = exp(10,865) = 52.293 millones de dlares.

El intervalo de prediccin del valor esperado de la variable endgena en el programa Minitab
coincide con el intervalo de confianza para el parmetro X
n+h
B:

IP(E(Y
n+h
)) = IC(X
n+h
B) = {10,7304; 11,0052}.

Finalmente, el intervalo de prediccin sobre el valor observado de la variable endgena es:

IP(Y
N+h
) = {10,6738; 11,0619}.

En efecto, el intervalo de prediccin del valor observado de la variable endgena es ms
grande que el intervalo de prediccin para el valor esperado de la variable endgena.

Вам также может понравиться