Вы находитесь на странице: 1из 102

Material Docente de

Econometría II
Curso 2015-2016
Esquemas de teoría

Tercer curso del Grado en Economía

Profesores:
Jesús Cavero Álvarez
Carmen Lorenzo Lago
Material Docente de Econometría II
Curso 2015-2016

Tena 0.- Modelo de Regresión Generalizado…………………………………..1


Tema 1.- Heteroscedasticidad ............................................................................ 9
Tema 2.- Análisis de regresión con series temporales. Autocorrelación ........... 27
Tema 3.- Series de tiempo. Modelos ARIMA.................................................... 43
Tema 4.- Regresores estocásticos ……………………………………………..67
Tema 5.- Modelos dinámicos ............................................................................. 75
Tema 6.- Introducción a los modelos de ecuaciones simultáneas ...................... 87
Tema 7.- Introducción a los modelos no lineales ............................................... 91
Tema 8.- Introducción a los modelos de elección discreta…………………….99
Econometría II Curso 2015-16

ESQUEMA DEL TEMA 0: MODELO DE REGRESIÓN GENERALIZADO (MRG)

Especificación del modelo

Sea el modelo : Y=Xβ+ε sujeto a las siguientes hipótesis:

• ε → N (0, Σ ) o bien ε → N (0, σ 2 Ω )


donde Σ es la matriz de varianzas-covarianzas, simétrica y definida positiva de orden NxN
que puede tener tanto elementos distintos en la diagonal principal como valores no nulos
fuera de ella.
• X no aleatoria
• rg(X)=k+1<N

Consecuencias de aplicar MCO a un MRG

El hecho de que la matriz de varianzas-covarianzas no sea escalar tiene una serie de


implicaciones sobre la estimación mínimo cuadrática ordinaria, en concreto, sobre las
propiedades del estimador MCO de β, sobre las propiedades del S2 y sobre la inferencia.

• El estimador βˆ MCO seguirá siendo insesgado siempre que X sea no aleatoria y E(ε)=0
ya que:
E ( βˆ MCO ) = β + ( X ' X ) X ' E (ε ) = β
−1

• La matriz de Var-Cov de βˆ MCO ya no es la misma, es decir ∑ββ ≠ σ ( X ' X )


ˆˆ
2 −1
y, por
tanto, el estimador ya no es óptimo y es necesario buscar otro estimador más eficiente.
∑ββ ( )( ) −1
= E βˆ − β βˆ − β ' = E ( X ' X ) X ' εε ' X ( X ' X ) = σ 2 ( X ' X ) −1 X ' ΩX ( X ' X ) −1
ˆˆ
−1

• Si X es no aleatoria la distribución de βˆ MCO es la misma de ε (una normal)


βˆ → N (β , ( X ' X )−1 X 'σ 2 ΩX ( X ' X ) −1 )
y la distribución asintótica:
  X ' X  
( )
−1 −1
  X'X  X ' ΩX
N β −β 
ˆ → N 0, σ lim
a 2
 lim lim 
  N  N  N  

X'X
• El βˆ MCO seguirá siendo consistente siempre que ∃ lim N →∞ y sea no singular,
N
como ya vimos en el modelo clásico.
X ' ΩX
Si ∃ lim N →∞ , entonces podemos, además, demostrar la consistencia mediante la
N
convergencia en media cuadrática:
a) lim E ( βˆ ) = β por ser insesgado y β constante

−1 −1
σ2  X'X  X ' ΩX  X'X 
b) lim ∑βˆβˆ = lim N →∞ lim N →∞   lim N →∞ lim N →∞   =0
N  N  N  N 
por tanto: βˆ c → β ⇒ βˆ c→
. m. c.

. p.
β , el estimador es consistente

1
Econometría Curso 2015-16

• S2 deja de ser insesgado y consistente


e' e ε ' Mε
S =
2
=
N − k −1 N − k −1

ε 'M ε
=
e'e
E ( S 2 ) E= E=
N − k −1
1
N − k −1 N − k −1
E tr
= ( ε ' M ε )
1
N − k −1
 E (εε ' )
trM=
 
σ
2
= trM Ω ≠ σ 2
N − k −1

por tanto S βˆβˆ también será sesgado


ε ' Mε N ε ' Mε ε 'ε − ε ' X ( X ' X ) −1 X ' ε
p lim N →∞ ( S 2 ) = p lim p lim = p lim = p lim ≠σ2
N N − k −1 N N

ya que p lim
εε
'
= p lim
∑ ε i2
≠σ2
N N

en realidad, en condiciones generales,


∑ ε i2 →
c. p ∑ σ i2 , es decir converge en
N N
probabilidad hacia la media muestral de las varianzas.

• βˆ MCO ≠ βˆ MV puesto que Eεε ' ≠ σ 2 I

• Los estadísticos de la t y la F tampoco serán válidos ya que en las distribuciones no


consideramos el hecho de que Eεε ' = σ 2 Ω . Así,
βˆ no se distribuye como N (β , σ 2 ( X ' X ) −1 )
y ε’Mε ya no es una forma cuadrática en un vector normal esférico.

Estimación en el modelo de regresión lineal generalizado suponiendo no aleatoria y


conocida la matriz Σ.

Estimador de mínimos cuadrados generalizados o Estimador de Aitken:

Es el estimador que minimiza la suma de cuadrados de residuos generalizados


ponderados por la matriz Σ.

La función objetivo a minimizar es:

( ~'
) ( ~
) ~ ~ ~
e~' Σ −1e~ = Y − Xβ Σ −1 Y − Xβ = Y ' Σ −1Y − 2Y ' Σ −1 Xβ + β ' X ' Σ −1 Xβ

Condiciones de 1º orden:

∂e~' Σ −1e~ ~ ~
~ = − 2 X ' Σ Y + 2 X ' Σ Xβ = 0
−1 −1
⇒ X ' Σ −1Y = X ' Σ −1 Xβ
∂β
~
( −1
)
β MCG = X ' Σ −1 X X ' Σ −1Y o bien β MCG = (X ' Ω −1 X ) X ' Ω −1Y
~ −1

2
Econometría II Curso 2015-16

Condiciones de 2º orden:

∂ 2 e~ ' Σ −1 e~ −1
~ ~ = 2 X ' Σ X que es una matriz definida positiva.
∂β ∂β '

~
Forma alternativa de derivar el estimador β MCG :

Se basa en transformar el modelo original de forma que la matriz de Var-Cov de las


perturbaciones sea escalar, de tal forma que se demuestra que el estimador MCO del
modelo transformado coincide con el estimador MCG del modelo sin transformar.

Sea el modelo Y=Xβ+ε de regresión generalizado, por tanto

ε → N (0, σ 2 Ω ) donde Ω es una matriz definida positiva y simétrica, esto implica que Ω-1
es también definida positiva, por tanto, siempre existirá una matriz no singular P tal que
P’P = Ω-1.

Transformamos el modelo con esta matriz P: PY=PXβ+Pε

Llamando: PY=Y*
PX=X*
Pε=ε* tendremos: Y* = X*β + ε*

que es un modelo que cumple las hipótesis clásicas:

• X* es no aleatoria por ser P y X no aleatorias


• rg(X*)=k+1<N
ya que X*=PX donde P de orden NxN no singular ⇒ rg(P)=N
X de orden Nx(k+1) ⇒ rg(X)=k+1<N
• E(ε*)= E(Pε)=0
• E(ε*ε*’)=E(Pεε’P’)=Pσ2ΩP’= σ2PΩP’= σ2I

• ε * → N (0, σ 2 I )

(
Por tanto el estimador MCO βˆ * = X * ' X * ) −1
X * ' Y * = X ' Ω −1 X ( ) −1 ~
X ' Ω −1Y = β MCG

Estimación Máximo Verosímil

1
(Y − Xβ )' Ω −1 (Y − Xβ )
( )
−N 2 − 12 −
Función de verosimilitud: L = 2πσ 2 Ω e 2σ 2

ln L = −
N
(
ln 2πσ 2 ) 1
− ln Ω −
1
(Y − Xβ )' Ω −1 (Y − Xβ )
2 2 2σ 2

3
Econometría Curso 2015-16

Maximizar lnL respecto a β es lo mismo que hacer mínima la expresión:


1
(Y − Xβ )' Ω −1 (Y − Xβ ) por tanto ~
β MCG = β MV
~
2σ 2

Maximizando lnL respecto a σ2 se obtiene:

~
σ MV =
2
~'
( ) (
~
Y − Xβ Ω −1 Y − Xβ
=
e~ ' Ω −1 e~ )
N N

Propiedades y distribución del estimador MCG de β

A) Propiedades y distribución para muestras finitas

∑ ββ = σ 2 ( X ' Ω −1 X )
−1
• ELIO con matriz de varianzas covarianzas: ~~

• Eficiente, ya que alcanza la cota de Cramer-Rao


• Distribución finita.
~
(
β MCG → N β , σ 2 X ' Ω −1 X ( )−1
)
B) Propiedades y distribución asintóticas

• Consistente
• Como es un estimador MV: asintóticamente normal, asíntóticamente eficiente,
consistente y la propiedad de la invarianza
  X ' Ω −1 X  
−1


~
(
c.d . 
Distribución asintótica: N β − β → N 0, σ lim

2
) 
  N  

Estimador insesgado de σ2 en el MRG

El estimador de σ2 en el modelo transformado:


e *' e * e~ ' P' Pe~ e~ ' Ω −1 e~ ~
S *2 = = = =S2
N − k −1 N − k −1 N − k −1

(
~
donde: e * = Y * − X * βˆ * = P Y − Xβ = P e~ )
~ ~
Como S 2 = S *2 y S*2 es un estimador insesgado y consistente de σ2, S 2 también será
insesgado y consistente de σ2.

~
Estimación cuando Ω es desconocida. El estimador MCG factible: β F

~
(−1
)
El estimador β MCG = X ' Ω −1 X X ' Ω −1Y depende de una matriz Ω que a su vez dependerá
de una serie de parámetros desconocidos que denominaremos genéricamente θ. En
concreto, dicha matriz depende de N varianzas y N(N-1)/2 covarianzas, por tanto,
tendremos más parámetros que observaciones. La forma de Ω = Ω(θ ) dependerá del
problema que se presente (autocorrelación, heteroscedascidad o ambas) y, además, a
medida que N aumenta, el número de parámetros también aumenta.
4
Econometría II Curso 2015-16

Si obtenemos un estimador consistente de θ : θˆ , podríamos calcular un estimador de


Ω:Ω ˆ = Ω(θˆ) y sustituyendo Ω por su estimador en el EMCG, obtendríamos el llamado
estimador factible:
~
β = X'Ω
F (
ˆ −1 X −1 X ' Ω)
ˆ −1Y

Para calcular Ω̂ tendremos previamente que imponer a Ω una estructura que permita
reducir el nº de parámetros a estimar, estructura que también dependerá del problema a
estudiar. Por tanto, la utilización de Ω̂ implica dos tipos de errores:

• Errores cometidos al utilizar estimadores de los parámetros de Ω


• Errores cometidos al introducir una determinada estructura para Ω

Propiedades del estimador factible

• En principio, si hay que estimar Ω , que es lo que sucede generalmente, tendremos que
Ωˆ −1 será aleatoria y no se mantendrán las propiedades para muestras finitas. No es
ELIO porque no es lineal ni insesgado.
• Tampoco es eficiente al ser sesgado
• La distribución exacta no es válida
~ ~
• β F será asintóticamente equivalente a β si se cumplen dos requisitos:
X 'Ωˆ −1 X X ' Ω −1 X
a) p lim N →∞ = p lim N →∞
N N
X 'Ω ε
ˆ −1
X ' Ω −1ε
b) p lim N →∞ = p lim N →∞
N N
en cuyo caso, tendrá las mismas propiedades asintóticas que el estimador generalizado, es
decir, será consistente, asintóticamente eficiente y asintóticamente normal.

En la mayoría de los casos estas condiciones se mantienen con tal de que el


estimador Ω̂ sea consistente. De hecho, una estimación asintóticamente eficiente del
EMCGF no requiere una estimación eficiente de θ, sino solamente una consistente. Por
~ ~
tanto, las propiedades asintóticas de β F coinciden con las de β .

~ ~
• La distribución asintótica de β F es la misma que la de β .

5
Econometría Curso 2015-16

Comparación entre estimadores en el MRLNG. Contrastes y Bondad del Ajuste

Comparación entre estimadores en el MRLNG

EMCO ≠ EMV EMCG = EMV EMCGF


βˆ = ( X ' X ) X ' Y
−1
β = (X ' Ω −1 X ) X ' Ω −1Y β F = X ' Ω
~ −1
ˆ −1 X~
( )
−1
ˆ −1Y
X 'Ω

Lineal ELIO No lineal

Insesgado Consistente Sesgado

No óptimo Normal Distrib. Exactas no válidas

Consistente Distrib. exactas válidas Generalmente:

Normal S G2 insesgado, consistente si Ω̂ es consistente:

Distrib. Exactas no válidas ∑β ~


MCG
(
= σ 2 X ' Ω −1 X ) −1
Consistente

S2 sesgado, inconsistente S β~
MCG
= S G2 (X ' Ω X ) −1 −1
Asintóticamente Eficiente

S βˆβˆ es sesgado S β~β~ insesgado Asintóticamente Normal


MCO MCG

Σ βˆβˆ =σ
2
( X ' X )−1 X ' Ω X ( X ' X )−1 si Ω̂ no es consistente:
Ninguna propiedad

Bondad del ajuste en un MRLG

Si estimamos por MCO, el R2 es válido aunque el método de estimación no sea,


normalmente, el más adecuado.

Si estimamos por MCG, no hay una medida equivalente al R2 precisa. Se han propuesto
alternativas, pero han de ser tomadas con cautela cuando se usan. Una primera elección sería el R
cuadrado del modelo transformado ( R 2∗ ) pero esta regresión puede no tener término constante, por
lo que no está acotado. Aún en el caso de que tenga término constante habría que tener cuidado pues
no mide la variabilidad de Y, sino la parte de la variabilidad de Y* explicada por las X*. Una
segunda elección sería calcular una medida del ajuste basándose en los residuos del modelo original
e~ ' e~
estimado por MCG, calculado como RG2 = 1 − , pero el problema es que en el modelo original
SCT
no se cumple la descomposición de la varianza y, por lo tanto, no estaría acotado.

Si estimamos por MCGF evidentemente tampoco tiene sentido utilizar el R2.

6
Econometría II Curso 2015-16

Contrastes de restricciones sobre los parámetros en el MRLG (H o : Rβ = r )

• Si estimamos por MCO los contrastes habituales no son válidos ya que


βˆ MCO (
→ N β ,σ 2
(X ' X ) −1
X ' ΩX ( X ' X )
−1
), se podrían utilizar de forma aproximada si
utilizásemos un estimador consistente de la matriz de varianzas covarianzas de los
estimadores.
• Si estimamos por MCG y la matriz Ω es conocida los contrastes pueden hacerse sin
ningún problema sobre el modelo transformado o sobre el modelo original ya que el
estadístico general se sigue distribuyendo como una F :

(Rβˆ *
MCO )[ (
− r ' R X '∗ X ∗ R ')−1
] (Rβˆ
−1
*
MCO −r )→ F H
N − K −1
S 2∗ ⋅ H
o bien en función de las variables originales:

(Rβ~ MCG )[ (
− r ' R X ' Ω −1 X )−1
R'] (Rβ~
−1
MCG −r )→ F H
donde
~
S2 =
e~ ' Ω −1 e~
~ N − K −1
S 2 ⋅H N − K −1

• Si Ω es desconocida y obtenemos el estimador MCGF , sustituimos en la expresión


anterior Ω por Ω̂ lo que implica que el estadístico resultante no tendrá una
distribución F exacta, sino solo aproximada. El grado de aproximación dependerá de la
bondad de la estimación de Ω .

7
Econometría Curso 2015-16

8
Econometría II Curso 2015-16

TEMA 1: HETEROSCEDASTICIDAD

1.1.- Planteamiento general


Una de las hipótesis básicas del modelo de regresión lineal clásico,
Yi = β0 + β1 ⋅ X1i + β 2 ⋅ X 2i +  + β k ⋅ X ki + ε i i = 1,2,, N ,

o, en forma matricial, Y = Xβ + ε es que la matriz de varianzas-covarianzas de las


( )
perturbaciones es E εε ' = σ 2 I , siendo I la matriz identidad. Esto es, las varianzas de las
perturbaciones son iguales (hipótesis de homoscedasticidad o de igualdad de varianzas) y
las covarianzas entre las mismas son nulas (hipótesis de incorrelación):
=
Var (ε i ) σ=
2
i 1,2,, N
(
Cov ε= )
i ,ε j 0=
i , j 1,2,, N i≠j

Si no se verifica cualquiera de las dos hipótesis, las varianzas no son constantes


(heteroscedasticidad) o las covarianzas no son todas nulas (autocorrelación de las
perturbaciones), tenderemos que,
E (εε ' ) = σ 2 Ω , donde Ω ≠ I
Este modelo se conoce como Modelo de Regresión Lineal Generalizado (MRLG).
Por tanto, el problema de heteroscedasticidad se produce cuando las varianzas de las
perturbaciones son desiguales, esto es, Var (ε i ) = σ i2 ≠ cte ∀i = 1,2, ,...N y, por ello,

 σ 12 0 .... 0 
 
 0 σ 22 0 
( )
E εε ' = 
....
 .... .... .... .... 
 0
 0 .... σ N2 

Si expresamos Var (ε i ) = σ i2 = σ 2 wi ∀i = 1,2, ,... N , entonces

 w1 0 .... 0 
 
E (εε ) = σ Ω , donde Ω = 
' 2  0 w2 .... 0 
.... .... .... .... 
 
0 0 .... wN 
Para explicar mejor la diferencia entre heteroscedasticidad y homoscedasticidad, vamos
analizar un modelo de regresión de dos variables en el que la variable dependiente (Y) es el
ahorro personal y la variable explicativa (X), la renta personal disponible. La Figura 1a)
muestra que a medida que aumenta la renta personal disponible, también aumenta, de
media, el ahorro, pero la varianza del ahorro en torno a su valor medio permanece igual
para todos los niveles de renta personal disponible, (recuérdese que la recta de regresión
poblacional muestra el valor medio de la variable dependiente para determinados valores de
la variable explicativa). Este es el caso de la homoscedasticidad o igual varianza. Por otra
parte, como muestra la Figura 1b), aunque el nivel medio de los ahorros aumenta a medida
que lo hace la renta personal disponible, la varianza del ahorro no permanece igual para
todos los niveles de renta. Aquí aumenta con la renta personal disponible. Este es el caso de
la heteroscedasticidad o varianza desigual. Dicho de otra manera la figura b) muestra que la

9
Econometría Curso 2015-16

gente de rentas elevadas ahorra, de media, más que la gente de rentas bajas, pero también
hay más variabilidad en sus ahorros.
Figura 1 1

(a)Homoscedasticidad (igual varianza) (b) Heteroscedasticidad (varianza desigual)

Simbólicamente podemos expresar la heteroscedasticidad como

Var (Y / X i= ( ) 2 σ 2w
) Var ε i= σ i= i ∀=
i 1, 2,,... N

Obsérvese el subíndice de σ i2 , que es un recordatorio de que la varianza de ε i ya no es


constante sino que varía con cada observación.
Causas: La heteroscedasticidad se presenta, normalmente, cuando trabajamos con datos de
corte transversal.
• La naturaleza del modelo. Ejs.: ahorro en función del ingreso (a mayor ingreso, más
posibilidades de selección respecto a la forma de disponer de dicho ingreso, mayor
probabilidad de que la varianza del ahorro aumente con el ingreso), estudios sobre
los beneficios de empresas (mayor varianza de los beneficios al aumentar el tamaño
de la empresa) …
• Datos agrupados (sumas o medias de grupos). Si los datos de los que se dispone
corresponden a medias de grupos o colectivos, el modelo a estimar sería:
Yh = β o + β1 X 1h + .....β k X kh + ε h ∀h = 1 H y puede demostrarse fácilmente que
la varianza de cada perturbación depende del tamaño del grupo o colectivo al que
( )
corresponde [ Var ε h =
σ2
Nh
].

1
Gujarati (2006): Principios de Econometría. McGraw Hill.
10
Econometría II Curso 2015-16

• Errores de especificación del modelo: en general, algún error de omisión, cambio


estructural no incorporado,…
Consecuencias de aplicar MCO a un modelo con heteroscedasticidad
Bajo los supuestos del MRLC los estimadores MCO son los mejores estimadores lineales e
insesgados, pues son los que tienen varianza mínima: son eficientes. En el caso de que
exista heteroscedasticidad (o autocorrelación) en el modelo, las principales consecuencias
son las siguientes:
1) Los estimadores MCO siguen siendo lineales e insesgados pero ya no tienen
varianza mínima. Esto es así incluso en grandes muestras.
2) Las formulas habituales para calcular las varianzas de los estimadores dejan de ser
correctas y suelen dar varianzas sesgadas.
- La expresión habitual de la matriz de Var-Cov de βˆ MCO es ∑βˆβˆ = σ 2 ( X ' X )−1 sin
embargo, si existe heteroscedasticidad se demuestra que

∑ βˆβˆ = E (βˆ − β )(βˆ − β )' = E[( X ' X )


−1
−1
X ' εε ' X ( X ' X ) ] = σ 2 ( X ' X ) −1 X ' ΩX ( X ' X ) −1

- El sesgo también se produce por el hecho de que el S 2 , el estimador


convencional de σ 2 , ya no es un estimador insesgado y recuérdese que S 2
interviene en el estimador de las varianzas de los estimadores. S 2 también deja de
ser consistente.
3) Como consecuencia, los contrastes de hipótesis y los intervalos de confianza
basados en el la t y F ya no son fiables. Por tanto, existe la posibilidad de extraer
conclusiones erróneas si se utilizan los procedimientos convencionales de
contrastación de hipótesis.

1.2.- Procedimientos para detectar la heteroscedasticidad:

La heteroscedasticidad, como la autocorrelación, es un problema de las perturbaciones, que


son variables inobservables. Entonces, para detectarla vamos a que utilizar los residuos de
la estimación mínimo cuadrática ordinaria, cuyos valores se pueden considerar como
estimaciones de las perturbaciones. Entre los métodos de detección de la
heteroscedasticidad hay que distinguir los procedimientos gráficos y los procedimientos
inferenciales.
• Análisis gráfico de los residuos
Es un método orientativo, útil cuando no tenemos información sobre la existencia de
heteroscedasticidad, ni sobre la estructura de las varianzas de las perturbaciones, pero se
piensa que dicha varianza es función de algún regresor.
1) Diagrama de dispersión con cada uno de los regresores, X ji , en el eje de abscisas y los
residuos, los residuos al cuadrado o su valor absoluto, ei , ei2 o | ei | , en el eje de ordenadas.

Si dependiendo de los valores de X j , los residuos son significativamente distintos de


tamaño, este hecho indicaría que la dispersión de las perturbaciones depende del valor de
X j y, por tanto, sus varianzas no serían constantes. Esta circunstancia se visualiza muy
bien en un diagrama de dispersión entre el regresor y los residuos. La Figura 2 muestra una

11
Econometría Curso 2015-16

forma habitual de heteroscedasticidad: como se observa, los residuos son mayores


(positivos o negativos) para valores grandes del regresor.
Figura 2 2
Residuos

Variable explicativa X

Por su parte, un diagrama de dispersión entre un regresor y los residuos al cuadrado no sólo
puede servir para mostrar indicios de heteroscedasticidad; en este caso, la forma de la nube
de puntos ( X ji , ei2 ) puede sugerir la forma funcional que presenta la heteroscedasticidad.
Así, la nube de puntos de la Figura 3 indicaría que ei2 depende lineal o cuadráticamente de
X ji . Dado que ei2 se puede considerar una estimación de Var (ε i ) , estimación con un único
valor muestral 3, el gráfico sugeriría cual es el regresor culpable de la heteroscedasticidad y
la forma funcional de la misma. En este caso, Var (ε i ) = σ 2 X ji o Var (ε i ) = σ 2 X 2ji .
Figura 3 4
Residuos al cuadrado

Variable explicativa X

2
Gujarati (2006): Principios de Econometría. McGraw Hill.
3
Dado que la perturbación ε i es inobservable, podemos considerar el residuo ei como una muestra de
tamaño 1 de la variable ε i . Dado que E (ε i ) = 0 , entonces,
r (ε ) = E (ε 2 ) = e 2
~
Va~ i i i
esto es, estimamos la media de las perturbaciones al cuadrado con la media de los cuadrados de la muestra de
residuos, pero como sólo se dispone de un valor muestral, ei , esta media será ei2 .

4
Gujarati (2006): Principios de Econometría. McGraw Hill.
12
Econometría II Curso 2015-16

( )
La Figura 4 representa posibles patrones para ei2 y, por tanto, para Var ε i . Así, la Figura
4c) siguiere una forma lineal, mientras que 4d) y 4e) cuadrática. Por su parte 4a) refleja la
no existencia de heteroscedasticidad y la forma en el caso de 4b) es más difícil de ajustar.
Figura 4 5

Puede que la heteroscedasticidad no esté provocada por un único regresor, sino


conjuntamente por varios. En este caso, sería conveniente obtener el diagrama de dispersión
con la estimación de la variable a explicar, Yˆi (que no es más que una combinación lineal
de los regresores) en el eje de abscisas, y los residuos, los residuos al cuadrado o su valor
absoluto en el eje de ordenadas. De esta manera, detectaríamos la heteroscedasticidad
causada por los regresores conjuntamente.
2) Otra representación gráfica para detectar la heteroscedasticidad es el diagrama de
dispersión entre cada una de las variables explicativas, X ji , en el eje de abscisas y la
variable a explicar, Yi , en el eje de ordenadas.
En muchas ocasiones, el ajuste lineal entre Y y X j es más o menos bueno (residuos
pequeños) para valores pequeños de X j , mientras que este ajuste empeora para valores
grandes de X j (residuos grandes). La Figura 5 muestra este hecho que pone en evidencia la
heteroscedasticidad del modelo.

5
Gujarati (2006): Principios de Econometría. McGraw Hill.

13
Econometría Curso 2015-16

Figura 5 6
Variable a explicar Y

Variable explicativa X

Veamos estos gráficos con un ejemplo:


EJEMPLO1: Una cadena de tiendas de calzado de vestir con 95 establecimientos de venta
al público en toda España en un determinado año, está interesada en saber cómo
responden las ventas de sus tiendas en función del precio y de los gastos en publicidad
decorativa en cada una de ellas.
Las variables utilizadas son: VENTAS, PRECIO Y PUBLICIDAD.
El modelo estimado por MCO con el programa Eviews es el siguiente:

Dependent Variable: VENTAS


Method: Least Squares
Sample: 1 95
Included observations: 95

Variable Coefficient Std. Error t-Statistic Prob.

PRECIO 4511.980 451.8409 9.985772 0.0000


PUBLICIDAD 37.22551 5.081129 7.326229 0.0000
C 31158.12 11312.70 2.754259 0.0071

R-squared 0.849671 Mean dependent var 254026.1


Adjusted R-squared 0.846403 S.D. dependent var 122535.7
S.E. of regression 48023.45 Akaike info criterion 24.42784
Sum squared resid 2.12E+11 Schwarz criterion 24.50848
Log likelihood -1157.322 Hannan-Quinn criter. 24.46042
F-statistic 259.9963 Durbin-Watson stat 1.999790
Prob(F-statistic) 0.000000

Análisis de heteroscedasticidad:
• Análisis gráfico:
Realizamos la representación gráfica de los residuos al cuadrado frente a cada una de las
variables explicativas:

6
Gujarati (2006): Principios de Econometría. McGraw Hill.
14
Econometría II Curso 2015-16

En ambos diagramas se detecta claramente que para los valores grandes de los regresores
la variabilidad aumenta lo cual es indicativo de la existencia de heteroscedasticidad y su
patrón de comportamiento sugiere una relación lineal. Por otro lado si realizamos el
diagrama de los residuos al cuadrado frente a la variable estimada (ventasf), el resultado
es:

Otra representación gráfica para detectar la heteroscedasticidad es el diagrama de


dispersión entre cada una de las variables explicativas, X ji , en el eje de abscisas y la
variable a explicar, Yi , en el eje de ordenadas.
El siguiente gráfico muestra este hecho para nuestro ejemplo que pone en evidencia la
heteroscedasticidad del modelo ya que aunque el ajuste lineal entre ventas y precio por un
lado y ventas y publicidad por otro es más o menos bueno (residuos pequeños) para
valores pequeños de las variables explicativas, este ajuste empeora para los valores
grandes de dichas variables (residuos grandes).

15
Econometría Curso 2015-16

• Pruebas estadísticas (contrastes de hipótesis)


La hipótesis nula en todas las pruebas es la hipótesis de homoscedasticidad, es decir,
varianzas constantes de las perturbaciones y la hipótesis alternativa presencia de
heteroscedasticiad. Así,

=
H o : Var εi ( )
ε i2 σ 2
E= ( )
Por tanto, se trata de probar si el valor esperado de ε i2 se relaciona o no con una o más
variables explicativas y dado que este valor no es observable utilizaremos en su lugar ei2 .
De esta manera, si la Ho es falsa, ei2 será cualquier función de una o más variables
explicativas.
Con esta idea vamos a plantear varios contrastes que no sólo nos permitirán detectar la
posible existencia (o no) de heteroscedasticidad sino que, en el caso de que la haya, algunos
permitirán darnos una idea sobre la forma que adopta la misma.

Contraste asintótico de White


La idea del test 7 se basa en ver si los residuos mínimo cuadráticos ordinarios al cuadrado
son de algún modo función de los regresores; en este caso, deduciríamos que la varianza de
las perturbaciones son función de los regresores y, por tanto, no son constantes
(heteroscedasticidad). El test de White analiza la significación de una regresión auxiliar
que trata de explicar los residuos al cuadrado de la regresión inicial, ei 2 , a partir de los
regresores, sus cuadrados y sus productos cruzados dos a dos.
H0: Homoscedasticidad
H1: Heteroscedasticidad
El procedimiento es el siguiente:
1) Se estima el modelo por MCO calculando los residuos MCO: ei

7
Es un test asintótico basado en los multiplicadores de Lagrange.
16
Econometría II Curso 2015-16

2) Se estima una regresión auxiliar de los residuos MCO al cuadrado frente a cada uno
de los regresores, cada uno de los regresores al cuadrado y los productos cruzados
de los regresores dos a dos.
3) Cuando N aumenta, se demuestra que N Raux 2
 a
→ χ k2( aux ) . Siendo R aux
2
el
coeficiente de determinación de la regresión auxiliar realizada en 2) y la distribución
χ 2k ( aux ) tiene como grados de libertad el nº de regresores de la regresión auxiliar
excluido el término constante.
Valores pequeños del estadístico, nos indicarían que la regresión auxiliar no es significativa
2
( Raux pequeño), que los residuos al cuadrado y, por tanto, las varianzas de las
2
perturbaciones, no dependen de los regresores. De este modo, valores pequeños de N ⋅ Raux
llevarían a no rechazar (aceptar) la homoscedasticidad. En cambio, valores grandes
llevarían a rechazar la homoscedasticidad.
EJEMPLO1: Las salidas del programa Eviews8 nos proporciona la siguiente salida:

Como puede verse, el p-valor asociado al estadístico de White es igual a 0,0025 lo cual
indica que rechazamos la hipótesis nula y detecta claramente heteroscedasticidad.

Contrastes basados en regresiones


Estos contrastes siguen la misma idea del test de White y suponen que las varianzas de las
perturbaciones son función de una o varias variables, generalmente, variables explicativas
del modelo econométrico propuesto.
El procedimiento concreto de la prueba Breusch Pagan consiste en plantear regresiones de
los residuos al cuadrado en función de las variables explicativas. Es un test LM y al igual
que en el de White se puede construir el estadístico N Raux2
→ χ k2( aux ) siendo k el número de
variables de la regresión auxiliar. También se podría analizar la significación conjunta de la
regresión. Las variables explicativas incluidas pueden aparecer en sus niveles o como
funciones de ellas, por ejemplo, al cuadrado, el inverso, etc.
De forma similar se puede plantear el test de Glejser donde en lugar de los residuos al
cuadrado de la regresión auxiliar se especifican los residuos en valor absoluto.

17
Econometría Curso 2015-16

La ventaja de estos contrastes es que permiten detectar, no sólo la existencia de


heteroscedasticidad, sino también la forma. Esto último es importante para poder solucionar
el problema.

Veamos las salidas del Eviews en el EJEMPLO1:


Contraste de Breush-Pagan-Godfrey sobre cada una de las dos variables explicativas:

Detecta que la varianza de las perturbaciones es una función del precio y por tanto no es
constante.

Contraste de Goldfeld y Quandt


Esta prueba supone que existe una relación creciente (o decreciente) entre la Var (εi) y el
1
valor de uno de los regresores: σ i2 = h( X ji ) , es decir, σ i2 = σ 2 X 2ji o bien σ i2 = σ 2 2 . De
X ji
esta forma para los valores grandes de Xji la varianza será mayor si la hipótesis es cierta (si
es decreciente la varianza será menor).
La hipótesis a contrastar es:
HO: Homocedasticidad σ i2 = σ 2 una constante

H1: Heteroscedasticidad σ i2 = h( X ji )
El procedimiento del test es el siguiente:
1) Se ordenan las observaciones según los valores crecientes de Xj.
2) Se suprimen un nº central de observaciones (c), generalmente un cuarto o un tercio
de todas las observaciones (esto no es imprescindible pero es más fácil detectar el
problema), dividiendo la muestra en dos submuestras del mismo tamaño, la primera
con los valores más pequeños de la variable y la segunda con los más grandes.
3) Se estima por MCO cada una de las submuestras con (N-c)/2 observaciones cada
una, siendo c el número de observaciones eliminadas.
4) Calculamos sus respectivas SCR
5) Se construye un estadístico F de la forma:

18
Econometría II Curso 2015-16

N −c N −c
mayorSCR − k −1 mayorS 2 − k −1
→ F N −2c o bien → F N −2c
menorSCR
2
− k −1 menorS 2 2
− k −1

Valores pequeños del estadístico indicarían que no hay grandes diferencias entre las
varianzas estimadas en las dos submuestras y, por tanto, las varianzas de las perturbaciones
serán constantes. De este modo, valores pequeños del estadístico llevarían a no rechazar la
hipótesis de homoscedasticidad 8. En cambio, valores grandes llevarían a rechazarla.
Además, si mayorSCR se corresponde a la segunda muestra, se rechazará frente a
σ i2 = σ 2 X 2ji , mientras que si mayorSCR se corresponde a la primera nos indica que la
1
homoscedasticidad se rechaza frente a σ i2 = σ 2 2 .
X ji

Veamos en nuestro EJEMPLO1, se ordenan de forma ascendente todas las observaciones


de las variables en función del precio 9 (sentencia:proc/sortcurrent page) eliminando las 11
observaciones centrales por lo que cada muestra queda con 42 observaciones, dando como
resultado de las dos submuestras las siguientes estimaciones:
HO: Homoscedasticidad Var ( ε ) = σ 2 una constante

H1: Heteroscedasticidad Var ( ε ) = σ 2 precio 2

1, 45E + 11
=
El valor muestral des estadístico F* = 3,11 y el valor crítico para un nivel de
4,66 E + 10
significación del 5% es F3939 ≅ F4040 =
1,6928 por tanto, se rechaza la hipótesis nula de
homoscedasticidad y como ya se ha detectado antes se asume que el precio es el causante
de la heteroscedasticidad.

8
Nótese que si no se rechaza la hipótesis nula no significa que no exista heteroscedasticidad, dado que ésta
podría estar asociada a otra variable y, tal vez haya que repetir el proceso con otras variables.
9
Previamente a ordenar las observaciones, se genera una variable tendencia de tal forma, que al acabar de
hacer el contraste, se vuelven a ordenar todas observaciones en función de la tendencia y así todas las
observaciones quedarían como estaban previamente en el fichero. Este paso es esencial cuando se trabaja con
series temporales.

19
Econometría Curso 2015-16

1.3.- Estimación del modelo

Mínimos cuadrados ponderados (cuando se conoce σ i2 y por tanto Ω)


Para ver en qué consiste el método de Mínimos Cuadrados Ponderados (MCP) vamos a ver
intuitivamente por qué no son eficientes los estimadores de MCO. Para ello vamos a partir
de un modelo de dos variables representado en la Figura 5. La Figura 5a) muestra una
población hipotética Y frente a diversos valores de la variable X. Como se comprueba, la
varianza de la distribución de Y correspondiente a una determinada X no es constante, lo
que indica la presencia de heteroscedasticidad en el modelo. Supongamos que elegimos
aleatoriamente un valor Y para cada valor X. Las Y seleccionadas están marcadas con un
punto y es la muestra representada en la Figura 5b) a partir de la cual estimamos el modelo.
Como ya sabemos, si estimamos la recta de regresión poblacional a partir de nuestra
muestra seleccionada (Figura 5b) utilizando MCO, lo que hacemos es minimizar la suma de
los errores al cuadrado.
MCO min ∑ ei2
i

Es decir, cada error recibe la misma ponderación independientemente de que provenga de


una población con una varianza más elevada o una varianza pequeña (compara los puntos
Y1 e Yn). Esto no parece muy razonable. Lo ideal es que diéramos más ponderación a las
observaciones provenientes de poblaciones con menor varianza (más representativas de su
valor medio) que a las de varianza mayor (menos representativas de su valor medio). Esto
nos permitirá estimar con mayor precisión la recta de regresión poblacional y es
precisamente lo que hace el Método de Mínimos Cuadrados Ponderados, en el que
minimizamos
2
e 
MCP min ∑  i 
i σi 
por tanto, damos más peso a las observaciones con menor desviación típica y menos a las
que tienen una desviación típica mayor.

20
Econometría II Curso 2015-16

Figura 6 10

¿Cómo se obtienen los estimadores de MCP sabiendo que var(ε i ) = σ 2 wi ?


La vía para obtener los estimadores de MCP consiste en transformar el modelo de cara a
que las varianzas de las perturbaciones del modelo transformado sean constantes. Si eso se
logra, el modelo transformado no presentará problemas de heteroscedasticidad y será un
MRLC con lo que la estimación por MCO proporcionará los mejores estimadores,
pudiéndose aplicar los procedimientos de inferencia habituales. De este modo, los
estimadores MCP son los estimadores MCO el modelo transformado.
Dado que la heteroscedasticidad es un caso particular del modelo de regresión generalizado,
si Ω es conocida, la estimación no tiene ningún problema, solamente debemos encontrar la
matriz P tal que P’P = Ω-1 y aplicar MCG o MCO al modelo transformado.

1 / w1 0 .... 0  1 / w1 0 .... 0 
   
 0 1 / w2 .... 0   0 1 / w2 .... 0 
Ω −1 =  ; P= 
.... .... .... ....  .... .... .... .... 
 
 0   0 
 0 .... 1 / wN   0 .... 1 / wN 
Siendo P la matriz que transforma el modelo de regresión lineal generalizado en un modelo
de regresión lineal clásico.
Por tanto, las matrices correspondientes al modelo transformado serían:

 1 / w1 X 11 / w1 .... X k1 / w1 
   Y1 / w1   ε 1 / w1 
 1 / w2 X 12 / w2 .... X k2 / w2     
PX =  ; PY =    ; Pε =   ;
 .... .... .... ....     
1 / w X 1N / wN .... X kN / wN   YN / w N   ε N / wN 
 N

10
Gujarati (2006): Principios de Econometría. McGraw Hill.
21
Econometría Curso 2015-16

La observación i-ésima del modelo será:

Yi 1 X 1i X ki εi
= βo + β1 + .......β k +
wi wi wi wi wi

donde la perturbación del modelo transformado no presenta el problema de la


heteroscedasticidad (es un MRLC).
εi 1 σ 2 wi
Var ( =
) var(ε=
i) = σ=
2
cte
wi ( wi ) 2 wi

Por tanto, los estimadores MCO de β o , β1  β k de este modelo transformado son los
estimadores por Mínimos Cuadrados Ponderados (MCP), llamados también de Mínimos
Cuadrados Generalizados; donde cada observación de Y, X1 y X2 se pondera (es decir, se
divide) por la desviación típica ( σ i ). Las observaciones de distribuciones con mayor
varianza (o desviación típica) tienen menos peso que aquellas que provienen de
distribuciones con varianza menor. Como el modelo transformado es un MRLC los
estimadores MCO (y, por tanto, los MCP) serán ELIO y consistentes.
Obsérvese que lo que se hace para conseguir perturbaciones con igual varianza es tipificar
cada variable ( Zε i ), esto es,
ε i − E (ε i ) ε
Vi = Zε i = = i
Var (ε i ) σ i2

Mínimos cuadrados ponderados (cuando se desconoce σ i2 ). Obtención del estimador


factible
El conocimiento de la auténtica varianza de las perturbaciones es muy infrecuente. Por ello
es necesario plantearse ¿qué ocurre si no conocemos la auténtica varianza de las
perturbaciones? La respuesta es recurrir a algún supuesto o hipótesis sobre σ i2 y
transformar el modelo de regresión original para que el modelo transformado cumpla el
supuesto de homoscedasticidad.
A la hora de hacer supuestos o hipótesis sobre la forma de la heteroscedasticidad, los
gráficos y contrastes desarrollados anteriormente sirven de guía. Las hipótesis más
frecuentes consisten en suponer que las varianzas de las perturbaciones son proporcionales
a los valores absolutos de un determinado regresor, a los cuadrados de los valores de dicho
regresor o a una combinación lineal de todos los regresores ( Yˆi2 ). Es decir:

( )
Var ε i = σ 2 X ji o bien ( )
Var ε i = σ 2 X 2ji ( )
o bien Var ε i = σ 2Yˆi2

donde σ 2 (no hay subíndice en σ 2 ) es el factor de proporcionalidad.


Partiendo de cualquiera de estos supuestos, la forma de proceder es la misma que si la
varianza fuera conocida. Así, si suponemos que Var ε i = σ 2 X 2ji el modelo transformado ( )
vendrá dado por:
Yi 1 X 1i X ki εi
= βo + β1 + .......β k +
2 2 2 2
X ji X ji X ji X ji X 2ji

22
Econometría II Curso 2015-16

O lo que es lo mismo
Yi 1 X X
= βo + β1 1i + .......β k ki + vi
X ji X ji X ji X ji

Así, obtendríamos los ahora llamados estimadores MCPF (Mínimos cuadrados ponderados
factibles), estimando el modelo transformado por MCO.
Donde la perturbación sólo cumplirá las hipótesis clásicas si hubiéramos acertado en la
formulación de la varianza (esta cuestión se desconoce):
ε ε 1 σ 2ωi
vi = i , por tanto: Var (vi ) = Var ( i ) = Var (ε i ) = = ?? = ¿ cte ?
X X ji2 2
ji ( X ji ) X ji

Dado que nos basamos en una hipótesis sobre los verdaderos valores de σ i2 , la calidad de
las estimaciones dependerá de la idoneidad de la misma. Por ello, en este caso es necesario
comprobar que el modelo transformado ya no tiene heteroscedasticidad. Para ello se pueden
utilizar los gráficos y contrastes vistos anteriormente. De esta manera, si podemos aceptar
que en el modelo transformado la perturbación es homoscedástica el estimador MCPF tiene
las propiedades asintóticas del estimador MCP. En caso contrario, la estimación ponderada
no mejora ninguna de las propiedades del EMCO del modelo original.
Veamos la estimación ponderada con el programa Eviews en nuestro EJEMPLO1
suponiendo en base al test de Breusch-Pagan-Godfrey y Golfeld y Quandt que :
Var (ε i ) = σ 2 precioi

23
Econometría Curso 2015-16

Contrastamos si existe o no heteroscedasticidad en este modelo:

La conclusión es que no se rechaza la hipótesis nula de homoscedasticidad por tanto el


estimador factible sería consistente y asintóticamente eficiente.
Sin embargo si hubiésemos supuesto como hipótesis Var (ε i ) = σ 2 publicidad i

Rechazaríamos la hipótesis nula y por tanto seguiría existiendo heteroscedasticidad por lo


que el estimador factible no tendría ninguna propiedad.

Mínimos Cuadrados Ordinarios con la matriz de varianzas y covarianzas de White


A veces resulta difícil encontrar una hipótesis adecuada para la estructura de la varianza de
las perturbaciones ( σ i2 ). En estos casos, la estimación ponderada no proporciona mejores
estimadores que aplicar MCO al modelo original. Por ello, en estas situaciones es
conveniente seguir estimando el modelo original por MCO pero calculando bien los
estimadores de las varianzas de los estimadores de β , para que la inferencia realizada a
partir de los resultados del modelo así estimado sea válida.

24
Econometría II Curso 2015-16

White ha desarrollado un procedimiento para calcular correctamente la desviación típica de


los estimadores MCO en presencia de heteroscedasticidad, que permite poder seguir
utilizando los test de la t y de la F, aunque sólo son válidos asintóticamente, es decir, en
muestras grandes.
El estimador consistente de ∑βˆβˆ de White es: Σˆ WHITE = N ( X ' X ) Vˆ ( X ' X )
−1 −1

  e2  
1   1  
donde Vˆ =  X '    X  , siendo ei el error mínimo cuadrático ordinario.
N  
 e N  
2
   
En nuestro EJEMPLO1, la estimación MCO con la matriz de White da el siguiente
resultado:

Como vemos los estimadores de los parámetros son los mismos que obtuvimos en la
estimación de mínimos cuadrados ordinarios, pero sus errores estándar son distintos y por
tanto, también los estadísticos t (que no eran válidos en la estimación de mínimos
cuadrados ordinario) que ahora son válidos asintóticamente.

Formas alternativas para corregir la heteroscedasticidad


Existen otras vías para solventar los problemas de heteroscedasticidad que no pasan por
cambiar el método de estimación sino que conllevan realizar transformaciones en los datos
para que la variabilidad se reduzca. Concretamente, la transformación de los datos tomando
logaritmos soluciona en muchos casos los problemas de heteroscedasticidad detectados.
Otras posibilidades son deflacionar las series (si es que son monetarias) o trabajar en ratios.

Veamos este supuesto en nuestro EJEMPLO3 transformando las series aplicando


logaritmos:

25
Econometría Curso 2015-16

Veamos con el test de White si existe heteroscedasticidad:

Como vemos el estadístico de White es igual a 8,69 y el p-valor asociado es igual a 0,122
por lo tanto, no rechazamos la hipótesis nula, por lo que podemos concluir que en este
modelo no existe heteroscedasticidad.

26
Econometría II Curso 2015-16

TEMA 2. ANÁLISIS DE REGRESIÓN CON SERIES TEMPORALES.


AUTOCORRELACIÓN

2.1.- Planteamiento general

Cuando se proponen modelos econométricos, es muy importante tener en cuenta la


naturaleza de los datos. En concreto, cuando se trabaja con series de tiempo existe un orden
natural, aquel que impone el tiempo. Además, con los datos temporales es muy probable
que las observaciones estén correlacionadas a lo largo del tiempo. Por ejemplo, la inversión
realizada por una empresa durante un mes es seguro que esté determinada por los tipos de
interés o de la propia inversión de la empresa en meses pasados. Por lo tanto, los efectos de
los cambios en las variables no son todos instantáneos, sino que se dejan notar a lo largo de
tiempo. En principio, se pueden considerar tres formas de plantear estas relaciones
dinámicas 11:
a) Especificar un modelo cuya variable dependiente sea función de los valores actuales
y pasados de las variables explicativas (Tema 5).
b) Especificar un modelo en el que aparezca la variable dependiente retardada entre
sus regresores (Temas 4 y 5).
c) Especificar un modelo donde las relaciones dinámicas se introduzcan mediante la
perturbación aleatoria. Por ejemplo, podemos suponer que
ε t = f (ε t −1 )
O lo que es lo mismo ε t +1 = f (ε t ) . En este caso, se dice que las perturbaciones están
autocorrelacionadas o que existe autocorrelación (esta es la cuestión que trataremos en
este tema). Por lo tanto, la perturbación aleatoria afecta no sólo al valor actual de la
variable dependiente, Yt, sino también a Yt+1,, Yt+2,…,
Cuando existe autocorrelación, se rompe con la hipótesis de incorrelación entre las
perturbaciones del modelo de regresión clásico E (ε t ε s ) = 0 . Por tanto, suponemos que:

 E (ε t ) = 0

 E (ε t ε t − s ) ≠ 0 ∀s = 1, 2... .
 E (ε )2 = σ 2
 t

La matriz de varianzas y covarianzas de las perturbaciones será:


σ 2 Cov(ε 1ε 2 )  Cov(ε 1ε T )   σ 2 ≠ 0  ≠ 0
   
 σ2  Cov(ε 2 ε T )  σ 2  ≠ 0
E (εε ' ) = σ Ω = 
2
= 
       
 σ2   σ 2 
  
Estamos por tanto, como en el supuesto de heteroscedasticidad, en un caso particular del
modelo de regresión generalizado.

11
Como veremos posteriormente, las tres formas de introducir relaciones dinámicas están relacionadas y no
son tan diferentes como se podría pensar en un principio.

27
Econometría Curso 2015-16

Causas de la autocorrelación
1) La autocorrelación se produce principalmente cuando trabajamos con datos de series
temporales. En este caso, la propia inercia de las series económicas hace que efectos de
situaciones pasadas influyan en el momento actual. Por otra parte, si la variable
endógena presenta una tendencia creciente y las variables explicativas no explican
dicho comportamiento, será la perturbación quien recoja dicha tendencia y esto se
manifiesta en la existencia de autocorrelación positiva.
2) Existencia de errores de especificación como: omisión de variables relevantes (que
recojan ciclos, tendencias, variable endógena retardada) o mala especificación
funcional.
3) Existencia de relaciones dinámicas entre las variables.
4) Manipulación de datos, como por ejemplo, la desestacionalización de una serie
mediante la utilización de medias móviles.
Dependiendo de la causa de la autocorrelación, el procedimiento para corregirla será uno u
otro. Si se debe a un error de especificación lo que hay que hacer es solucionar dicho error
y, por tanto, antes de actuar sobre la autocorrelación primero hay que evaluar el modelo.

2.2.- Estructuras de dependencia temporal.

Un modelo con autocorrelación presenta una matriz de varianzas y covarianzas de las


T(T − 1)
perturbaciones que puede tener, en general, covarianzas desconocidas además
2
del parámetro de la varianza, σ 2 , y, por tanto, ya que sólo disponemos de T observaciones,
supone un problema de estimación irresoluble. Aún suponiendo, como vamos a hacer, que
las perturbaciones son procesos débilmente estacionarios, es decir, que sus momentos de
primer y segundo orden no dependen del tiempo (en concreto, para las covarianzas entre las
distintas observaciones nos encontramos que sólo dependen de la distancia entre dichas
observaciones) 12, el número de parámetros de dicha matriz sería igual a T y, en general, en
el modelo tendríamos T+K+1 parámetros a estimar. Por ello, es necesario establecer
posibles estructuras de enlace entre las perturbaciones que reduzcan dichos parámetros
desconocidos. Así:
Var (ε 1 ) Cov(ε 1ε 2 )  Cov(ε 1ε T )   γ o γ 1  γ T −1 
   
 Var (ε 2 )  Cov(ε 2ε T )  γ o  γ T −2 
E (εε ') = σ Ω = 
2
=
    
   
 Var (ε T )   γ o 

Los esquemas más utilizados son:

Proceso autorregresivo de orden p: AR(p):


ε t = φ1ε t −1 + φ 2 ε t − 2 + ... + φ p ε t − p + u t donde ut es un ruido blanco (variable aleatoria que
cumple las hipótesis clásicas). A los coeficientes φ se les impone ciertas restricciones para
que se cumpla una condición llamada de estacionariedad que veremos más adelante.

12
Esto significa, por ejemplo, que Cov( ε 1ε 2 ) = Cov( ε 2 ε 3 ) = Cov( ε 7 ε 8 ) = ... = Cov( ε t ε t +1 ) .
28
Econometría II Curso 2015-16

Proceso de medias móviles de orden q: MA(q)

ε t = u t − θ1 u t −1 − ..... − θ q u t − q donde ut es un ruido blanco. A los coeficientes θ también se


les impone ciertas restricciones. Normalmente, trabajaremos con órdenes pequeños.

Proceso autorregresivo de medias móviles de orden p, q: ARMA(p,q)

Estos procesos son una generalización de los procesos AR y MA.


ε t = φ1 ε t −1 + φ 2 ε t − 2 + ...... + φ p ε t − p + u t − θ1u t −1 − ..... − θ q u t − q donde ut es un ruido blanco.

Deducimos la matriz de varianzas y covarianzas de las perturbaciones, suponiendo que el


esquema que siguen las perturbaciones fuese un AR(1).
Proceso AR(1)
En la Econometría clásica, el esquema más habitual es el autorregresivo de orden 1
(AR(1)): ε t = ρ ε t −1 + u t donde ut es un ruido blanco (variable aleatoria que cumple las
hipótesis clásicas) y ρ es el parámetro a estimar. Imponemos la restricción de que ρ < 1
denominada “condición de estabilidad del modelo” o “condición de estacionariedad”. Esta
condición asegura que el modelo AR(1) tiene varianza finita. Veamos cómo sería en este
caso la matriz de varianzas y covarianzas de las perturbaciones
Partiendo del esquema AR(1) para la perturbación: ε t = ρ ε t −1 + u t

Sustituimos en él la expresión para el periodo t-1: ε t −1 = ρ ε t −2 + u t −1

ε t ρ [ ρε t −2 + ut −1 ] +=
Tenemos, por tanto:= ut ρ 2ε t −2 + ρ ut −1 + ut

Y haciendo sucesivas sustituciones: ε t = ρ ∞ ε t −∞ + ∑ ρ τ u t −τ
τ =0


Por la condición de estacionariedad ρ ∞ → 0 y, entonces: ε t = ∑ ρ τ u t −τ
τ =0

Momentos:

* E (ε t ) = ∑ ρ τ E (u t −τ ) = 0
τ =0

2
 ∞  ∞
* γ 0 = Var (ε t ) = E (ε t ) = E  ∑ ρ τ u t −τ  = ..... = ∑ ρ 2τ σ u2 = σ u2 (1 + ρ 2 + ρ 4 + ...)
2

 τ =0  τ =0

σ u2
γ o = Var (ε t ) = σ ε = 2
=γ0
1− ρ 2
* γ 1 = Cov(ε t ε t +1 ) = E (ε t ε t +1 ) = E [ε t (ρε t + u t +1 )] = ... = ρσ ε2 = ργ 0 puesto que E (ε t u t +1 ) = 0

* γ 2 = Cov(ε t ε t + 2 ) = E (ε t ε t + 2 ) = ρ E (ε t ε t +1 ) = ρ 2σ ε2 = ρ 2 γ 0
En general:

29
Econometría Curso 2015-16

* γ s = Cov(ε t ε t + s ) = E (ε t ε t + s ) = ρ s σ ε2 = ρ s γ 0 ∀s = 1,2 ,...


La matriz de varianzas-covarianzas será:

 1 ρ ρ2
 ρ T −1   1 ρ ρ 2  ρ T −1 
   
 ρ 1 ρ
 ρ T −2   ρ 1 ρ  ρ T −2 
E (εε = ) σ ε  ρ 2 1
' 2
ρ 1  ρ T −3 =  σ u2  ρ2 ρ 1  ρ T −3 = σ u2Ω
 1− ρ 
2

             
 ρ T −1
ρ T −2 ρ T −3  1   ρ T −1 ρ T −2 ρ T −3  1 
 
  

por tanto, el número de parámetros a estimar se ha reducido considerablemente al suponer
que la estructura de dependencia temporal entre las perturbaciones es un AR(1).

2.3.- Procedimientos para detectar la autocorrelación

A) Métodos gráficos
1. Representaciones gráficas de los residuos et frente al tiempo

2. Representaciones gráficas de los residuos et frente a et −1

En ambos casos, consiste en determinar si los residuos tienen un comportamiento


puramente aleatorio o al contrario, siguen una cierta sistemática.

Figura 7 13

13
Gujarati (2006): Principios de Econometría. McGraw Hill.
30
Econometría II Curso 2015-16

Figura 8 14

EJEMPLO2: Se pretende realizar un estudio de la función de importaciones en España


para el periodo 1971-1996, en función de la renta nacional a coste de los factores, ambas
en euros constantes de 1986.
Supuesta una relación lineal entre ambas variables de la forma:
IMPt = β O + β1 RENTA t + ε t
Los resultados del modelo estimado por MCO con el programa Eviews8 son los siguientes:

14
Gujarati (2006): Principios de Econometría. McGraw Hill.
31
Econometría Curso 2015-16

El modelo tiene un buen ajuste, sin embargo dado que estamos trabajando con series
temporales deberíamos estudiar la existencia de autocorrelación, ya que si existe
autocorrelación, los errores estándar de los estimadores y los estadísticos t no son válidos.
Por tanto el aceptar o no los resultados de la estimación anterior, requiere analizar la
existencia o no de autocorrelación.
A) Métodos gráficos:
1. Gráficos de los residuos:
Figura 9 Figura 10

En la Figura 9 se ve claramente que los residuos siguen una pauta de autocorrelación


positiva corroborada por la nube de puntos de los residuos frente a los residuos retardados
de la Figura 10 donde la mayoría de los puntos se encuentran en los cuadrantes 1 y 3.

2. Identificación de los residuos (combinación de métodos gráficos y contrastes)


La identificación de los residuos consiste en analizar el comportamiento de sus coeficientes
de correlación y correlación parcial. En la práctica la perturbación no es observable y no se
pueden calcular los verdaderos coeficientes de correlación simple y parcial, sino que hay
que obtener estimadores de dichas funciones utilizando las series de los residuos de
mínimos cuadrados ordinarios.

32
Econometría II Curso 2015-16

Así, la función de autocorrelación simple muestral (FASE) se calcula como:


T −s

∑ et et + s
=ρˆ s t =1
T
= ∀s 1, 2,...
∑ et 2

t =1

Y la función de autocorrelación parcial muestral (FAPE) como:


R*s
ρˆ s =

Rs
Donde las matrices se calculan a partir de los coeficientes de correlación estimados que a su
vez utilizan las series de los residuos mínimo cuadráticos.
El comportamiento de los coeficientes estimados no es exactamente el de los teóricos. Dado
que son variables aleatorias con distribución conocida, se decide si el coeficiente de
correlación es cero (no habría autocorrelación) o no (habría autocorrelación) mediante la
aplicación de contrastes o a partir del cálculo de su intervalo de confianza. Aunque este
intervalo teóricamente no es el mismo para realizar el contraste en la función de
autocorrelación y autocorrelación parcial, algunos programas construyen el mismo (como
Eviews) y dicho intervalo para un nivel de significación del 5% viene dado por:
1  1 
ρˆ s• → N ( 0 ,Var( ρˆ s . )) donde Vâr( ρˆ s• ) ≅ por tanto el IC :  ±1,96
T  T 
Veamos la Función de autocorrelación de los residuos MCO del ejemplo2

 1 
El intervalo de confianza es: IC :  ±2 [ −0,392 ;0,392]
=
 26 
Como existen coeficientes que sobresalen las bandas de confianza, los residuos presentan
autocorrelación.

B) Contrastes estadísticos
Todos ellos utilizan para su elaboración los residuos obtenidos en la estimación mínimo
cuadrática ordinaria y plantean en la hipótesis nula la ausencia de autocorrelación. La
33
Econometría Curso 2015-16

hipótesis alternativa difiere de unos contrastes a otros, planteando distintos procesos de


correlación entre las perturbaciones según los casos.
1.- Contraste de Durbin-Watson
La hipótesis nula del contraste plantea la ausencia de autocorrelación, mientras que la
alternativa considera la existencia de autocorrelación mediante un AR(1) ( ε t = ρε t −1 + u t ).
Es un contraste de una sola cola según se establezca que ρ < 0 o ρ > 0, es decir:
H0 : ρ = 0
H1 : ρ < 0 o ρ >0
El estadístico del contraste se define como:
T

∑ (e − et −1 )
2
t
d= t =2
T

∑e
2
t
t =1

donde e son los residuos MCO.


Se suele considerar la siguiente aproximación: d = 2(1 − ρˆ ) siendo ρ̂ el coeficiente de
correlación muestral entre et y et −1 y, por lo tanto, como ρ̂ está comprendido entre -1 y 1,
el estadístico de Durbin-Watson estará comprendido entre 0 y 4:
ρˆ = −1 ⇒ d=4 ⇒ Existe Autocorrelación negativa
ρˆ = 0 ⇒ d=2 ⇒ No existe autocorrelación
ρˆ = 1 ⇒ d=0 ⇒ Existe Autocorrelación positiva
La distribución de probabilidad exacta del estadístico es difícil de encontrar, ya que, como
demostraron Durbin y Watson, depende en forma complicada, de los valores de las X en
una muestra dada. Sin embargo, Durbin y Watson tabularon un límite inferior (dL) y un
límite superior (dU) para diferentes tamaños muestrales y diferente número de regresores,
de forma que al comparar el valor muestral del estadístico con esas cotas se puede tomar
una decisión sobre la posible presencia de autocorrelación.
Durbin y Watson sólo buscaron dichas cotas para el caso de autocorrelación positiva, por lo
que el contraste es de una cola. No obstante debido a la simetría del estadístico también es
posible contrastar el caso de autocorrelación negativa.

Autoc. Posit. Zona duda Incorrelación Zona duda Autoc.Negat.

0 dL dU 2 4-dU 4-dL 4

Inconvenientes:
34
Econometría II Curso 2015-16

1. No es válido cuando el modelo no tiene término constante.


2. No se puede utilizar si el modelo incluye regresores estocásticos y por lo tanto no se
puede utilizar en los llamados modelos autorregresivos (modelos en los que la
variable endógena retardada está entre los regresores). Para ese caso Durbin
propuso:
T
h = ρˆ 
→
a
N (0,1)
1 − TVar ( βˆ i )

donde Var ( βˆi ) es la varianza del parámetro que acompaña al primer retardo de la
variable endógena (en la práctica se utiliza S β2ˆ ) y ρ̂ es el estimador de ρ obtenido a
i

partir de la regresión de et sobre et −1 .


3. Existen dos zonas de indeterminación en las cuales el contraste no nos dice nada y
hemos de recurrir a otro.
4. Para un T pequeño y un k grande, las condiciones del contraste no son muy fiables.
5. La hipótesis alternativa que se propone es la de un AR(1). Wallis hizo una extensión
del test de Durbin-Watson para el caso de series trimestrales con problemas de
estacionalidad y propuso un estadístico de Durbin-Watson modificado:
T

∑ (e − et − 4 )
2
t
d4 = t =5
T

∑e
2
t
t =1

2.- Contraste de Breusch y Godfrey


Hipótesis:
H 0 : Ausencia de autocorrelación ( ρ1 = ρ 2 = ... = ρ m = 0)
H 1 : AR(m) o MA(m)
Es un contraste asintótico de multiplicadores de Lagrange.
Procedimiento:
1) Estimar el modelo por MCO y calcular los residuos: e = Y − Xβˆ
2) Hacer la regresión auxiliar de dichos residuos sobre m retardos suyos y todas las
variables explicativas del modelo (tanto exógenas como endógenas retardadas). El
número de retardos es el del orden del esquema AR o MA que estamos suponiendo
en la hipótesis alternativa.
3) 2
Bajo la H0 el estadístico es: T Raux 
→
a
χ m2
Donde m es el orden del esquema propuesto en la hipótesis alternativa.
Este contraste se puede utilizar cuando la variable endógena aparece retardada como un
regresor.
Nota: En teoría para realizar la regresión auxiliar se pierden m observaciones, pero el
programa Eviews toma los valores de los errores retardados m periodos iguales a cero.

35
Econometría Curso 2015-16

3.- Contraste de Ljung-Box


Hipótesis:
H 0 : Ausencia de autocorrelación ( ρ1 = ρ 2 = ... = ρ m = 0)
H 1 : ARMA
El estadístico del contraste es:
m
ρˆ s2
Q = T (T + 2)∑ 
→
a
χ m2
s =1 T −s
donde ρ̂ s es el coeficiente de correlación muestral de orden s entre los residuos.
Volvemos a nuestro EJEMPLO2:
Contraste de Durbin Watson:
H0 : ρ = 0
H1 : ρ < 0 o ρ >0
Para realizar el contraste buscamos los valores críticos dL y dU para k=1 y T=26, siendo
para un α = 5% dL=1,302 y dU=1,461 y dado que el estadístico d=0,24 implica que d<dL
lo cual supone que rechazamos la hipótesis nula de incorrelación y admitimos una
autocorrelación de orden 1 positiva.
Contraste de Ljung-Box: Como se puede ver en el correlograma estimado de los residuos
anterior, el p-valor asociado a cualquier valor muestral del estadístico Q es cero, sea cual
sea el número de retardos, por tanto se rechaza la hipótesis nula de incorrelación en todos
los casos.
Contraste de Breuch-Godfrey(B-G): Un problema práctico a la hora de realizar este test es
la elección del número de errores retardados (en definitiva determinar la hipótesis
alternativa). En este caso hemos supuesto dos retardos pero se podrían plantear distintas
posibilidades y realizar una selección a partir de los criterios de Akaike y Schwartz.
H 0 : Incorrelación
H1 : AR(2) o MA(2)
En cualquier caso, detecta claramente la existencia de autocorrelación TR2=15,79 y su p-
valor es cero por tanto rechazamos la hipótesis nula. Por otro lado el segundo retardo no
es significativa lo cual indica que el esquema de la perturbaciones es efectivamente un
AR(1).

36
Econometría II Curso 2015-16

2.4.-. Estimación del modelo


Dado que un modelo con autocorrelación es un caso particular del modelo generalizado, la
estimación del mismo por MCO ignorando dicha situación, como sabemos, genera
estimadores que, aunque mantienen las propiedades de linealidad, insesgadez y
consistencia, no son óptimos. El S2 no tiene ninguna propiedad y los test de hipótesis no
son válidos.
En ese caso, recordemos que los estimadores con mejores propiedades son los de MCG,
aunque dichas propiedades dependen del conocimiento que tengamos de la matriz Ω.
Vamos a plantear dos supestos:
A. Estimación con Ω conocida, σ u2 desconocida
Dos opciones:

( X ' −1 X ) X ' Ω−1Y , lo que suele ser poco operativo


−1
Estimar por MCG: βMCG =Ω

Estimar por MCO el modelo transformado: PY=PXβ+Pε


La forma concreta de la matriz Ω −1 bajo el supuesto AR(1) es:

 1 −ρ 0 0  0 
 
− ρ (
1+ ρ 2 ) −ρ 0  0 
 0
Ω −1 = 
−ρ (
1+ ρ 2 ) −ρ  0 

     
 0
 0 0  (1 + ρ )
2
− ρ 
 0  −ρ 1 
 0 0

37
Econometría Curso 2015-16

Y de la matriz P de transformación:

 1− ρ 2
 0 0  0 0 
 −ρ 1 0  0 0
 
−ρ 1  0 0
P=
0
      
 
 0 0 0  1 0
 0
 0 0  − ρ 1  −1
tal que P' P = Ω
Siendo las matrices del modelo transformado:
 1− ρ2 1 − ρ 2 X 11 .... 1 − ρ 2 X k1 
 
PX =  (1− ρ ) ( X 12 − ρ X 11 ) .... ( X k2 − ρ X k1 ) 
 .... .... .... .... 
 
 (1 − ρ ) ( X − ρ X ) .... ( X − ρ X ) 
 1T 1T −1 kT kT −1 

Y 1− ρ2   ε 1− ρ2 
 1
  1 
 Y2 − ρY1   ε 2 − ρε1 
=PY = ; Pε
     
   
 Y − ρY   ε − ρε 
 T T −1   T T −1 

A.1.Método de Prais-Winsten: la ecuación del modelo transformado es:


Para t=1

Y1 1 − ρ 2 = β 0 1 − ρ 2 + β1 1 − ρ 2 X 11 +  + β k 1 − ρ 2 X k1 + 1 − ρ 2 ε 1
Para t=2,3,…T
Yt − ρ Yt −1 = β o (1 − ρ ) + β1 ( X 1t − ρX 1t −1 ) + ....... + β k ( X kt − ρX kt −1 ) + (ε t − ρε t −1 )

A.2.- Método de Diferencias generalizado:


Estima el modelo sin la primera observación, por lo que para t= 2…..T el modelo
transformado es:

Yt − ρ Yt −1 = β o (1 − ρ ) + β1 ( X 1t − ρX 1t −1 ) + ....... + β k ( X kt − ρX kt −1 ) + (ε t − ρε t −1 )

Asintóticamente, los dos métodos son equivalentes y permiten calcular el estimador de


Aitken o de MCG.

38
Econometría II Curso 2015-16

B.- Estimación con Ω desconocida y σ u2 desconocida


Mínimos cuadrados generalizados factibles
El estimador de Aitken cuando las perturbaciones presentan autocorrelación es, en la
práctica, imposible de calcular pues la matriz Ω depende de parámetros desconocidos que
hay que estimar y que obliga, necesariamente, a obtener el estimador mínimo cuadrático
generalizado factible.
Métodos lineales iterativos
Antiguamente, los procedimientos de estimación utilizaban métodos iterativos. Partiendo
de la ecuación del modelo en diferencias generalizado, podemos escribirla de las dos
siguientes formas equivalentes:

(1) Yt − ρYt −1 = (1 − ρ )β 0 + β1 ( X 1t − ρX 1t −1 ) + ... + β k ( X kt − ρX kt −1 ) + u t

(2) (Yt − β 0 − β 1 X 1t −  β K X Kt ) = ρ (Yt −1 − β 0 − β1 X 1t −1 −  β k X Kt −1 ) + u t


De esta manera: si ρ fuera conocido en (1) podríamos estimar β por MCO en dicha
ecuación y si β fuera conocido en (2) podríamos estimar ρ por MCO en ésta segunda
ecuación. Lo que ocurre, en la práctica, es que la ecuación no es lineal en los parámetros y
no se pueden obtener simultáneamente ambos mediante métodos lineales a no ser de forma
secuencial como ocurre con el método de Cochrane-Orcutt donde:
a) Se toma un estimador inicial de ρ adecuado.
b) Se transforma el modelo y se estima por MCO el modelo en diferencias
generalizadas para lograr un estimador de β .
c) Se vuelve a calcular un valor de ρ , se vuelve a estimar el modelo en diferencias y,
así sucesivamente hasta alcanzar un criterio de convergencia, previamente fijado.

Estimación con métodos de optimización no lineal


Los métodos de estimación más utilizados hoy día, dados los avances informáticos, son
métodos de estimación no lineal, iterativos, que permiten obtener a la vez estimadores de ρ
y del vector β.
Considerando el modelo de diferencias generalizado:
Yt − ρYt −1 = (1 − ρ )β 0 + β1 ( X 1t − ρX 1t −1 ) + ... + β k ( X kt − ρX kt −1 ) + ε t − ρε t −1
despejando Yt
Yt = ρYt −1 + (1 − ρ )β 0 + β1 X 1t − β1 ρX 1t −1 + ... + β k X kt − β k ρX kt −1 + ε t − ρε t −1
Obtenemos una ecuación donde la perturbación se comporta bien ( ε t − ρε t −1 =
ut ), pero que
no es lineal en los k+2 parámetros de los que depende.
En la actualidad, todos los programas econométricos incorporan técnicas de estimación no
lineal. Concretamente, Eviews aplica un algoritmo de mínimos cuadrados no lineales y
obtiene estimadores de ρ y de β simultáneamente. Los estimadores que obtiene son
equivalentes a los obtenidos aplicando máxima verosimilitud y son, por tanto,
asintóticamente eficientes.
39
Econometría Curso 2015-16

Los estimadores que se obtienen se denominan estimadores factibles. Las propiedades del
estimador factible dependen de si la estructura que se ha supuesto para las perturbaciones es
correcta o no. Por ello es importante comprobar si las perturbaciones de dicho modelo están
o no autocorrelacionadas utilizando el test de Breusch-Godfrey. Si no presentan
autocorrelación entonces el estimador factible tiene buenas propiedades asintóticas
(consistente, asintóticamente eficiente y la distribución asintótica es una normal), aunque se
desconocen las propiedades finitas. Si la estructura que hemos supuesto para las
perturbaciones es incorrecta (la perturbación del modelo resultante no cumple las hipótesis
clásicas), el estimador factible ni siquiera tiene estas propiedades.
Volviendo a nuestro EJEMPLO2, estimamos suponiendo un esquema AR(1) obteniendo el
estimador factible:

Vemos si la perturbación de este modelo cumple las hipótesis clásicas con el test de B-G
con un retardo:

Como vemos no se rechaza la hipótesis nula lo cual indica que el estimador factible es
consistente y asintóticamente eficiente y los test de hipótesis son válidos asintóticamente.

MCO utilizando la corrección de Newey-West


Alternativamente a MCGF, cuando Ω no se conoce, podemos estimar el modelo por MCO,
pero corrigiendo las desviaciones típicas de los estimadores por el procedimiento de
Newey-West. Dicho procedimiento obtiene desviaciones típicas de los estimadores
consistentes ante la presencia de autocorrelación y/o heteroscedasticidad (a diferencia del
procedimiento de White que sólo está diseñado para casos de heteroscedasticidad). Dado
que se consigue consistencia, es evidente, que el procedimiento (implementado entre los
resultados de la mayoría de paquetes estadísticos) será válido si la muestra es grande. De
esta manera, la estimación MCO proporcionaría estimadores que son, como ya sabemos,
insesgados y consistentes (aunque no eficientes) y que, con la corrección de Newey-West
40
Econometría II Curso 2015-16

presentarían estimaciones consistentes de sus varianzas que podríamos utilizar para realizar
inferencia, siempre de forma asintótica.
La estimación con Eviews8 del EJEMPLO2 nos proporciona los siguientes resultados:

Otras formas alternativas de estimación


Otra forma alternativa de estimación sería añadir dinámica al modelo, es decir, introducir
en el modelo como regresor la variable endógena retardada (modelos autorregresivos).
Consistiría en plantear una especificación alternativa para el modelo, tal que el modelo
estático no sería más que un modelo restringido del dinámico bajo una alternativa que
podría ser cierta o falsa. Estos modelos los planteamos en temas siguientes.

2.5.- Predicción
~
Supongamos que hemos obtenido el estimador factible de los parámetros del modelo, β y
ρ̂ . A partir del modelo en diferencias generalizadas en el período T+1, podemos obtener:

YˆT +1 − ρˆ YT = [X T' +1 − ρˆX T' ] β


~

~ ~
[ ~
]
Despejando ŶT +1 obtenemos el predictor: YˆT +1 = X 'T +1 β + ρˆ YT − X 'T β = X 'T +1 β + ρˆ e~T
Para el período T+2:
[ ] ~
YˆT + 2 − ρˆ YˆT +1 = X T' + 2 − ρˆX T' +1 β

[ ] ~ ~ ~ ~
YˆT + 2 = X T' + 2 − ρˆX T' +1 β + ρˆYˆT +1 = X 'T + 2 β + ρˆ 2 (YT − X 'T β ) = X 'T + 2 β + ρˆ 2 e~T
Generalizando para el período T+s:
~ ~ ~
YˆT + s = X 'T + s β + ρˆ s (YT − X 'T β ) = X 'T + s β + ρˆ s e~T
Analizar las propiedades de este predictor no es tarea sencilla, ya que depende de la
~
distribución conjunta de β y ρ̂ . Una aproximación de la desviación típica del error de
predicción se puede obtener, considerando que ρ es conocido.

41
Econometría Curso 2015-16

A la hora de realizar una predicción, el programa Eviews diferencia entre predicción


dinámica y estática, la diferencia entre una y otra está en que la predicción estática utiliza
los valores actuales de la variable dependiente y la dinámica los predichos dinámicamente.
Si solamente se predice un periodo la predicción estática y dinámica coinciden. Si se
quiere predecir más de un periodo necesariamente hay que realizar la dinámica porque la
estática no la realiza porque necesitaría el valor de la variable dependiente en el periodo
T+1 que no dispone.
Planteamos en el periodo de predicción dos posibilidades: un año (1997 1997) y dos años
(1997-1998) con los dos procedimientos, estático y dinámico, con la finalidad de ver las
diferencias. El resultado de las predicciones para las importaciones suponiendo que la
renta en los años 1997 y 1998 son 220 y 245 miles de euros respectivamente es el
siguiente:

Predicción 1 periodo 2 periodos


Año 1997 Año 1997 Año 1998
Dinámica 100486,5 100486,5 121683,9
Estática 100486,5 16028507 ----

42
Econometría II Curso 2015-16

TEMA 3. .- SERIES DE TIEMPO. MODELOS ARMA


En este tema vamos a hacer una introducción a los modelos estocásticos de series
temporales, en concreto, vamos a identificar los distintos modelos lineales estacionarios
definidos en el capítulo anterior (autorregresivos, medias móviles y ARMA) para
posteriormente estimar y predecir.
Para ello vamos a definir dos herramientas básicas que nos permitirán identificar dichos
modelos que son, la función de autocorrelación simple (FAS) y la función de
autocorrelación parcial (FAP).
La FAS se calcula a partir de los coeficientes de correlación entre las observaciones de los
diferentes periodos de una variable ( ρ s ). Así, para cada valor del retardo s=0,1,2,3... y cada
Cov(ε t , ε t + s ) γs
momento t, la función sería ρ s = =
Var (ε t ) Var (ε t + s ) γ0
La FAP se obtiene calculando la correlación entre las observaciones de diferentes periodos,
pero eliminando el efecto de los retardos intermedios. Así, para cada valor del retardo
s=1,2,3... y cada momento t, la función se obtiene dando valores al coeficiente de
correlación parcial entre Yt y Yt + s que denotaremos por ρ s y se define como:

R*s
ρs =

Rs

Rs es el determinante de la matriz de correlaciones de s filas y s columnas y Rs* es el


determinante de la matriz anterior en la que la última columna se sustituye por un vector de
valores (ρ1 ρ 2  ρ s ) .
Las FAS y FAP de los esquemas débilmente estacionarios siguen comportamientos
conocidos y ellas, junto con su representación gráfica (correlogramas), sirven de base para
identificar los diferentes esquemas. V

3.1.- Modelos autorregresivos y de medias móviles

Proceso autorregresivo de orden p: AR(p)

Supongamos que Yt es una serie de tiempo que sigue un modelo autorregresivo de orden 1,
AR(1), es decir:
Yt φ Yt −1 + ut donde ut es un ruido blanco (variable aleatoria que cumple las hipótesis
=
clásicas) y φ es el parámetro a estimar (denotado como ρ en el tema de autocorrelación).
Imponemos la restricción de que φ < 1 denominada “condición de estabilidad del modelo”
o “condición de estacionariedad”.
Calculamos su FAS:
* E (Yt ) φ 
= E (Yt −1 ) + 
 
E (ε t )
(Yt −1 ) µ , por tanto µ = φµ ⇒ (1 − φ ) µ = 0
no lo conocemos 0
Si el proceso es estacionario = E (Yt ) E=

Si φ ≠ 1 ⇒ µ =0 y por tano E (Yt ) = 0

43
Econometría Curso 2015-16

2
 ∞  ∞
* γ 0 = Var (Yt ) = E (Yt ) = E  ∑ φ τ ut −τ  = ..... = ∑ φ 2τ σ u2 = σ u2 (1 + φ 2 + φ 4 + ... )
2

=  τ 0=  τ 0

σ u2
γ= Var (Y=
t) σ=
2
ε = γ0
1− φ2
o

* γ=
1 Cov (YtYt +1=
) E (YtYt +1=) E Yt (φYt + ut +1 )= φγ 0 puesto que E (Yt ut +1 ) = 0
γ 2 Cov (YtYt +=
*= 2) E (YtYt +=
2) φ E (YtYt +=
1) φγ
= 1 φ 2γ 0
En general:
γ s Cov (YtY=
*= t+s ) E (YtY=
t+s ) φ sγ 0 =
∀s 1, 2,...

γ S φ sγ O
ρ= Corr (YtYt +=
s) = = φs
s
γO γO

φ 0 1=
= s 0
Por tanto, ρ s =  s
φ s = 1, 2,...
Correlogramas (FAS)

ϕ>0 ϕ<0
ρs ρs

s s

FAP
ρ=
1 ρ=
• 1 φ
ρ 2 − ρ12 φ 2 − φ 2
=ρ = = 0 Así :
1 − ρ12 1− φ2
2•

= ρ φ= s 1
ρs =  1
s≥2

0
Correlograma (FAP)

ϕ>0 ϕ<0
ρs • ρs•

s s

44
Econometría II Curso 2015-16

En definitiva, en un proceso AR(1), la FAS va decreciendo con todos los coeficientes


distintos de cero, mientras que la FAP sólo tendría el primer coeficiente distinto de cero. Se
dice que el proceso AR(1) tiene memoria infinita.
Proceso AR(p)
Generalizando para un AR(p), la FAS sigue un comportamiento decreciente, la FAP sólo
presenta los p primeros retardos distintos de cero. Por ejemplo, en un AR(2) serán sólo los
dos primeros retardos.

45
Econometría Curso 2015-16

Proceso de medias móviles de orden q: MA(q)

Yt =ut − θ1 ut −1 − ..... − θ q ut − q donde ut es un ruido blanco. A los coeficientes θ también se


les impone ciertas restricciones. Normalmente, trabajaremos con órdenes pequeños.
Proceso MA(1)
El más frecuente es el de medias móviles de orden 1(MA(1)): Y=
t ut − θ ut −1 donde ut es un
ruido blanco y θ < 1 es una condición denominada de invertibilidad.
Calculemos cómo serían sus varianzas y covarianzas
* E (Yt ) = 0

(Yt ) σ u2 (1 + θ 2 )
γ o Var =
*=

* γ 1 = Cov (Yt , Yt +1 ) = −θσ u2

=* γ 2 Cov
= (Yt , Yt +2 ) 0
γ s Cov (Yt , Yt=
*= +s ) 0 ∀s ≥ 2
Por lo tanto la FAS:


 1 s=0
γs  γ1 θ
ρs = = =− s =1
γo  γo 1+θ 2
 γs
 =0 ∀s ≥ 2
 γo
Correlograma (FAS)

<0 >0
ρs ρs

s s

FAP

 θ
 ρ1 = − s =1
 1+θ 2

ρs = 
ρ 2 − ρ1 − θ 2 1 − θ 2
2
=
( ) s=2

 1 − ρ 12 (
1−θ 6 )
 (
−θ s 1−θ 2 ) ∀s

 ( )
1 − θ 2 ( s +1 )

46
Econometría II Curso 2015-16

Correlograma (FAP)

<0 >0
ρs• ρs•

s s

En un proceso MA(1) la FAS tendrá sólo el primer coeficiente de autocorrelación distinto


de cero mientras que será la FAP la que irá decreciendo hacia cero. Se dice que un proceso
MA(1) sólo tiene memoria de un periodo.
Proceso MA(q)
Generalizando para un MA(q), la FAS se anula para retardos mayores que “q”, tiene, por
tanto, una memoria limitada de q periodos. La FAP no se anula, sus coeficientes decrecen
hacia 0.

Proceso autorregresivo de medias móviles de orden p, q: ARMA(p,q)

Estos procesos son una generalización de los procesos AR y MA.


Yt ϕ1 Yt −1 + ϕ 2Yt −2 + ...... + ϕ pYt − p + ut − θ1ut −1 − ..... − θ qut − q donde ut es un ruido blanco.
=
Normalmente utilizaremos órdenes pequeños. ARMA(1,1)
Y=
t ϕ Yt −1 + ut − θ ut −1
Estos procesos, igual que los anteriores, se caracterizan por la FAS y la FAP, pero en la
práctica son más complicados de identificar. En los ARMA(p,q), la FAS se comporta
como la de un AR(p) para valores de s>q. Respecto a la FAP ésta se comporta como la de
un MA(q) para s >p.
Por ejemplo, en un ARMA(1,1) : Yt = φ Yt −1 + ε t − θ ε t −1 la FAC tiene el primer valor
distinto de cero (correspondiente al MA(1)) y a partir del segundo coeficiente la FAC
decrece lentamente (como en un AR(1)). Esto es debido a que en un ARMA(1,1), la media
móvil afecta al primer periodo pero no a los demás. Respecto a la FACP ésta se comporta
como la de un MA(q) para q > p.
Por tanto, son procesos más difíciles de identificar y la manera de conocer qué orden sigue
el proceso es ir probando distintos órdenes ARMA(1,1), ARMA(1,2) ….. y analizar si los
residuos son ruido blanco.

47
Econometría Curso 2015-16

Correlogramas teóricos de MA(1) y MA(2) y ARMA(1,1)

48
Econometría II Curso 2015-16

ARMA(1,1)

49
Econometría Curso 2015-16

3.2.-Identificación. Metodología Box-Jenkinns


Una vez analizadas las propiedades teóricas de los modelos ARIMA, vamos a ver cómo
aplicar estos modelos a series reales. Para ello utilizamos la metodología conocida como
Box-Jenkins, para el análisis de series temporales univariantes, que consta de tres etapas:
identificación, estimación y validación.
1ª etapa:Identificación
En esta primera etapa se trata de identificar cuál es el modelo más apropiado para la serie
objeto de estudio. Esta identificación requiere:
A.-Identificar la estructura no estacionaria
B.-Identificar la estructura estacionaria

A.- Identificación de la estructura no estacionaria: consiste en determinar la transformación


adecuada para conseguir una serie estacionaria.
Todo el análisis de series temporales se realiza sobre series estacionarias, es decir, que
cumplen la condición de estacionariedad. Una serie es débilmente estacionaria si su media,
su varianza y sus covarianzas no dependen del tiempo. Por tanto una serie estacionaria en
media exige que se mueva alrededor de su media, es decir que se separe de dicho valor
medio solo eventualmente al que deberá retornar a lo largo de su historia. De esta forma, si
una serie tuviese tendencia (creciente o decreciente) no sería estacionaria en media.
Por otro lado, una serie es estacionaria en varianza si mantiene un grado de dispersión
similar a lo largo del tiempo. Es decir deberá presentar oscilaciones alrededor de la media o
de la tendencia que no aumenten (o disminuyan) a lo largo del tiempo.
Por todo ello, es evidente que la mayoría de las series económicas no son estacionarias en
media, en varianza o en ambas. Por tanto, antes de identificar el proceso ARMA que sigue
una serie es necesario realizar una serie de sencillas transformaciones (como es tomando
diferencias o trabajando en logaritmos) que la conviertan en estacionaria.
En concreto, si la serie tiene tendencia y por tanto no es estacionaria en media, se debería
diferenciar sucesivamente la serie, en general tomando “d” diferencias, aunque los casos
más frecuentes es que d tome el valor 1 o 2.
Por ejemplo si la tendencia es lineal (d=1) bastaría con tomar una diferencia tal como:
wt =Yt − Yt −1 =∆Yt =(1 − L ) Yt
Si la tendencia fuese cuadrática (d=2) habría que tomar 2 diferencias:

wt = (1 L ) Yt =+
∆ 2Yt =− Yt Yt −2 − 2Yt −2
2

Y así sucesivamente.
Si la serie es no estacionaria en varianza se transformaría la serie tomando logaritmos o
realizando cualquier otra transformación de Box-Cox.
A estos procesos que han sufrido la transformación de diferenciarlos se les llama procesos
integrados. Así un proceso ARMA (p,q), definido sobre una serie que ha sido necesario
realizar “d” transformaciones para convertirlo en estacionario, se le llama proceso
ARIMA(p,d,q).

50
Econometría II Curso 2015-16

El modelo más sencillo de proceso integrado (es decir, no estacionario) es el denominado


Camino aleatorio o “paseo aleatorio” (con terminología inglesa “random walk”), que es,
en realidad, un proceso AR(1) con el coeficiente φ = 1 .
=
Yt Yt −1 + ut

Este proceso es no estacionario ya que no se cumple la condición de estacionariedad φ < 1

Yt − Yt −=
1 ut ⇒ (1 − L ) Y=t ut
1− L = 0 ⇒ L =1
En este caso se dice que tiene una raíz unitaria.
La varianza no es constante, ya que suponiendo que el proceso se inicia en un pasado
remoto, mediante sustituciones sucesivas, la variable Yt se puede expresar como:

Yt = ∑ ut − j
j =1

Propiedades:
E (Yt ) = 0

( ) ( ) ( ) ( ) ( )
2 2 2 2
( ) ( )
2 2 2 2
Var Yt = E Yt = E Yt −1 + ut = E Yt −1 + Eut + 2 E Yt −1ut = E Yt −2 + 2σ =  E Yt −n + nσ = 
  
σ2 0
donde n tiende a ∞, por tanto el proceso no es estacionario porque la varianza aumenta
indefinidamente con el desfase temporal. De manera análoga, se obtendrían las
autocovarianzas y las autocorrelaciones, ambas dependerán del periodo t de referencia.
Sin embargo, si tomamos diferencias de primer orden en la serie:
Yt − Yt −1 = (1 − L ) Yt =∆Yt =wt =ut el proceso resultante, wt es ruido blanco que siempre
es estacionario.
A este tipo de procesos no estacionarios pero fácilmente convertibles en estacionarios al
tomar diferencias, se les llama integrados, ya que se pueden obtener sumando, o lo que es
lo mismo integrando, el proceso estacionario:
Yt = wt + Yt −1 = wt + wt −1 + Yt −2 = wt + wt −1 + wt −2 + wt −3 + 
Es por ello por lo que se dice que el camino aleatorio pertenece a la clase de modelos
integrados. En concreto, si hemos tomado una diferencia para convertirlo en estacionario,
se dice que es un proceso integrado de orden 1: I(1), si fuesen necesarias dos diferencias
sería un proceso I(2) y así sucesivamente.
Métodos para determinar la estructura estacionaria
Para determinar la transformación adecuada para conseguir una serie estacionaria se
utilizan:
• Gráfico de la serie: consiste en analizar si la serie tiene o no tendencia así como si
tiene o no componente estacional y si la variabilidad es o no constante.

51
Econometría Curso 2015-16

• Correlograma de la serie: Nos permite analizar si las covarianzas dependen o no del


tiempo. La serie es estacionaria si la FASE tiende a cero, en caso de que dicha
función decrezca muy lentamente, eso es indicio de que la serie no es estacionaria.
• Constraste de Dickey-Fuller: este contraste nos permite dilucidar entre un proceso
c + φYt −1 + ut
no estacionario I(1) y un proceso AR(1) estacionario: Yt =
Las hipótesis que vamos a contrastar son:
Ho:φ=1 ⇒ raíz unitaria: proceso no estacionario I(1)
H1:φ<1 ⇒ proceso estacionario I(0).
El contraste se plantea para las primeras diferencias, es decir, para la serie ∆Yt, haciendo la
siguiente transformación: φ = 1 + δ de modo que sustituyendo:
Yt =c + (1 + δ ) Yt −1 + ut =c + Yt −1 + δ Yt −1 + ut

∆Yt = c + δ Yt −1 + ut
Así, las hipótesis son:
Ho: δ = 0 (⇒ φ = 1) o lo que es lo mismo ∆Yt = ut ⇒ I (1) ⇒ paseo aleatorio

H1: δ < 0 ⇒ I ( 0 ) ⇒ AR(1) estacionario


El estadístico del contraste es el estadístico t habitual para la significación de un parámetro
en modelos de regresión, pero con dos matizaciones: (1) la hipótesis alternativa es
unilateral; (2) bajo la hipótesis nula la serie no es estacionaria y esto hace que la
distribución del estadístico t no sea la habitual ⇒ utilizar unas tablas específicas (Dickey-
Fuller con término constante). Si la serie Yt tuviera media cero, se utilizan otras tablas
(Dickey-Fuller sin constante). Muchos autores recomiendan incluir siempre el término
constante en este contraste 15.
En el contraste anterior, el modelo estacionario de referencia es un AR(1) y se contrasta si
existe una raíz unitaria en dicho proceso (φ=1). Este contraste puede generalizarse a
procesos AR de mayor orden, en cuyo caso contrastamos la presencia de una raíz unitaria
en el polinomio autorregresivo del modelo. El contraste se denomina entonces
p contraste de
Dickey-Fuller aumentado (ADF). El modelo sería: ∆Yt = c + δ Yt −1 + ∑ α i ∆Yt −i + ε t
i =1
El programa Eviews 8 tiene una opción que selecciona automáticamente la longitud del
retardo en base a los criterios de información (Akaike, Schwarz…)

EJEMPLO3 : Analizamos el indicador de confianza política recogido en los Indicadores de


Situación Política del barómetro del CIS, en el periodo 1996:02 a 2015:09 (la serie no
presenta datos para el mes de agosto, por lo que creamos un fichero sin estructurar).
Identificación: El primer paso previo a la identificación consiste en analizar si la serie es o
no estacionaria para ello realizamos los siguientes pasos.
15
Si la serie es no estacionaria en media con tendencia determinista, se incluiría en el modelo la variable
tendencia

∆Yt = c + βt + δ Yt −1 + ε t

Nuevamente, el contraste es el mismo que en el caso anterior y el estadístico del contraste es el estadístico t
habitual pero con una distribución especial bajo la nula (Dickey-Fuller con constante y tendencia).
52
Econometría II Curso 2015-16

1. Analizar el gráfico de la serie


2. Analizar el correlograma
3. Realizar el contraste de raíces unitarias
Para ello hacemos clic en la variable confianza y dentro de ella:
Veiw→Graph→line
View→Correlogram
View→Unit root test
CONFIANZA
70

60

50

40

30

20
25 50 75 100 125 150 175 200

La serie tiene tendencia decreciente y la variabilidad parece que disminuye con la


tendencia por lo que analizamos el gráfico de la serie en logaritmos:
LOG(CONFIANZA)
4.2

4.0

3.8

3.6

3.4

3.2

3.0
25 50 75 100 125 150 175 200

La serie no cambia sustancialmente por lo que no haría falta transformar en logaritmos.


Si analizamos el correlograma decrece muy lentamente por lo que parece no estacionaria.
Veamos el test de Dickey-Fuller:
La siguiente salida especifica un modelo con término independiente, donde se contraste si
la serie tiene o no una raíz unitaria, es decir si es I(1) o I(0), para ello dejamos las
especificaciones que aparecen por defecto:
Contrastamos Ho=I(1) frente a H1:I(0)

53
Econometría Curso 2015-16

Obtenemos los siguientes resultados:

Null Hypothesis: CONFIANZA has a unit root


Exogenous: Constant
Lag Length: 2 (Automatic - based on SIC, maxlag=14)

t-Statistic Prob.*

Augmented Dickey-Fuller test statistic -1.624552 0.4682


Test critical values: 1% level -3.461783
5% level -2.875262
10% level -2.574161

No rechazamos Ho→la serie es al menos I(1) y por tanto no estacionaria, necesitamos


hacer las transformaciones adecuadas para convertirla en estacionaria. Para ello
comenzamos tomando primeras diferencias obteniendo la serie ∆𝑌𝑡 . Para ello generamos
una nueva variable llamada dconfianza de la siguiente forma:
Gener→dconfianza=d(confianza)
Veamos el gráfico y el correlograma:
D(CONFIANZA)
12

-4

-8
25 50 75 100 125 150 175 200

La serie tiene tendencia constante y el correlograma decrece a cero rápidamente por lo


que parece que ya es estacionaria. Realizamos el test de Dickey-Fuller. Para ello hay dos
formas de hacerlo:
a) Aplicar el test en niveles a la serie transformada dconfianza
b) Aplicar el test a la serie original en primeras diferencias es decir:

54
Econometría II Curso 2015-16

Dando el siguiente resultado:

Null Hypothesis: D(CONFIANZA) has a unit root


Exogenous: Constant
Lag Length: 1 (Automatic - based on SIC, maxlag=14)

t-Statistic Prob.*

Augmented Dickey-Fuller test statistic -13.69622 0.0000


Test critical values: 1% level -3.461783
5% level -2.875262
10% level -2.574161

Rechazamos Ho→la serie es I(1) ya que la serie transformada ya es estacionaria es decir


I(0) y no hace falta hacer más transformaciones.

B.- Identificar la estructura estacionaria, en la práctica los coeficientes ρ k y ρ k • no se


conocen por ser coeficientes teóricos de un proceso estocástico general, por lo tanto es
necesario calcular los coeficientes de autocorrelación y autocorrelación parcial estimados
(FASE y FAPE respectivamente) a partir de una muestra de la variable Yt.
La FASE estará formada por los distintos coeficientes de autocorrelación estimados rk :
T

∑ (Y − Y ) (Y
t t −s −Y )
rs = t = s +1
T

∑ (Y − Y )
2
t
t =1

donde rs es un estimador consistente de ρ s y por tanto, al ser un estimador es una variable


aleatoria que para nuestra muestra concreta toma un valor estimado.
El número de coeficientes de autocorrelación muestral y de autocorrelación parcial muestral
que se pueden calcular son T-1 independientemente del proceso, por lo tanto, el problema
que deberíamos plantearnos es como se contrasta la significación de los coeficientes, es
decir, que contraste nos permitirá establecer unas bandas de confianza por encima de las
cuales los coeficientes resultan estadísticamente significativos con una determinada
probabilidad.

55
Econometría Curso 2015-16

La representación gráfica de estos coeficientes constituyen el correlograma estimado, donde


se representan los coeficientes estimados de autocorrelación para los distintos retardos junto
con las bandas de confianza que nos permiten hacer el contraste.
Para hacer ese contraste partimos del hecho de que rs es una variable aleatoria y por tanto,
como tal, tendrá su distribución de probabilidad que estará centrado en ρ s por ser un buen
estimador de dicho parámetro, de tal forma que rk fluctuará alrededor de unas bandas
centradas en ρ s .
Para poder aceptar si, a la vista de una muestra concreta, podemos rechazar o no la
hipótesis de que ρ s =0, haremos un contraste de hipótesis. Por tanto contrastaremos:

Ho : ρs = 0 ∀s > q

H1 : ρ s ≠ 0

Bajo la hipótesis nula, si Yt es un ruido blanco formado por variables i.i.d., la


distribución asintótica de rs es Normal con media cero y varianza 1/T, o
equivalentemente: T rs ∼ N(0,1)

( ) (
p −1,96 ≤ T rs ≤ 1,96 = p −1,96 / T ≤ rs ≤ 1,96 / T ≅ 0,95 )
N(0,1)

0.025
0.95 0.025

-1,96 0 1,96
Por tanto, para un nivel de significación del 5%, las bandas de confianza vendrán dadas
[
aproximadamente por: − 2 1 / T , 2 1 / T 16 ]
Si la serie es ruido blanco, cabe esperar que las correlaciones tomen valores muy
próximos a cero y la mayoría (al menos el 95%) estén dentro de las bandas ±2/ T .

Si la serie es estacionaria pero no es ruido blanco, el correlograma presentará valores


significativamente distintos de cero para algunos retardos, generalmente los primeros, y
decaerá rápidamente hacia cero al aumentar el retardo: la relación entre observaciones
muy distantes es mucho más débil que entre observaciones próximas.

En series no estacionarias, por ejemplo con una tendencia creciente, el correlograma


presentará típicamente valores significativamente mayores que cero (un valor de la
serie por encima de su media conlleva un valor futuro de la serie también por encima

16
Estrictamente el intervalo no es el mismo para la FASE que para la FAPE. Para la FASE el intervalo no es
constante sino que aumenta con el retardo y si lo es para la FAPE. Sin embargo, lo tomamos constante como
lo plantea Eviews porque las diferencias no son muy relevantes.
56
Econometría II Curso 2015-16

de su media) que apenas decrecen al alejarse en el tiempo y se mantienen fuera de las


bandas de confianza incluso en los retardos más alejados.

A pesar de su utilidad, el correlograma sólo permite evaluar si cada una de las


correlaciones individualmente de un determinado orden son distintas de cero. Pero
además, sería deseable contrastar si todas las autocorrelaciones conjuntamente son
cero. Es decir, queremos contrastar la hipótesis conjunta H 0 : ρ (1) = ρ (2) = ... = ρ (m) = 0
Para ello, utilizamos el estadístico Q de Ljung- Box:
m
rs2
m ) T (T + 2 ) ∑
Q (= ,
k =1 T − k

cuya distribución asintótica, bajo los supuestos anteriores, es una Chi-cuadrado con m
grados de libertad. La realización del contraste es sencilla:

Valores “grandes” de Q(m) indican correlaciones “grandes” (positivas o negativas)


distintas de cero y rechazan Ho

Valores de Q(m) “pequeños” indican correlaciones próximas a cero y no rechazan Ho

Para cuantificar qué entendemos por un valor “grande” o “pequeño” de Q(m)


utilizamos los correspondientes percentiles de su distribución asintótica. Por ejemplo,
para un nivel de significación del 5%, y para m=10 las tablas de la χ 102 nos
proporcionan un valor crítico de 18.3 ⇒ p(Q(10)>18.3)=0.05.

χ10
2

0.05
0.95

Región aceptación 18.3 Región crítica

Tal que si el valor muestral del estadístico es superior a 18.3 cae en la región crítica y por
tanto rechazamos la hipótesis de incorrelación conjunta ⇒ la serie no es ruido blanco. Sin
embargo, si es menor que 18.3 cae en la región de aceptación y por tanto no rechazamos la
Ho ⇒ que la hipótesis de ruido blanco es plausible.

57
Econometría Curso 2015-16

Ejemplos de correlogramas de algunos esquemas estacionarios


RUIDO BLANCO

MA(1)

58
Econometría II Curso 2015-16

AR(1)

EJEMPLO3: siguiendo con nuestro ejemplo, identificamos la estructura estacionaria en el


correlograma estimado de la serie transformada (dconfianza):

Las funciones de autocorrelación y autocorrelación parcial son muy similares, los dos
primeros coeficientes sobresalen las bandas por lo que se podrían plantearen principio, los
siguientes modelos: AR(2), MA(2), o incluso un ARMA

59
Econometría Curso 2015-16

3.3.- Estimación y validación


Una vez identificada la estructura ARMA de la serie estacionaria, se procede a su
estimación. La estimación de los modelos de series temporales se realiza habitualmente por
Máxima Verosimilitud. Bajo el supuesto de estacionariedad, las propiedades del estimador
máximo verosímil suelen ser las habituales (buenas propiedades asintóticas) por lo que la
inferencia se realiza de la forma habitual. En esta etapa, pueden estimarse varios modelos
que parezcan “compatibles” con el correlograma y las correlaciones parciales y seleccionar
entre ellos con algún criterio. Los criterios más habituales son el AIC (Akaike), el SIC
(Schwarz) y el HQ (Hannan-Quinn), definidos como:
2 2k
AIC= − lnL + ,
T T
2 k lnT
SIC= − lnL + ,
T T
2 2k ln(lnT )
HQ = − lnL +
T T
donde k denota el nº de parámetros estimados, T es el nº de observaciones y lnL es el
logaritmo de la verosimilitud. La diferencia entre ambos criterios radica en la distinta
penalización por el nº de parámetros estimados. Como regla general, elegimos el modelo
que tenga un valor menor de AIC y SIC. En caso de discrepancia entre ambos criterios, SIC
suele elegir modelos más parsimoniosos (menos parámetros).
Una vez estimado el modelo, la etapa siguiente sería la de validación o contrastación, que
tiene por finalidad comprobar que el modelo estimado es adecuado para representar el
comportamiento de la serie que estudiamos, es decir, si se ha transformado correctamente, y
los órdenes de los procesos (p, q) de la estructura ARMA del modelo son los correctos.
Por ello, tras estimar el modelo ARIMA es esencial realizar una serie de criterios
estadísticos que nos permitan llevar a cabo un análisis de los coeficientes y de los residuos
del modelo con el objetivo de detectar posibles indicios de mala especificación.
En concreto, los residuos se deberían de comportar como un ruido blanco, los coeficientes
del modelo deberían de ser significativamente distintos de cero y se deberían de cumplir las
condiciones de estacionariedad e invertibilidad.

60
Econometría II Curso 2015-16

1º MODELO ESTIMADO: AR(2)


Para realizar la estimación pinchamos:
Quick→Estimate equation

Los resultados de la estimación AR(2) son los siguientes

Dependent Variable: D(CONFIANZA)


Method: Least Squares
Sample (adjusted): 4 211
Included observations: 208 after adjustments
Convergence achieved after 3 iterations
Variable Coefficient Std. Error t-Statistic Prob.
C -0.073925 0.126467 -0.584539 0.5595
AR(1) -0.178042 0.067776 -2.626923 0.0093
AR(2) -0.225974 0.067781 -3.333860 0.0010
R-squared 0.071662 Mean dependent var -0.083654
Adjusted R-squared 0.062605 S.D. dependent var 2.644714
S.E. of regression 2.560591 Akaike info criterion 4.732671
Sum squared resid 1344.108 Schwarz criterion 4.780809
Log likelihood -489.1978 Hannan-Quinn criter. 4.752136
F-statistic 7.912319 Durbin-Watson stat 2.011435
Prob(F-statistic) 0.000490
Inverted AR Roots -.09+.47i -.09-.47i

VALIDACIÓN
A) Análisis de los residuos: analizamos la representación gráfica así como su
correlograma y el estadístico Q que estudia la autocorrelación:

61
Econometría Curso 2015-16

1.- Representación gráfica: 2.- Correlograma

12

-4

-8
25 50 75 100 125 150 175 200

D(CONFIANZA) Residuals

A partir del correlograma (todas las correlaciones caen dentro de las bandas) y el
estadístico Q que no rechaza la Ho para cualquier retardo, se detecta que los residuos se
comportan como un ruido blanco. Los errores se mueven alrededor de cero aunque con
algunos valores un poco elevados, especialmente los referentes a la observación 90 y en
menor medida la 111 y la 79. Por lo que se podría estimar el modelo incluyendo unas tres
ficticias que recojan esos valores atípicos, dando el siguiente resultado:

Dependent Variable: D(CONFIANZA)


Method: Least Squares
Sample (adjusted): 4 211
Included observations: 208 after adjustments
Convergence achieved after 7 iterations

Variable Coefficient Std. Error t-Statistic Prob.

C -0.206314 0.122041 -1.690533 0.0925


D79 7.768567 2.310979 3.361591 0.0009
D89 11.99688 2.278042 5.266313 0.0000
D111 7.537341 2.268135 3.323145 0.0011
AR(1) -0.210750 0.070391 -2.993981 0.0031
AR(2) -0.127018 0.070422 -1.803656 0.0728

R-squared 0.246606 Mean dependent var -0.083654


Adjusted R-squared 0.227958 S.D. dependent var 2.644714
S.E. of regression 2.323802 Akaike info criterion 4.552709
Sum squared resid 1090.812 Schwarz criterion 4.648984
Log likelihood -467.4817 Hannan-Quinn criter. 4.591637
F-statistic 13.22403 Durbin-Watson stat 2.001301
Prob(F-statistic) 0.000000

Inverted AR Roots -.11+.34i -.11-.34i

Analizamos los residuos:


a) Test de normalidad
b) Representación gráfica
c) Análisis de autocorrelación

62
Econometría II Curso 2015-16

25
Series: Residuals
Sample 4 211
20 Observations 208

Mean -2.95e-13
15 Median -0.068180
Maximum 6.082511
Minimum -5.729232
10 Std. Dev. 2.295566
Skewness 0.015437
Kurtosis 3.064210
5
Jarque-Bera 0.043993
Probability 0.978244
0
-6 -4 -2 0 2 4 6

-2

-4

-6
25 50 75 100 125 150 175 200

D(CONFIANZA) Residuals

La distribución es normal y también se comportan como un ruido blanco. Sin embargo si


comparamos ambos modelos los coeficientes de Akaike, Schwart y Hannan Quinn son
menores en este segundo modelo por lo tanto la verosimilitud de los datos es mayor en este
modelo.
Analizamos los coeficientes del modelo seleccionado:
Todos los coeficientes son significativos a excepción del coeficiente AR(2) del segundo
modelo que no es muy significativo.

2º MODELO ESTIMADO: MA(2)


Los resultados de la estimación MA(2) son:

63
Econometría Curso 2015-16

Dependent Variable: D(CONFIANZA)


Method: Least Squares
Sample (adjusted): 2 211
Included observations: 210 after adjustments
Convergence achieved after 9 iterations
MA Backcast: 0 1

Variable Coefficient Std. Error t-Statistic Prob.

C -0.190054 0.109192 -1.740546 0.0833


D79 7.500066 2.316562 3.237585 0.0014
D89 11.50657 2.260762 5.089686 0.0000
D111 7.301839 2.259058 3.232249 0.0014
MA(1) -0.209620 0.070675 -2.965963 0.0034
MA(2) -0.124361 0.070155 -1.772665 0.0778

R-squared 0.244458 Mean dependent var -0.061905


Adjusted R-squared 0.225940 S.D. dependent var 2.648639
S.E. of regression 2.330290 Akaike info criterion 4.558018
Sum squared resid 1107.772 Schwarz criterion 4.653650
Log likelihood -472.5919 Hannan-Quinn criter. 4.596678
F-statistic 13.20099 Durbin-Watson stat 2.000522
Prob(F-statistic) 0.000000
Inverted MA Roots .47 -.26

Análisis de residuos:

-2

-4

-6
25 50 75 100 125 150 175 200

D(CONFIANZA) Residuals

30
Series: Residuals
Sample 2 211
25
Observations 210

20 Mean 0.006305
Median 0.045557
Maximum 6.256105
15
Minimum -5.867719
Std. Dev. 2.302239
10 Skewness -0.003684
Kurtosis 3.102683
5
Jarque-Bera 0.092734
Probability 0.954692
0
-6 -4 -2 0 2 4 6

Los residuos se distribuyen como una normal y también se comportan como un ruido
blanco
Análisis de coeficientes: Todas las variables son significativas individualmente a excepción
del coeficiente MA(2)

64
Econometría II Curso 2015-16

3º MODELO ESTIMADO: ARMA(1,1)


Veamos qué ocurriría si planteamos una estructura más compleja suponiendo de entrada
que el orden de la parte autorregresiva y de la de medias móviles es igual a 1ya que los
coeficientes de orden 2 no son claramente significativos.

Dependent Variable: D(CONFIANZA)


Method: Least Squares
Sample (adjusted): 3 211
Included observations: 209 after adjustments
Convergence achieved after 13 iterations
MA Backcast: 2

Variable Coefficient Std. Error t-Statistic Prob.

C -0.207448 0.106306 -1.951426 0.0524


D79 7.644160 2.313807 3.303715 0.0011
D89 11.85402 2.256577 5.253097 0.0000
D111 7.378541 2.258054 3.267655 0.0013
AR(1) 0.376899 0.222969 1.690366 0.0925
MA(1) -0.599119 0.193652 -3.093787 0.0023

R-squared 0.250047 Mean dependent var -0.063158


Adjusted R-squared 0.231575 S.D. dependent var 2.654936
S.E. of regression 2.327312 Akaike info criterion 4.555593
Sum squared resid 1099.525 Schwarz criterion 4.651545
Log likelihood -470.0595 Hannan-Quinn criter. 4.594387
F-statistic 13.53674 Durbin-Watson stat 1.982599
Prob(F-statistic) 0.000000

Inverted AR Roots .38


Inverted MA Roots .60

Como el coeficiente AR(1) no es significativo lo elimino de la estimación, dando como


resultado:

Dependent Variable: D(CONFIANZA)


Method: Least Squares
Sample (adjusted): 2 211
Included observations: 210 after adjustments
Convergence achieved after 7 iterations
MA Backcast: 1

Variable Coefficient Std. Error t-Statistic Prob.

C -0.196647 0.125554 -1.566235 0.1188


D79 7.980891 2.327791 3.428526 0.0007
D89 12.70709 2.282425 5.567362 0.0000
D111 7.790436 2.281670 3.414357 0.0008
MA(1) -0.231448 0.069511 -3.329680 0.0010

R-squared 0.237364 Mean dependent var -0.061905


Adjusted R-squared 0.222483 S.D. dependent var 2.648639
S.E. of regression 2.335488 Akaike info criterion 4.557840
Sum squared resid 1118.173 Schwarz criterion 4.637533
Log likelihood -473.5732 Hannan-Quinn criter. 4.590057
F-statistic 15.95114 Durbin-Watson stat 1.958900
Prob(F-statistic) 0.000000

Inverted MA Roots .23

65
Econometría Curso 2015-16

En este último modelo los coeficientes son significativos y los criterios de información
mejoran. Por tanto analizamos en este modelo los residuos:

Autocorrelaciones de los residuos: Se comportan


como un ruido blanco

SELECCIÓN DE MODELOS: Hemos planteado cuatro modelos con ficticias, en todos


ellos los residuos son ruido blanco por tanto la selección se debería hacer en función del
resto de criterios, significación de las variables, condiciones de estacionariedad e
invertibilidad, análisis entre las funciones de autocorrelación estimadas y teóricas y los
criterios de Akaike, Schwarz y Hannan.
En base a todos estos criterios el modelo seleccionado sería el último, es decir el MA(1).

66
Econometría II Curso 2015-16

TEMA 4. REGRESORES ESTOCÁSTICOS

4.1.- Posible carácter estocástico de las variables explicativas

La presencia de regresores estocásticos en un modelo incumple la hipótesis clásica de que


la matriz de variables explicativas X es no estocástica, hipótesis que implicaba que los
valores de las variables explicativas se mantendrían fijos si pudiésemos repetir el
experimento.
El problema fundamental cuando en un modelo hay regresores estocásticos es que no se
garantizan ciertas propiedades del EMCO que sí se cumplían en temas anteriores. Si X no
es estocástica y se cumplen las hipótesis sobre ε, el EMCO es el mejor estimador posible
entre los estimadores lineales e insesgados (el de mínima varianza).
Cuando X es aleatoria, el supuesto crucial es la relación entre dichas variables y la
perturbación aleatoria. A nivel estadístico, podríamos medir la relación entre X y ε a partir
del coeficiente de correlación lineal. Sin embargo, dado que dicho coeficiente sólo mide
dependencia lineal, lo que vamos a estudiar, puesto que ambas son variables aleatorias, es
el valor esperado de ε dado cualquier valor de X: E(ε|X).
En los temas anteriores suponíamos que las variables explicativas no eran aleatorias y que,
además, E (ε ) = 0 , es decir, que en promedio los factores no observables se anulaban para
todos los individuos de la población. Todo ello implicaba que E(ε|X)=0, pues como X es
fija E(ε|X)=E(ε) y como E(ε)=0, finalmente, E(ε|X)=0.
Cuando hay regresores estocásticos, podemos seguir manteniendo el supuesto E (ε ) = 0 ,
pero lo que ya no está claro es que se cumpla que E(ε|X)=0, el supuesto de media
condicional nula.
Al ser X aleatoria se define la matriz de momentos poblacionales de los regresores en el
momento t como ΣXX y suponemos que está definida en el campo real.
Si ΣXX es finita y además no singular ⇒ Existe Σ −XX1

Llamando X t' al vector fila que recoge las observaciones de todos los regresores en el
momento t: X t' =(1 X1t X2t ... Xkt) la matriz ΣXX sería la siguiente:

 1    1 E ( X 1t )  E ( X kt ) 

Σ XX ( )


= E Xt Xt = E 
'

 X 1t 
(1 X 1t
 
 X kt ) = 
E ( X 1t ) ( )
E X 1t 2
 E ( X 1t X kt )
         
 

 X kt 
 
  E ( X kt ) E ( X 1t X kt )  ( )
2
E X kt 

A esta matriz se le llama también matriz de momentos contemporáneos por estar referida a
un mismo periodo t.
En esta situación se cumplen las siguientes propiedades:
ε 'ε
• plim =σ2
T
−1
X'X  X'X 
• plim = Σ XX finita y no singular ( plim   = Σ −XX1 ).
T  T 

67
Econometría Curso 2015-16

4.2.- Variables contemporáneamente exógenas y estrictamente exógenas

A) Los regresores Xjt ∀ j=1,...,k son contemporáneamente exógenos cuando se cumple:


( )
E (ε t | X 1t , X 2t ,..., X kt ) = E ε t | X t' = 0 ∀t

Esto implica que εt y las variables explicativas están contemporáneamente


incorrelacionadas, es decir, Cov(εt,Xjt)=0 para todo j. Por tanto, también E (ε t X jt ) = 0.
Nota: Cuando hablamos de contemporaneidad nos referimos a las variables tal como
aparecen en el modelo, es decir, el vector X t' puede tener como uno de sus elementos Yt-1.
B) Los regresores Xjt ∀ j=1,...,k son estrictamente exógenos cuando se cumple:
E (ε t | X ) = 0 ∀t = 1,..., T
Esto significa que εt no se correlaciona con ninguna variable explicativa en ningún periodo:
Cov (ε t , X jt ' ) = 0 ∀j , ∀t t ' = 1,2,...T . Por tanto, también E (ε t X jt ' ) = 0.
Esta condición es mucho más fuerte que la anterior ya que suponemos que para cada t, el
valor esperado de εt, dadas las variables explicativas en todos los periodos, es cero.
C) Los regresores no son exógenos ni estricta ni contemporáneamente cuando:
E (ε t | X ) ≠ 0
Los supuestos A) y B) son muy importantes para definir las propiedades de los estimadores
de MCO en regresores estocásticos, especialmente cuando trabajamos con series
temporales:
1) Si se da el supuesto A) es decir, existe exogeneidad contemporánea entre los
regresores y las perturbaciones ⇒ el EMCO es consistente, pero no es insesgado.
2) Si se cumple el supuesto B) es decir, existe exogeneidad estricta entre los regresores
y las perturbaciones ⇒ el EMCO es insesgado, eficiente y consistente.
3) Si no se cumple ni siquiera el supuesto A), el estimador de MCO es sesgado e
inconsistente.

4.3.- Propiedades de los estimadores de MCO en modelos con regresores estocásticos

β̂ = (X’X)-1X’Y = β + (X’X)-1X’ε

1) β̂ no es lineal en Y por ser X aleatoria y por tanto β̂ es una función estocástica de X y


ε o de X y de Y.
2) Insesgadez
E( β̂ ) = E(β + (X’X)-1X’ε) = β+ EX[E((X’X)-1X’ε|X)]= β+ EX[(X’X)-1X’E(ε|X)]

Por propiedad de la esperanza


E [h( x, y )] = E x [E (h( x, y ) | x)]
Supuestos:

68
Econometría II Curso 2015-16

a) Exogeneidad estricta: E(ε|X)=0 ⇒ EX[(X’X)-1X’E(ε|X)]=0 ⇒ E( β̂ ) =β ⇒


insesgado
b) Exogeneidad contemporánea: E(εt|Xt)=0, pero E(εt|Xs)≠0 ⇒ EX[(X’X)-1X’E(ε|X)] ≠
0⇒ E( β̂ )≠β ⇒ sesgado ≠0

3) β̂ no es óptimo en el sentido indicado hasta ahora pues no es lineal, pero:

a) Si las variables explicativas son estrictamente exógenas, β̂ es eficiente (de mínima


varianza entre los insesgados), siendo su matriz de varianzas y covarianzas:
Σ ˆ ˆ =E[( β̂ -β)( β̂ -β)’]=E[(X’X)-1X’εε’X(X’X)-1]=EX[E((X’X)-1X’εε’X(X’X)-
ββ
1
|X)]=
=EX[ (X’X)-1X’ E(εε’ |X)X(X’X)-1)] =σ2 EX[ (X’X)-1X’X(X’X)-1)] =σ2 EX[ (X’X)-1]

=σ2I
b) Si las variables explicativas son contemporáneamente exógenas no tiene sentido
hablar de eficiencia pues el estimador es sesgado.
4) Consistencia
−1
 X'X  X 'ε X 'ε
p lim βˆ = β + p lim( X ' X ) −1 X ' ε = β + p lim  p lim = β + Σ −XX1 * p lim
 T  T T
X 'ε
El estimador será consistente si el p lim =0
T
 1 1  1  ε 1   ∑ ε t   E (ε t )   0 
        
X 'ε 1  X 11 X 12  X 1T  ε 2  1  ∑ ε t X 1t   E (ε t X 1t )   0 
p lim
T
= p lim 
T       
= p lim 
T  =   =  
       
X  X kT  ε T   ∑ ε X   E (ε X )   0 
 k1 X k2  t kt   t kt   
Esto se cumplirá si E (ε t ) =0 y, por lo menos, las variables explicativas son
contemporáneamente exógenas, pues en este caso cov(ε t X jt ) = 0 = E (ε t X jt ) . En definitiva,
no hace falta la exogeneidad estricta para que el estimador sea consistente, aunque si se da,
por supuesto, también lo será.
Propiedades del estimador S 2
1) Insesgadez
El S2 es insesgado sólo si se da la exogeneidad estricta.
2) Consistencia
El S2 es consistente si se da la exogeneidad estricta o la contemporánea.
Distribución de los EMCO
Estrictamente la distribución exacta de β̂ no se conoce ya que depende no sólo de la
distribución de ε que podemos seguir considerando Normal, sino también de la de X que es
desconocida. Además, β̂ no es lineal en Y y por tanto, β̂ no sigue una distribución normal.
69
Econometría Curso 2015-16

Los estadísticos que contrastan las restricciones lineales, tanto individuales como conjuntas,
no siguen una distribución exacta conocida, en concreto no siguen una t ni una F
respectivamente.
Sin embargo, Wooldridge establece que, si los regresores son estrictamente exógenos, la
distribución de β̂ condicionada a X es normal y, por tanto, los estadísticos t y F son válidos
si hablamos de distribuciones condicionadas. En cambio, si los regresores son
contemporáneamente exógenos las distribuciones finitas no son válidas y tendremos que
recurrir a las asintóticas.
 
( )
−1
 X ' X 
Recordemos que → N  0, σ p lim
T β −β 
ˆ a 2
 
  T  

Esto implica que su distribución asintótica nos va a permitir justificar el uso de las
distribuciones habituales, aunque sólo tendrán validez de forma aproximada. En este
sentido, también podríamos utilizar los contrastes asintóticos de Wald, LM o RV.
Resumen:
A) Si los regresores son estrictamente exógenos los resultados son muy similares a los
del MRLC pero condicionado todo por X.
• β̂ es insesgado, eficiente y consistente y coincide con el estimador de MV.
• S2 es insesgado y consistente.
• Hablando de distribuciones condicionadas a X los test de hipótesis son válidos para
muestras finitas y no es necesario recurrir a la teoría asintótica.
B) Si los regresores son sólo contemporáneamente exógenos
• β̂ es sesgado, y, por tanto, no eficiente (ni óptimo), pero sí es consistente.
• S2 es sesgado pero consistente.
• Como S2 es sesgado entonces S βˆβˆ = S 2 ( X ' X ) −1 es sesgado, pero su utilización está
justificada en base a la distribución asintótica.
• Los contrastes son válidos asintóticamente.
• Hay que recurrir al comportamiento asintótico de los estimadores y contrastes.
C) Cuando ni siquiera se cumple la exogeneidad contemporánea, la estimación de MCO no
es válida porque no se cumple ninguna propiedad. En este caso, hay que recurrir a otro
método de estimación que se denomina de Variables Instrumentales.
• β̂ es sesgado e inconsistente.
• S2 es sesgado e inconsistente.
• No disponemos de una distribución asintótica, a partir del EMCO, para aproximar la
distribución exacta de los estadísticos cuando T tiende a infinito.

70
Econometría II Curso 2015-16

4.4.- Modelos con variables estocásticas correlacionadas con la perturbación. Método


de variables instrumentales

Este método consiste en encontrar una matriz de variables, Z, tales que cumplan los
requisitos siguientes:
• Las variables Z están incorrelacionadas con las perturbaciones, es decir,
Z 'ε
p lim =0
T
• Las variables Z están fuertemente correlacionadas con las variables X, es decir,
Z' X
p lim = Σ ZX finita y no singular
T
Z'Z
• Las variables Z tienen buenas propiedades en el límite, es decir, p lim = Σ ZZ .
T
A estas variables Z1,...,Zk se las llama instrumentos o variables instrumentales.
Nota: Si algún regresor no está correlacionado con las perturbaciones puede utilizarse él
mismo como variable instrumental.
El estimador de variables instrumentales se define como:
βˆVI = (Z ' X )−1 Z ' Y = β + (Z ' X )−1 Z ' ε
Propiedades
• No es lineal en Y pues también depende de X y de Z (que son aleatorias).
• No es insesgado: X no es ni contemporáneamente exógena por lo que E (ε / X ) ≠ 0
y E ( βˆ ) ≠ β .
• Por lo anterior, no es eficiente ni óptimo.
−1
 Z' X  Z 'ε
• Es consistente: p lim βˆVI = p lim β + p lim  p lim = β + Σ −ZX1 0 = β
 T  T

• Distribución asintótica: ( )
T βˆVI − β 
→
a
N (0, VVI )

donde VVI = σ 2 Σ −ZX1 Σ ZZ (Σ −ZX1 )' es la matriz de varianzas-covarianzas asintótica de dicha


distribución.
−1 −1
 Z' X  Z'Z  X 'Z 
Un estimador de dicha matriz es: VˆVI = σˆ VI2    
 T  T  T 
eVI' eVI
donde σˆ VI2 = es un estimador consistente de σ2 y eVI = Y − Xβ̂ VI
T − k −1
Una aproximación del estimador de VVI es: S βˆ = σˆ VI2 (Z ' X ) Z ' Z ( X ' Z )
−1 −1
VI

Nota: No se puede decir que el estimador de VI es eficiente pues la elección de


instrumentos diferentes genera distintos estimadores por VI. Lo que sí se puede afirmar, sin
embargo, es que cuanto mayor sea la correlación entre X y Z más eficiente será el
estimador por variables instrumentales.
71
Econometría Curso 2015-16

4.5.- Errores en las variables

Sea el modelo Y = Xβ + ε donde, por error, no disponemos de observaciones de Y ni de X


sino de unos datos aproximados Y* y X* donde:
Y*=Y+V X*=X+U
Siendo U y V matrices aleatorias de errores de medida que cumplen las hipótesis clásicas y
además están incorrelacionadas entre sí y cada una de ellas con X y ε.
El modelo estimado es un modelo en el que los regresores y las perturbaciones están
correlacionados incluso contemporáneamente:
Y = Xβ + ε ⇒ Y * − V = (X * − U )β + ε ⇒ Y * = X * β + ε+
V − Uβ ⇒ Y * = X * β + W

W

Simplificando a un modelo de dos variables:


Yt = β 0 + β 1 X t + ε t ⇒ Yt * − vt = β 0 + β 1 ( X t* − u t ) + ε t ⇒

Yt * = β 0 + β1 X t* + ε t + vt − β1u t ⇒ Yt * = β 0 + β1 X t* + wt ⇒ wt = ε t + vt − β1u t
  
wt

E (wt ) = E (ε t + vt − β 1u t ) = 0

[( )
Cov( X t* , wt ) = E ( X t* , wt ) = E X t + u t (ε t + vt − β 1u t ) = ]
( ) ( )
E ( X t ε t ) + E ( X t vt ) − β 1 E ( X t u t ) + E (u t ε t ) + E (u t vt ) − β 1 E u t2 = − β 1 E u t2 = − β 1σ u2 ≠ 0
Por lo tanto, los estimadores de MCO son sesgados e inconsistentes y habría que utilizar el
método de variables instrumentales para obtener estimadores consistentes. Por otra parte, si
el error en los datos sólo afectase a la variable Y, no surgiría el problema anterior.

4.6.- Test de exogeneidad de Hausman

La consistencia de los EMCO en los modelos con regresores estocásticos depende de la


X 'ε
hipótesis p lim =0.
T
Hausman propuso un estadístico para contrastar esta hipótesis:
X 'ε
H 0 : p lim =0
T
X 'ε
H 1 : p lim ≠0
T
La lógica del contraste es comparar el comportamiento de dos estimadores β̂ MCO y β̂ VI ,
cuyas distribuciones asintóticas son:
(
T βˆ MCO − β 
→
a
)
N (0, VMCO ) y (
T βˆVI − β 
→
a
)
N (0, VVI )

donde VMCO = σ 2 Σ −XX1 y VVI = σ 2 Σ −ZX1 Σ ZZ (Σ −ZX1 )' .

72
Econometría II Curso 2015-16

X 'ε
Bajo la hipótesis nula H 0 : p lim = 0 , tanto β̂ MCO como β̂ VI son consistentes, sin
T
X 'ε
embargo, bajo la alternativa H 1 : p lim ≠ 0 , sólo lo es β̂ VI . Si la hipótesis nula es
T
( ) ( )
cierta entonces p lim βˆ MCO − βˆVI = 0 y el valor de βˆ MCO − βˆVI debería ser pequeño; al
contrario, si la hipótesis nula no es cierta.
El estadístico de Hausman se define, bajo la H0 , como:

(
H Hausman = T βˆ MCO − βˆVI ) [Vˆ
'
VI − VˆMCO ] (βˆ
−1
MCO )
− βˆVI 
→
a
χ H2

donde H es el número de regresores que se quiere ver si son o no exógenos, VˆVI y VˆMCO son
−1 −1
2  Z' X  Z'Z  X 'Z 
estimadores consistentes de VVI y de VMCO, es decir, VˆVI = σˆ    
 T  T  T 
−1
 X ' X 
y VˆMCO = σˆ   y σ̂ 2 el estimador consistente de σ utilizando el estimador de
2 2

 T 
VI para obtener los residuos.
Si el valor del estadístico de Hausman supera el valor crítico se rechaza la H0 de que no hay
correlación entre los regresores y la perturbación; en caso contrario, se acepta la no
existencia de correlación entre los regresores y la perturbación.
Este contraste se puede realizar también a partir de una serie de regresiones auxiliares:
1) Realizar la regresión de las variables que posiblemente sean endógenas sobre los
instrumentos y las exógenas del modelo y quedarnos o bien con los residuos o con el
valor estimado.
2) Introducir en la regresión original los valores estimados (o los residuos) y contrastar si
son o no significativos, de modo que si no lo son aceptaríamos la H0 y si lo son la
rechazaríamos.

73
Econometría Curso 2015-16

74
Econometría II Curso 2015-16

TEMA 5. MODELOS DINÁMICOS

5.1.- Planteamiento general

Los modelos estudiados hasta ahora eran modelos estáticos en los que todas las variables
estaban referidas al mismo periodo de tiempo. Estos modelos se plantean cuando se
considera que un cambio en X en el momento t ejerce un efecto inmediato en Y.
Sin embargo, la Teoría Económica sugiere que, en muchos casos, las relaciones entre las
variables son dinámicas, de forma que el efecto de una variable X j sobre Y no tiene por
qué ser instantáneo y se puede distribuir en distintos periodos de tiempo.
Vamos a distinguir dos tipos de modelos dinámicos:
a) Modelos autorregresivos.
b) Modelos de retardos distribuidos.
Nota: En este tema vamos a utilizar frecuentemente el llamado operador de retardo (que se
denota por L o B) y que retarda la variable a la que acompaña del siguiente modo:
Ls X t = X t − s

De esta forma: LX t = X t −1 ; L2 X t = X t − 2 ; Ls X t = X t − s ; (1 − L) X t = X t − X t −1 .

5.2.- Modelos autorregresivos

Son aquellos en los que se plantea como regresor la variable endógena retardada en algún
periodo de tiempo. Un ejemplo sería: Yt = β 0 + β 1 X t + β 2Yt −1 + ε t
Este tipo de modelos son estocásticos ya que la variable Yt-1 es aleatoria. Además, no
podemos considerar que los regresores sean estrictamente exógenos ya que podemos
comprobar que Yt-1 estará relacionada con ε t −1 , ε t − 2 ,.... . Por tanto, no se va a cumplir que
E(εt | X)=0 ∀ t=1,...,T
Sin embargo, si εt cumple las hipótesis clásicas, podemos aceptar la exogeneidad
X 'ε
( )
contemporánea, de tal forma que E ε t | X t' = 0 y se cumple que p lim
T
= 0 . Los
EMCO son sesgados y no eficientes, pero son consistentes y las distribuciones asintóticas
son válidas, es decir, los resultados habituales de inferencia estadística son válidos
asintóticamente.
Si εt está autocorrelacionada, ni siquiera se cumpliría el supuesto de regresores
X 'ε
contemporáneamente exógenos, p lim ≠ 0 y, por tanto, el EMCO no tiene ninguna
T
propiedad y la inferencia no es válida ni asintóticamente. El estimador consistente será el de
Variables Instrumentales donde podríamos tomar como instrumento de Yt-1 a Xt-1.
En la práctica, cuando nos encontremos con un modelo autorregresivo lo que hay que
analizar, en principio, es si la perturbación está autocorrelacionada o no (con el contraste de
la h de Durbin el de Breusch-Godfrey) y si existe relación contemporánea entre los
regresores y la variable endógena (con el contraste de Hausman).

75
Econometría Curso 2015-16

En algunos modelos econométricos, la introducción de ciertas hipótesis teóricas también da


lugar a la aparición de la variable endógena retardada entre los regresores. Dos ejemplos
son los siguientes:
Modelo de expectativas adaptativas o adaptables
Estos modelos plantean que el comportamiento de los agentes económicos depende de las
expectativas que se formen sobre la evolución futura de determinadas variables
económicas. A su vez, el tratamiento de esas expectativas se realiza suponiendo una
hipótesis sobre su formación. Concretamente, la hipótesis de expectativas adaptativas
supone que las expectativas se actualizan cada periodo en función de la diferencia entre la
última observación de la variable y la expectativa para ese periodo:
Et X t +1 − Et −1 X t = λ ( X t − Et −1 X t ) con 0 < λ <1
Ejemplo: Demanda de saldos monetarios reales (Yt) en función del valor esperado en t de la
tasa de inflación (X) futura, es decir, de EtXt+1.
Yt = β 0 + β1 Et X t +1 + ε t
Si, suponemos que: Et X t +1 − Et −1 X t = λ ( X t − Et −1 X t ) 0 < λ <1
O, también, que la expectativa de inflación futura que hoy se forma el individuo es una
combinación lineal del valor actual de la tasa de inflación y de la expectativa de inflación
que se formó en el periodo anterior: Et X t +1 = λX t + (1 − λ )Et −1 X t
Operando, obtenemos: Et X t +1 − (1 − λ )Et −1 X t = λX t ⇒ (1 − L + λL )Et X t +1 = λX t

λX t λ
⇒ Et X t +1 = = Xt
(1 − L + λL ) (1 − L + λL)
λ
Sustituyendo en el modelo: Yt = β 0 + β1 Xt + εt
(1 − L + λL )
Y, finalmente: Yt = λβ 0 + β 1λX t + (1 − λ )Yt −1 + vt donde vt = ε t − (1 − λ )ε t −1
El modelo resultante es un modelo autorregresivo y por lo tanto, a la hora de elegir el
método más adecuado para estimar sus parámetros, habrá que analizar si vt presenta
autocorrelación o no y realizar el test de Hausman.
Modelo de ajuste parcial
Estos modelos plantean que hay situaciones en que la relación entre variables no se ajusta
de forma inmediata en un periodo t, sino que tarda un tiempo (un periodo de ajuste).
Ejemplo: Supongamos que queremos estudiar el nivel “deseado” de capital en una
( )
economía Yt* en función del nivel de producto (Xt):

Yt* = β 0 + β1 X t + ε t
Y que se especifica el siguiente mecanismo por el que el nivel de stock de capital
observado se ajusta al nivel deseado (modelo de ajuste parcial: el stock observado varía de
un periodo a otro en una proporción de su distancia respecto al stock deseado):
Yt − Yt −1 = δ (Yt* − Yt −1 ) con 0 < δ <1

76
Econometría II Curso 2015-16

Operando en el modelo de ajuste parcial tenemos:


1 (1 − δ )
Yt = δYt* + (1 − δ )Yt −1 ⇒ δYt* = Yt − (1 − δ )Yt −1 ⇒ Yt* = Yt − Yt −1
δ δ

( )
Sustituyendo Yt* en el modelo: Yt* = Yt −
δ
1 (1 − δ )
δ
Yt −1 = β 0 + β1 X t + ε t

Y, despejando: Yt = δβ 0 + δβ1 X t + (1 − δ )Yt −1 + δε t


El modelo resultante, al igual que en expectativas adaptativas, es un modelo autorregresivo,
y por lo tanto, habrá que analizar si sus perturbaciones están o no autocorrelacionadas y
realizar el test de Hausman para elegir el método de estimación adecuado.

Retomamos el EJEMPLO2, planteando un modelo autorregresivo, los resultados de la


estimación MCO de este modelo son los siguientes:

Realizamos en contraste de B-G para analizar la autocorrelación con un retardo:

No se rechaza la hipótesis nula lo cual implica que no existe autocorrelación y por tanto la
estimación MCO es adecuada porque nos proporciona estimadores consistentes y los test
de hipótesis son válidos asintóticamente.

5.3.- Modelos con retardos distribuidos o escalonados. Estructura finita e infinita de


retardos

Son aquellos en los que una o más variables exógenas influyen en la variable endógena con
algún retardo. Son modelos del tipo:
Yt = β 0 + β1 X 1t + β 2 X 1t −1 + β 3 X 1t − 2 + ... + ε t
77
Econometría Curso 2015-16

Dentro de estos modelos vamos a plantear dos posibilidades:


n
1) Modelos con estructura finita de retardos: Yt = α + ∑ β i X t −i + ε t
i =0


2) Modelos con estructura infinita de retardos: Yt = α + ∑ β i X t −i + ε t
i =0

A cada parámetro βi se le llama coeficiente de retardo y a la secuencia βi (∀ i=1, 2,...) se le


llama estructura del retardo.
La interpretación de estos coeficientes es muy interesante y está asociada al conocido
concepto de multiplicadores cuya descripción puede realizarse en torno a dos preguntas:
1) ¿Qué efecto tendrá sobre Y un cambio concreto en un momento determinado de la
variable X?
2) ¿Qué efecto tendrá sobre Y una desviación permanente de X respecto a su valor
inicial?
1) Ante una variación concreta de una unidad en X en el momento t, β 0 es el cambio
inmediato en Y en el momento t, β 1 es el cambio en Y un periodo después de la
modificación temporal y β 2 es el cambio en Y dos periodos después de la modificación
temporal y así sucesivamente.
Al coeficiente β 0 se le denomina multiplicador de impacto o a corto plazo y a la secuencia
( β 0 , β 1 , β 2 ,…) se le denomina función de respuesta al impulso.
Si por ejemplo suponemos un modelo con retardos distribuidos finitos de segundo orden
(n=2), el efecto de X sobre Y sólo se mantiene durante dos periodos después de la
modificación. Si el modelo es de infinitos retardos el efecto de X sobre Y se mantendría de
forma indefinida.
2) Un cambio permanente en X a partir del momento t produce un cambio en Y, si
suponemos un modelo con retardos distribuidos finitos con n=2, igual a β 0 en t, igual a
β 0 + β 1 en t+1 e igual a β 0 + β 1 + β 2 en t+2 y siguientes (puesto que es un modelo con
retardos distribuidos finitos de segundo orden). Si el modelo fuera de infinitos retardos
el cambio en t sería igual a β 0 , en t+1 igual a β 0 + β 1 , en t+2 igual a β 0 + β 1 + β 2 , en
t+3 igual a β 0 + β1 + β 2 + β 3 , y así sucesivamente.
A la suma de todos los coeficientes de retardo (en el caso de finitos retardos con n=2:

β 0 + β 1 + β 2 y en el de infinitos retardos ∑ β i ) se le denomina multiplicador de largo
i =0
plazo y a la secuencia ( β 0 , β 0 + β1 , β 0 + β1 + β 2 ) si se trata de un polinomio con 2
retardos se le denomina función de respuesta al escalón. La respuesta al escalón en un
modelo con infinitos retardos sería ( β 0 , β 0 + β1 , β 0 + β1 + β 2 , β 0 + β1 + β 2 + β 3 ,…..).
Si tipificamos los coeficientes dividiéndolos por su suma (multiplicador a largo plazo):
calculamos la proporción del efecto total que se deja notar en el periodo i después del
cambio en Xt.

78
Econometría II Curso 2015-16

βi
En modelos de retardos distribuidos finitos β i* = n
∑ βi
i =0

βi
En modelos con infinitos retardos β i* = ∞
∑ βi
i =0

1) Modelos con estructura finita de retardos o con retardos distribuidos finitos


Son aquellos en los que suponemos que los efectos de una o varias variables explicativas
sobre la variable endógena no se producen de forma instantánea sino que perduran durante
un cierto periodo de tiempo que suponemos finito. Por ejemplo:
n
Yt = α + ∑ β i X t −i + ε t
i =0

Problemas en la estimación de estos modelos


1) La elección de n: Un valor pequeño puede ocasionar error de especificación por
omisión o en la forma funcional, y un valor de n grande nos puede dejar sin grados
de libertad.
2) Posible existencia de multicolinealidad y, por tanto, posibilidad de estimaciones
imprecisas de los parámetros.
3) Si el modelo no está especificado dinámicamente de forma correcta podría haber
autocorrelación.
Todo ello nos lleva a utilizar ciertas hipótesis sobre la estructura del retardo.

Estructura polinomial de Almon

Sea el modelo con estructura finita de retardos


n
Yt = α + ∑ β i X t −i + ε t t=n+1,...,T
i =0

Supongamos la siguiente estructura polinomial


β i = a 0 + a1i + a 2 i 2 + ... + a m i m donde i=0,1,2,...n con n>m
Dando valores a i tendremos un sistema de ecuaciones que relaciona los n+1 coeficientes
de retardos β con los m+1 coeficientes de la estructura polinomial. Para simplificar
vamos a suponer un polinomio de grado 2:
β 0 = a0
β1 = a 0 + a1 + a 2
β 2 = a 0 + a1 2 + a 2 2 2
……………………..
β n = a 0 + a1 n + a 2 n 2

79
Econometría Curso 2015-16

En definitiva, consiste en imponer restricciones sobre los n+1 coeficientes del retardo y
el problema radica en estimar el modelo con retardos finitos sujeto a la restricción de
que los coeficientes de retardo siguen una distribución polinomial.
Por tanto, introduciendo las restricciones en el modelo:

( )
n n n n
Yt = α + ∑ a 0 + a1i + a 2 i 2 X t −i + ε t = α + a 0 ∑ X t −i + a1 ∑ iX t −i + a 2 ∑ i 2 X t −i + ε t
i =0

i =0
 
i =0
  
i =0

Z0t Z1 t Z2t

Yt = α + a 0 Z 0t + a1 Z 1t + a 2 Z 2t + ε t

Estimaríamos este modelo restringido por MCO obteniendo α̂ , â 0 , â1 y â 2 y a


continuación desharíamos el cambio para obtener α̂ , β̂ 0 , β̂1 , β̂ 2 ,…, β̂ n 17

αˆ = αˆ
βˆ 0 = aˆ 0

βˆ1 = aˆ 0 + aˆ1 + aˆ 2

βˆ 2 = aˆ 0 + aˆ1 2 + aˆ 2 2 2
....................................................
βˆ n = aˆ 0 + aˆ1n + aˆ 2 n 2

EJEMPLO4: Se desea analizar, para el período 1996:10-2000:4, cómo influye el


comportamiento del Banco de España a través del MIBOR en los contratos celebrados
entre los bancos y el resto de los agentes en sus operaciones de préstamo. Para ello, se
dispone de datos sobre los valores del MIBOR y de los tipos de interés de referencia de
préstamos hipotecarios de los bancos (IRPHBCOS).
Al estimar por MCO la relación estática entre IRPHBCOS y MIBOR obtenemos el modelo
siguiente:

17
Nota: en la estimación con Eviews éste centra el polinomio de modo que:
n
 si n es par
β i = a 0 + a1 (i − c ) + a 2 (i − c )2 + ... + a m (i − c )m siendo c =  2
n -1
 si n es impar
 2

80
Econometría II Curso 2015-16

Modelo 1:

El estadístico de Durbin Watson detecta claramente autocorrelación ya que dL=1,475 y


0,34<1,475por lo que rechazamos Ho de Incorrelación

Sin embargo, la influencia del MIBOR sobre los tipos de interés de préstamos hipotecarios
no es instantánea sino que se traslada a lo largo de una serie de periodos, por lo que se
plantea una especificación dinámica donde se suponga que el efecto se podría dilatar a lo
largo de un año como máximo. En base a este criterio, seleccionamos en primer lugar, el
nº de retardos más adecuado analizando el modelo resultante (Modelo 2).

Nº Retardos 4 5 6 7 8 9 10 11 12
R 2 99,35 99,42 99,52 99,55 99,56 99,50 99,49 99,48 99,49

Modelo 2 18:

Analizando la matriz de correlaciones con 8 retardos se detecta claramente el problema de


multicolinealidad

18
Se deja para los alumnos realicen las estimaciones con otros retardos.
81
Econometría Curso 2015-16

Matriz de correlaciones
Mibor Mibor(-1) Mibor(-2) Mibor(-3) Mibor(-4) Mibor(-5) Mibor(-6) Mibor(-7) Mibor(-8)
Mibor 1 0,9767 0,9351 0,884 0,8324 0,7725 0,7198 0,6781 0,6545
Mibor(-1) 0,9767 1 0,9777 0,9407 0,8996 0,8540 0,8064 0,7615 0,7356
Mibor(-2) 0,9351 0,9777 1 0,9808 0,9494 0,9120 0,8798 0,8410 0,8118
Mibor(-3) 0,884 0,9407 0,9808 1 0,9815 0,9514 0,9268 0,9017 0,8762
Mibor(-4) 0,8324 0,8996 0,9494 0,9815 1 0,9826 0,9573 0,9349 0,9180
Mibor(-5) 0,7725 0,8540 0,9120 0,9514 0,9826 1 0,9822 0,9570 0,9403
Mibor(-6) 0,7198 0,8064 0,8798 0,9268 0,9573 0,9822 1 0,9836 0,9633
Mibor(-7) 0,6781 0,7615 0,8410 0,9017 0,9349 0,9570 0,9836 1 0,9873
Mibor(-8) 0,6545 0,7356 0,8118 0,8762 0,9180 0,9403 0,9633 0,9873 1

Como la d de Durbin cae en zona de indeterminación (dL=0,99, dU=2,041) analizamos la


autocorrelación con el contraste de Breusch Godfrey (LM=2,02, P-valor=0,1544) no
rechanzando la hipótesis nula de incorrelación.
Con objeto de corregir los problemas derivados de la estimación anterior, y tomando la
longitud del retardo n=7 planteamos, en primer lugar, una estructura finita de retardos
suponiendo que los parámetros siguen un esquema polinomial de Almon para m=1,2 y 3
(Modelos 3,4 y 5).

Para m=1 y 2
Modelo 3 y 4

82
Econometría II Curso 2015-16

Modelo 5. Para m=3

Selección:
m R2 LM
(P-valor)
1 0,9939 2,31
Modelo 3 (0,1284)
2 0,9937 2,372
Modelo 4 (0,1235)
3 0,995 0,4496
Modelo 5 (0,5025)

En ninguno de ellos hay autocorrelación. Sin embargo para m=2 y m=3 algunos
coeficientes de retardo no son significativos (el 7 para m=2 y el 5 y 6 para m=3).Los
coeficientes de determinación corregidos son muy parecidos aunque, estrictamente, el
mayor es el correspondiente al modelo con m=3. Sin embargo, en base a la significación
de las variables seleccionamos m=1.
A partir de este último modelo estimado, analizamos:
a) ¿Cuál sería el cambio inmediato que se produciría en los tipos de interés de préstamos
hipotecarios como consecuencia de un aumento de una unidad en el MIBOR en un mes
concreto? ¿Y el cambio un año después del aumento del MIBOR?
• Cambio inmediato en los tipos de interés de préstamos hipotecarios ante un
aumento de una unidad en el MIBOR en un mes concreto: Multiplicador a C/P:
β̂ 0 =0,19658.
• Cambio un año después: No hay efecto: β̂12 =0

83
Econometría Curso 2015-16

b) Calcula el multiplicador a largo plazo e interpreta sus resultados


7
• Multiplicador a largo plazo: ∑ βˆi = 0,91682
i =0
c) ¿Cuántos periodos deberían transcurrir antes de que se dejase notar el 85% del efecto
que el cambio en el MIBOR tiene sobre la variable endógena?
• Periodos que deberían transcurrir antes de que se dejase notar el 85% del efecto
que el cambio en el MIBOR tiene sobre la variable endógena: 5 periodos pues:

4 5

∑ βˆi 0,74867 ∑ βˆ i
0,82814
i =0
7
= = 0,81659 y i =0
7
= = 0,9033
∑ ∑ βˆ
0,91682 0,91682
βˆ
i i
i =0 i =0

2) Modelos con estructura infinita de retardos.


Una alternativa al planteamiento de truncar la distribución de retardos a un número finito
consiste en especificar una distribución con infinitos retardos. Esta especificación es
aceptable especialmente cuando se trabaja con observaciones frecuentes o cuando esta
estructura se deriva de distintas consideraciones teóricas. El modelo sería:

Yt = α + ∑ β i X t −i + ε t
i =0

Obviamente, aún suponiendo que cumple las hipótesis clásicas, la estimación sin
restricciones de este modelo no es posible ya que necesitaríamos estimar infinitos
parámetros con una muestra siempre finita.
La forma de proceder en estos casos es establecer alguna hipótesis sobre los coeficientes de
retardo de modo que podamos reducir su número. Koyck propuso que los coeficientes de
retardo, aunque infinitos, decrecían en progresión geométrica de la forma: β i = βλ i con
0 < λ < 1 para i=0,1,...
Introduciendo las restricciones, el modelo quedaría

( )

Yt = α + ∑ βλ i X t −i + ε t ⇔ Yt = α + β X t + λX t −1 + λ 2 X t − 2 + ... + ε t
i =0

Si escribimos el modelo para Yt −1 , lo multiplicamos por λ y hacemos Yt − λYt −1 obtenemos


finalmente:
Yt − λYt −1 = α (1 − λ ) + βX t + (ε t − λε t −1 )

y despejando Yt :

Yt = α (1 − λ ) + βX t + λYt −1 + ε t − λε t −1 ⇔ Yt = α + βX t + λYt −1 + v t
*
   
α* vt

El modelo resultante es un modelo autorregresivo por lo que habrá que analizar si sus
perturbaciones están o no autocorrelacionadas y realizar el test de Hausman para elegir el
método de estimación adecuado.

84
Econometría II Curso 2015-16

Una vez obtenidos los estimadores más adecuados para α*, β y λ y teniendo en cuenta que
β i = βλ i y que α * = α (1 − λ ) , podemos calcular los estimadores de los parámetros del
αˆ *
modelo original: βˆi = βˆ λˆ i y αˆ = .
1 − λˆ
Retomamos el EJEMPLO4, y planteamos, en segundo lugar, una estructura infinita de
retardos suponiendo que los parámetros decrecen en progresión geométrica (estructura de
Koyck para los parámetros) (Modelo 6).

Modelo 6:

Breusch-Godfrey Serial Correlation LM Test:

F-statistic 4.992755 Prob. F(1,38) 0.0314


Obs*R-squared 4.877466 Prob. Chi-Square(1) 0.0272

En este modelo sigue existiendo autocorrelación por lo que los estimadores son
inconsistentes y por tanto el método de estimación no es válido.
Una alternativa a esta estimación sería el método de variables instrumentales, tomando
como instrumento de IRPHBCOS(-1) la variable MIBOR(-1). Este método nos permite
obtener estimadores consistentes y los test de hipótesis serían válidos asintóticamente.
Modelo 7:

85
Econometría Curso 2015-16

Realizamos el test de Hausman:


1ª Etapa:

Llamamos EH a los residuos MCO de esta estimación:

2ª Etapa con los residuos:

El residuo es significativo, se rechaza la hipótesis nula del test de Hausman y por tanto la
estimación adecuada sería la de VI.

86
Econometría II Curso 2015-16

TEMA 6. INTRODUCCIÓN A LOS MODELOS DE ECUACIONES


SIMULTÁNEAS

6.1.- Planteamiento del problema

Los modelos analizados en los temas anteriores eran modelos uniecuacionales, es decir,
modelos que recogían la relación causa-efecto que existía entre una variable endógena (Y)
y un conjunto de variables exógenas (X).
Este planteamiento no es, sin embargo, el más adecuado para modelizar la interdependencia
que existe entre las variables económicas ya que la cadena causal entre ellas no siempre es
unidireccional, es decir, una variable puede ser a la vez causa y efecto. Por ello, para
modelizar este tipo de relaciones es necesario recurrir a estructuras más complejas, como
los llamados modelos de ecuaciones simultáneas o modelos multiecuacionales.
Se trata de modelos formados por más de una ecuación y en los que variables que son
explicadas en alguna de las ecuaciones, pueden aparecer como explicativas en otra u otras.
El caso más sencillo es un modelo de dos ecuaciones. Por ejemplo:
Y1t = γ 21Y2t + β 11 X 1t + β 21 X 2t + u1t
t=1,2,…T
Y2t = γ 12Y1t + β 32 X 3t + u 2t
En él se explica el comportamiento de dos variables endógenas (Y1 e Y2) a partir de tres
variables predeterminadas (X1, X2 y X3). En la primera ecuación la variable endógena Y1 se
modeliza como función de las variables predeterminadas X1 y X2 y de la endógena Y2 que
en esta ecuación aparece como explicativa. De la misma forma, la variable endógena Y1 se
incluye, en la segunda ecuación, como una variable explicativa. Ambas ecuaciones no se
pueden considerar por separado, porque las relaciones se producen simultáneamente.
Además Y1t aparece en la segunda ecuación como explicativa, pero por la primera
ecuación es función de Y2t que a su vez depende de u2t, de modo que Y1t es función de u2t,
por lo tanto Y1t no es contemporáneamente exógena, y lo mismo ocurre con Y2t. También es
absurdo plantearnos en este tipo de modelos la hipótesis de que las perturbaciones u1t y u2t
están incorrelacionadas, ya que, por ejemplo, u1t = f (Y1t , Y2t ) pero Y2t = f (u 2t ) .
Especificación de un modelo lineal de ecuaciones simultáneas
Un modelo lineal multiecuacional para el periodo t puede especificarse mediante un sistema
de g ecuaciones en las que aparecen g variables endógenas (Y1 , Y2 ,..., Yg ) y k variables
predeterminadas ( X 1 , X 2 ,..., X k ) .
γ 11Y1t + γ 21Y2t + ... + γ g1Ygt + β11 X 1t + β 21 X 2t + ... + β k1 X kt + u1t = 0
γ 12Y1t + γ 22Y2t + ... + γ g 2Ygt + β12 X 1t + β 22 X 2t + ... + β k 2 X kt + u 2t = 0

γ 1g Y1t + γ 2 g Y2t + ... + γ gg Ygt + β1g X 1t + β 2 g X 2t + ... + β kg X kt + u gt = 0
Matricialmente el sistema, para el periodo o la observación t, se puede expresar:
Yt ' Γ + X t' β + u t' = 0

donde X t' = ( X 1t , X 2t ,..., X kt )


87
Econometría Curso 2015-16

Yt ' = (Y1t , Y2t ,..., Ygt )

u t' = (u1t , u 2t ,..., u gt )

 γ 11 γ 12  γ 1g   β11 β12  β1g 


   
 γ 21 γ 22  γ 2g   β 21 β 22  β 2 g 
Γ= β =
         
   
γ  γ gg  β  β kg 
 g1 γ g 2  k1 βk 2
Para todas las observaciones, t=1,…,T sería:
YΓ + Xβ + u = 0
 X 1'   X 11 X 21  X k1   Y1'   Y11 Y21  Yg1 
 '    '  
X  X X 22  X k2   Y   Y12 Y22  Yg 2 
donde: X =  2  =  12 Y = 2=
         
         
X'  X
 T   1T X 2T  X kT  Y '  Y
 T   1T Y2T  YgT 

 u1'   u11 u21  u g1 


 '  
 u   u12 u22  u g 2 
u = 2=
    
   
 u'   u u2T  u gT 
 T   1T
La especificación anterior se conoce como forma estructural del modelo, pero el sistema de
ecuaciones simultáneas se puede especificar también en forma reducida expresando cada
variable endógena en función de las variables predeterminadas.
Y1t = π 11 X 1t + π 21 X 2t + ... + π k1 X kt + v1t
Y2t = π 12 X 1t + π 22 X 2t + ... + π k 2 X kt + v 2t

Ygt = π 1g X 1t + π 2 g X 2t + ... + π kg X kt + v gt

O bien en forma matricial que puede deducirse a partir de la forma estructural:

Yt ' Γ + X t' β + u t' = 0 ⇒ Yt ' Γ = − X t' β − u t' ⇒ Yt ' = − X t' β Γ −1 − u t' Γ −1 ⇒ Yt ' = X t' Π + vt'

donde Π = − β Γ −1 y vt' = −u t' Γ −1

 π 11 π 12  π 1g 
 
 π 21 π 22  π 2g 
Π= vt' = (v1t , v 2t ,..., v gt )
    
 
π
 k1 π k 2  π kg 

Para todas las observaciones, t=1,…,T sería: Y = X Π + v donde v = −u Γ −1 , siendo

88
Econometría II Curso 2015-16

 v1'   v11 v 21  v g1 
 '  
 v   v12 v 22  vg 2 
v= 2=
    
    
v'  v v 2T  v gT 
 T   1T
Hipótesis del modelo de ecuaciones simultáneas
Para la forma estructural del modelo:
( )
1) E u t' = 0 ∀t

E (u  u ) = (0  0 )
1t gt

2) E [u u ] = Σ
t
'
t ∀ t siendo Σ una matriz simétrica y definida positiva

 u12t u1t u 2t  u1t u gt   σ 12 σ 12  σ 1g 


   
[ ] '
u u
E u t u t = E  2t 1t
u 22t  u 2t u gt 
= σ 12 σ 22  σ 2g 

           
   
u gt u1t u gt u 2t  u gt2  σ 1g σ 2g  σ g2 

Esta hipótesis recoge:


En la diagonal principal: que en la primera ecuación hay homoscedasticidad pues
E (u1t ) = σ 12 para todo t, lo mismo en la segunda y en todas las demás.

En el resto de elementos: E (u1t u 2t ) = σ 12 para todo t, lo que significa que las perturbaciones
de la ecuación 1 y 2 están correlacionadas para el mismo instante de tiempo y la correlación
es la misma para cualquier instante de tiempo:
E (u1t u 2t ) = E (u11u 21 ) = E (u12 u 22 ) = ... = E (u1T u 2T ) = σ 12 y lo mismo ocurre con el resto de
ecuaciones. Es decir, existe correlación contemporánea entre las perturbaciones de dos
ecuaciones y no cambia al cambiar el instante de tiempo considerado.
[
3) E u t u s' = 0 ] ∀ t≠s

 u1t u1s u1t u 2 s  u1t u gs  0 0  0


 u1t   u u
   u 2t u gs  0 0  0
[ ]
E u t u s' = E   (u1s

 u gs ) = E 
 
2 t 1s u 2t u 2 s
 
=
     
=0
 u gt      
   u gt u1s u gt u 2 s  u gt u gs  0 0  0

Significa que las perturbaciones correspondientes a distintos periodos de tiempo están


incorrelacionadas, sean perturbaciones de una misma ecuación (E (u1t u1s ) = 0 ) o de distintas
ecuaciones (E (u1t u 2 s ) = 0 ) .

4) u t → N (0, Σ ) ∀t
5) Las variables predeterminadas (Xt) no son aleatorias, o si lo son, serán estrictamente
exógenas o contemporáneamente exógenas.
6) La matriz Γ no es singular, es decir, Γ ≠ 0 .

89
Econometría Curso 2015-16

Además las perturbaciones en la forma reducida ( vt ) tienen las mismas características que
las vistas para las perturbaciones en la forma estructural.

EJEMPLO5: Sea el siguiente modelo keynesiano modificado de determinación del ingreso:


C t = β 0 + β1Yt + u1t
I t = α 0 + α 1Yt + α 2Yt −1 + u 2t
Yt = C t + I t + Gt

donde Ct es el consumo, It es la inversión, Yt es el ingreso y Gt es el gasto público que se


supone que se determina de forma exógena.

Expresamos las ecuaciones del sistema en forma reducida:


a) Forma reducida:
Ct = π 11 + π 21Gt + π 31Yt −1 + v1t
I t = π 12 + π 22Gt + π 32Yt −1 + v2t
Yt = π 13 + π 23Gt + π 33Yt −1 + v3t
 1 0 −1   − β0 −α 0 0
=Γ  0 1 −1=; β  0
 −α 2 0 
 −β −α1 1   0 −1
 1  0
−1
 − β0 −α 0 0  1 0 −1   π 11 π 12 π 13 
Π = − β Γ = −  0
−1
−α 2 
0  0 1 −1 =  π 21 π 22 π 23 

 0 −1  − β1 −α1 1  π 
 0  31 π 32 π 33 

6.2.- Identificación de un sistema de ecuaciones simultáneas

La estimación de la forma reducida del modelo siempre es posible, ya que se especifica de


modo que, en cada ecuación, aparece sólo una variable endógena en función de las
predeterminadas. Sin embargo, la estimación relevante, desde el punto de vista de la
Economía, es la correspondiente a la forma estructural, que contienen las relaciones
derivadas de los modelos de la Teoría Económica.
Las relaciones entre los parámetros de ambas formas están recogidas en el sistema de
ecuaciones Π = − β Γ −1 donde hay (gxk) parámetros de la forma reducida y (gxg)+(gxk)
parámetros de la forma estructural.
La identificación de un modelo de ecuaciones simultáneas consiste en saber, si a partir de
un conjunto de observaciones muestrales, que permite la estimación de la forma reducida es
posible estimar los parámetros de la forma estructural. El análisis se hace para cada
ecuación (de la forma estructural) y si es posible se dice que la ecuación está identificada, y
si no lo es, que no está identificada. Además, cuando la ecuación está identificada se puede
distinguir según que la solución sea única o no, entre identificación exacta y
sobreidentificación, respectivamente.

90
Econometría II Curso 2015-16

Para saber cómo es la identificación de la ecuación, sin necesidad de intentar resolver el


sistema, se utilizan las denominadas condiciones de orden (que es una condición necesaria
pero no suficiente) y condiciones de rango (que es una condición necesaria y suficiente).
Estas condiciones, si en el sistema existen restricciones de normalización y de exclusión, es
decir, si en cada ecuación existe una variable endógena con coeficiente igual a 1 o –1 y
algunos parámetros que acompañan a las variables predeterminadas son cero en algunas
ecuaciones, se pueden expresar como se muestra a continuación.
Condición de orden
Para aplicar esta condición a una ecuación, se compara el número de variables, tanto
endógenas como predeterminadas, excluidas en la ecuación, g 2 y k 2 , con el número de
ecuaciones del sistema menos una (g-1), de modo que:
- Si g 2 + k 2 < g − 1 la ecuación no está identificada (no hace falta aplicar después la
condición de rango, pues no se va a cumplir).
- Si g 2 + k 2 = g − 1 la ecuación puede estar exactamente identificada. Lo estará si se
cumple la condición de rango.
- Si g 2 + k 2 > g − 1 la ecuación puede estar sobreidentificada. Lo estará si se cumple
la condición de rango.
Por lo tanto, la condición de orden es: g 2 + k2 ≥ g − 1

Condición de rango: La aplicación de esta condición requiere obtener la matriz de


coeficientes de la forma estructural, A, que es igual a: A = (Γ' | β ') . Sea A* la submatriz de
A formada por los coeficientes que en las demás ecuaciones del sistema acompañan a las
variables excluidas de la ecuación que se quiere identificar, de modo que:
- Si rg ( A* ) ≠ g − 1 entonces la ecuación no está identificada

- Si rg ( A* ) = g − 1 entonces la ecuación está identificada, pero puede estar


exactamente identificada o sobreidentificada, para saberlo recurrimos a la condición
de orden.
Por tanto, la condición de rango es: rg ( A* )= g − 1
Si todas las ecuaciones del sistema están identificadas se dice que el sistema está
identificado. Si sólo lo están algunas, sólo esas se pueden estimar.

Identificamos las ecuaciones del EJEMPLO5:

Existen restricciones de normalización y de exclusión.


1ª Ecuación:
Condición de orden:
g 2 = 1
 g 2 + k2 = 3 > g − 1 = 2 ⇒ Puede estar sobreidentificada
k2 = 2 

91
Econometría Curso 2015-16

Condición de rango:
 1 0 − β1 − β0 0 0
 1 −α 2 0
=A  0 1 −α1 −α 0 −α 2 0  A* = 
 −1 −1 1  −1 0 −1
 0 0 −1

rg(A*)=2=g-1=2 ⇒ La primera ecuación está sobreidentificada

2ª Ecuación:
Condición de orden:
g 2 = 1
 g 2 + k2 = 2 = g − 1 = 2 ⇒ La ecuación puede estar exactamente identificada
k2 = 1 
Condición de rango:
1 0
A* =   ⇒ rg ( A* ) = 2 = g − 1 = 2 ⇒ La segunda ecuación esta exactamente
 −1 −1 
identificada

3ª Ecuación: es una identidad

6.3.- Estimación de un sistema de ecuaciones simultáneas

Los métodos de estimación en modelos de ecuaciones simultáneas se clasifican en:


a) Métodos con información limitada
b) Métodos con información completa
Los primeros se caracterizan porque estiman cada una de las ecuaciones del sistema por
separado y proporcionan estimaciones menos eficientes al utilizar menos información, ya
que no utilizan ninguna información sobre la matriz de varianzas-covarianzas
contemporánea de las perturbaciones de la forma estructural, es decir, de Σ.
Por su parte, los métodos con información completa consideran toda la información del
modelo para su estimación conjunta, aunque si hay errores de especificación en una
ecuación, se trasladan a todo el sistema, y en ese caso, este tipo de métodos serían menos
eficientes que los de información limitada, ya que en ellos el error de especificación de una
ecuación sólo la afecta a ella.
Entre los que utilizan información limitada, los más utilizados son, Mínimos Cuadrados
Indirectos (MCI), Variables Instrumentales (VI), Mínimos Cuadrados en dos etapas
(MC2E) y Máxima Verosimilitud con información limitada.
Entre los que utilizan información completa, los más utilizados son Mínimos Cuadrados en
tres etapas (MC3E) y Máxima Verosimilitud con información completa.
De todos estos métodos, los de Máxima verosimilitud son los más complejos y no los
vamos a abordar en esta introducción así como el Método de Mínimos Cuadrados en tres
Etapas. El método de Mínimos Cuadrados Ordinarios en la forma estructural, por su parte,
generalmente no se utiliza puesto que requiere el cumplimiento de las hipótesis clásicas y
92
Econometría II Curso 2015-16

en los sistemas de ecuaciones es frecuente la dependencia entre la perturbación y la matriz


de regresores.
Además, la utilización de un método u otro está condicionada por el resultado de la
identificación de las ecuaciones.
- Si la ecuación no está identificada no se pueden estimar los parámetros de la forma
estructural.
- Si la ecuación está identificada se pueden estimar por Mínimos Cuadrados Indirectos
(MCI), por Variables Instrumentales (VI) o por Mínimos Cuadrados en dos etapas (MC2E).
Si está exactamente identificada se obtiene una única solución y los métodos coinciden. Si
está sobreidentificada, se obtienen varias soluciones.

1) Mínimos Cuadrados Indirectos

La aplicación de este método parte, en primer lugar, de la obtención de los estimadores de


( )
la forma reducida Π̂ por MCO para después aplicar la relación Π = − βΓ −1 , es decir,
Πˆ = − βˆ Γˆ −1 para despejar los elementos de β̂ y Γ̂ .

Si la ecuación no está identificada, para algún parámetro de la forma estructural no


obtendremos solución.
Si la ecuación está sobreidentificada, para algún parámetro de la forma estructural
obtendremos más de una solución.
Si la ecuación está exactamente identificada, para cada parámetro de la forma estructural
obtendremos una solución.
Como los resultados (cuando los haya) son funciones de estimadores consistentes y
asintóticamente eficientes, estos también lo serán.

2) Variables Instrumentales

- Si la ecuación está exactamente identificada, Variables Instrumentales proporciona


un resultado para cada estimador, pues disponemos del número exacto de instrumentos
necesarios.
- Si la ecuación está sobreidentificada, tenemos excesivos instrumentos y, por lo tanto,
obtenemos varios estimadores de Variables Instrumentales.
- Si la ecuación no está identificada, no hay instrumentos suficientes y no podemos
estimar por VI.

3) Mínimos Cuadrados en dos Etapas

Es el estimador de Variables Instrumentales que utiliza todos los instrumentos disponibles,


o un instrumento que es combinación lineal de ellos. Es el mejor de todos los estimadores
de Variables Instrumentales.
Aunque la ecuación esté sobreidentificada, este método proporciona una solución única.

93
Econometría Curso 2015-16

Comparación entre estos estimadores

- Si la ecuación está exactamente identificada


EMCI=EVI=EMC2E
Propiedades: consistentes y asintóticamente eficientes.
- Si la ecuación está sobreidentificada
Si por ejemplo para un parámetro obtenemos por MCI dos soluciones, una coincide con una
de VI (usando un instrumento) y la otra con la otra utilizando el otro instrumento.
1) El EMC2E combina las dos soluciones y propone un resultado que es el mejor,
puesto que todos los estimadores son consistentes, pero el más eficiente es el de MC2E que
es el de VI que usa como instrumento una combinación lineal de los instrumentos.

Retomando el EJEMPLO5 ¿qué método de estimación se debería utilizar en cada una de


las ecuaciones anteriores?
El método más adecuado para la primera ecuación es MC2E pues está sobreidentificada y
este es el método más eficiente y el que proporciona una solución única.
El método para la segunda ecuación podría ser MCI, VI o MC2E. Los tres proporcionan el
mismo resultado por estar exactamente identificadas.

94
Econometría II Curso 2015-16

TEMA 7. INTRODUCCIÓN A LOS MODELOS NO LINEALES

7.1.- Especificaciones no lineales

Una de las hipótesis clásicas que se realiza en el modelo de regresión es la de la forma


funcional lineal. La Teoría Económica a veces nos indica cómo es la relación entre las
variables, pero otras veces tienen que ser los datos los que nos ayuden a decidir. La
especificación incorrecta en la forma funcional genera estimadores sesgados e
inconsistentes.
Hay que tener en cuenta que hay varios tipos de modelos no lineales, según que la no
linealidad afecte a los parámetros o a las variables. Dentro de los modelos no lineales en los
parámetros, algunos son linealizables utilizando transformaciones sencillas, son los
modelos intrínsecamente lineales y otros no, son los modelos intrínsecamente no lineales.
No linealidad en las variables:
* En las variables explicativas
Ej: Yt = β 0 + β 1 e X 1t + β 2 X 22t + ε t . Basta con definir nuevas variables de la forma: Z 1t = e X 1t
y Z 2 t = X 22t
* En las variables explicadas
Ej: YtXt + β1lnYt = β2Xt + εt. Sería imposible expresar Y como función de X y β.
No linealidad en los parámetros:
Modelos intrínsecamente lineales
Son modelos fácilmente linealizables mediante sencillas transformaciones.
Ejs: Yt = β0 X tβ1 εt ⇒ lnYt = lnβ0 +β1lnXt +lnεt ⇒ Yt = β 0 + β1 X t + ε t
* * * *

El planteamiento de estos modelos dependerá de lo que estemos interesados en estudiar.


Por ejemplo, si estuviéramos interesados en estudiar la elasticidad del gasto respecto a la
renta, es decir, la variación porcentual del gasto derivada de la variación porcentual de la
renta, el siguiente modelo lineal: Yt = β o + β1 X 1t + ε t siendo Y el gasto y X la renta no nos
serviría, ya que β1 mide la variación absoluta del gasto como consecuencia de una
variación unitaria de la renta y eso no es la elasticidad.
Si el modelo anterior del gasto lo hubiésemos expresado por medio de la función:
Yt = AX tβ1 eε t , se podría transformar, tomando logaritmos neperianos, en el siguiente
modelo (lineal en los parámetros): ln Yt = βo + β1 ln X 1t + ε t siendo β o = ln A y donde β1
mide la elasticidad de Y respecto a X , elasticidad que siempre es constante ( β1 ) y, por
19

eso, a estos modelos se les conoce con el nombre de modelos de elasticidad constante.
De esta manera, si el resultado de la estimación anterior fuese, por ejemplo, el siguiente:
( )
ln Yˆt =
−0,85 + 0,74 ln X 1t la elasticidad del gasto sería 0,74, es decir, si la renta aumenta en
un 1%, el gasto aumentaría en un 0,74%. Al ser el coeficiente menor que 1 se dice que la

variación % de Y ∆Y Y Y
19
=
Recordemos que la elasticidad (E) se define como: E = = pendiente
variación % de X ∆X X X
95
Econometría Curso 2015-16

demanda es inelástica, es decir, el gasto aumenta en una proporción menor que la renta. Si
fuese mayor que 1 se dice que es elástica.
Un modelo económico típico de modelo lineal en logaritmos es la función de producción de
Cobb-Douglas: Qt = AK tβ1 Lβt 2 eε t

ln Qt =ln A + β1 K t + β 2 Lt + ε t
Se estima el modelo transformado y una vez conocidos los estimadores, se deshacen los
cambios para calcular los estimadores de los parámetros del modelo original si fuese
necesario.
Por otro lado, si en lo que estamos interesados es en estudiar modelos de crecimiento, en
nuestro ejemplo, en medir la tasa de crecimiento del gasto en función de la renta,
utilizaríamos los modelos semilogarítmicos donde solo la variable endógena está en
logaritmos: ln Yi = β o + β1 X 1i + ε i donde el coeficiente β1 mide la variación porcentual de
Y para determinada variación absoluta de X.
Finalmente, si estamos interesados en analizar cómo se comporta el gasto cuando la renta
aumenta en un determinado porcentaje, el modelo sería: Yi = β o + β1 ln X 1i + ε i donde el
coeficiente β1 mide la variación absoluta de Y para una variación porcentual de X.

7.2.- Modelos intrínsecamente lineales


La estimación por MCO de estos modelos así como la inferencia no tiene diferencias
sustanciales con lo visto en los modelos lineales.

Propiedades de los estimadores


a) Si los parámetros no sufren transformación, los estimadores conservan las
propiedades de MCO.
b) Si sufren transformaciones lineales (sumas y restas) los estimadores
conservan las propiedades de los estimadores de MCO pues la esperanza es un operador
lineal.
c) Si se realizan transformaciones logarítmicas, los estimadores no conservan
las propiedades finitas, pero dado que los estimadores de MCO coinciden con los de MV y
estos tienen la propiedad de la invarianza, se mantendrían las asintóticas.

Problemas con el coeficiente de determinación


a) Si el regresando no sufre modificación, el R2 encontrado para el modelo
transformado sirve también para medir la bondad del ajuste.
b) Pero si existe transformación en el regresando, el R2 nos medirá la bondad
del ajuste del modelo transformado, es decir, no nos medirá la variabilidad de Y sino por
ejemplo del lnY.

96
Econometría II Curso 2015-16

7.3.- Modelos intrínsecamente no lineales. Mínimos cuadrados no lineales


Son modelos que no se pueden linealizar mediante sencillas transformaciones. Un ejemplo
−v/β
: Qt A δ K t + (1 − δ ) Lt 
−β −β
de ellos es la función de producción CES= + εt
donde Q representa la producción, K el factor capital, L el recurso productivo trabajo, A es
el parámetro de eficiencia referente al estado de la tecnología, δ el denominado parámetro
de distribución que indica la participación relativa de cada factor en la producción, β el
parámetro de sustitución y ν el parámetro relativo a los rendimientos a escala.
De manera análoga a los modelos lineales o los modelos intrínsecamente lineales,
podríamos aplicar el método de minimización de la suma residual a las regresiones
intrínsecamente no lineales, sin embargo, la resolución de las ecuaciones derivadas de la
minimización no conduce a ecuaciones lineales.

Veamos un ejemplo sencillo. Sea el siguiente modelo: Yt =β o + X t β1 + ε t

( )
T T 2
β
La suma de los cuadrados de los residuos se expresa así: SCR= ∑ et = ∑ Yt − βˆo − X t 1
2 ˆ

=t 1 =t 1

Derivando la anterior expresión con respecto a cada uno de los parámetros e igualando a
cero, obtenemos:
∂SCR
( )
T
−2∑ Yt − βˆo − X t β1 =
ˆ
= 0
βˆ
o t =1

∂SCR
( )
T
−2∑ Yt − βˆo − X t β1 X tβ1 ln X t =
ˆ ˆ
= 0
βˆ
1 t =1

Siendo las siguientes ecuaciones normales:

T T
∑ Y=t βˆo + ∑ X t β1
ˆ

1 t =1
T T T
∑ Yt X t β1 ln X t βˆo ∑ X t β1 ln X t + ∑ X t 2 β1 ln X t
ˆ ˆ ˆ
=
1 =t 1 =t 1

Como podemos comprobar, las ecuaciones no son lineales ya que presentan parámetros a
ambos lados de las igualdades.
Un ejemplo de este tipo de modelos en Economía es la función de Consumo Agregado:
Ct = β o + β1Yt β2 + ε t

La obtención del estimador MCO requiere por tanto, la resolución de un sistema de


ecuaciones no lineales donde dicho estimador será, en general, una función no lineal del
vector Y. La resolución simultánea de un sistema de ecuaciones no lineales puede
conducirnos a varias soluciones o, incluso, a ninguna, de tal manera que el modelo
econométrico intrínsecamente no lineal puede tener varios estimadores mínimo cuadráticos
o, ni siquiera, tenerlos.
Debido a estos inconvenientes, es preciso buscar otros métodos que nos permitan obtener
los estimadores de mínimos cuadrados de una regresión intrínsecamente no lineal (método
de estimación no lineal), lo cual implica recurrir a procedimientos numéricos tales como

97
Econometría Curso 2015-16

algoritmos de optimización no lineal. Uno de los procedimientos más utilizados es el de


Newton-Raphson.

Algoritmo de Newton-Raphson

Este procedimiento está basado en una aproximación cuadrática a la función a estimar en


torno a un valor inicial, por tanto se basa en una aproximación en series de Taylor de orden
2 de la función alrededor de un valor inicial βˆ o . Así la función a minimizar sería:
 ∂SCR ( β )  o ′ ∂ SCR ( β )
 2 
SCR ( β ) ≅ SCR β + 
ˆ o
( )
 ∂β

ˆ o 1 ˆ(
β −β + β −β  ) (  β − βˆ o ) ( )
 β = βˆ0 2  ∂β ∂β ′  β = βˆ0
donde SCR ( β ) representa la suma de los cuadrados de los residuos del modelo no lineal,
βˆ o el valor inicial que toma el vector columna de parámetros β, SCR βˆ suma de los ( )
o

∂SCR ( β ) ∂ SCR ( β )
2
cuadrados de los residuos evaluada en el valor inicial y y la primera y
∂β ∂β ∂β ′
segunda derivada de la suma residual, respectivamente, evaluados en βˆ o .

Si derivamos la expresión anterior con respecto al vector de parámetros β e igualamos a


∂SCR ( β )  ∂SCR ( β )   ∂ 2 SCR ( β ) 
cero:
∂β
 
 ∂β

 β = βˆ
+ 
∂ β ∂β ′
 β − βˆ o =
0 ( )
 ¨0  β = βˆ ¨0

Despejando β obtendríamos el primer valor del vector paramétrico que llamamos:


−1
 ∂ 2 SCR ( β )  
ˆ 1 βˆ o −  ∂SCR ( β ) 
β=   
 
 ∂β  β = βˆ¨ 0  ∂β ∂β ′  β = βˆ 
 ¨0 

Donde βˆ 1 constituye la matriz de orden Kx1 de los nuevos valores de los estimadores MCO
para la primera aproximación lineal de la regresión.
Siempre que exista dicha inversa, este procedimiento se repite de forma iterativa hasta
alcanzar un vector de estimadores que satisfaga los criterios de convergencia. En concreto
para m linealizaciones, la expresión del estimador será:
−1
 ∂SCR ( β )   ∂ 2 SCR ( β )  
βˆ
= m
βˆ m −1
−  
∂β

  ∂β ∂β ′ 
  β = βˆ¨ m −1    β = β¨ m −1 
ˆ

Tal que el criterio de convergencia vendría dado cuando βˆ − βˆ


m −1
m
0
Si los valores iniciales de los coeficientes en torno a los cuales se linealiza la regresión
están próximos a sus verdaderos valores, serán necesarias pocas iteraciones.

98
Econometría II Curso 2015-16

TEMA 8. INTRODUCCIÓN A LOS MODELOS DE ELECCIÓN DISCRETA

8.1.- Planteamiento del problema

Hasta ahora hemos introducido en nuestros modelos factores cualitativos (a través


de variables ficticias), para explicar el comportamiento de ciertas variables endógenas.
Siempre se introducían como regresores, es decir, en el lado derecho del modelo.
Pues bien, hay muchas situaciones en las que estamos interesados en modelizar el
comportamiento de determinados factores cualitativos, es decir, en la introducción de
variables ficticias como variables endógenas. Por ejemplo, si los individuos votan o no a un
determinado partido, si viajan o no en autobús, si están empleados o desempleados, o si las
empresas realizan innovaciones o no, si exportan o no, etc.
Ejemplo 1: Una pregunta habitual en muchas encuestas es si el individuo está o no
desempleado y se construye una variable cualitativa como la siguiente:
1 si el individuo i trabaja
Yi = 
0 si el individuo i está desempleado

Tiene gran interés económico plantear modelos en los que se expliquen los
determinantes de estar o no desempleado, por lo que la variable Yi es, en este caso, la
variable de interés o endógena. Otros modelos tratan de explicar los determinantes de la
participación femenina en el mercado laboral, por lo que la variable a explicar es como la
planteada, y los determinantes de dicha participación pueden ser la presencia de hijos de
determinadas edades, la edad, la experiencia, el salario del marido, su educación, etc.
Ejemplo 2: Supongamos que se desea estudiar las causas que llevaron a los padres a
elegir una escuela privada o pública para sus hijos. La elección en este caso es también
entre dos alternativas y, por lo tanto, se puede asignar a la variable dependiente dos valores.
Nota: Estas variables pueden tomar más de dos valores, pero centraremos nuestro estudio
en variables dicotómicas, igual que hicimos cuando las introducíamos como regresores en
el tema de variables ficticias de Econometría I.
Veamos a continuación cual es el tratamiento de este tipo de modelos.

8.2.- El modelo lineal de probabilidad


Sea el modelo Yi = β 0 + β1 X i + ε i donde Yi es una variable dicotómica que vale 1 si
ocurre el suceso y 0 si no ocurre.
La interpretación de esta ecuación como un modelo lineal de probabilidad se pone
de manifiesto cuando hallamos la esperanza matemática de cada una de las observaciones
de la variable dependiente, es decir, E (Yi= ) β 0 + β1 X i . Puesto que Yi sólo toma dos
valores 1 y 0 podemos escribir su distribución de probabilidad haciendo
 pi = prob(Yi = 1)

1 − pi = prob(Yi = 0)

99
Econometría Curso 2015-16

entonces E (Yi ) = 1 ⋅ pi + 0 ⋅ (1 − pi ) = pi = β 0 + β1 X i

Por tanto la ecuación de regresión puede interpretarse como la probabilidad de que


ocurra el suceso para un valor dado de la variable Xi. La pendiente de la recta de regresión
mide el efecto de un incremento (o decremento) en una unidad de Xi sobre la probabilidad
de que ocurra el suceso.
La estimación de este modelo por MCO presenta una serie de inconvenientes:
• La perturbación no se distribuye como una normal. Toma sólo dos valores, al igual
que Yi, y por lo tanto su distribución es binomial. Para un tamaño muestral
suficientemente grande este no es un problema pues sabemos que la binomial se
aproxima a la normal.
• La perturbación es heteroscedástica. Este problema podría salvarse consiguiendo la
transformación adecuada para obtener la perturbación homoscedástica.
• No hay ninguna garantía de que las predicciones que el modelo proporciona estén
restringidas al intervalo [0,1].

8.3- El modelo Probit y el modelo Logit


Estos modelos surgen fundamentalmente para solventar los inconvenientes vistos
para el modelo de probabilidad lineal, y especialmente para solucionar el último, es decir, el
que las predicciones puedan estar fuera del intervalo [0,1].
La solución consiste en transformar el modelo original de modo que se restrinja la
predicción a estar dentro del intervalo [0,1]. Esto requiere transformar los valores que
pueden pertenecer a toda la recta real de forma que quedan trasladados a ese intervalo pero
que el modelo siga manteniendo las propiedades de un modelo de regresión. Todo esto
sugiere utilizar para E (Yi ) = pi una función de distribución adecuada, que por ser función
de distribución estará acotada entre 0 y 1.
Se suelen utilizar dos, la función de distribución de la normal, que da lugar al
modelo probit, y la función de distribución de la logística, que da lugar al modelo logit.
Criterios de selección
• No se puede utilizar el R2 pero sí el criterio de Akaike y el criterio de Schwartz.
• Otra medida de bondad de ajuste consiste en comparar si la predicción de la
probabilidad coincide con la realización muestral. Para ello se elige un umbral a
partir del cual asumimos que la predicción toma valor 1 (normalmente se elige una
probabilidad de 0,5 para dicho umbral) por lo que las observaciones para las que se
predice una probabilidad superior al umbral, se les asigna el valor 1 y, para las que
es inferior, el valor 0. Estas predicciones se comparan con los valores realizados. El
número de aciertos dividido por la muestra total, constituye una medida de bondad
del ajuste que se conoce como porcentaje correctamente predicho.

100

Вам также может понравиться