Copia de Material Teoria EconometrII 2015-2016

Material Docente de
Econometría II
Curso 2015-2016
Esquemas de teoría
Tercer curso del Grado en Economía
Profesores:
Jesús Cavero Álvarez
Carmen Lorenzo Lago
Material Docente de Econometría II
Curso 2015-2016
Tena 0.- Modelo de Regresión Generalizado…………………………………..1

Tema 1.- Heteroscedasticidad ............................................................................ 9
Tema 2.- Análisis de regresión con series temporales. Autocorrelación ........... 27
Tema 3.- Series de tiempo. Modelos ARIMA.................................................... 43
Tema 4.- Regresores estocásticos ……………………………………………..67
Tema 5.- Modelos dinámicos ............................................................................. 75
Tema 6.- Introducción a los modelos de ecuaciones simultáneas ...................... 87
Tema 7.- Introducción a los modelos no lineales ............................................... 91
Tema 8.- Introducción a los modelos de elección discreta…………………….99
Econometría II Curso 2015-16
ESQUEMA DEL TEMA 0: MODELO DE REGRESIÓN GENERALIZADO (MRG)
Especificación del modelo
Sea el modelo : Y=Xβ+ε sujeto a las siguientes hipótesis:
• ε → N (0, Σ ) o bien ε → N (0, σ 2 Ω )

donde Σ es la matriz de varianzas-covarianzas, simétrica y definida positiva de orden NxN
que puede tener tanto elementos distintos en la diagonal principal como valores no nulos
fuera de ella.
• X no aleatoria
• rg(X)=k+1<N
Consecuencias de aplicar MCO a un MRG
El hecho de que la matriz de varianzas-covarianzas no sea escalar tiene una serie de

implicaciones sobre la estimación mínimo cuadrática ordinaria, en concreto, sobre las
propiedades del estimador MCO de β, sobre las propiedades del S2 y sobre la inferencia.
• El estimador βˆ MCO seguirá siendo insesgado siempre que X sea no aleatoria y E(ε)=0
ya que:
E ( βˆ MCO ) = β + ( X ' X ) X ' E (ε ) = β
−1
• La matriz de Var-Cov de βˆ MCO ya no es la misma, es decir ∑ββ ≠ σ ( X ' X )

ˆˆ
2 −1
y, por
tanto, el estimador ya no es óptimo y es necesario buscar otro estimador más eficiente.
∑ββ ( )( ) −1
= E βˆ − β βˆ − β ' = E ( X ' X ) X ' εε ' X ( X ' X ) = σ 2 ( X ' X ) −1 X ' ΩX ( X ' X ) −1
ˆˆ
−1
• Si X es no aleatoria la distribución de βˆ MCO es la misma de ε (una normal)

βˆ → N (β , ( X ' X )−1 X 'σ 2 ΩX ( X ' X ) −1 )
y la distribución asintótica:
  X ' X  
( )
−1 −1
  X'X  X ' ΩX
N β −β 
ˆ → N 0, σ lim
a 2
 lim lim 
  N  N  N  

X'X
• El βˆ MCO seguirá siendo consistente siempre que ∃ lim N →∞ y sea no singular,
N
como ya vimos en el modelo clásico.
X ' ΩX
Si ∃ lim N →∞ , entonces podemos, además, demostrar la consistencia mediante la
N
convergencia en media cuadrática:
a) lim E ( βˆ ) = β por ser insesgado y β constante
−1 −1
σ2  X'X  X ' ΩX  X'X 
b) lim ∑βˆβˆ = lim N →∞ lim N →∞   lim N →∞ lim N →∞   =0
N  N  N  N 
por tanto: βˆ c → β ⇒ βˆ c→
. m. c.

. p.
β , el estimador es consistente
1
Econometría Curso 2015-16
• S2 deja de ser insesgado y consistente

e' e ε ' Mε
S =
2
=
N − k −1 N − k −1
ε 'M ε
=
e'e
E ( S 2 ) E= E=
N − k −1
1
N − k −1 N − k −1
E tr
= ( ε ' M ε )
1
N − k −1
 E (εε ' )
trM=
 
σ
2
= trM Ω ≠ σ 2
N − k −1
por tanto S βˆβˆ también será sesgado

ε ' Mε N ε ' Mε ε 'ε − ε ' X ( X ' X ) −1 X ' ε
p lim N →∞ ( S 2 ) = p lim p lim = p lim = p lim ≠σ2
N N − k −1 N N
ya que p lim
εε
'
= p lim
∑ ε i2
≠σ2
N N
en realidad, en condiciones generales,

∑ ε i2 →
c. p ∑ σ i2 , es decir converge en
N N
probabilidad hacia la media muestral de las varianzas.
• βˆ MCO ≠ βˆ MV puesto que Eεε ' ≠ σ 2 I
• Los estadísticos de la t y la F tampoco serán válidos ya que en las distribuciones no

consideramos el hecho de que Eεε ' = σ 2 Ω . Así,
βˆ no se distribuye como N (β , σ 2 ( X ' X ) −1 )
y ε’Mε ya no es una forma cuadrática en un vector normal esférico.
Estimación en el modelo de regresión lineal generalizado suponiendo no aleatoria y

conocida la matriz Σ.
Estimador de mínimos cuadrados generalizados o Estimador de Aitken:
Es el estimador que minimiza la suma de cuadrados de residuos generalizados

ponderados por la matriz Σ.
La función objetivo a minimizar es:
( ~'
) ( ~
) ~ ~ ~
e~' Σ −1e~ = Y − Xβ Σ −1 Y − Xβ = Y ' Σ −1Y − 2Y ' Σ −1 Xβ + β ' X ' Σ −1 Xβ
Condiciones de 1º orden:
∂e~' Σ −1e~ ~ ~
~ = − 2 X ' Σ Y + 2 X ' Σ Xβ = 0
−1 −1
⇒ X ' Σ −1Y = X ' Σ −1 Xβ
∂β
~
( −1
)
β MCG = X ' Σ −1 X X ' Σ −1Y o bien β MCG = (X ' Ω −1 X ) X ' Ω −1Y
~ −1
2
Condiciones de 2º orden:
∂ 2 e~ ' Σ −1 e~ −1
~ ~ = 2 X ' Σ X que es una matriz definida positiva.
∂β ∂β '
~
Forma alternativa de derivar el estimador β MCG :
Se basa en transformar el modelo original de forma que la matriz de Var-Cov de las

perturbaciones sea escalar, de tal forma que se demuestra que el estimador MCO del
modelo transformado coincide con el estimador MCG del modelo sin transformar.
Sea el modelo Y=Xβ+ε de regresión generalizado, por tanto
ε → N (0, σ 2 Ω ) donde Ω es una matriz definida positiva y simétrica, esto implica que Ω-1
es también definida positiva, por tanto, siempre existirá una matriz no singular P tal que
P’P = Ω-1.
Transformamos el modelo con esta matriz P: PY=PXβ+Pε
Llamando: PY=Y*
PX=X*
Pε=ε* tendremos: Y* = X*β + ε*
que es un modelo que cumple las hipótesis clásicas:
• X* es no aleatoria por ser P y X no aleatorias

• rg(X*)=k+1<N
ya que X*=PX donde P de orden NxN no singular ⇒ rg(P)=N
X de orden Nx(k+1) ⇒ rg(X)=k+1<N
• E(ε*)= E(Pε)=0
• E(ε*ε*’)=E(Pεε’P’)=Pσ2ΩP’= σ2PΩP’= σ2I
• ε * → N (0, σ 2 I )
(
Por tanto el estimador MCO βˆ * = X * ' X * ) −1
X * ' Y * = X ' Ω −1 X ( ) −1 ~
X ' Ω −1Y = β MCG
Estimación Máximo Verosímil
1
(Y − Xβ )' Ω −1 (Y − Xβ )
( )
−N 2 − 12 −
Función de verosimilitud: L = 2πσ 2 Ω e 2σ 2
ln L = −
N
(
ln 2πσ 2 ) 1
− ln Ω −
1
(Y − Xβ )' Ω −1 (Y − Xβ )
2 2 2σ 2
3
Maximizar lnL respecto a β es lo mismo que hacer mínima la expresión:
−
1
(Y − Xβ )' Ω −1 (Y − Xβ ) por tanto ~
β MCG = β MV
~
2σ 2
Maximizando lnL respecto a σ2 se obtiene:
~
σ MV =
2
~'
( ) (
~
Y − Xβ Ω −1 Y − Xβ
=
e~ ' Ω −1 e~ )
N N
Propiedades y distribución del estimador MCG de β
A) Propiedades y distribución para muestras finitas
∑ ββ = σ 2 ( X ' Ω −1 X )
−1
• ELIO con matriz de varianzas covarianzas: ~~
• Eficiente, ya que alcanza la cota de Cramer-Rao

• Distribución finita.
~
(
β MCG → N β , σ 2 X ' Ω −1 X ( )−1
)
B) Propiedades y distribución asintóticas
• Consistente
• Como es un estimador MV: asintóticamente normal, asíntóticamente eficiente,
consistente y la propiedad de la invarianza
  X ' Ω −1 X  
−1
•
~
(
c.d . 
Distribución asintótica: N β − β → N 0, σ lim

2
) 
  N  
Estimador insesgado de σ2 en el MRG
El estimador de σ2 en el modelo transformado:

e *' e * e~ ' P' Pe~ e~ ' Ω −1 e~ ~
S *2 = = = =S2
N − k −1 N − k −1 N − k −1
(
~
donde: e * = Y * − X * βˆ * = P Y − Xβ = P e~ )
~ ~
Como S 2 = S *2 y S*2 es un estimador insesgado y consistente de σ2, S 2 también será
insesgado y consistente de σ2.
~
Estimación cuando Ω es desconocida. El estimador MCG factible: β F
~
(−1
)
El estimador β MCG = X ' Ω −1 X X ' Ω −1Y depende de una matriz Ω que a su vez dependerá
de una serie de parámetros desconocidos que denominaremos genéricamente θ. En
concreto, dicha matriz depende de N varianzas y N(N-1)/2 covarianzas, por tanto,
tendremos más parámetros que observaciones. La forma de Ω = Ω(θ ) dependerá del
problema que se presente (autocorrelación, heteroscedascidad o ambas) y, además, a
medida que N aumenta, el número de parámetros también aumenta.
4
Si obtenemos un estimador consistente de θ : θˆ , podríamos calcular un estimador de

Ω:Ω ˆ = Ω(θˆ) y sustituyendo Ω por su estimador en el EMCG, obtendríamos el llamado
estimador factible:
~
β = X'Ω
F (
ˆ −1 X −1 X ' Ω)
ˆ −1Y
Para calcular Ω̂ tendremos previamente que imponer a Ω una estructura que permita
reducir el nº de parámetros a estimar, estructura que también dependerá del problema a
estudiar. Por tanto, la utilización de Ω̂ implica dos tipos de errores:
• Errores cometidos al utilizar estimadores de los parámetros de Ω

• Errores cometidos al introducir una determinada estructura para Ω
Propiedades del estimador factible
• En principio, si hay que estimar Ω , que es lo que sucede generalmente, tendremos que
Ωˆ −1 será aleatoria y no se mantendrán las propiedades para muestras finitas. No es
ELIO porque no es lineal ni insesgado.
• Tampoco es eficiente al ser sesgado
• La distribución exacta no es válida
~ ~
• β F será asintóticamente equivalente a β si se cumplen dos requisitos:
X 'Ωˆ −1 X X ' Ω −1 X
a) p lim N →∞ = p lim N →∞
N N
X 'Ω ε
ˆ −1
X ' Ω −1ε
b) p lim N →∞ = p lim N →∞
N N
en cuyo caso, tendrá las mismas propiedades asintóticas que el estimador generalizado, es
decir, será consistente, asintóticamente eficiente y asintóticamente normal.
En la mayoría de los casos estas condiciones se mantienen con tal de que el

estimador Ω̂ sea consistente. De hecho, una estimación asintóticamente eficiente del
EMCGF no requiere una estimación eficiente de θ, sino solamente una consistente. Por
~ ~
tanto, las propiedades asintóticas de β F coinciden con las de β .
~ ~
• La distribución asintótica de β F es la misma que la de β .
5
Comparación entre estimadores en el MRLNG. Contrastes y Bondad del Ajuste
Comparación entre estimadores en el MRLNG
EMCO ≠ EMV EMCG = EMV EMCGF

βˆ = ( X ' X ) X ' Y
−1
β = (X ' Ω −1 X ) X ' Ω −1Y β F = X ' Ω
~ −1
ˆ −1 X~
( )
−1
ˆ −1Y
X 'Ω
Lineal ELIO No lineal
Insesgado Consistente Sesgado
No óptimo Normal Distrib. Exactas no válidas
Consistente Distrib. exactas válidas Generalmente:
Normal S G2 insesgado, consistente si Ω̂ es consistente:
Distrib. Exactas no válidas ∑β ~

MCG
(
= σ 2 X ' Ω −1 X ) −1
Consistente
S2 sesgado, inconsistente S β~
MCG
= S G2 (X ' Ω X ) −1 −1
Asintóticamente Eficiente
S βˆβˆ es sesgado S β~β~ insesgado Asintóticamente Normal

MCO MCG
Σ βˆβˆ =σ
2
( X ' X )−1 X ' Ω X ( X ' X )−1 si Ω̂ no es consistente:
Ninguna propiedad
Bondad del ajuste en un MRLG
Si estimamos por MCO, el R2 es válido aunque el método de estimación no sea,

normalmente, el más adecuado.
Si estimamos por MCG, no hay una medida equivalente al R2 precisa. Se han propuesto
alternativas, pero han de ser tomadas con cautela cuando se usan. Una primera elección sería el R
cuadrado del modelo transformado ( R 2∗ ) pero esta regresión puede no tener término constante, por
lo que no está acotado. Aún en el caso de que tenga término constante habría que tener cuidado pues
no mide la variabilidad de Y, sino la parte de la variabilidad de Y* explicada por las X*. Una
segunda elección sería calcular una medida del ajuste basándose en los residuos del modelo original
e~ ' e~
estimado por MCG, calculado como RG2 = 1 − , pero el problema es que en el modelo original
SCT
no se cumple la descomposición de la varianza y, por lo tanto, no estaría acotado.
Si estimamos por MCGF evidentemente tampoco tiene sentido utilizar el R2.
6
Contrastes de restricciones sobre los parámetros en el MRLG (H o : Rβ = r )
• Si estimamos por MCO los contrastes habituales no son válidos ya que

βˆ MCO (
→ N β ,σ 2
(X ' X ) −1
X ' ΩX ( X ' X )
−1
), se podrían utilizar de forma aproximada si
utilizásemos un estimador consistente de la matriz de varianzas covarianzas de los
estimadores.
• Si estimamos por MCG y la matriz Ω es conocida los contrastes pueden hacerse sin
ningún problema sobre el modelo transformado o sobre el modelo original ya que el
estadístico general se sigue distribuyendo como una F :
(Rβˆ *
MCO )[ (
− r ' R X '∗ X ∗ R ')−1
] (Rβˆ
−1
*
MCO −r )→ F H
N − K −1
S 2∗ ⋅ H
o bien en función de las variables originales:
(Rβ~ MCG )[ (
− r ' R X ' Ω −1 X )−1
R'] (Rβ~
−1
MCG −r )→ F H
donde
~
S2 =
e~ ' Ω −1 e~
~ N − K −1
S 2 ⋅H N − K −1
• Si Ω es desconocida y obtenemos el estimador MCGF , sustituimos en la expresión

anterior Ω por Ω̂ lo que implica que el estadístico resultante no tendrá una
distribución F exacta, sino solo aproximada. El grado de aproximación dependerá de la
bondad de la estimación de Ω .
7
8
TEMA 1: HETEROSCEDASTICIDAD
1.1.- Planteamiento general

Una de las hipótesis básicas del modelo de regresión lineal clásico,
Yi = β0 + β1 ⋅ X1i + β 2 ⋅ X 2i +  + β k ⋅ X ki + ε i i = 1,2,, N ,
o, en forma matricial, Y = Xβ + ε es que la matriz de varianzas-covarianzas de las

( )
perturbaciones es E εε ' = σ 2 I , siendo I la matriz identidad. Esto es, las varianzas de las
perturbaciones son iguales (hipótesis de homoscedasticidad o de igualdad de varianzas) y
las covarianzas entre las mismas son nulas (hipótesis de incorrelación):
=
Var (ε i ) σ=
2
i 1,2,, N
(
Cov ε= )
i ,ε j 0=
i , j 1,2,, N i≠j
Si no se verifica cualquiera de las dos hipótesis, las varianzas no son constantes

(heteroscedasticidad) o las covarianzas no son todas nulas (autocorrelación de las
perturbaciones), tenderemos que,
E (εε ' ) = σ 2 Ω , donde Ω ≠ I
Este modelo se conoce como Modelo de Regresión Lineal Generalizado (MRLG).
Por tanto, el problema de heteroscedasticidad se produce cuando las varianzas de las
perturbaciones son desiguales, esto es, Var (ε i ) = σ i2 ≠ cte ∀i = 1,2, ,...N y, por ello,
 σ 12 0 .... 0 
 
 0 σ 22 0 
( )
E εε ' = 
....
 .... .... .... .... 
 0
 0 .... σ N2 
Si expresamos Var (ε i ) = σ i2 = σ 2 wi ∀i = 1,2, ,... N , entonces
 w1 0 .... 0 
 
E (εε ) = σ Ω , donde Ω = 
' 2  0 w2 .... 0 
.... .... .... .... 
 
0 0 .... wN 
Para explicar mejor la diferencia entre heteroscedasticidad y homoscedasticidad, vamos
analizar un modelo de regresión de dos variables en el que la variable dependiente (Y) es el
ahorro personal y la variable explicativa (X), la renta personal disponible. La Figura 1a)
muestra que a medida que aumenta la renta personal disponible, también aumenta, de
media, el ahorro, pero la varianza del ahorro en torno a su valor medio permanece igual
para todos los niveles de renta personal disponible, (recuérdese que la recta de regresión
poblacional muestra el valor medio de la variable dependiente para determinados valores de
la variable explicativa). Este es el caso de la homoscedasticidad o igual varianza. Por otra
parte, como muestra la Figura 1b), aunque el nivel medio de los ahorros aumenta a medida
que lo hace la renta personal disponible, la varianza del ahorro no permanece igual para
todos los niveles de renta. Aquí aumenta con la renta personal disponible. Este es el caso de
la heteroscedasticidad o varianza desigual. Dicho de otra manera la figura b) muestra que la
9
gente de rentas elevadas ahorra, de media, más que la gente de rentas bajas, pero también
hay más variabilidad en sus ahorros.
Figura 1 1
(a)Homoscedasticidad (igual varianza) (b) Heteroscedasticidad (varianza desigual)
Simbólicamente podemos expresar la heteroscedasticidad como
Var (Y / X i= ( ) 2 σ 2w
) Var ε i= σ i= i ∀=
i 1, 2,,... N
Obsérvese el subíndice de σ i2 , que es un recordatorio de que la varianza de ε i ya no es

constante sino que varía con cada observación.
Causas: La heteroscedasticidad se presenta, normalmente, cuando trabajamos con datos de
corte transversal.
• La naturaleza del modelo. Ejs.: ahorro en función del ingreso (a mayor ingreso, más
posibilidades de selección respecto a la forma de disponer de dicho ingreso, mayor
probabilidad de que la varianza del ahorro aumente con el ingreso), estudios sobre
los beneficios de empresas (mayor varianza de los beneficios al aumentar el tamaño
de la empresa) …
• Datos agrupados (sumas o medias de grupos). Si los datos de los que se dispone
corresponden a medias de grupos o colectivos, el modelo a estimar sería:
Yh = β o + β1 X 1h + .....β k X kh + ε h ∀h = 1 H y puede demostrarse fácilmente que
la varianza de cada perturbación depende del tamaño del grupo o colectivo al que
( )
corresponde [ Var ε h =
σ2
Nh
].
1
Gujarati (2006): Principios de Econometría. McGraw Hill.
10
• Errores de especificación del modelo: en general, algún error de omisión, cambio

estructural no incorporado,…
Consecuencias de aplicar MCO a un modelo con heteroscedasticidad
Bajo los supuestos del MRLC los estimadores MCO son los mejores estimadores lineales e
insesgados, pues son los que tienen varianza mínima: son eficientes. En el caso de que
exista heteroscedasticidad (o autocorrelación) en el modelo, las principales consecuencias
son las siguientes:
1) Los estimadores MCO siguen siendo lineales e insesgados pero ya no tienen
varianza mínima. Esto es así incluso en grandes muestras.
2) Las formulas habituales para calcular las varianzas de los estimadores dejan de ser
correctas y suelen dar varianzas sesgadas.
- La expresión habitual de la matriz de Var-Cov de βˆ MCO es ∑βˆβˆ = σ 2 ( X ' X )−1 sin
embargo, si existe heteroscedasticidad se demuestra que
∑ βˆβˆ = E (βˆ − β )(βˆ − β )' = E[( X ' X )

−1
−1
X ' εε ' X ( X ' X ) ] = σ 2 ( X ' X ) −1 X ' ΩX ( X ' X ) −1
- El sesgo también se produce por el hecho de que el S 2 , el estimador

convencional de σ 2 , ya no es un estimador insesgado y recuérdese que S 2
interviene en el estimador de las varianzas de los estimadores. S 2 también deja de
ser consistente.
3) Como consecuencia, los contrastes de hipótesis y los intervalos de confianza
basados en el la t y F ya no son fiables. Por tanto, existe la posibilidad de extraer
conclusiones erróneas si se utilizan los procedimientos convencionales de
contrastación de hipótesis.
1.2.- Procedimientos para detectar la heteroscedasticidad:
La heteroscedasticidad, como la autocorrelación, es un problema de las perturbaciones, que

son variables inobservables. Entonces, para detectarla vamos a que utilizar los residuos de
la estimación mínimo cuadrática ordinaria, cuyos valores se pueden considerar como
estimaciones de las perturbaciones. Entre los métodos de detección de la
heteroscedasticidad hay que distinguir los procedimientos gráficos y los procedimientos
inferenciales.
• Análisis gráfico de los residuos
Es un método orientativo, útil cuando no tenemos información sobre la existencia de
heteroscedasticidad, ni sobre la estructura de las varianzas de las perturbaciones, pero se
piensa que dicha varianza es función de algún regresor.
1) Diagrama de dispersión con cada uno de los regresores, X ji , en el eje de abscisas y los
residuos, los residuos al cuadrado o su valor absoluto, ei , ei2 o | ei | , en el eje de ordenadas.
Si dependiendo de los valores de X j , los residuos son significativamente distintos de

tamaño, este hecho indicaría que la dispersión de las perturbaciones depende del valor de
X j y, por tanto, sus varianzas no serían constantes. Esta circunstancia se visualiza muy
bien en un diagrama de dispersión entre el regresor y los residuos. La Figura 2 muestra una
11
forma habitual de heteroscedasticidad: como se observa, los residuos son mayores

(positivos o negativos) para valores grandes del regresor.
Figura 2 2
Residuos
Variable explicativa X
Por su parte, un diagrama de dispersión entre un regresor y los residuos al cuadrado no sólo
puede servir para mostrar indicios de heteroscedasticidad; en este caso, la forma de la nube
de puntos ( X ji , ei2 ) puede sugerir la forma funcional que presenta la heteroscedasticidad.
Así, la nube de puntos de la Figura 3 indicaría que ei2 depende lineal o cuadráticamente de
X ji . Dado que ei2 se puede considerar una estimación de Var (ε i ) , estimación con un único
valor muestral 3, el gráfico sugeriría cual es el regresor culpable de la heteroscedasticidad y
la forma funcional de la misma. En este caso, Var (ε i ) = σ 2 X ji o Var (ε i ) = σ 2 X 2ji .
Figura 3 4
Residuos al cuadrado
2
3
Dado que la perturbación ε i es inobservable, podemos considerar el residuo ei como una muestra de
tamaño 1 de la variable ε i . Dado que E (ε i ) = 0 , entonces,
r (ε ) = E (ε 2 ) = e 2
~
Va~ i i i
esto es, estimamos la media de las perturbaciones al cuadrado con la media de los cuadrados de la muestra de
residuos, pero como sólo se dispone de un valor muestral, ei , esta media será ei2 .
4
12
( )
La Figura 4 representa posibles patrones para ei2 y, por tanto, para Var ε i . Así, la Figura
4c) siguiere una forma lineal, mientras que 4d) y 4e) cuadrática. Por su parte 4a) refleja la
no existencia de heteroscedasticidad y la forma en el caso de 4b) es más difícil de ajustar.
Figura 4 5
Puede que la heteroscedasticidad no esté provocada por un único regresor, sino

conjuntamente por varios. En este caso, sería conveniente obtener el diagrama de dispersión
con la estimación de la variable a explicar, Yî (que no es más que una combinación lineal
de los regresores) en el eje de abscisas, y los residuos, los residuos al cuadrado o su valor
absoluto en el eje de ordenadas. De esta manera, detectaríamos la heteroscedasticidad
causada por los regresores conjuntamente.
2) Otra representación gráfica para detectar la heteroscedasticidad es el diagrama de
dispersión entre cada una de las variables explicativas, X ji , en el eje de abscisas y la
variable a explicar, Yi , en el eje de ordenadas.
En muchas ocasiones, el ajuste lineal entre Y y X j es más o menos bueno (residuos
pequeños) para valores pequeños de X j , mientras que este ajuste empeora para valores
grandes de X j (residuos grandes). La Figura 5 muestra este hecho que pone en evidencia la
heteroscedasticidad del modelo.
5
13
Figura 5 6
Variable a explicar Y
Veamos estos gráficos con un ejemplo:

EJEMPLO1: Una cadena de tiendas de calzado de vestir con 95 establecimientos de venta
al público en toda España en un determinado año, está interesada en saber cómo
responden las ventas de sus tiendas en función del precio y de los gastos en publicidad
decorativa en cada una de ellas.
Las variables utilizadas son: VENTAS, PRECIO Y PUBLICIDAD.
El modelo estimado por MCO con el programa Eviews es el siguiente:
Dependent Variable: VENTAS

Method: Least Squares
Sample: 1 95
Included observations: 95
Variable Coefficient Std. Error t-Statistic Prob.
PRECIO 4511.980 451.8409 9.985772 0.0000

PUBLICIDAD 37.22551 5.081129 7.326229 0.0000
C 31158.12 11312.70 2.754259 0.0071
R-squared 0.849671 Mean dependent var 254026.1

Adjusted R-squared 0.846403 S.D. dependent var 122535.7
S.E. of regression 48023.45 Akaike info criterion 24.42784
Sum squared resid 2.12E+11 Schwarz criterion 24.50848
Log likelihood -1157.322 Hannan-Quinn criter. 24.46042
F-statistic 259.9963 Durbin-Watson stat 1.999790
Prob(F-statistic) 0.000000
Análisis de heteroscedasticidad:
• Análisis gráfico:
Realizamos la representación gráfica de los residuos al cuadrado frente a cada una de las
variables explicativas:
6
14
En ambos diagramas se detecta claramente que para los valores grandes de los regresores
la variabilidad aumenta lo cual es indicativo de la existencia de heteroscedasticidad y su
patrón de comportamiento sugiere una relación lineal. Por otro lado si realizamos el
diagrama de los residuos al cuadrado frente a la variable estimada (ventasf), el resultado
es:
Otra representación gráfica para detectar la heteroscedasticidad es el diagrama de

dispersión entre cada una de las variables explicativas, X ji , en el eje de abscisas y la
variable a explicar, Yi , en el eje de ordenadas.
El siguiente gráfico muestra este hecho para nuestro ejemplo que pone en evidencia la
heteroscedasticidad del modelo ya que aunque el ajuste lineal entre ventas y precio por un
lado y ventas y publicidad por otro es más o menos bueno (residuos pequeños) para
valores pequeños de las variables explicativas, este ajuste empeora para los valores
grandes de dichas variables (residuos grandes).
15
• Pruebas estadísticas (contrastes de hipótesis)

La hipótesis nula en todas las pruebas es la hipótesis de homoscedasticidad, es decir,
varianzas constantes de las perturbaciones y la hipótesis alternativa presencia de
heteroscedasticiad. Así,
=
H o : Var εi ( )
ε i2 σ 2
E= ( )
Por tanto, se trata de probar si el valor esperado de ε i2 se relaciona o no con una o más
variables explicativas y dado que este valor no es observable utilizaremos en su lugar ei2 .
De esta manera, si la Ho es falsa, ei2 será cualquier función de una o más variables
explicativas.
Con esta idea vamos a plantear varios contrastes que no sólo nos permitirán detectar la
posible existencia (o no) de heteroscedasticidad sino que, en el caso de que la haya, algunos
permitirán darnos una idea sobre la forma que adopta la misma.
Contraste asintótico de White

La idea del test 7 se basa en ver si los residuos mínimo cuadráticos ordinarios al cuadrado
son de algún modo función de los regresores; en este caso, deduciríamos que la varianza de
las perturbaciones son función de los regresores y, por tanto, no son constantes
(heteroscedasticidad). El test de White analiza la significación de una regresión auxiliar
que trata de explicar los residuos al cuadrado de la regresión inicial, ei 2 , a partir de los
regresores, sus cuadrados y sus productos cruzados dos a dos.
H0: Homoscedasticidad
H1: Heteroscedasticidad
El procedimiento es el siguiente:
1) Se estima el modelo por MCO calculando los residuos MCO: ei
7
Es un test asintótico basado en los multiplicadores de Lagrange.
16
2) Se estima una regresión auxiliar de los residuos MCO al cuadrado frente a cada uno
de los regresores, cada uno de los regresores al cuadrado y los productos cruzados
de los regresores dos a dos.
3) Cuando N aumenta, se demuestra que N Raux 2
 a
→ χ k2( aux ) . Siendo R aux
2
el
coeficiente de determinación de la regresión auxiliar realizada en 2) y la distribución
χ 2k ( aux ) tiene como grados de libertad el nº de regresores de la regresión auxiliar
excluido el término constante.
Valores pequeños del estadístico, nos indicarían que la regresión auxiliar no es significativa
2
( Raux pequeño), que los residuos al cuadrado y, por tanto, las varianzas de las
2
perturbaciones, no dependen de los regresores. De este modo, valores pequeños de N ⋅ Raux
llevarían a no rechazar (aceptar) la homoscedasticidad. En cambio, valores grandes
llevarían a rechazar la homoscedasticidad.
EJEMPLO1: Las salidas del programa Eviews8 nos proporciona la siguiente salida:
Como puede verse, el p-valor asociado al estadístico de White es igual a 0,0025 lo cual
indica que rechazamos la hipótesis nula y detecta claramente heteroscedasticidad.
Contrastes basados en regresiones

Estos contrastes siguen la misma idea del test de White y suponen que las varianzas de las
perturbaciones son función de una o varias variables, generalmente, variables explicativas
del modelo econométrico propuesto.
El procedimiento concreto de la prueba Breusch Pagan consiste en plantear regresiones de
los residuos al cuadrado en función de las variables explicativas. Es un test LM y al igual
que en el de White se puede construir el estadístico N Raux2
→ χ k2( aux ) siendo k el número de
variables de la regresión auxiliar. También se podría analizar la significación conjunta de la
regresión. Las variables explicativas incluidas pueden aparecer en sus niveles o como
funciones de ellas, por ejemplo, al cuadrado, el inverso, etc.
De forma similar se puede plantear el test de Glejser donde en lugar de los residuos al
cuadrado de la regresión auxiliar se especifican los residuos en valor absoluto.
17
La ventaja de estos contrastes es que permiten detectar, no sólo la existencia de

heteroscedasticidad, sino también la forma. Esto último es importante para poder solucionar
el problema.
Veamos las salidas del Eviews en el EJEMPLO1:

Contraste de Breush-Pagan-Godfrey sobre cada una de las dos variables explicativas:
Detecta que la varianza de las perturbaciones es una función del precio y por tanto no es
constante.
Contraste de Goldfeld y Quandt

Esta prueba supone que existe una relación creciente (o decreciente) entre la Var (εi) y el
1
valor de uno de los regresores: σ i2 = h( X ji ) , es decir, σ i2 = σ 2 X 2ji o bien σ i2 = σ 2 2 . De
X ji
esta forma para los valores grandes de Xji la varianza será mayor si la hipótesis es cierta (si
es decreciente la varianza será menor).
La hipótesis a contrastar es:
HO: Homocedasticidad σ i2 = σ 2 una constante
H1: Heteroscedasticidad σ i2 = h( X ji )
El procedimiento del test es el siguiente:
1) Se ordenan las observaciones según los valores crecientes de Xj.
2) Se suprimen un nº central de observaciones (c), generalmente un cuarto o un tercio
de todas las observaciones (esto no es imprescindible pero es más fácil detectar el
problema), dividiendo la muestra en dos submuestras del mismo tamaño, la primera
con los valores más pequeños de la variable y la segunda con los más grandes.
3) Se estima por MCO cada una de las submuestras con (N-c)/2 observaciones cada
una, siendo c el número de observaciones eliminadas.
4) Calculamos sus respectivas SCR
5) Se construye un estadístico F de la forma:
18
N −c N −c
mayorSCR − k −1 mayorS 2 − k −1
→ F N −2c o bien → F N −2c
menorSCR
2
− k −1 menorS 2 2
− k −1
Valores pequeños del estadístico indicarían que no hay grandes diferencias entre las
varianzas estimadas en las dos submuestras y, por tanto, las varianzas de las perturbaciones
serán constantes. De este modo, valores pequeños del estadístico llevarían a no rechazar la
hipótesis de homoscedasticidad 8. En cambio, valores grandes llevarían a rechazarla.
Además, si mayorSCR se corresponde a la segunda muestra, se rechazará frente a
σ i2 = σ 2 X 2ji , mientras que si mayorSCR se corresponde a la primera nos indica que la
1
homoscedasticidad se rechaza frente a σ i2 = σ 2 2 .
X ji
Veamos en nuestro EJEMPLO1, se ordenan de forma ascendente todas las observaciones

de las variables en función del precio 9 (sentencia:proc/sortcurrent page) eliminando las 11
observaciones centrales por lo que cada muestra queda con 42 observaciones, dando como
resultado de las dos submuestras las siguientes estimaciones:
HO: Homoscedasticidad Var ( ε ) = σ 2 una constante
H1: Heteroscedasticidad Var ( ε ) = σ 2 precio 2
1, 45E + 11
=
El valor muestral des estadístico F* = 3,11 y el valor crítico para un nivel de
4,66 E + 10
significación del 5% es F3939 ≅ F4040 =
1,6928 por tanto, se rechaza la hipótesis nula de
homoscedasticidad y como ya se ha detectado antes se asume que el precio es el causante
de la heteroscedasticidad.
8
Nótese que si no se rechaza la hipótesis nula no significa que no exista heteroscedasticidad, dado que ésta
podría estar asociada a otra variable y, tal vez haya que repetir el proceso con otras variables.
9
Previamente a ordenar las observaciones, se genera una variable tendencia de tal forma, que al acabar de
hacer el contraste, se vuelven a ordenar todas observaciones en función de la tendencia y así todas las
observaciones quedarían como estaban previamente en el fichero. Este paso es esencial cuando se trabaja con
series temporales.
19
1.3.- Estimación del modelo
Mínimos cuadrados ponderados (cuando se conoce σ i2 y por tanto Ω)

Para ver en qué consiste el método de Mínimos Cuadrados Ponderados (MCP) vamos a ver
intuitivamente por qué no son eficientes los estimadores de MCO. Para ello vamos a partir
de un modelo de dos variables representado en la Figura 5. La Figura 5a) muestra una
población hipotética Y frente a diversos valores de la variable X. Como se comprueba, la
varianza de la distribución de Y correspondiente a una determinada X no es constante, lo
que indica la presencia de heteroscedasticidad en el modelo. Supongamos que elegimos
aleatoriamente un valor Y para cada valor X. Las Y seleccionadas están marcadas con un
punto y es la muestra representada en la Figura 5b) a partir de la cual estimamos el modelo.
Como ya sabemos, si estimamos la recta de regresión poblacional a partir de nuestra
muestra seleccionada (Figura 5b) utilizando MCO, lo que hacemos es minimizar la suma de
los errores al cuadrado.
MCO min ∑ ei2
i
Es decir, cada error recibe la misma ponderación independientemente de que provenga de

una población con una varianza más elevada o una varianza pequeña (compara los puntos
Y1 e Yn). Esto no parece muy razonable. Lo ideal es que diéramos más ponderación a las
observaciones provenientes de poblaciones con menor varianza (más representativas de su
valor medio) que a las de varianza mayor (menos representativas de su valor medio). Esto
nos permitirá estimar con mayor precisión la recta de regresión poblacional y es
precisamente lo que hace el Método de Mínimos Cuadrados Ponderados, en el que
minimizamos
2
e 
MCP min ∑  i 
i σi 
por tanto, damos más peso a las observaciones con menor desviación típica y menos a las
que tienen una desviación típica mayor.
20
Figura 6 10
¿Cómo se obtienen los estimadores de MCP sabiendo que var(ε i ) = σ 2 wi ?

La vía para obtener los estimadores de MCP consiste en transformar el modelo de cara a
que las varianzas de las perturbaciones del modelo transformado sean constantes. Si eso se
logra, el modelo transformado no presentará problemas de heteroscedasticidad y será un
MRLC con lo que la estimación por MCO proporcionará los mejores estimadores,
pudiéndose aplicar los procedimientos de inferencia habituales. De este modo, los
estimadores MCP son los estimadores MCO el modelo transformado.
Dado que la heteroscedasticidad es un caso particular del modelo de regresión generalizado,
si Ω es conocida, la estimación no tiene ningún problema, solamente debemos encontrar la
matriz P tal que P’P = Ω-1 y aplicar MCG o MCO al modelo transformado.
1 / w1 0 .... 0  1 / w1 0 .... 0 
   
 0 1 / w2 .... 0   0 1 / w2 .... 0 
Ω −1 =  ; P= 
.... .... .... ....  .... .... .... .... 
 
 0   0 
 0 .... 1 / wN   0 .... 1 / wN 
Siendo P la matriz que transforma el modelo de regresión lineal generalizado en un modelo
de regresión lineal clásico.
Por tanto, las matrices correspondientes al modelo transformado serían:
 1 / w1 X 11 / w1 .... X k1 / w1 
   Y1 / w1   ε 1 / w1 
 1 / w2 X 12 / w2 .... X k2 / w2     
PX =  ; PY =    ; Pε =   ;
 .... .... .... ....     
1 / w X 1N / wN .... X kN / wN   YN / w N   ε N / wN 
 N
10
21
La observación i-ésima del modelo será:
Yi 1 X 1i X ki εi
= βo + β1 + .......β k +
wi wi wi wi wi
donde la perturbación del modelo transformado no presenta el problema de la

heteroscedasticidad (es un MRLC).
εi 1 σ 2 wi
Var ( =
) var(ε=
i) = σ=
2
cte
wi ( wi ) 2 wi
Por tanto, los estimadores MCO de β o , β1  β k de este modelo transformado son los
estimadores por Mínimos Cuadrados Ponderados (MCP), llamados también de Mínimos
Cuadrados Generalizados; donde cada observación de Y, X1 y X2 se pondera (es decir, se
divide) por la desviación típica ( σ i ). Las observaciones de distribuciones con mayor
varianza (o desviación típica) tienen menos peso que aquellas que provienen de
distribuciones con varianza menor. Como el modelo transformado es un MRLC los
estimadores MCO (y, por tanto, los MCP) serán ELIO y consistentes.
Obsérvese que lo que se hace para conseguir perturbaciones con igual varianza es tipificar
cada variable ( Zε i ), esto es,
ε i − E (ε i ) ε
Vi = Zε i = = i
Var (ε i ) σ i2
Mínimos cuadrados ponderados (cuando se desconoce σ i2 ). Obtención del estimador

factible
El conocimiento de la auténtica varianza de las perturbaciones es muy infrecuente. Por ello
es necesario plantearse ¿qué ocurre si no conocemos la auténtica varianza de las
perturbaciones? La respuesta es recurrir a algún supuesto o hipótesis sobre σ i2 y
transformar el modelo de regresión original para que el modelo transformado cumpla el
supuesto de homoscedasticidad.
A la hora de hacer supuestos o hipótesis sobre la forma de la heteroscedasticidad, los
gráficos y contrastes desarrollados anteriormente sirven de guía. Las hipótesis más
frecuentes consisten en suponer que las varianzas de las perturbaciones son proporcionales
a los valores absolutos de un determinado regresor, a los cuadrados de los valores de dicho
regresor o a una combinación lineal de todos los regresores ( Yî2 ). Es decir:
( )
Var ε i = σ 2 X ji o bien ( )
Var ε i = σ 2 X 2ji ( )
o bien Var ε i = σ 2Yî2
donde σ 2 (no hay subíndice en σ 2 ) es el factor de proporcionalidad.

Partiendo de cualquiera de estos supuestos, la forma de proceder es la misma que si la
varianza fuera conocida. Así, si suponemos que Var ε i = σ 2 X 2ji el modelo transformado ( )
vendrá dado por:
Yi 1 X 1i X ki εi
= βo + β1 + .......β k +
2 2 2 2
X ji X ji X ji X ji X 2ji
22
O lo que es lo mismo
Yi 1 X X
= βo + β1 1i + .......β k ki + vi
X ji X ji X ji X ji
Así, obtendríamos los ahora llamados estimadores MCPF (Mínimos cuadrados ponderados
factibles), estimando el modelo transformado por MCO.
Donde la perturbación sólo cumplirá las hipótesis clásicas si hubiéramos acertado en la
formulación de la varianza (esta cuestión se desconoce):
ε ε 1 σ 2ωi
vi = i , por tanto: Var (vi ) = Var ( i ) = Var (ε i ) = = ?? = ¿ cte ?
X X ji2 2
ji ( X ji ) X ji
Dado que nos basamos en una hipótesis sobre los verdaderos valores de σ i2 , la calidad de
las estimaciones dependerá de la idoneidad de la misma. Por ello, en este caso es necesario
comprobar que el modelo transformado ya no tiene heteroscedasticidad. Para ello se pueden
utilizar los gráficos y contrastes vistos anteriormente. De esta manera, si podemos aceptar
que en el modelo transformado la perturbación es homoscedástica el estimador MCPF tiene
las propiedades asintóticas del estimador MCP. En caso contrario, la estimación ponderada
no mejora ninguna de las propiedades del EMCO del modelo original.
Veamos la estimación ponderada con el programa Eviews en nuestro EJEMPLO1
suponiendo en base al test de Breusch-Pagan-Godfrey y Golfeld y Quandt que :
Var (ε i ) = σ 2 precioi
23
Contrastamos si existe o no heteroscedasticidad en este modelo:
La conclusión es que no se rechaza la hipótesis nula de homoscedasticidad por tanto el

estimador factible sería consistente y asintóticamente eficiente.
Sin embargo si hubiésemos supuesto como hipótesis Var (ε i ) = σ 2 publicidad i
Rechazaríamos la hipótesis nula y por tanto seguiría existiendo heteroscedasticidad por lo

que el estimador factible no tendría ninguna propiedad.
Mínimos Cuadrados Ordinarios con la matriz de varianzas y covarianzas de White

A veces resulta difícil encontrar una hipótesis adecuada para la estructura de la varianza de
las perturbaciones ( σ i2 ). En estos casos, la estimación ponderada no proporciona mejores
estimadores que aplicar MCO al modelo original. Por ello, en estas situaciones es
conveniente seguir estimando el modelo original por MCO pero calculando bien los
estimadores de las varianzas de los estimadores de β , para que la inferencia realizada a
partir de los resultados del modelo así estimado sea válida.
24
White ha desarrollado un procedimiento para calcular correctamente la desviación típica de

los estimadores MCO en presencia de heteroscedasticidad, que permite poder seguir
utilizando los test de la t y de la F, aunque sólo son válidos asintóticamente, es decir, en
muestras grandes.
El estimador consistente de ∑βˆβˆ de White es: Σˆ WHITE = N ( X ' X ) Vˆ ( X ' X )
−1 −1
  e2  
1   1  
donde Vˆ =  X '    X  , siendo ei el error mínimo cuadrático ordinario.
N  
 e N  
2
   
En nuestro EJEMPLO1, la estimación MCO con la matriz de White da el siguiente
resultado:
Como vemos los estimadores de los parámetros son los mismos que obtuvimos en la
estimación de mínimos cuadrados ordinarios, pero sus errores estándar son distintos y por
tanto, también los estadísticos t (que no eran válidos en la estimación de mínimos
cuadrados ordinario) que ahora son válidos asintóticamente.
Formas alternativas para corregir la heteroscedasticidad

Existen otras vías para solventar los problemas de heteroscedasticidad que no pasan por
cambiar el método de estimación sino que conllevan realizar transformaciones en los datos
para que la variabilidad se reduzca. Concretamente, la transformación de los datos tomando
logaritmos soluciona en muchos casos los problemas de heteroscedasticidad detectados.
Otras posibilidades son deflacionar las series (si es que son monetarias) o trabajar en ratios.
Veamos este supuesto en nuestro EJEMPLO3 transformando las series aplicando

logaritmos:
25
Veamos con el test de White si existe heteroscedasticidad:
Como vemos el estadístico de White es igual a 8,69 y el p-valor asociado es igual a 0,122
por lo tanto, no rechazamos la hipótesis nula, por lo que podemos concluir que en este
modelo no existe heteroscedasticidad.
26
TEMA 2. ANÁLISIS DE REGRESIÓN CON SERIES TEMPORALES.

AUTOCORRELACIÓN
Cuando se proponen modelos econométricos, es muy importante tener en cuenta la

naturaleza de los datos. En concreto, cuando se trabaja con series de tiempo existe un orden
natural, aquel que impone el tiempo. Además, con los datos temporales es muy probable
que las observaciones estén correlacionadas a lo largo del tiempo. Por ejemplo, la inversión
realizada por una empresa durante un mes es seguro que esté determinada por los tipos de
interés o de la propia inversión de la empresa en meses pasados. Por lo tanto, los efectos de
los cambios en las variables no son todos instantáneos, sino que se dejan notar a lo largo de
tiempo. En principio, se pueden considerar tres formas de plantear estas relaciones
dinámicas 11:
a) Especificar un modelo cuya variable dependiente sea función de los valores actuales
y pasados de las variables explicativas (Tema 5).
b) Especificar un modelo en el que aparezca la variable dependiente retardada entre
sus regresores (Temas 4 y 5).
c) Especificar un modelo donde las relaciones dinámicas se introduzcan mediante la
perturbación aleatoria. Por ejemplo, podemos suponer que
ε t = f (ε t −1 )
O lo que es lo mismo ε t +1 = f (ε t ) . En este caso, se dice que las perturbaciones están
autocorrelacionadas o que existe autocorrelación (esta es la cuestión que trataremos en
este tema). Por lo tanto, la perturbación aleatoria afecta no sólo al valor actual de la
variable dependiente, Yt, sino también a Yt+1,, Yt+2,…,
Cuando existe autocorrelación, se rompe con la hipótesis de incorrelación entre las
perturbaciones del modelo de regresión clásico E (ε t ε s ) = 0 . Por tanto, suponemos que:
 E (ε t ) = 0

 E (ε t ε t − s ) ≠ 0 ∀s = 1, 2... .
 E (ε )2 = σ 2
 t
La matriz de varianzas y covarianzas de las perturbaciones será:

σ 2 Cov(ε 1ε 2 )  Cov(ε 1ε T )   σ 2 ≠ 0  ≠ 0
   
 σ2  Cov(ε 2 ε T )  σ 2  ≠ 0
E (εε ' ) = σ Ω = 
2
= 
       
 σ2   σ 2 
  
Estamos por tanto, como en el supuesto de heteroscedasticidad, en un caso particular del
modelo de regresión generalizado.
11
Como veremos posteriormente, las tres formas de introducir relaciones dinámicas están relacionadas y no
son tan diferentes como se podría pensar en un principio.
27
Causas de la autocorrelación
1) La autocorrelación se produce principalmente cuando trabajamos con datos de series
temporales. En este caso, la propia inercia de las series económicas hace que efectos de
situaciones pasadas influyan en el momento actual. Por otra parte, si la variable
endógena presenta una tendencia creciente y las variables explicativas no explican
dicho comportamiento, será la perturbación quien recoja dicha tendencia y esto se
manifiesta en la existencia de autocorrelación positiva.
2) Existencia de errores de especificación como: omisión de variables relevantes (que
recojan ciclos, tendencias, variable endógena retardada) o mala especificación
funcional.
3) Existencia de relaciones dinámicas entre las variables.
4) Manipulación de datos, como por ejemplo, la desestacionalización de una serie
mediante la utilización de medias móviles.
Dependiendo de la causa de la autocorrelación, el procedimiento para corregirla será uno u
otro. Si se debe a un error de especificación lo que hay que hacer es solucionar dicho error
y, por tanto, antes de actuar sobre la autocorrelación primero hay que evaluar el modelo.
2.2.- Estructuras de dependencia temporal.
Un modelo con autocorrelación presenta una matriz de varianzas y covarianzas de las

T(T − 1)
perturbaciones que puede tener, en general, covarianzas desconocidas además
2
del parámetro de la varianza, σ 2 , y, por tanto, ya que sólo disponemos de T observaciones,
supone un problema de estimación irresoluble. Aún suponiendo, como vamos a hacer, que
las perturbaciones son procesos débilmente estacionarios, es decir, que sus momentos de
primer y segundo orden no dependen del tiempo (en concreto, para las covarianzas entre las
distintas observaciones nos encontramos que sólo dependen de la distancia entre dichas
observaciones) 12, el número de parámetros de dicha matriz sería igual a T y, en general, en
el modelo tendríamos T+K+1 parámetros a estimar. Por ello, es necesario establecer
posibles estructuras de enlace entre las perturbaciones que reduzcan dichos parámetros
desconocidos. Así:
Var (ε 1 ) Cov(ε 1ε 2 )  Cov(ε 1ε T )   γ o γ 1  γ T −1 
   
 Var (ε 2 )  Cov(ε 2ε T )  γ o  γ T −2 
E (εε ') = σ Ω = 
2
=
    
   
 Var (ε T )   γ o 

Los esquemas más utilizados son:
Proceso autorregresivo de orden p: AR(p):

ε t = φ1ε t −1 + φ 2 ε t − 2 + ... + φ p ε t − p + u t donde ut es un ruido blanco (variable aleatoria que
cumple las hipótesis clásicas). A los coeficientes φ se les impone ciertas restricciones para
que se cumpla una condición llamada de estacionariedad que veremos más adelante.
12
Esto significa, por ejemplo, que Cov( ε 1ε 2 ) = Cov( ε 2 ε 3 ) = Cov( ε 7 ε 8 ) = ... = Cov( ε t ε t +1 ) .
28
Proceso de medias móviles de orden q: MA(q)
ε t = u t − θ1 u t −1 − ..... − θ q u t − q donde ut es un ruido blanco. A los coeficientes θ también se

les impone ciertas restricciones. Normalmente, trabajaremos con órdenes pequeños.
Proceso autorregresivo de medias móviles de orden p, q: ARMA(p,q)
Estos procesos son una generalización de los procesos AR y MA.

ε t = φ1 ε t −1 + φ 2 ε t − 2 + ...... + φ p ε t − p + u t − θ1u t −1 − ..... − θ q u t − q donde ut es un ruido blanco.
Deducimos la matriz de varianzas y covarianzas de las perturbaciones, suponiendo que el

esquema que siguen las perturbaciones fuese un AR(1).
Proceso AR(1)
En la Econometría clásica, el esquema más habitual es el autorregresivo de orden 1
(AR(1)): ε t = ρ ε t −1 + u t donde ut es un ruido blanco (variable aleatoria que cumple las
hipótesis clásicas) y ρ es el parámetro a estimar. Imponemos la restricción de que ρ < 1
denominada “condición de estabilidad del modelo” o “condición de estacionariedad”. Esta
condición asegura que el modelo AR(1) tiene varianza finita. Veamos cómo sería en este
caso la matriz de varianzas y covarianzas de las perturbaciones
Partiendo del esquema AR(1) para la perturbación: ε t = ρ ε t −1 + u t
Sustituimos en él la expresión para el periodo t-1: ε t −1 = ρ ε t −2 + u t −1
ε t ρ [ ρε t −2 + ut −1 ] +=
Tenemos, por tanto:= ut ρ 2ε t −2 + ρ ut −1 + ut
∞
Y haciendo sucesivas sustituciones: ε t = ρ ∞ ε t −∞ + ∑ ρ τ u t −τ
τ =0
∞
Por la condición de estacionariedad ρ ∞ → 0 y, entonces: ε t = ∑ ρ τ u t −τ
τ =0
Momentos:
∞
* E (ε t ) = ∑ ρ τ E (u t −τ ) = 0
τ =0
2
 ∞  ∞
* γ 0 = Var (ε t ) = E (ε t ) = E  ∑ ρ τ u t −τ  = ..... = ∑ ρ 2τ σ u2 = σ u2 (1 + ρ 2 + ρ 4 + ...)
2
 τ =0  τ =0
σ u2
γ o = Var (ε t ) = σ ε = 2
=γ0
1− ρ 2
* γ 1 = Cov(ε t ε t +1 ) = E (ε t ε t +1 ) = E [ε t (ρε t + u t +1 )] = ... = ρσ ε2 = ργ 0 puesto que E (ε t u t +1 ) = 0
* γ 2 = Cov(ε t ε t + 2 ) = E (ε t ε t + 2 ) = ρ E (ε t ε t +1 ) = ρ 2σ ε2 = ρ 2 γ 0
En general:
29
* γ s = Cov(ε t ε t + s ) = E (ε t ε t + s ) = ρ s σ ε2 = ρ s γ 0 ∀s = 1,2 ,...

La matriz de varianzas-covarianzas será:
 1 ρ ρ2
 ρ T −1   1 ρ ρ 2  ρ T −1 
   
 ρ 1 ρ
 ρ T −2   ρ 1 ρ  ρ T −2 
E (εε = ) σ ε  ρ 2 1
' 2
ρ 1  ρ T −3 =  σ u2  ρ2 ρ 1  ρ T −3 = σ u2Ω
 1− ρ 
2

             
 ρ T −1
ρ T −2 ρ T −3  1   ρ T −1 ρ T −2 ρ T −3  1 
 
  
Ω
por tanto, el número de parámetros a estimar se ha reducido considerablemente al suponer
que la estructura de dependencia temporal entre las perturbaciones es un AR(1).
2.3.- Procedimientos para detectar la autocorrelación
A) Métodos gráficos
1. Representaciones gráficas de los residuos et frente al tiempo
2. Representaciones gráficas de los residuos et frente a et −1
En ambos casos, consiste en determinar si los residuos tienen un comportamiento

puramente aleatorio o al contrario, siguen una cierta sistemática.
Figura 7 13
13
30
Figura 8 14
EJEMPLO2: Se pretende realizar un estudio de la función de importaciones en España

para el periodo 1971-1996, en función de la renta nacional a coste de los factores, ambas
en euros constantes de 1986.
Supuesta una relación lineal entre ambas variables de la forma:
IMPt = β O + β1 RENTA t + ε t
Los resultados del modelo estimado por MCO con el programa Eviews8 son los siguientes:
14
31
El modelo tiene un buen ajuste, sin embargo dado que estamos trabajando con series
temporales deberíamos estudiar la existencia de autocorrelación, ya que si existe
autocorrelación, los errores estándar de los estimadores y los estadísticos t no son válidos.
Por tanto el aceptar o no los resultados de la estimación anterior, requiere analizar la
existencia o no de autocorrelación.
A) Métodos gráficos:
1. Gráficos de los residuos:
Figura 9 Figura 10
En la Figura 9 se ve claramente que los residuos siguen una pauta de autocorrelación

positiva corroborada por la nube de puntos de los residuos frente a los residuos retardados
de la Figura 10 donde la mayoría de los puntos se encuentran en los cuadrantes 1 y 3.
2. Identificación de los residuos (combinación de métodos gráficos y contrastes)

La identificación de los residuos consiste en analizar el comportamiento de sus coeficientes
de correlación y correlación parcial. En la práctica la perturbación no es observable y no se
pueden calcular los verdaderos coeficientes de correlación simple y parcial, sino que hay
que obtener estimadores de dichas funciones utilizando las series de los residuos de
mínimos cuadrados ordinarios.
32
Así, la función de autocorrelación simple muestral (FASE) se calcula como:

T −s
∑ et et + s
=ρˆ s t =1
T
= ∀s 1, 2,...
∑ et 2
t =1
Y la función de autocorrelación parcial muestral (FAPE) como:

R*s
ρˆ s =
•
Rs
Donde las matrices se calculan a partir de los coeficientes de correlación estimados que a su
vez utilizan las series de los residuos mínimo cuadráticos.
El comportamiento de los coeficientes estimados no es exactamente el de los teóricos. Dado
que son variables aleatorias con distribución conocida, se decide si el coeficiente de
correlación es cero (no habría autocorrelación) o no (habría autocorrelación) mediante la
aplicación de contrastes o a partir del cálculo de su intervalo de confianza. Aunque este
intervalo teóricamente no es el mismo para realizar el contraste en la función de
autocorrelación y autocorrelación parcial, algunos programas construyen el mismo (como
Eviews) y dicho intervalo para un nivel de significación del 5% viene dado por:
1  1 
ρˆ s• → N ( 0 ,Var( ρˆ s . )) donde Vâr( ρˆ s• ) ≅ por tanto el IC :  ±1,96
T  T 
Veamos la Función de autocorrelación de los residuos MCO del ejemplo2
 1 
El intervalo de confianza es: IC :  ±2 [ −0,392 ;0,392]
=
 26 
Como existen coeficientes que sobresalen las bandas de confianza, los residuos presentan
autocorrelación.
B) Contrastes estadísticos
Todos ellos utilizan para su elaboración los residuos obtenidos en la estimación mínimo
cuadrática ordinaria y plantean en la hipótesis nula la ausencia de autocorrelación. La
33
hipótesis alternativa difiere de unos contrastes a otros, planteando distintos procesos de

correlación entre las perturbaciones según los casos.
1.- Contraste de Durbin-Watson
La hipótesis nula del contraste plantea la ausencia de autocorrelación, mientras que la
alternativa considera la existencia de autocorrelación mediante un AR(1) ( ε t = ρε t −1 + u t ).
Es un contraste de una sola cola según se establezca que ρ < 0 o ρ > 0, es decir:
H0 : ρ = 0
H1 : ρ < 0 o ρ >0
El estadístico del contraste se define como:
T
∑ (e − et −1 )
2
t
d= t =2
T
∑e
2
t
t =1
donde e son los residuos MCO.

Se suele considerar la siguiente aproximación: d = 2(1 − ρˆ ) siendo ρ̂ el coeficiente de
correlación muestral entre et y et −1 y, por lo tanto, como ρ̂ está comprendido entre -1 y 1,
el estadístico de Durbin-Watson estará comprendido entre 0 y 4:
ρˆ = −1 ⇒ d=4 ⇒ Existe Autocorrelación negativa
ρˆ = 0 ⇒ d=2 ⇒ No existe autocorrelación
ρˆ = 1 ⇒ d=0 ⇒ Existe Autocorrelación positiva
La distribución de probabilidad exacta del estadístico es difícil de encontrar, ya que, como
demostraron Durbin y Watson, depende en forma complicada, de los valores de las X en
una muestra dada. Sin embargo, Durbin y Watson tabularon un límite inferior (dL) y un
límite superior (dU) para diferentes tamaños muestrales y diferente número de regresores,
de forma que al comparar el valor muestral del estadístico con esas cotas se puede tomar
una decisión sobre la posible presencia de autocorrelación.
Durbin y Watson sólo buscaron dichas cotas para el caso de autocorrelación positiva, por lo
que el contraste es de una cola. No obstante debido a la simetría del estadístico también es
posible contrastar el caso de autocorrelación negativa.
Autoc. Posit. Zona duda Incorrelación Zona duda Autoc.Negat.
0 dL dU 2 4-dU 4-dL 4
Inconvenientes:
34
1. No es válido cuando el modelo no tiene término constante.

2. No se puede utilizar si el modelo incluye regresores estocásticos y por lo tanto no se
puede utilizar en los llamados modelos autorregresivos (modelos en los que la
variable endógena retardada está entre los regresores). Para ese caso Durbin
propuso:
T
h = ρˆ 
→
a
N (0,1)
1 − TVar ( βˆ i )
donde Var ( βî ) es la varianza del parámetro que acompaña al primer retardo de la
variable endógena (en la práctica se utiliza S β2ˆ ) y ρ̂ es el estimador de ρ obtenido a
i
partir de la regresión de et sobre et −1 .

3. Existen dos zonas de indeterminación en las cuales el contraste no nos dice nada y
hemos de recurrir a otro.
4. Para un T pequeño y un k grande, las condiciones del contraste no son muy fiables.
5. La hipótesis alternativa que se propone es la de un AR(1). Wallis hizo una extensión
del test de Durbin-Watson para el caso de series trimestrales con problemas de
estacionalidad y propuso un estadístico de Durbin-Watson modificado:
T
∑ (e − et − 4 )
2
t
d4 = t =5
T
∑e
2
t
t =1
2.- Contraste de Breusch y Godfrey

Hipótesis:
H 0 : Ausencia de autocorrelación ( ρ1 = ρ 2 = ... = ρ m = 0)
H 1 : AR(m) o MA(m)
Es un contraste asintótico de multiplicadores de Lagrange.
Procedimiento:
1) Estimar el modelo por MCO y calcular los residuos: e = Y − Xβˆ
2) Hacer la regresión auxiliar de dichos residuos sobre m retardos suyos y todas las
variables explicativas del modelo (tanto exógenas como endógenas retardadas). El
número de retardos es el del orden del esquema AR o MA que estamos suponiendo
en la hipótesis alternativa.
3) 2
Bajo la H0 el estadístico es: T Raux 
→
a
χ m2
Donde m es el orden del esquema propuesto en la hipótesis alternativa.
Este contraste se puede utilizar cuando la variable endógena aparece retardada como un
regresor.
Nota: En teoría para realizar la regresión auxiliar se pierden m observaciones, pero el
programa Eviews toma los valores de los errores retardados m periodos iguales a cero.
35
3.- Contraste de Ljung-Box

Hipótesis:
H 0 : Ausencia de autocorrelación ( ρ1 = ρ 2 = ... = ρ m = 0)
H 1 : ARMA
El estadístico del contraste es:
m
ρˆ s2
Q = T (T + 2)∑ 
→
a
χ m2
s =1 T −s
donde ρ̂ s es el coeficiente de correlación muestral de orden s entre los residuos.
Volvemos a nuestro EJEMPLO2:
Contraste de Durbin Watson:
H0 : ρ = 0
H1 : ρ < 0 o ρ >0
Para realizar el contraste buscamos los valores críticos dL y dU para k=1 y T=26, siendo
para un α = 5% dL=1,302 y dU=1,461 y dado que el estadístico d=0,24 implica que d<dL
lo cual supone que rechazamos la hipótesis nula de incorrelación y admitimos una
autocorrelación de orden 1 positiva.
Contraste de Ljung-Box: Como se puede ver en el correlograma estimado de los residuos
anterior, el p-valor asociado a cualquier valor muestral del estadístico Q es cero, sea cual
sea el número de retardos, por tanto se rechaza la hipótesis nula de incorrelación en todos
los casos.
Contraste de Breuch-Godfrey(B-G): Un problema práctico a la hora de realizar este test es
la elección del número de errores retardados (en definitiva determinar la hipótesis
alternativa). En este caso hemos supuesto dos retardos pero se podrían plantear distintas
posibilidades y realizar una selección a partir de los criterios de Akaike y Schwartz.
H 0 : Incorrelación
H1 : AR(2) o MA(2)
En cualquier caso, detecta claramente la existencia de autocorrelación TR2=15,79 y su p-
valor es cero por tanto rechazamos la hipótesis nula. Por otro lado el segundo retardo no
es significativa lo cual indica que el esquema de la perturbaciones es efectivamente un
AR(1).
36
2.4.-. Estimación del modelo

Dado que un modelo con autocorrelación es un caso particular del modelo generalizado, la
estimación del mismo por MCO ignorando dicha situación, como sabemos, genera
estimadores que, aunque mantienen las propiedades de linealidad, insesgadez y
consistencia, no son óptimos. El S2 no tiene ninguna propiedad y los test de hipótesis no
son válidos.
En ese caso, recordemos que los estimadores con mejores propiedades son los de MCG,
aunque dichas propiedades dependen del conocimiento que tengamos de la matriz Ω.
Vamos a plantear dos supestos:
A. Estimación con Ω conocida, σ u2 desconocida
Dos opciones:
( X ' −1 X ) X ' Ω−1Y , lo que suele ser poco operativo

−1
Estimar por MCG: βMCG =Ω
Estimar por MCO el modelo transformado: PY=PXβ+Pε

La forma concreta de la matriz Ω −1 bajo el supuesto AR(1) es:
 1 −ρ 0 0  0 
 
− ρ (
1+ ρ 2 ) −ρ 0  0 
 0
Ω −1 = 
−ρ (
1+ ρ 2 ) −ρ  0 

     
 0
 0 0  (1 + ρ )
2
− ρ 
 0  −ρ 1 
 0 0
37
Y de la matriz P de transformación:
 1− ρ 2
 0 0  0 0 
 −ρ 1 0  0 0
 
−ρ 1  0 0
P=
0
      
 
 0 0 0  1 0
 0
 0 0  − ρ 1  −1
tal que P' P = Ω
Siendo las matrices del modelo transformado:
 1− ρ2 1 − ρ 2 X 11 .... 1 − ρ 2 X k1 
 
PX =  (1− ρ ) ( X 12 − ρ X 11 ) .... ( X k2 − ρ X k1 ) 
 .... .... .... .... 
 
 (1 − ρ ) ( X − ρ X ) .... ( X − ρ X ) 
 1T 1T −1 kT kT −1 
Y 1− ρ2   ε 1− ρ2 
 1
  1 
 Y2 − ρY1   ε 2 − ρε1 
=PY = ; Pε
     
   
 Y − ρY   ε − ρε 
 T T −1   T T −1 
A.1.Método de Prais-Winsten: la ecuación del modelo transformado es:

Para t=1
Y1 1 − ρ 2 = β 0 1 − ρ 2 + β1 1 − ρ 2 X 11 +  + β k 1 − ρ 2 X k1 + 1 − ρ 2 ε 1
Para t=2,3,…T
Yt − ρ Yt −1 = β o (1 − ρ ) + β1 ( X 1t − ρX 1t −1 ) + ....... + β k ( X kt − ρX kt −1 ) + (ε t − ρε t −1 )
A.2.- Método de Diferencias generalizado:

Estima el modelo sin la primera observación, por lo que para t= 2…..T el modelo
transformado es:
Yt − ρ Yt −1 = β o (1 − ρ ) + β1 ( X 1t − ρX 1t −1 ) + ....... + β k ( X kt − ρX kt −1 ) + (ε t − ρε t −1 )
Asintóticamente, los dos métodos son equivalentes y permiten calcular el estimador de

Aitken o de MCG.
38
B.- Estimación con Ω desconocida y σ u2 desconocida

Mínimos cuadrados generalizados factibles
El estimador de Aitken cuando las perturbaciones presentan autocorrelación es, en la
práctica, imposible de calcular pues la matriz Ω depende de parámetros desconocidos que
hay que estimar y que obliga, necesariamente, a obtener el estimador mínimo cuadrático
generalizado factible.
Métodos lineales iterativos
Antiguamente, los procedimientos de estimación utilizaban métodos iterativos. Partiendo
de la ecuación del modelo en diferencias generalizado, podemos escribirla de las dos
siguientes formas equivalentes:
(1) Yt − ρYt −1 = (1 − ρ )β 0 + β1 ( X 1t − ρX 1t −1 ) + ... + β k ( X kt − ρX kt −1 ) + u t
(2) (Yt − β 0 − β 1 X 1t −  β K X Kt ) = ρ (Yt −1 − β 0 − β1 X 1t −1 −  β k X Kt −1 ) + u t

De esta manera: si ρ fuera conocido en (1) podríamos estimar β por MCO en dicha
ecuación y si β fuera conocido en (2) podríamos estimar ρ por MCO en ésta segunda
ecuación. Lo que ocurre, en la práctica, es que la ecuación no es lineal en los parámetros y
no se pueden obtener simultáneamente ambos mediante métodos lineales a no ser de forma
secuencial como ocurre con el método de Cochrane-Orcutt donde:
a) Se toma un estimador inicial de ρ adecuado.
b) Se transforma el modelo y se estima por MCO el modelo en diferencias
generalizadas para lograr un estimador de β .
c) Se vuelve a calcular un valor de ρ , se vuelve a estimar el modelo en diferencias y,
así sucesivamente hasta alcanzar un criterio de convergencia, previamente fijado.
Estimación con métodos de optimización no lineal

Los métodos de estimación más utilizados hoy día, dados los avances informáticos, son
métodos de estimación no lineal, iterativos, que permiten obtener a la vez estimadores de ρ
y del vector β.
Considerando el modelo de diferencias generalizado:
Yt − ρYt −1 = (1 − ρ )β 0 + β1 ( X 1t − ρX 1t −1 ) + ... + β k ( X kt − ρX kt −1 ) + ε t − ρε t −1
despejando Yt
Yt = ρYt −1 + (1 − ρ )β 0 + β1 X 1t − β1 ρX 1t −1 + ... + β k X kt − β k ρX kt −1 + ε t − ρε t −1
Obtenemos una ecuación donde la perturbación se comporta bien ( ε t − ρε t −1 =
ut ), pero que
no es lineal en los k+2 parámetros de los que depende.
En la actualidad, todos los programas econométricos incorporan técnicas de estimación no
lineal. Concretamente, Eviews aplica un algoritmo de mínimos cuadrados no lineales y
obtiene estimadores de ρ y de β simultáneamente. Los estimadores que obtiene son
equivalentes a los obtenidos aplicando máxima verosimilitud y son, por tanto,
asintóticamente eficientes.
39
Los estimadores que se obtienen se denominan estimadores factibles. Las propiedades del
estimador factible dependen de si la estructura que se ha supuesto para las perturbaciones es
correcta o no. Por ello es importante comprobar si las perturbaciones de dicho modelo están
o no autocorrelacionadas utilizando el test de Breusch-Godfrey. Si no presentan
autocorrelación entonces el estimador factible tiene buenas propiedades asintóticas
(consistente, asintóticamente eficiente y la distribución asintótica es una normal), aunque se
desconocen las propiedades finitas. Si la estructura que hemos supuesto para las
perturbaciones es incorrecta (la perturbación del modelo resultante no cumple las hipótesis
clásicas), el estimador factible ni siquiera tiene estas propiedades.
Volviendo a nuestro EJEMPLO2, estimamos suponiendo un esquema AR(1) obteniendo el
estimador factible:
Vemos si la perturbación de este modelo cumple las hipótesis clásicas con el test de B-G
con un retardo:
Como vemos no se rechaza la hipótesis nula lo cual indica que el estimador factible es
consistente y asintóticamente eficiente y los test de hipótesis son válidos asintóticamente.
MCO utilizando la corrección de Newey-West

Alternativamente a MCGF, cuando Ω no se conoce, podemos estimar el modelo por MCO,
pero corrigiendo las desviaciones típicas de los estimadores por el procedimiento de
Newey-West. Dicho procedimiento obtiene desviaciones típicas de los estimadores
consistentes ante la presencia de autocorrelación y/o heteroscedasticidad (a diferencia del
procedimiento de White que sólo está diseñado para casos de heteroscedasticidad). Dado
que se consigue consistencia, es evidente, que el procedimiento (implementado entre los
resultados de la mayoría de paquetes estadísticos) será válido si la muestra es grande. De
esta manera, la estimación MCO proporcionaría estimadores que son, como ya sabemos,
insesgados y consistentes (aunque no eficientes) y que, con la corrección de Newey-West
40
presentarían estimaciones consistentes de sus varianzas que podríamos utilizar para realizar
inferencia, siempre de forma asintótica.
La estimación con Eviews8 del EJEMPLO2 nos proporciona los siguientes resultados:
Otras formas alternativas de estimación

Otra forma alternativa de estimación sería añadir dinámica al modelo, es decir, introducir
en el modelo como regresor la variable endógena retardada (modelos autorregresivos).
Consistiría en plantear una especificación alternativa para el modelo, tal que el modelo
estático no sería más que un modelo restringido del dinámico bajo una alternativa que
podría ser cierta o falsa. Estos modelos los planteamos en temas siguientes.
2.5.- Predicción
~
Supongamos que hemos obtenido el estimador factible de los parámetros del modelo, β y
ρ̂ . A partir del modelo en diferencias generalizadas en el período T+1, podemos obtener:
YˆT +1 − ρˆ YT = [X T' +1 − ρˆX T' ] β

~
~ ~
[ ~
]
Despejando ŶT +1 obtenemos el predictor: YˆT +1 = X 'T +1 β + ρˆ YT − X 'T β = X 'T +1 β + ρˆ e~T
Para el período T+2:
[ ] ~
YˆT + 2 − ρˆ YˆT +1 = X T' + 2 − ρˆX T' +1 β
[ ] ~ ~ ~ ~
YˆT + 2 = X T' + 2 − ρˆX T' +1 β + ρˆYˆT +1 = X 'T + 2 β + ρˆ 2 (YT − X 'T β ) = X 'T + 2 β + ρˆ 2 e~T
Generalizando para el período T+s:
~ ~ ~
YˆT + s = X 'T + s β + ρˆ s (YT − X 'T β ) = X 'T + s β + ρˆ s e~T
Analizar las propiedades de este predictor no es tarea sencilla, ya que depende de la
~
distribución conjunta de β y ρ̂ . Una aproximación de la desviación típica del error de
predicción se puede obtener, considerando que ρ es conocido.
41
A la hora de realizar una predicción, el programa Eviews diferencia entre predicción

dinámica y estática, la diferencia entre una y otra está en que la predicción estática utiliza
los valores actuales de la variable dependiente y la dinámica los predichos dinámicamente.
Si solamente se predice un periodo la predicción estática y dinámica coinciden. Si se
quiere predecir más de un periodo necesariamente hay que realizar la dinámica porque la
estática no la realiza porque necesitaría el valor de la variable dependiente en el periodo
T+1 que no dispone.
Planteamos en el periodo de predicción dos posibilidades: un año (1997 1997) y dos años
(1997-1998) con los dos procedimientos, estático y dinámico, con la finalidad de ver las
diferencias. El resultado de las predicciones para las importaciones suponiendo que la
renta en los años 1997 y 1998 son 220 y 245 miles de euros respectivamente es el
siguiente:
Predicción 1 periodo 2 periodos

Año 1997 Año 1997 Año 1998
Dinámica 100486,5 100486,5 121683,9
Estática 100486,5 16028507 ----
42
TEMA 3. .- SERIES DE TIEMPO. MODELOS ARMA

En este tema vamos a hacer una introducción a los modelos estocásticos de series
temporales, en concreto, vamos a identificar los distintos modelos lineales estacionarios
definidos en el capítulo anterior (autorregresivos, medias móviles y ARMA) para
posteriormente estimar y predecir.
Para ello vamos a definir dos herramientas básicas que nos permitirán identificar dichos
modelos que son, la función de autocorrelación simple (FAS) y la función de
autocorrelación parcial (FAP).
La FAS se calcula a partir de los coeficientes de correlación entre las observaciones de los
diferentes periodos de una variable ( ρ s ). Así, para cada valor del retardo s=0,1,2,3... y cada
Cov(ε t , ε t + s ) γs
momento t, la función sería ρ s = =
Var (ε t ) Var (ε t + s ) γ0
La FAP se obtiene calculando la correlación entre las observaciones de diferentes periodos,
pero eliminando el efecto de los retardos intermedios. Así, para cada valor del retardo
s=1,2,3... y cada momento t, la función se obtiene dando valores al coeficiente de
correlación parcial entre Yt y Yt + s que denotaremos por ρ s y se define como:
•
R*s
ρs =
•
Rs
Rs es el determinante de la matriz de correlaciones de s filas y s columnas y Rs* es el

determinante de la matriz anterior en la que la última columna se sustituye por un vector de
valores (ρ1 ρ 2  ρ s ) .
Las FAS y FAP de los esquemas débilmente estacionarios siguen comportamientos
conocidos y ellas, junto con su representación gráfica (correlogramas), sirven de base para
identificar los diferentes esquemas. V
3.1.- Modelos autorregresivos y de medias móviles
Proceso autorregresivo de orden p: AR(p)
Supongamos que Yt es una serie de tiempo que sigue un modelo autorregresivo de orden 1,
AR(1), es decir:
Yt φ Yt −1 + ut donde ut es un ruido blanco (variable aleatoria que cumple las hipótesis
=
clásicas) y φ es el parámetro a estimar (denotado como ρ en el tema de autocorrelación).
Imponemos la restricción de que φ < 1 denominada “condición de estabilidad del modelo”
o “condición de estacionariedad”.
Calculamos su FAS:
* E (Yt ) φ 
= E (Yt −1 ) + 
 
E (ε t )
(Yt −1 ) µ , por tanto µ = φµ ⇒ (1 − φ ) µ = 0
no lo conocemos 0
Si el proceso es estacionario = E (Yt ) E=
Si φ ≠ 1 ⇒ µ =0 y por tano E (Yt ) = 0
43
2
 ∞  ∞
* γ 0 = Var (Yt ) = E (Yt ) = E  ∑ φ τ ut −τ  = ..... = ∑ φ 2τ σ u2 = σ u2 (1 + φ 2 + φ 4 + ... )
2
=  τ 0=  τ 0
σ u2
γ= Var (Y=
t) σ=
2
ε = γ0
1− φ2
o
* γ=
1 Cov (YtYt +1=
) E (YtYt +1=) E Yt (φYt + ut +1 )= φγ 0 puesto que E (Yt ut +1 ) = 0
γ 2 Cov (YtYt +=
*= 2) E (YtYt +=
2) φ E (YtYt +=
1) φγ
= 1 φ 2γ 0
En general:
γ s Cov (YtY=
*= t+s ) E (YtY=
t+s ) φ sγ 0 =
∀s 1, 2,...
γ S φ sγ O
ρ= Corr (YtYt +=
s) = = φs
s
γO γO
φ 0 1=
= s 0
Por tanto, ρ s =  s
φ s = 1, 2,...
Correlogramas (FAS)
ϕ>0 ϕ<0
ρs ρs
s s
FAP
ρ=
1 ρ=
• 1 φ
ρ 2 − ρ12 φ 2 − φ 2
=ρ = = 0 Así :
1 − ρ12 1− φ2
2•
= ρ φ= s 1
ρs =  1
s≥2
•
0
Correlograma (FAP)
ϕ>0 ϕ<0
ρs • ρs•
s s
44
En definitiva, en un proceso AR(1), la FAS va decreciendo con todos los coeficientes

distintos de cero, mientras que la FAP sólo tendría el primer coeficiente distinto de cero. Se
dice que el proceso AR(1) tiene memoria infinita.
Proceso AR(p)
Generalizando para un AR(p), la FAS sigue un comportamiento decreciente, la FAP sólo
presenta los p primeros retardos distintos de cero. Por ejemplo, en un AR(2) serán sólo los
dos primeros retardos.
45
Proceso de medias móviles de orden q: MA(q)
Yt =ut − θ1 ut −1 − ..... − θ q ut − q donde ut es un ruido blanco. A los coeficientes θ también se

les impone ciertas restricciones. Normalmente, trabajaremos con órdenes pequeños.
Proceso MA(1)
El más frecuente es el de medias móviles de orden 1(MA(1)): Y=
t ut − θ ut −1 donde ut es un
ruido blanco y θ < 1 es una condición denominada de invertibilidad.
Calculemos cómo serían sus varianzas y covarianzas
* E (Yt ) = 0
(Yt ) σ u2 (1 + θ 2 )
γ o Var =
*=
* γ 1 = Cov (Yt , Yt +1 ) = −θσ u2
=* γ 2 Cov
= (Yt , Yt +2 ) 0
γ s Cov (Yt , Yt=
*= +s ) 0 ∀s ≥ 2
Por lo tanto la FAS:


 1 s=0
γs  γ1 θ
ρs = = =− s =1
γo  γo 1+θ 2
 γs
 =0 ∀s ≥ 2
 γo
Correlograma (FAS)
<0 >0
ρs ρs
s s
FAP
 θ
 ρ1 = − s =1
 1+θ 2

ρs = 
ρ 2 − ρ1 − θ 2 1 − θ 2
2
=
( ) s=2
•
 1 − ρ 12 (
1−θ 6 )
 (
−θ s 1−θ 2 ) ∀s

 ( )
1 − θ 2 ( s +1 )
46
Correlograma (FAP)
<0 >0
ρs• ρs•
s s
En un proceso MA(1) la FAS tendrá sólo el primer coeficiente de autocorrelación distinto

de cero mientras que será la FAP la que irá decreciendo hacia cero. Se dice que un proceso
MA(1) sólo tiene memoria de un periodo.
Proceso MA(q)
Generalizando para un MA(q), la FAS se anula para retardos mayores que “q”, tiene, por
tanto, una memoria limitada de q periodos. La FAP no se anula, sus coeficientes decrecen
hacia 0.
Proceso autorregresivo de medias móviles de orden p, q: ARMA(p,q)
Estos procesos son una generalización de los procesos AR y MA.

Yt ϕ1 Yt −1 + ϕ 2Yt −2 + ...... + ϕ pYt − p + ut − θ1ut −1 − ..... − θ qut − q donde ut es un ruido blanco.
=
Normalmente utilizaremos órdenes pequeños. ARMA(1,1)
Y=
t ϕ Yt −1 + ut − θ ut −1
Estos procesos, igual que los anteriores, se caracterizan por la FAS y la FAP, pero en la
práctica son más complicados de identificar. En los ARMA(p,q), la FAS se comporta
como la de un AR(p) para valores de s>q. Respecto a la FAP ésta se comporta como la de
un MA(q) para s >p.
Por ejemplo, en un ARMA(1,1) : Yt = φ Yt −1 + ε t − θ ε t −1 la FAC tiene el primer valor
distinto de cero (correspondiente al MA(1)) y a partir del segundo coeficiente la FAC
decrece lentamente (como en un AR(1)). Esto es debido a que en un ARMA(1,1), la media
móvil afecta al primer periodo pero no a los demás. Respecto a la FACP ésta se comporta
como la de un MA(q) para q > p.
Por tanto, son procesos más difíciles de identificar y la manera de conocer qué orden sigue
el proceso es ir probando distintos órdenes ARMA(1,1), ARMA(1,2) ….. y analizar si los
residuos son ruido blanco.
47
Correlogramas teóricos de MA(1) y MA(2) y ARMA(1,1)
48
ARMA(1,1)
49
3.2.-Identificación. Metodología Box-Jenkinns

Una vez analizadas las propiedades teóricas de los modelos ARIMA, vamos a ver cómo
aplicar estos modelos a series reales. Para ello utilizamos la metodología conocida como
Box-Jenkins, para el análisis de series temporales univariantes, que consta de tres etapas:
identificación, estimación y validación.
1ª etapa:Identificación
En esta primera etapa se trata de identificar cuál es el modelo más apropiado para la serie
objeto de estudio. Esta identificación requiere:
A.-Identificar la estructura no estacionaria
B.-Identificar la estructura estacionaria
A.- Identificación de la estructura no estacionaria: consiste en determinar la transformación

adecuada para conseguir una serie estacionaria.
Todo el análisis de series temporales se realiza sobre series estacionarias, es decir, que
cumplen la condición de estacionariedad. Una serie es débilmente estacionaria si su media,
su varianza y sus covarianzas no dependen del tiempo. Por tanto una serie estacionaria en
media exige que se mueva alrededor de su media, es decir que se separe de dicho valor
medio solo eventualmente al que deberá retornar a lo largo de su historia. De esta forma, si
una serie tuviese tendencia (creciente o decreciente) no sería estacionaria en media.
Por otro lado, una serie es estacionaria en varianza si mantiene un grado de dispersión
similar a lo largo del tiempo. Es decir deberá presentar oscilaciones alrededor de la media o
de la tendencia que no aumenten (o disminuyan) a lo largo del tiempo.
Por todo ello, es evidente que la mayoría de las series económicas no son estacionarias en
media, en varianza o en ambas. Por tanto, antes de identificar el proceso ARMA que sigue
una serie es necesario realizar una serie de sencillas transformaciones (como es tomando
diferencias o trabajando en logaritmos) que la conviertan en estacionaria.
En concreto, si la serie tiene tendencia y por tanto no es estacionaria en media, se debería
diferenciar sucesivamente la serie, en general tomando “d” diferencias, aunque los casos
más frecuentes es que d tome el valor 1 o 2.
Por ejemplo si la tendencia es lineal (d=1) bastaría con tomar una diferencia tal como:
wt =Yt − Yt −1 =∆Yt =(1 − L ) Yt
Si la tendencia fuese cuadrática (d=2) habría que tomar 2 diferencias:
wt = (1 L ) Yt =+
∆ 2Yt =− Yt Yt −2 − 2Yt −2
2
Y así sucesivamente.
Si la serie es no estacionaria en varianza se transformaría la serie tomando logaritmos o
realizando cualquier otra transformación de Box-Cox.
A estos procesos que han sufrido la transformación de diferenciarlos se les llama procesos
integrados. Así un proceso ARMA (p,q), definido sobre una serie que ha sido necesario
realizar “d” transformaciones para convertirlo en estacionario, se le llama proceso
ARIMA(p,d,q).
50
El modelo más sencillo de proceso integrado (es decir, no estacionario) es el denominado

Camino aleatorio o “paseo aleatorio” (con terminología inglesa “random walk”), que es,
en realidad, un proceso AR(1) con el coeficiente φ = 1 .
=
Yt Yt −1 + ut
Este proceso es no estacionario ya que no se cumple la condición de estacionariedad φ < 1
Yt − Yt −=
1 ut ⇒ (1 − L ) Y=t ut
1− L = 0 ⇒ L =1
En este caso se dice que tiene una raíz unitaria.
La varianza no es constante, ya que suponiendo que el proceso se inicia en un pasado
remoto, mediante sustituciones sucesivas, la variable Yt se puede expresar como:
∞
Yt = ∑ ut − j
j =1
Propiedades:
E (Yt ) = 0
( ) ( ) ( ) ( ) ( )
2 2 2 2
( ) ( )
2 2 2 2
Var Yt = E Yt = E Yt −1 + ut = E Yt −1 + Eut + 2 E Yt −1ut = E Yt −2 + 2σ =  E Yt −n + nσ = 
  
σ2 0
donde n tiende a ∞, por tanto el proceso no es estacionario porque la varianza aumenta
indefinidamente con el desfase temporal. De manera análoga, se obtendrían las
autocovarianzas y las autocorrelaciones, ambas dependerán del periodo t de referencia.
Sin embargo, si tomamos diferencias de primer orden en la serie:
Yt − Yt −1 = (1 − L ) Yt =∆Yt =wt =ut el proceso resultante, wt es ruido blanco que siempre
es estacionario.
A este tipo de procesos no estacionarios pero fácilmente convertibles en estacionarios al
tomar diferencias, se les llama integrados, ya que se pueden obtener sumando, o lo que es
lo mismo integrando, el proceso estacionario:
Yt = wt + Yt −1 = wt + wt −1 + Yt −2 = wt + wt −1 + wt −2 + wt −3 + 
Es por ello por lo que se dice que el camino aleatorio pertenece a la clase de modelos
integrados. En concreto, si hemos tomado una diferencia para convertirlo en estacionario,
se dice que es un proceso integrado de orden 1: I(1), si fuesen necesarias dos diferencias
sería un proceso I(2) y así sucesivamente.
Métodos para determinar la estructura estacionaria
Para determinar la transformación adecuada para conseguir una serie estacionaria se
utilizan:
• Gráfico de la serie: consiste en analizar si la serie tiene o no tendencia así como si
tiene o no componente estacional y si la variabilidad es o no constante.
51
• Correlograma de la serie: Nos permite analizar si las covarianzas dependen o no del

tiempo. La serie es estacionaria si la FASE tiende a cero, en caso de que dicha
función decrezca muy lentamente, eso es indicio de que la serie no es estacionaria.
• Constraste de Dickey-Fuller: este contraste nos permite dilucidar entre un proceso
c + φYt −1 + ut
no estacionario I(1) y un proceso AR(1) estacionario: Yt =
Las hipótesis que vamos a contrastar son:
Ho:φ=1 ⇒ raíz unitaria: proceso no estacionario I(1)
H1:φ<1 ⇒ proceso estacionario I(0).
El contraste se plantea para las primeras diferencias, es decir, para la serie ∆Yt, haciendo la
siguiente transformación: φ = 1 + δ de modo que sustituyendo:
Yt =c + (1 + δ ) Yt −1 + ut =c + Yt −1 + δ Yt −1 + ut
∆Yt = c + δ Yt −1 + ut
Así, las hipótesis son:
Ho: δ = 0 (⇒ φ = 1) o lo que es lo mismo ∆Yt = ut ⇒ I (1) ⇒ paseo aleatorio
H1: δ < 0 ⇒ I ( 0 ) ⇒ AR(1) estacionario

El estadístico del contraste es el estadístico t habitual para la significación de un parámetro
en modelos de regresión, pero con dos matizaciones: (1) la hipótesis alternativa es
unilateral; (2) bajo la hipótesis nula la serie no es estacionaria y esto hace que la
distribución del estadístico t no sea la habitual ⇒ utilizar unas tablas específicas (Dickey-
Fuller con término constante). Si la serie Yt tuviera media cero, se utilizan otras tablas
(Dickey-Fuller sin constante). Muchos autores recomiendan incluir siempre el término
constante en este contraste 15.
En el contraste anterior, el modelo estacionario de referencia es un AR(1) y se contrasta si
existe una raíz unitaria en dicho proceso (φ=1). Este contraste puede generalizarse a
procesos AR de mayor orden, en cuyo caso contrastamos la presencia de una raíz unitaria
en el polinomio autorregresivo del modelo. El contraste se denomina entonces
p contraste de
Dickey-Fuller aumentado (ADF). El modelo sería: ∆Yt = c + δ Yt −1 + ∑ α i ∆Yt −i + ε t
i =1
El programa Eviews 8 tiene una opción que selecciona automáticamente la longitud del
retardo en base a los criterios de información (Akaike, Schwarz…)
EJEMPLO3 : Analizamos el indicador de confianza política recogido en los Indicadores de

Situación Política del barómetro del CIS, en el periodo 1996:02 a 2015:09 (la serie no
presenta datos para el mes de agosto, por lo que creamos un fichero sin estructurar).
Identificación: El primer paso previo a la identificación consiste en analizar si la serie es o
no estacionaria para ello realizamos los siguientes pasos.
15
Si la serie es no estacionaria en media con tendencia determinista, se incluiría en el modelo la variable
tendencia
∆Yt = c + βt + δ Yt −1 + ε t
Nuevamente, el contraste es el mismo que en el caso anterior y el estadístico del contraste es el estadístico t
habitual pero con una distribución especial bajo la nula (Dickey-Fuller con constante y tendencia).
52
1. Analizar el gráfico de la serie

2. Analizar el correlograma
3. Realizar el contraste de raíces unitarias
Para ello hacemos clic en la variable confianza y dentro de ella:
Veiw→Graph→line
View→Correlogram
View→Unit root test
CONFIANZA
70
60
50
40
30
20
25 50 75 100 125 150 175 200
La serie tiene tendencia decreciente y la variabilidad parece que disminuye con la

tendencia por lo que analizamos el gráfico de la serie en logaritmos:
LOG(CONFIANZA)
4.2
4.0
3.8
3.6
3.4
3.2
3.0
25 50 75 100 125 150 175 200
La serie no cambia sustancialmente por lo que no haría falta transformar en logaritmos.

Si analizamos el correlograma decrece muy lentamente por lo que parece no estacionaria.
Veamos el test de Dickey-Fuller:
La siguiente salida especifica un modelo con término independiente, donde se contraste si
la serie tiene o no una raíz unitaria, es decir si es I(1) o I(0), para ello dejamos las
especificaciones que aparecen por defecto:
Contrastamos Ho=I(1) frente a H1:I(0)
53
Obtenemos los siguientes resultados:
Null Hypothesis: CONFIANZA has a unit root

Exogenous: Constant
Lag Length: 2 (Automatic - based on SIC, maxlag=14)
t-Statistic Prob.*
Augmented Dickey-Fuller test statistic -1.624552 0.4682

Test critical values: 1% level -3.461783
5% level -2.875262
10% level -2.574161
No rechazamos Ho→la serie es al menos I(1) y por tanto no estacionaria, necesitamos

hacer las transformaciones adecuadas para convertirla en estacionaria. Para ello
comenzamos tomando primeras diferencias obteniendo la serie ∆𝑌𝑡 . Para ello generamos
una nueva variable llamada dconfianza de la siguiente forma:
Gener→dconfianza=d(confianza)
Veamos el gráfico y el correlograma:
D(CONFIANZA)
12
-4
-8
25 50 75 100 125 150 175 200
La serie tiene tendencia constante y el correlograma decrece a cero rápidamente por lo

que parece que ya es estacionaria. Realizamos el test de Dickey-Fuller. Para ello hay dos
formas de hacerlo:
a) Aplicar el test en niveles a la serie transformada dconfianza
b) Aplicar el test a la serie original en primeras diferencias es decir:
54
Dando el siguiente resultado:
Null Hypothesis: D(CONFIANZA) has a unit root

Exogenous: Constant
Lag Length: 1 (Automatic - based on SIC, maxlag=14)
t-Statistic Prob.*
Augmented Dickey-Fuller test statistic -13.69622 0.0000

Test critical values: 1% level -3.461783
5% level -2.875262
10% level -2.574161
Rechazamos Ho→la serie es I(1) ya que la serie transformada ya es estacionaria es decir

I(0) y no hace falta hacer más transformaciones.
B.- Identificar la estructura estacionaria, en la práctica los coeficientes ρ k y ρ k • no se

conocen por ser coeficientes teóricos de un proceso estocástico general, por lo tanto es
necesario calcular los coeficientes de autocorrelación y autocorrelación parcial estimados
(FASE y FAPE respectivamente) a partir de una muestra de la variable Yt.
La FASE estará formada por los distintos coeficientes de autocorrelación estimados rk :
T
∑ (Y − Y ) (Y
t t −s −Y )
rs = t = s +1
T
∑ (Y − Y )
2
t
t =1
donde rs es un estimador consistente de ρ s y por tanto, al ser un estimador es una variable

aleatoria que para nuestra muestra concreta toma un valor estimado.
El número de coeficientes de autocorrelación muestral y de autocorrelación parcial muestral
que se pueden calcular son T-1 independientemente del proceso, por lo tanto, el problema
que deberíamos plantearnos es como se contrasta la significación de los coeficientes, es
decir, que contraste nos permitirá establecer unas bandas de confianza por encima de las
cuales los coeficientes resultan estadísticamente significativos con una determinada
probabilidad.
55
La representación gráfica de estos coeficientes constituyen el correlograma estimado, donde

se representan los coeficientes estimados de autocorrelación para los distintos retardos junto
con las bandas de confianza que nos permiten hacer el contraste.
Para hacer ese contraste partimos del hecho de que rs es una variable aleatoria y por tanto,
como tal, tendrá su distribución de probabilidad que estará centrado en ρ s por ser un buen
estimador de dicho parámetro, de tal forma que rk fluctuará alrededor de unas bandas
centradas en ρ s .
Para poder aceptar si, a la vista de una muestra concreta, podemos rechazar o no la
hipótesis de que ρ s =0, haremos un contraste de hipótesis. Por tanto contrastaremos:
Ho : ρs = 0 ∀s > q
H1 : ρ s ≠ 0
Bajo la hipótesis nula, si Yt es un ruido blanco formado por variables i.i.d., la

distribución asintótica de rs es Normal con media cero y varianza 1/T, o
equivalentemente: T rs ∼ N(0,1)
( ) (
p −1,96 ≤ T rs ≤ 1,96 = p −1,96 / T ≤ rs ≤ 1,96 / T ≅ 0,95 )
N(0,1)
0.025
0.95 0.025
-1,96 0 1,96
Por tanto, para un nivel de significación del 5%, las bandas de confianza vendrán dadas
[
aproximadamente por: − 2 1 / T , 2 1 / T 16 ]
Si la serie es ruido blanco, cabe esperar que las correlaciones tomen valores muy
próximos a cero y la mayoría (al menos el 95%) estén dentro de las bandas ±2/ T .
Si la serie es estacionaria pero no es ruido blanco, el correlograma presentará valores

significativamente distintos de cero para algunos retardos, generalmente los primeros, y
decaerá rápidamente hacia cero al aumentar el retardo: la relación entre observaciones
muy distantes es mucho más débil que entre observaciones próximas.
En series no estacionarias, por ejemplo con una tendencia creciente, el correlograma

presentará típicamente valores significativamente mayores que cero (un valor de la
serie por encima de su media conlleva un valor futuro de la serie también por encima
16
Estrictamente el intervalo no es el mismo para la FASE que para la FAPE. Para la FASE el intervalo no es
constante sino que aumenta con el retardo y si lo es para la FAPE. Sin embargo, lo tomamos constante como
lo plantea Eviews porque las diferencias no son muy relevantes.
56
de su media) que apenas decrecen al alejarse en el tiempo y se mantienen fuera de las

bandas de confianza incluso en los retardos más alejados.
A pesar de su utilidad, el correlograma sólo permite evaluar si cada una de las

correlaciones individualmente de un determinado orden son distintas de cero. Pero
además, sería deseable contrastar si todas las autocorrelaciones conjuntamente son
cero. Es decir, queremos contrastar la hipótesis conjunta H 0 : ρ (1) = ρ (2) = ... = ρ (m) = 0
Para ello, utilizamos el estadístico Q de Ljung- Box:
m
rs2
m ) T (T + 2 ) ∑
Q (= ,
k =1 T − k
cuya distribución asintótica, bajo los supuestos anteriores, es una Chi-cuadrado con m
grados de libertad. La realización del contraste es sencilla:
Valores “grandes” de Q(m) indican correlaciones “grandes” (positivas o negativas)

distintas de cero y rechazan Ho
Valores de Q(m) “pequeños” indican correlaciones próximas a cero y no rechazan Ho
Para cuantificar qué entendemos por un valor “grande” o “pequeño” de Q(m)

utilizamos los correspondientes percentiles de su distribución asintótica. Por ejemplo,
para un nivel de significación del 5%, y para m=10 las tablas de la χ 102 nos
proporcionan un valor crítico de 18.3 ⇒ p(Q(10)>18.3)=0.05.
χ10
2
0.05
0.95
Región aceptación 18.3 Región crítica
Tal que si el valor muestral del estadístico es superior a 18.3 cae en la región crítica y por
tanto rechazamos la hipótesis de incorrelación conjunta ⇒ la serie no es ruido blanco. Sin
embargo, si es menor que 18.3 cae en la región de aceptación y por tanto no rechazamos la
Ho ⇒ que la hipótesis de ruido blanco es plausible.
57
Ejemplos de correlogramas de algunos esquemas estacionarios

RUIDO BLANCO
MA(1)
58
AR(1)
EJEMPLO3: siguiendo con nuestro ejemplo, identificamos la estructura estacionaria en el

correlograma estimado de la serie transformada (dconfianza):
Las funciones de autocorrelación y autocorrelación parcial son muy similares, los dos
primeros coeficientes sobresalen las bandas por lo que se podrían plantearen principio, los
siguientes modelos: AR(2), MA(2), o incluso un ARMA
59
3.3.- Estimación y validación

Una vez identificada la estructura ARMA de la serie estacionaria, se procede a su
estimación. La estimación de los modelos de series temporales se realiza habitualmente por
Máxima Verosimilitud. Bajo el supuesto de estacionariedad, las propiedades del estimador
máximo verosímil suelen ser las habituales (buenas propiedades asintóticas) por lo que la
inferencia se realiza de la forma habitual. En esta etapa, pueden estimarse varios modelos
que parezcan “compatibles” con el correlograma y las correlaciones parciales y seleccionar
entre ellos con algún criterio. Los criterios más habituales son el AIC (Akaike), el SIC
(Schwarz) y el HQ (Hannan-Quinn), definidos como:
2 2k
AIC= − lnL + ,
T T
2 k lnT
SIC= − lnL + ,
T T
2 2k ln(lnT )
HQ = − lnL +
T T
donde k denota el nº de parámetros estimados, T es el nº de observaciones y lnL es el
logaritmo de la verosimilitud. La diferencia entre ambos criterios radica en la distinta
penalización por el nº de parámetros estimados. Como regla general, elegimos el modelo
que tenga un valor menor de AIC y SIC. En caso de discrepancia entre ambos criterios, SIC
suele elegir modelos más parsimoniosos (menos parámetros).
Una vez estimado el modelo, la etapa siguiente sería la de validación o contrastación, que
tiene por finalidad comprobar que el modelo estimado es adecuado para representar el
comportamiento de la serie que estudiamos, es decir, si se ha transformado correctamente, y
los órdenes de los procesos (p, q) de la estructura ARMA del modelo son los correctos.
Por ello, tras estimar el modelo ARIMA es esencial realizar una serie de criterios
estadísticos que nos permitan llevar a cabo un análisis de los coeficientes y de los residuos
del modelo con el objetivo de detectar posibles indicios de mala especificación.
En concreto, los residuos se deberían de comportar como un ruido blanco, los coeficientes
del modelo deberían de ser significativamente distintos de cero y se deberían de cumplir las
condiciones de estacionariedad e invertibilidad.
60
1º MODELO ESTIMADO: AR(2)

Para realizar la estimación pinchamos:
Quick→Estimate equation
Los resultados de la estimación AR(2) son los siguientes
Dependent Variable: D(CONFIANZA)

Sample (adjusted): 4 211
Included observations: 208 after adjustments
Convergence achieved after 3 iterations
C -0.073925 0.126467 -0.584539 0.5595
AR(1) -0.178042 0.067776 -2.626923 0.0093
AR(2) -0.225974 0.067781 -3.333860 0.0010
R-squared 0.071662 Mean dependent var -0.083654
Sum squared resid 1344.108 Schwarz criterion 4.780809
Inverted AR Roots -.09+.47i -.09-.47i
VALIDACIÓN
A) Análisis de los residuos: analizamos la representación gráfica así como su
correlograma y el estadístico Q que estudia la autocorrelación:
61
1.- Representación gráfica: 2.- Correlograma
12
-4
-8
25 50 75 100 125 150 175 200
D(CONFIANZA) Residuals
A partir del correlograma (todas las correlaciones caen dentro de las bandas) y el
estadístico Q que no rechaza la Ho para cualquier retardo, se detecta que los residuos se
comportan como un ruido blanco. Los errores se mueven alrededor de cero aunque con
algunos valores un poco elevados, especialmente los referentes a la observación 90 y en
menor medida la 111 y la 79. Por lo que se podría estimar el modelo incluyendo unas tres
ficticias que recojan esos valores atípicos, dando el siguiente resultado:

C -0.206314 0.122041 -1.690533 0.0925

D79 7.768567 2.310979 3.361591 0.0009
D89 11.99688 2.278042 5.266313 0.0000
D111 7.537341 2.268135 3.323145 0.0011
AR(1) -0.210750 0.070391 -2.993981 0.0031
AR(2) -0.127018 0.070422 -1.803656 0.0728

Inverted AR Roots -.11+.34i -.11-.34i
Analizamos los residuos:

a) Test de normalidad
b) Representación gráfica
c) Análisis de autocorrelación
62
25
Series: Residuals
Sample 4 211
20 Observations 208
Mean -2.95e-13
15 Median -0.068180
Maximum 6.082511
Minimum -5.729232
10 Std. Dev. 2.295566
Skewness 0.015437
Kurtosis 3.064210
5
Jarque-Bera 0.043993
Probability 0.978244
0
-6 -4 -2 0 2 4 6
-2
-4
-6
25 50 75 100 125 150 175 200
La distribución es normal y también se comportan como un ruido blanco. Sin embargo si

comparamos ambos modelos los coeficientes de Akaike, Schwart y Hannan Quinn son
menores en este segundo modelo por lo tanto la verosimilitud de los datos es mayor en este
modelo.
Analizamos los coeficientes del modelo seleccionado:
Todos los coeficientes son significativos a excepción del coeficiente AR(2) del segundo
modelo que no es muy significativo.
2º MODELO ESTIMADO: MA(2)

Los resultados de la estimación MA(2) son:
63

MA Backcast: 0 1
C -0.190054 0.109192 -1.740546 0.0833

D79 7.500066 2.316562 3.237585 0.0014
D89 11.50657 2.260762 5.089686 0.0000
D111 7.301839 2.259058 3.232249 0.0014
MA(1) -0.209620 0.070675 -2.965963 0.0034
MA(2) -0.124361 0.070155 -1.772665 0.0778

Inverted MA Roots .47 -.26
Análisis de residuos:
-2
-4
-6
25 50 75 100 125 150 175 200
30
Series: Residuals
Sample 2 211
25
Observations 210
20 Mean 0.006305
Median 0.045557
Maximum 6.256105
15
Minimum -5.867719
Std. Dev. 2.302239
10 Skewness -0.003684
Kurtosis 3.102683
5
Jarque-Bera 0.092734
Probability 0.954692
0
-6 -4 -2 0 2 4 6
Los residuos se distribuyen como una normal y también se comportan como un ruido
blanco
Análisis de coeficientes: Todas las variables son significativas individualmente a excepción
del coeficiente MA(2)
64
3º MODELO ESTIMADO: ARMA(1,1)

Veamos qué ocurriría si planteamos una estructura más compleja suponiendo de entrada
que el orden de la parte autorregresiva y de la de medias móviles es igual a 1ya que los
coeficientes de orden 2 no son claramente significativos.

MA Backcast: 2
C -0.207448 0.106306 -1.951426 0.0524

D79 7.644160 2.313807 3.303715 0.0011
D89 11.85402 2.256577 5.253097 0.0000
D111 7.378541 2.258054 3.267655 0.0013
AR(1) 0.376899 0.222969 1.690366 0.0925
MA(1) -0.599119 0.193652 -3.093787 0.0023

Inverted AR Roots .38

Inverted MA Roots .60
Como el coeficiente AR(1) no es significativo lo elimino de la estimación, dando como

resultado:

MA Backcast: 1
C -0.196647 0.125554 -1.566235 0.1188

D79 7.980891 2.327791 3.428526 0.0007
D89 12.70709 2.282425 5.567362 0.0000
D111 7.790436 2.281670 3.414357 0.0008
MA(1) -0.231448 0.069511 -3.329680 0.0010

Inverted MA Roots .23
65
En este último modelo los coeficientes son significativos y los criterios de información
mejoran. Por tanto analizamos en este modelo los residuos:
Autocorrelaciones de los residuos: Se comportan

como un ruido blanco
SELECCIÓN DE MODELOS: Hemos planteado cuatro modelos con ficticias, en todos

ellos los residuos son ruido blanco por tanto la selección se debería hacer en función del
resto de criterios, significación de las variables, condiciones de estacionariedad e
invertibilidad, análisis entre las funciones de autocorrelación estimadas y teóricas y los
criterios de Akaike, Schwarz y Hannan.
En base a todos estos criterios el modelo seleccionado sería el último, es decir el MA(1).
66
TEMA 4. REGRESORES ESTOCÁSTICOS
4.1.- Posible carácter estocástico de las variables explicativas
La presencia de regresores estocásticos en un modelo incumple la hipótesis clásica de que

la matriz de variables explicativas X es no estocástica, hipótesis que implicaba que los
valores de las variables explicativas se mantendrían fijos si pudiésemos repetir el
experimento.
El problema fundamental cuando en un modelo hay regresores estocásticos es que no se
garantizan ciertas propiedades del EMCO que sí se cumplían en temas anteriores. Si X no
es estocástica y se cumplen las hipótesis sobre ε, el EMCO es el mejor estimador posible
entre los estimadores lineales e insesgados (el de mínima varianza).
Cuando X es aleatoria, el supuesto crucial es la relación entre dichas variables y la
perturbación aleatoria. A nivel estadístico, podríamos medir la relación entre X y ε a partir
del coeficiente de correlación lineal. Sin embargo, dado que dicho coeficiente sólo mide
dependencia lineal, lo que vamos a estudiar, puesto que ambas son variables aleatorias, es
el valor esperado de ε dado cualquier valor de X: E(ε|X).
En los temas anteriores suponíamos que las variables explicativas no eran aleatorias y que,
además, E (ε ) = 0 , es decir, que en promedio los factores no observables se anulaban para
todos los individuos de la población. Todo ello implicaba que E(ε|X)=0, pues como X es
fija E(ε|X)=E(ε) y como E(ε)=0, finalmente, E(ε|X)=0.
Cuando hay regresores estocásticos, podemos seguir manteniendo el supuesto E (ε ) = 0 ,
pero lo que ya no está claro es que se cumpla que E(ε|X)=0, el supuesto de media
condicional nula.
Al ser X aleatoria se define la matriz de momentos poblacionales de los regresores en el
momento t como ΣXX y suponemos que está definida en el campo real.
Si ΣXX es finita y además no singular ⇒ Existe Σ −XX1
Llamando X t' al vector fila que recoge las observaciones de todos los regresores en el
momento t: X t' =(1 X1t X2t ... Xkt) la matriz ΣXX sería la siguiente:
 1    1 E ( X 1t )  E ( X kt ) 
Σ XX ( )


= E Xt Xt = E 
'

 X 1t 
(1 X 1t
 
 X kt ) = 
E ( X 1t ) ( )
E X 1t 2
 E ( X 1t X kt )
         
 

 X kt 
 
  E ( X kt ) E ( X 1t X kt )  ( )
2
E X kt 

A esta matriz se le llama también matriz de momentos contemporáneos por estar referida a
un mismo periodo t.
En esta situación se cumplen las siguientes propiedades:
ε 'ε
• plim =σ2
T
−1
X'X  X'X 
• plim = Σ XX finita y no singular ( plim   = Σ −XX1 ).
T  T 
67
4.2.- Variables contemporáneamente exógenas y estrictamente exógenas
A) Los regresores Xjt ∀ j=1,...,k son contemporáneamente exógenos cuando se cumple:

( )
E (ε t | X 1t , X 2t ,..., X kt ) = E ε t | X t' = 0 ∀t
Esto implica que εt y las variables explicativas están contemporáneamente

incorrelacionadas, es decir, Cov(εt,Xjt)=0 para todo j. Por tanto, también E (ε t X jt ) = 0.
Nota: Cuando hablamos de contemporaneidad nos referimos a las variables tal como
aparecen en el modelo, es decir, el vector X t' puede tener como uno de sus elementos Yt-1.
B) Los regresores Xjt ∀ j=1,...,k son estrictamente exógenos cuando se cumple:
E (ε t | X ) = 0 ∀t = 1,..., T
Esto significa que εt no se correlaciona con ninguna variable explicativa en ningún periodo:
Cov (ε t , X jt ' ) = 0 ∀j , ∀t t ' = 1,2,...T . Por tanto, también E (ε t X jt ' ) = 0.
Esta condición es mucho más fuerte que la anterior ya que suponemos que para cada t, el
valor esperado de εt, dadas las variables explicativas en todos los periodos, es cero.
C) Los regresores no son exógenos ni estricta ni contemporáneamente cuando:
E (ε t | X ) ≠ 0
Los supuestos A) y B) son muy importantes para definir las propiedades de los estimadores
de MCO en regresores estocásticos, especialmente cuando trabajamos con series
temporales:
1) Si se da el supuesto A) es decir, existe exogeneidad contemporánea entre los
regresores y las perturbaciones ⇒ el EMCO es consistente, pero no es insesgado.
2) Si se cumple el supuesto B) es decir, existe exogeneidad estricta entre los regresores
y las perturbaciones ⇒ el EMCO es insesgado, eficiente y consistente.
3) Si no se cumple ni siquiera el supuesto A), el estimador de MCO es sesgado e
inconsistente.
4.3.- Propiedades de los estimadores de MCO en modelos con regresores estocásticos
β̂ = (X’X)-1X’Y = β + (X’X)-1X’ε
1) β̂ no es lineal en Y por ser X aleatoria y por tanto β̂ es una función estocástica de X y

ε o de X y de Y.
2) Insesgadez
E( β̂ ) = E(β + (X’X)-1X’ε) = β+ EX[E((X’X)-1X’ε|X)]= β+ EX[(X’X)-1X’E(ε|X)]
Por propiedad de la esperanza

E [h( x, y )] = E x [E (h( x, y ) | x)]
Supuestos:
68
a) Exogeneidad estricta: E(ε|X)=0 ⇒ EX[(X’X)-1X’E(ε|X)]=0 ⇒ E( β̂ ) =β ⇒

insesgado
b) Exogeneidad contemporánea: E(εt|Xt)=0, pero E(εt|Xs)≠0 ⇒ EX[(X’X)-1X’E(ε|X)] ≠
0⇒ E( β̂ )≠β ⇒ sesgado ≠0
3) β̂ no es óptimo en el sentido indicado hasta ahora pues no es lineal, pero:
a) Si las variables explicativas son estrictamente exógenas, β̂ es eficiente (de mínima

varianza entre los insesgados), siendo su matriz de varianzas y covarianzas:
Σ ˆ ˆ =E[( β̂ -β)( β̂ -β)’]=E[(X’X)-1X’εε’X(X’X)-1]=EX[E((X’X)-1X’εε’X(X’X)-
ββ
1
|X)]=
=EX[ (X’X)-1X’ E(εε’ |X)X(X’X)-1)] =σ2 EX[ (X’X)-1X’X(X’X)-1)] =σ2 EX[ (X’X)-1]
=σ2I
b) Si las variables explicativas son contemporáneamente exógenas no tiene sentido
hablar de eficiencia pues el estimador es sesgado.
4) Consistencia
−1
 X'X  X 'ε X 'ε
p lim βˆ = β + p lim( X ' X ) −1 X ' ε = β + p lim  p lim = β + Σ −XX1 * p lim
 T  T T
X 'ε
El estimador será consistente si el p lim =0
T
 1 1  1  ε 1   ∑ ε t   E (ε t )   0 
        
X 'ε 1  X 11 X 12  X 1T  ε 2  1  ∑ ε t X 1t   E (ε t X 1t )   0 
p lim
T
= p lim 
T       
= p lim 
T  =   =  
       
X  X kT  ε T   ∑ ε X   E (ε X )   0 
 k1 X k2  t kt   t kt   
Esto se cumplirá si E (ε t ) =0 y, por lo menos, las variables explicativas son
contemporáneamente exógenas, pues en este caso cov(ε t X jt ) = 0 = E (ε t X jt ) . En definitiva,
no hace falta la exogeneidad estricta para que el estimador sea consistente, aunque si se da,
por supuesto, también lo será.
Propiedades del estimador S 2
1) Insesgadez
El S2 es insesgado sólo si se da la exogeneidad estricta.
2) Consistencia
El S2 es consistente si se da la exogeneidad estricta o la contemporánea.
Distribución de los EMCO
Estrictamente la distribución exacta de β̂ no se conoce ya que depende no sólo de la
distribución de ε que podemos seguir considerando Normal, sino también de la de X que es
desconocida. Además, β̂ no es lineal en Y y por tanto, β̂ no sigue una distribución normal.
69
Los estadísticos que contrastan las restricciones lineales, tanto individuales como conjuntas,
no siguen una distribución exacta conocida, en concreto no siguen una t ni una F
respectivamente.
Sin embargo, Wooldridge establece que, si los regresores son estrictamente exógenos, la
distribución de β̂ condicionada a X es normal y, por tanto, los estadísticos t y F son válidos
si hablamos de distribuciones condicionadas. En cambio, si los regresores son
contemporáneamente exógenos las distribuciones finitas no son válidas y tendremos que
recurrir a las asintóticas.
 
( )
−1
 X ' X 
Recordemos que → N  0, σ p lim
T β −β 
ˆ a 2
 
  T  

Esto implica que su distribución asintótica nos va a permitir justificar el uso de las
distribuciones habituales, aunque sólo tendrán validez de forma aproximada. En este
sentido, también podríamos utilizar los contrastes asintóticos de Wald, LM o RV.
Resumen:
A) Si los regresores son estrictamente exógenos los resultados son muy similares a los
del MRLC pero condicionado todo por X.
• β̂ es insesgado, eficiente y consistente y coincide con el estimador de MV.
• S2 es insesgado y consistente.
• Hablando de distribuciones condicionadas a X los test de hipótesis son válidos para
muestras finitas y no es necesario recurrir a la teoría asintótica.
B) Si los regresores son sólo contemporáneamente exógenos
• β̂ es sesgado, y, por tanto, no eficiente (ni óptimo), pero sí es consistente.
• S2 es sesgado pero consistente.
• Como S2 es sesgado entonces S βˆβˆ = S 2 ( X ' X ) −1 es sesgado, pero su utilización está
justificada en base a la distribución asintótica.
• Los contrastes son válidos asintóticamente.
• Hay que recurrir al comportamiento asintótico de los estimadores y contrastes.
C) Cuando ni siquiera se cumple la exogeneidad contemporánea, la estimación de MCO no
es válida porque no se cumple ninguna propiedad. En este caso, hay que recurrir a otro
método de estimación que se denomina de Variables Instrumentales.
• β̂ es sesgado e inconsistente.
• S2 es sesgado e inconsistente.
• No disponemos de una distribución asintótica, a partir del EMCO, para aproximar la
distribución exacta de los estadísticos cuando T tiende a infinito.
70
4.4.- Modelos con variables estocásticas correlacionadas con la perturbación. Método

de variables instrumentales
Este método consiste en encontrar una matriz de variables, Z, tales que cumplan los
requisitos siguientes:
• Las variables Z están incorrelacionadas con las perturbaciones, es decir,
Z 'ε
p lim =0
T
• Las variables Z están fuertemente correlacionadas con las variables X, es decir,
Z' X
p lim = Σ ZX finita y no singular
T
Z'Z
• Las variables Z tienen buenas propiedades en el límite, es decir, p lim = Σ ZZ .
T
A estas variables Z1,...,Zk se las llama instrumentos o variables instrumentales.
Nota: Si algún regresor no está correlacionado con las perturbaciones puede utilizarse él
mismo como variable instrumental.
El estimador de variables instrumentales se define como:
βˆVI = (Z ' X )−1 Z ' Y = β + (Z ' X )−1 Z ' ε
Propiedades
• No es lineal en Y pues también depende de X y de Z (que son aleatorias).
• No es insesgado: X no es ni contemporáneamente exógena por lo que E (ε / X ) ≠ 0
y E ( βˆ ) ≠ β .
• Por lo anterior, no es eficiente ni óptimo.
−1
 Z' X  Z 'ε
• Es consistente: p lim βˆVI = p lim β + p lim  p lim = β + Σ −ZX1 0 = β
 T  T
• Distribución asintótica: ( )
T βˆVI − β 
→
a
N (0, VVI )
donde VVI = σ 2 Σ −ZX1 Σ ZZ (Σ −ZX1 )' es la matriz de varianzas-covarianzas asintótica de dicha

distribución.
−1 −1
 Z' X  Z'Z  X 'Z 
Un estimador de dicha matriz es: VˆVI = σˆ VI2    
 T  T  T 
eVI' eVI
donde σˆ VI2 = es un estimador consistente de σ2 y eVI = Y − Xβ̂ VI
T − k −1
Una aproximación del estimador de VVI es: S βˆ = σˆ VI2 (Z ' X ) Z ' Z ( X ' Z )
−1 −1
VI
Nota: No se puede decir que el estimador de VI es eficiente pues la elección de

instrumentos diferentes genera distintos estimadores por VI. Lo que sí se puede afirmar, sin
embargo, es que cuanto mayor sea la correlación entre X y Z más eficiente será el
estimador por variables instrumentales.
71
4.5.- Errores en las variables
Sea el modelo Y = Xβ + ε donde, por error, no disponemos de observaciones de Y ni de X

sino de unos datos aproximados Y* y X* donde:
Y*=Y+V X*=X+U
Siendo U y V matrices aleatorias de errores de medida que cumplen las hipótesis clásicas y
además están incorrelacionadas entre sí y cada una de ellas con X y ε.
El modelo estimado es un modelo en el que los regresores y las perturbaciones están
correlacionados incluso contemporáneamente:
Y = Xβ + ε ⇒ Y * − V = (X * − U )β + ε ⇒ Y * = X * β + ε+
V − Uβ ⇒ Y * = X * β + W

W
Simplificando a un modelo de dos variables:

Yt = β 0 + β 1 X t + ε t ⇒ Yt * − vt = β 0 + β 1 ( X t* − u t ) + ε t ⇒
Yt * = β 0 + β1 X t* + ε t + vt − β1u t ⇒ Yt * = β 0 + β1 X t* + wt ⇒ wt = ε t + vt − β1u t
  
wt
E (wt ) = E (ε t + vt − β 1u t ) = 0
[( )
Cov( X t* , wt ) = E ( X t* , wt ) = E X t + u t (ε t + vt − β 1u t ) = ]
( ) ( )
E ( X t ε t ) + E ( X t vt ) − β 1 E ( X t u t ) + E (u t ε t ) + E (u t vt ) − β 1 E u t2 = − β 1 E u t2 = − β 1σ u2 ≠ 0
Por lo tanto, los estimadores de MCO son sesgados e inconsistentes y habría que utilizar el
método de variables instrumentales para obtener estimadores consistentes. Por otra parte, si
el error en los datos sólo afectase a la variable Y, no surgiría el problema anterior.
4.6.- Test de exogeneidad de Hausman
La consistencia de los EMCO en los modelos con regresores estocásticos depende de la

X 'ε
hipótesis p lim =0.
T
Hausman propuso un estadístico para contrastar esta hipótesis:
X 'ε
H 0 : p lim =0
T
X 'ε
H 1 : p lim ≠0
T
La lógica del contraste es comparar el comportamiento de dos estimadores β̂ MCO y β̂ VI ,
cuyas distribuciones asintóticas son:
(
T βˆ MCO − β 
→
a
)
N (0, VMCO ) y (
T βˆVI − β 
→
a
)
N (0, VVI )
donde VMCO = σ 2 Σ −XX1 y VVI = σ 2 Σ −ZX1 Σ ZZ (Σ −ZX1 )' .
72
X 'ε
Bajo la hipótesis nula H 0 : p lim = 0 , tanto β̂ MCO como β̂ VI son consistentes, sin
T
X 'ε
embargo, bajo la alternativa H 1 : p lim ≠ 0 , sólo lo es β̂ VI . Si la hipótesis nula es
T
( ) ( )
cierta entonces p lim βˆ MCO − βˆVI = 0 y el valor de βˆ MCO − βˆVI debería ser pequeño; al
contrario, si la hipótesis nula no es cierta.
El estadístico de Hausman se define, bajo la H0 , como:
(
H Hausman = T βˆ MCO − βˆVI ) [Vˆ
'
VI − VˆMCO ] (βˆ
−1
MCO )
− βˆVI 
→
a
χ H2
donde H es el número de regresores que se quiere ver si son o no exógenos, VˆVI y VˆMCO son
−1 −1
2  Z' X  Z'Z  X 'Z 
estimadores consistentes de VVI y de VMCO, es decir, VˆVI = σˆ    
 T  T  T 
−1
 X ' X 
y VˆMCO = σˆ   y σ̂ 2 el estimador consistente de σ utilizando el estimador de
2 2
 T 
VI para obtener los residuos.
Si el valor del estadístico de Hausman supera el valor crítico se rechaza la H0 de que no hay
correlación entre los regresores y la perturbación; en caso contrario, se acepta la no
existencia de correlación entre los regresores y la perturbación.
Este contraste se puede realizar también a partir de una serie de regresiones auxiliares:
1) Realizar la regresión de las variables que posiblemente sean endógenas sobre los
instrumentos y las exógenas del modelo y quedarnos o bien con los residuos o con el
valor estimado.
2) Introducir en la regresión original los valores estimados (o los residuos) y contrastar si
son o no significativos, de modo que si no lo son aceptaríamos la H0 y si lo son la
rechazaríamos.
73
74
TEMA 5. MODELOS DINÁMICOS
Los modelos estudiados hasta ahora eran modelos estáticos en los que todas las variables
estaban referidas al mismo periodo de tiempo. Estos modelos se plantean cuando se
considera que un cambio en X en el momento t ejerce un efecto inmediato en Y.
Sin embargo, la Teoría Económica sugiere que, en muchos casos, las relaciones entre las
variables son dinámicas, de forma que el efecto de una variable X j sobre Y no tiene por
qué ser instantáneo y se puede distribuir en distintos periodos de tiempo.
Vamos a distinguir dos tipos de modelos dinámicos:
a) Modelos autorregresivos.
b) Modelos de retardos distribuidos.
Nota: En este tema vamos a utilizar frecuentemente el llamado operador de retardo (que se
denota por L o B) y que retarda la variable a la que acompaña del siguiente modo:
Ls X t = X t − s
De esta forma: LX t = X t −1 ; L2 X t = X t − 2 ; Ls X t = X t − s ; (1 − L) X t = X t − X t −1 .
5.2.- Modelos autorregresivos
Son aquellos en los que se plantea como regresor la variable endógena retardada en algún
periodo de tiempo. Un ejemplo sería: Yt = β 0 + β 1 X t + β 2Yt −1 + ε t
Este tipo de modelos son estocásticos ya que la variable Yt-1 es aleatoria. Además, no
podemos considerar que los regresores sean estrictamente exógenos ya que podemos
comprobar que Yt-1 estará relacionada con ε t −1 , ε t − 2 ,.... . Por tanto, no se va a cumplir que
E(εt | X)=0 ∀ t=1,...,T
Sin embargo, si εt cumple las hipótesis clásicas, podemos aceptar la exogeneidad
X 'ε
( )
contemporánea, de tal forma que E ε t | X t' = 0 y se cumple que p lim
T
= 0 . Los
EMCO son sesgados y no eficientes, pero son consistentes y las distribuciones asintóticas
son válidas, es decir, los resultados habituales de inferencia estadística son válidos
asintóticamente.
Si εt está autocorrelacionada, ni siquiera se cumpliría el supuesto de regresores
X 'ε
contemporáneamente exógenos, p lim ≠ 0 y, por tanto, el EMCO no tiene ninguna
T
propiedad y la inferencia no es válida ni asintóticamente. El estimador consistente será el de
Variables Instrumentales donde podríamos tomar como instrumento de Yt-1 a Xt-1.
En la práctica, cuando nos encontremos con un modelo autorregresivo lo que hay que
analizar, en principio, es si la perturbación está autocorrelacionada o no (con el contraste de
la h de Durbin el de Breusch-Godfrey) y si existe relación contemporánea entre los
regresores y la variable endógena (con el contraste de Hausman).
75
En algunos modelos econométricos, la introducción de ciertas hipótesis teóricas también da

lugar a la aparición de la variable endógena retardada entre los regresores. Dos ejemplos
son los siguientes:
Modelo de expectativas adaptativas o adaptables
Estos modelos plantean que el comportamiento de los agentes económicos depende de las
expectativas que se formen sobre la evolución futura de determinadas variables
económicas. A su vez, el tratamiento de esas expectativas se realiza suponiendo una
hipótesis sobre su formación. Concretamente, la hipótesis de expectativas adaptativas
supone que las expectativas se actualizan cada periodo en función de la diferencia entre la
última observación de la variable y la expectativa para ese periodo:
Et X t +1 − Et −1 X t = λ ( X t − Et −1 X t ) con 0 < λ <1
Ejemplo: Demanda de saldos monetarios reales (Yt) en función del valor esperado en t de la
tasa de inflación (X) futura, es decir, de EtXt+1.
Yt = β 0 + β1 Et X t +1 + ε t
Si, suponemos que: Et X t +1 − Et −1 X t = λ ( X t − Et −1 X t ) 0 < λ <1
O, también, que la expectativa de inflación futura que hoy se forma el individuo es una
combinación lineal del valor actual de la tasa de inflación y de la expectativa de inflación
que se formó en el periodo anterior: Et X t +1 = λX t + (1 − λ )Et −1 X t
Operando, obtenemos: Et X t +1 − (1 − λ )Et −1 X t = λX t ⇒ (1 − L + λL )Et X t +1 = λX t
λX t λ
⇒ Et X t +1 = = Xt
(1 − L + λL ) (1 − L + λL)
λ
Sustituyendo en el modelo: Yt = β 0 + β1 Xt + εt
(1 − L + λL )
Y, finalmente: Yt = λβ 0 + β 1λX t + (1 − λ )Yt −1 + vt donde vt = ε t − (1 − λ )ε t −1
El modelo resultante es un modelo autorregresivo y por lo tanto, a la hora de elegir el
método más adecuado para estimar sus parámetros, habrá que analizar si vt presenta
autocorrelación o no y realizar el test de Hausman.
Modelo de ajuste parcial
Estos modelos plantean que hay situaciones en que la relación entre variables no se ajusta
de forma inmediata en un periodo t, sino que tarda un tiempo (un periodo de ajuste).
Ejemplo: Supongamos que queremos estudiar el nivel “deseado” de capital en una
( )
economía Yt* en función del nivel de producto (Xt):
Yt* = β 0 + β1 X t + ε t
Y que se especifica el siguiente mecanismo por el que el nivel de stock de capital
observado se ajusta al nivel deseado (modelo de ajuste parcial: el stock observado varía de
un periodo a otro en una proporción de su distancia respecto al stock deseado):
Yt − Yt −1 = δ (Yt* − Yt −1 ) con 0 < δ <1
76
Operando en el modelo de ajuste parcial tenemos:

1 (1 − δ )
Yt = δYt* + (1 − δ )Yt −1 ⇒ δYt* = Yt − (1 − δ )Yt −1 ⇒ Yt* = Yt − Yt −1
δ δ
( )
Sustituyendo Yt* en el modelo: Yt* = Yt −
δ
1 (1 − δ )
δ
Yt −1 = β 0 + β1 X t + ε t
Y, despejando: Yt = δβ 0 + δβ1 X t + (1 − δ )Yt −1 + δε t

El modelo resultante, al igual que en expectativas adaptativas, es un modelo autorregresivo,
y por lo tanto, habrá que analizar si sus perturbaciones están o no autocorrelacionadas y
realizar el test de Hausman para elegir el método de estimación adecuado.
Retomamos el EJEMPLO2, planteando un modelo autorregresivo, los resultados de la

estimación MCO de este modelo son los siguientes:
Realizamos en contraste de B-G para analizar la autocorrelación con un retardo:
No se rechaza la hipótesis nula lo cual implica que no existe autocorrelación y por tanto la
estimación MCO es adecuada porque nos proporciona estimadores consistentes y los test
de hipótesis son válidos asintóticamente.
5.3.- Modelos con retardos distribuidos o escalonados. Estructura finita e infinita de

retardos
Son aquellos en los que una o más variables exógenas influyen en la variable endógena con
algún retardo. Son modelos del tipo:
Yt = β 0 + β1 X 1t + β 2 X 1t −1 + β 3 X 1t − 2 + ... + ε t
77
Dentro de estos modelos vamos a plantear dos posibilidades:

n
1) Modelos con estructura finita de retardos: Yt = α + ∑ β i X t −i + ε t
i =0
∞
2) Modelos con estructura infinita de retardos: Yt = α + ∑ β i X t −i + ε t
i =0
A cada parámetro βi se le llama coeficiente de retardo y a la secuencia βi (∀ i=1, 2,...) se le

llama estructura del retardo.
La interpretación de estos coeficientes es muy interesante y está asociada al conocido
concepto de multiplicadores cuya descripción puede realizarse en torno a dos preguntas:
1) ¿Qué efecto tendrá sobre Y un cambio concreto en un momento determinado de la
variable X?
2) ¿Qué efecto tendrá sobre Y una desviación permanente de X respecto a su valor
inicial?
1) Ante una variación concreta de una unidad en X en el momento t, β 0 es el cambio
inmediato en Y en el momento t, β 1 es el cambio en Y un periodo después de la
modificación temporal y β 2 es el cambio en Y dos periodos después de la modificación
temporal y así sucesivamente.
Al coeficiente β 0 se le denomina multiplicador de impacto o a corto plazo y a la secuencia
( β 0 , β 1 , β 2 ,…) se le denomina función de respuesta al impulso.
Si por ejemplo suponemos un modelo con retardos distribuidos finitos de segundo orden
(n=2), el efecto de X sobre Y sólo se mantiene durante dos periodos después de la
modificación. Si el modelo es de infinitos retardos el efecto de X sobre Y se mantendría de
forma indefinida.
2) Un cambio permanente en X a partir del momento t produce un cambio en Y, si
suponemos un modelo con retardos distribuidos finitos con n=2, igual a β 0 en t, igual a
β 0 + β 1 en t+1 e igual a β 0 + β 1 + β 2 en t+2 y siguientes (puesto que es un modelo con
retardos distribuidos finitos de segundo orden). Si el modelo fuera de infinitos retardos
el cambio en t sería igual a β 0 , en t+1 igual a β 0 + β 1 , en t+2 igual a β 0 + β 1 + β 2 , en
t+3 igual a β 0 + β1 + β 2 + β 3 , y así sucesivamente.
A la suma de todos los coeficientes de retardo (en el caso de finitos retardos con n=2:
∞
β 0 + β 1 + β 2 y en el de infinitos retardos ∑ β i ) se le denomina multiplicador de largo
i =0
plazo y a la secuencia ( β 0 , β 0 + β1 , β 0 + β1 + β 2 ) si se trata de un polinomio con 2
retardos se le denomina función de respuesta al escalón. La respuesta al escalón en un
modelo con infinitos retardos sería ( β 0 , β 0 + β1 , β 0 + β1 + β 2 , β 0 + β1 + β 2 + β 3 ,…..).
Si tipificamos los coeficientes dividiéndolos por su suma (multiplicador a largo plazo):
calculamos la proporción del efecto total que se deja notar en el periodo i después del
cambio en Xt.
78
βi
En modelos de retardos distribuidos finitos β i* = n
∑ βi
i =0
βi
En modelos con infinitos retardos β i* = ∞
∑ βi
i =0
1) Modelos con estructura finita de retardos o con retardos distribuidos finitos

Son aquellos en los que suponemos que los efectos de una o varias variables explicativas
sobre la variable endógena no se producen de forma instantánea sino que perduran durante
un cierto periodo de tiempo que suponemos finito. Por ejemplo:
n
Yt = α + ∑ β i X t −i + ε t
i =0
Problemas en la estimación de estos modelos

1) La elección de n: Un valor pequeño puede ocasionar error de especificación por
omisión o en la forma funcional, y un valor de n grande nos puede dejar sin grados
de libertad.
2) Posible existencia de multicolinealidad y, por tanto, posibilidad de estimaciones
imprecisas de los parámetros.
3) Si el modelo no está especificado dinámicamente de forma correcta podría haber
autocorrelación.
Todo ello nos lleva a utilizar ciertas hipótesis sobre la estructura del retardo.
Estructura polinomial de Almon
Sea el modelo con estructura finita de retardos

n
Yt = α + ∑ β i X t −i + ε t t=n+1,...,T
i =0
Supongamos la siguiente estructura polinomial

β i = a 0 + a1i + a 2 i 2 + ... + a m i m donde i=0,1,2,...n con n>m
Dando valores a i tendremos un sistema de ecuaciones que relaciona los n+1 coeficientes
de retardos β con los m+1 coeficientes de la estructura polinomial. Para simplificar
vamos a suponer un polinomio de grado 2:
β 0 = a0
β1 = a 0 + a1 + a 2
β 2 = a 0 + a1 2 + a 2 2 2
……………………..
β n = a 0 + a1 n + a 2 n 2
79
En definitiva, consiste en imponer restricciones sobre los n+1 coeficientes del retardo y
el problema radica en estimar el modelo con retardos finitos sujeto a la restricción de
que los coeficientes de retardo siguen una distribución polinomial.
Por tanto, introduciendo las restricciones en el modelo:
( )
n n n n
Yt = α + ∑ a 0 + a1i + a 2 i 2 X t −i + ε t = α + a 0 ∑ X t −i + a1 ∑ iX t −i + a 2 ∑ i 2 X t −i + ε t
i =0

i =0
 
i =0
  
i =0

Z0t Z1 t Z2t
Yt = α + a 0 Z 0t + a1 Z 1t + a 2 Z 2t + ε t
Estimaríamos este modelo restringido por MCO obteniendo α̂ , â 0 , â1 y â 2 y a

continuación desharíamos el cambio para obtener α̂ , β̂ 0 , β̂1 , β̂ 2 ,…, β̂ n 17
αˆ = αˆ
βˆ 0 = aˆ 0
βˆ1 = aˆ 0 + aˆ1 + aˆ 2
βˆ 2 = aˆ 0 + aˆ1 2 + aˆ 2 2 2
....................................................
βˆ n = aˆ 0 + aˆ1n + aˆ 2 n 2
EJEMPLO4: Se desea analizar, para el período 1996:10-2000:4, cómo influye el

comportamiento del Banco de España a través del MIBOR en los contratos celebrados
entre los bancos y el resto de los agentes en sus operaciones de préstamo. Para ello, se
dispone de datos sobre los valores del MIBOR y de los tipos de interés de referencia de
préstamos hipotecarios de los bancos (IRPHBCOS).
Al estimar por MCO la relación estática entre IRPHBCOS y MIBOR obtenemos el modelo
siguiente:
17
Nota: en la estimación con Eviews éste centra el polinomio de modo que:
n
 si n es par
β i = a 0 + a1 (i − c ) + a 2 (i − c )2 + ... + a m (i − c )m siendo c =  2
n -1
 si n es impar
 2
80
Modelo 1:
El estadístico de Durbin Watson detecta claramente autocorrelación ya que dL=1,475 y

0,34<1,475por lo que rechazamos Ho de Incorrelación
Sin embargo, la influencia del MIBOR sobre los tipos de interés de préstamos hipotecarios
no es instantánea sino que se traslada a lo largo de una serie de periodos, por lo que se
plantea una especificación dinámica donde se suponga que el efecto se podría dilatar a lo
largo de un año como máximo. En base a este criterio, seleccionamos en primer lugar, el
nº de retardos más adecuado analizando el modelo resultante (Modelo 2).
Nº Retardos 4 5 6 7 8 9 10 11 12
R 2 99,35 99,42 99,52 99,55 99,56 99,50 99,49 99,48 99,49
Modelo 2 18:
Analizando la matriz de correlaciones con 8 retardos se detecta claramente el problema de

multicolinealidad
18
Se deja para los alumnos realicen las estimaciones con otros retardos.
81
Matriz de correlaciones
Mibor Mibor(-1) Mibor(-2) Mibor(-3) Mibor(-4) Mibor(-5) Mibor(-6) Mibor(-7) Mibor(-8)
Mibor 1 0,9767 0,9351 0,884 0,8324 0,7725 0,7198 0,6781 0,6545
Mibor(-1) 0,9767 1 0,9777 0,9407 0,8996 0,8540 0,8064 0,7615 0,7356
Mibor(-2) 0,9351 0,9777 1 0,9808 0,9494 0,9120 0,8798 0,8410 0,8118
Mibor(-3) 0,884 0,9407 0,9808 1 0,9815 0,9514 0,9268 0,9017 0,8762
Mibor(-4) 0,8324 0,8996 0,9494 0,9815 1 0,9826 0,9573 0,9349 0,9180
Mibor(-5) 0,7725 0,8540 0,9120 0,9514 0,9826 1 0,9822 0,9570 0,9403
Mibor(-6) 0,7198 0,8064 0,8798 0,9268 0,9573 0,9822 1 0,9836 0,9633
Mibor(-7) 0,6781 0,7615 0,8410 0,9017 0,9349 0,9570 0,9836 1 0,9873
Mibor(-8) 0,6545 0,7356 0,8118 0,8762 0,9180 0,9403 0,9633 0,9873 1
Como la d de Durbin cae en zona de indeterminación (dL=0,99, dU=2,041) analizamos la

autocorrelación con el contraste de Breusch Godfrey (LM=2,02, P-valor=0,1544) no
rechanzando la hipótesis nula de incorrelación.
Con objeto de corregir los problemas derivados de la estimación anterior, y tomando la
longitud del retardo n=7 planteamos, en primer lugar, una estructura finita de retardos
suponiendo que los parámetros siguen un esquema polinomial de Almon para m=1,2 y 3
(Modelos 3,4 y 5).
Para m=1 y 2
Modelo 3 y 4
82
Modelo 5. Para m=3
Selección:
m R2 LM
(P-valor)
1 0,9939 2,31
Modelo 3 (0,1284)
2 0,9937 2,372
Modelo 4 (0,1235)
3 0,995 0,4496
Modelo 5 (0,5025)
En ninguno de ellos hay autocorrelación. Sin embargo para m=2 y m=3 algunos
coeficientes de retardo no son significativos (el 7 para m=2 y el 5 y 6 para m=3).Los
coeficientes de determinación corregidos son muy parecidos aunque, estrictamente, el
mayor es el correspondiente al modelo con m=3. Sin embargo, en base a la significación
de las variables seleccionamos m=1.
A partir de este último modelo estimado, analizamos:
a) ¿Cuál sería el cambio inmediato que se produciría en los tipos de interés de préstamos
hipotecarios como consecuencia de un aumento de una unidad en el MIBOR en un mes
concreto? ¿Y el cambio un año después del aumento del MIBOR?
• Cambio inmediato en los tipos de interés de préstamos hipotecarios ante un
aumento de una unidad en el MIBOR en un mes concreto: Multiplicador a C/P:
β̂ 0 =0,19658.
• Cambio un año después: No hay efecto: β̂12 =0
83
b) Calcula el multiplicador a largo plazo e interpreta sus resultados

7
• Multiplicador a largo plazo: ∑ βî = 0,91682
i =0
c) ¿Cuántos periodos deberían transcurrir antes de que se dejase notar el 85% del efecto
que el cambio en el MIBOR tiene sobre la variable endógena?
• Periodos que deberían transcurrir antes de que se dejase notar el 85% del efecto
que el cambio en el MIBOR tiene sobre la variable endógena: 5 periodos pues:
4 5
∑ βî 0,74867 ∑ βˆ i
0,82814
i =0
7
= = 0,81659 y i =0
7
= = 0,9033
∑ ∑ βˆ
0,91682 0,91682
βˆ
i i
i =0 i =0
2) Modelos con estructura infinita de retardos.

Una alternativa al planteamiento de truncar la distribución de retardos a un número finito
consiste en especificar una distribución con infinitos retardos. Esta especificación es
aceptable especialmente cuando se trabaja con observaciones frecuentes o cuando esta
estructura se deriva de distintas consideraciones teóricas. El modelo sería:
∞
Yt = α + ∑ β i X t −i + ε t
i =0
Obviamente, aún suponiendo que cumple las hipótesis clásicas, la estimación sin
restricciones de este modelo no es posible ya que necesitaríamos estimar infinitos
parámetros con una muestra siempre finita.
La forma de proceder en estos casos es establecer alguna hipótesis sobre los coeficientes de
retardo de modo que podamos reducir su número. Koyck propuso que los coeficientes de
retardo, aunque infinitos, decrecían en progresión geométrica de la forma: β i = βλ i con
0 < λ < 1 para i=0,1,...
Introduciendo las restricciones, el modelo quedaría
( )
∞
Yt = α + ∑ βλ i X t −i + ε t ⇔ Yt = α + β X t + λX t −1 + λ 2 X t − 2 + ... + ε t
i =0
Si escribimos el modelo para Yt −1 , lo multiplicamos por λ y hacemos Yt − λYt −1 obtenemos

finalmente:
Yt − λYt −1 = α (1 − λ ) + βX t + (ε t − λε t −1 )
y despejando Yt :
Yt = α (1 − λ ) + βX t + λYt −1 + ε t − λε t −1 ⇔ Yt = α + βX t + λYt −1 + v t
*
   
α* vt
El modelo resultante es un modelo autorregresivo por lo que habrá que analizar si sus
perturbaciones están o no autocorrelacionadas y realizar el test de Hausman para elegir el
método de estimación adecuado.
84
Una vez obtenidos los estimadores más adecuados para α*, β y λ y teniendo en cuenta que
β i = βλ i y que α * = α (1 − λ ) , podemos calcular los estimadores de los parámetros del
αˆ *
modelo original: βî = βˆ λˆ i y αˆ = .
1 − λˆ
Retomamos el EJEMPLO4, y planteamos, en segundo lugar, una estructura infinita de
retardos suponiendo que los parámetros decrecen en progresión geométrica (estructura de
Koyck para los parámetros) (Modelo 6).
Modelo 6:
Breusch-Godfrey Serial Correlation LM Test:
F-statistic 4.992755 Prob. F(1,38) 0.0314

Obs*R-squared 4.877466 Prob. Chi-Square(1) 0.0272
En este modelo sigue existiendo autocorrelación por lo que los estimadores son
inconsistentes y por tanto el método de estimación no es válido.
Una alternativa a esta estimación sería el método de variables instrumentales, tomando
como instrumento de IRPHBCOS(-1) la variable MIBOR(-1). Este método nos permite
obtener estimadores consistentes y los test de hipótesis serían válidos asintóticamente.
Modelo 7:
85
Realizamos el test de Hausman:

1ª Etapa:
Llamamos EH a los residuos MCO de esta estimación:
2ª Etapa con los residuos:
El residuo es significativo, se rechaza la hipótesis nula del test de Hausman y por tanto la
estimación adecuada sería la de VI.
86
TEMA 6. INTRODUCCIÓN A LOS MODELOS DE ECUACIONES

SIMULTÁNEAS
6.1.- Planteamiento del problema
Los modelos analizados en los temas anteriores eran modelos uniecuacionales, es decir,
modelos que recogían la relación causa-efecto que existía entre una variable endógena (Y)
y un conjunto de variables exógenas (X).
Este planteamiento no es, sin embargo, el más adecuado para modelizar la interdependencia
que existe entre las variables económicas ya que la cadena causal entre ellas no siempre es
unidireccional, es decir, una variable puede ser a la vez causa y efecto. Por ello, para
modelizar este tipo de relaciones es necesario recurrir a estructuras más complejas, como
los llamados modelos de ecuaciones simultáneas o modelos multiecuacionales.
Se trata de modelos formados por más de una ecuación y en los que variables que son
explicadas en alguna de las ecuaciones, pueden aparecer como explicativas en otra u otras.
El caso más sencillo es un modelo de dos ecuaciones. Por ejemplo:
Y1t = γ 21Y2t + β 11 X 1t + β 21 X 2t + u1t
t=1,2,…T
Y2t = γ 12Y1t + β 32 X 3t + u 2t
En él se explica el comportamiento de dos variables endógenas (Y1 e Y2) a partir de tres
variables predeterminadas (X1, X2 y X3). En la primera ecuación la variable endógena Y1 se
modeliza como función de las variables predeterminadas X1 y X2 y de la endógena Y2 que
en esta ecuación aparece como explicativa. De la misma forma, la variable endógena Y1 se
incluye, en la segunda ecuación, como una variable explicativa. Ambas ecuaciones no se
pueden considerar por separado, porque las relaciones se producen simultáneamente.
Además Y1t aparece en la segunda ecuación como explicativa, pero por la primera
ecuación es función de Y2t que a su vez depende de u2t, de modo que Y1t es función de u2t,
por lo tanto Y1t no es contemporáneamente exógena, y lo mismo ocurre con Y2t. También es
absurdo plantearnos en este tipo de modelos la hipótesis de que las perturbaciones u1t y u2t
están incorrelacionadas, ya que, por ejemplo, u1t = f (Y1t , Y2t ) pero Y2t = f (u 2t ) .
Especificación de un modelo lineal de ecuaciones simultáneas
Un modelo lineal multiecuacional para el periodo t puede especificarse mediante un sistema
de g ecuaciones en las que aparecen g variables endógenas (Y1 , Y2 ,..., Yg ) y k variables
predeterminadas ( X 1 , X 2 ,..., X k ) .
γ 11Y1t + γ 21Y2t + ... + γ g1Ygt + β11 X 1t + β 21 X 2t + ... + β k1 X kt + u1t = 0
γ 12Y1t + γ 22Y2t + ... + γ g 2Ygt + β12 X 1t + β 22 X 2t + ... + β k 2 X kt + u 2t = 0

γ 1g Y1t + γ 2 g Y2t + ... + γ gg Ygt + β1g X 1t + β 2 g X 2t + ... + β kg X kt + u gt = 0
Matricialmente el sistema, para el periodo o la observación t, se puede expresar:
Yt ' Γ + X t' β + u t' = 0
donde X t' = ( X 1t , X 2t ,..., X kt )

87
Yt ' = (Y1t , Y2t ,..., Ygt )
u t' = (u1t , u 2t ,..., u gt )
 γ 11 γ 12  γ 1g   β11 β12  β1g 

   
 γ 21 γ 22  γ 2g   β 21 β 22  β 2 g 
Γ= β =
         
   
γ  γ gg  β  β kg 
 g1 γ g 2  k1 βk 2
Para todas las observaciones, t=1,…,T sería:
YΓ + Xβ + u = 0
 X 1'   X 11 X 21  X k1   Y1'   Y11 Y21  Yg1 
 '    '  
X  X X 22  X k2   Y   Y12 Y22  Yg 2 
donde: X =  2  =  12 Y = 2=
         
         
X'  X
 T   1T X 2T  X kT  Y '  Y
 T   1T Y2T  YgT 
 u1'   u11 u21  u g1 

 '  
 u   u12 u22  u g 2 
u = 2=
    
   
 u'   u u2T  u gT 
 T   1T
La especificación anterior se conoce como forma estructural del modelo, pero el sistema de
ecuaciones simultáneas se puede especificar también en forma reducida expresando cada
variable endógena en función de las variables predeterminadas.
Y1t = π 11 X 1t + π 21 X 2t + ... + π k1 X kt + v1t
Y2t = π 12 X 1t + π 22 X 2t + ... + π k 2 X kt + v 2t

Ygt = π 1g X 1t + π 2 g X 2t + ... + π kg X kt + v gt
O bien en forma matricial que puede deducirse a partir de la forma estructural:
Yt ' Γ + X t' β + u t' = 0 ⇒ Yt ' Γ = − X t' β − u t' ⇒ Yt ' = − X t' β Γ −1 − u t' Γ −1 ⇒ Yt ' = X t' Π + vt'
donde Π = − β Γ −1 y vt' = −u t' Γ −1
 π 11 π 12  π 1g 
 
 π 21 π 22  π 2g 
Π= vt' = (v1t , v 2t ,..., v gt )
    
 
π
 k1 π k 2  π kg 
Para todas las observaciones, t=1,…,T sería: Y = X Π + v donde v = −u Γ −1 , siendo
88
 v1'   v11 v 21  v g1 
 '  
 v   v12 v 22  vg 2 
v= 2=
    
    
v'  v v 2T  v gT 
 T   1T
Hipótesis del modelo de ecuaciones simultáneas
Para la forma estructural del modelo:
( )
1) E u t' = 0 ∀t
E (u  u ) = (0  0 )
1t gt
2) E [u u ] = Σ
t
'
t ∀ t siendo Σ una matriz simétrica y definida positiva
 u12t u1t u 2t  u1t u gt   σ 12 σ 12  σ 1g 

   
[ ] '
u u
E u t u t = E  2t 1t
u 22t  u 2t u gt 
= σ 12 σ 22  σ 2g 
=Σ
           
   
u gt u1t u gt u 2t  u gt2  σ 1g σ 2g  σ g2 
Esta hipótesis recoge:

En la diagonal principal: que en la primera ecuación hay homoscedasticidad pues
E (u1t ) = σ 12 para todo t, lo mismo en la segunda y en todas las demás.
En el resto de elementos: E (u1t u 2t ) = σ 12 para todo t, lo que significa que las perturbaciones
de la ecuación 1 y 2 están correlacionadas para el mismo instante de tiempo y la correlación
es la misma para cualquier instante de tiempo:
E (u1t u 2t ) = E (u11u 21 ) = E (u12 u 22 ) = ... = E (u1T u 2T ) = σ 12 y lo mismo ocurre con el resto de
ecuaciones. Es decir, existe correlación contemporánea entre las perturbaciones de dos
ecuaciones y no cambia al cambiar el instante de tiempo considerado.
[
3) E u t u s' = 0 ] ∀ t≠s
 u1t u1s u1t u 2 s  u1t u gs  0 0  0

 u1t   u u
   u 2t u gs  0 0  0
[ ]
E u t u s' = E   (u1s

 u gs ) = E 
 
2 t 1s u 2t u 2 s
 
=
     
=0
 u gt      
   u gt u1s u gt u 2 s  u gt u gs  0 0  0
Significa que las perturbaciones correspondientes a distintos periodos de tiempo están

incorrelacionadas, sean perturbaciones de una misma ecuación (E (u1t u1s ) = 0 ) o de distintas
ecuaciones (E (u1t u 2 s ) = 0 ) .
4) u t → N (0, Σ ) ∀t
5) Las variables predeterminadas (Xt) no son aleatorias, o si lo son, serán estrictamente
exógenas o contemporáneamente exógenas.
6) La matriz Γ no es singular, es decir, Γ ≠ 0 .
89
Además las perturbaciones en la forma reducida ( vt ) tienen las mismas características que
las vistas para las perturbaciones en la forma estructural.
EJEMPLO5: Sea el siguiente modelo keynesiano modificado de determinación del ingreso:

C t = β 0 + β1Yt + u1t
I t = α 0 + α 1Yt + α 2Yt −1 + u 2t
Yt = C t + I t + Gt
donde Ct es el consumo, It es la inversión, Yt es el ingreso y Gt es el gasto público que se

supone que se determina de forma exógena.
Expresamos las ecuaciones del sistema en forma reducida:

a) Forma reducida:
Ct = π 11 + π 21Gt + π 31Yt −1 + v1t
I t = π 12 + π 22Gt + π 32Yt −1 + v2t
Yt = π 13 + π 23Gt + π 33Yt −1 + v3t
 1 0 −1   − β0 −α 0 0
=Γ  0 1 −1=; β  0
 −α 2 0 
 −β −α1 1   0 −1
 1  0
−1
 − β0 −α 0 0  1 0 −1   π 11 π 12 π 13 
Π = − β Γ = −  0
−1
−α 2 
0  0 1 −1 =  π 21 π 22 π 23 

 0 −1  − β1 −α1 1  π 
 0  31 π 32 π 33 
6.2.- Identificación de un sistema de ecuaciones simultáneas
La estimación de la forma reducida del modelo siempre es posible, ya que se especifica de

modo que, en cada ecuación, aparece sólo una variable endógena en función de las
predeterminadas. Sin embargo, la estimación relevante, desde el punto de vista de la
Economía, es la correspondiente a la forma estructural, que contienen las relaciones
derivadas de los modelos de la Teoría Económica.
Las relaciones entre los parámetros de ambas formas están recogidas en el sistema de
ecuaciones Π = − β Γ −1 donde hay (gxk) parámetros de la forma reducida y (gxg)+(gxk)
parámetros de la forma estructural.
La identificación de un modelo de ecuaciones simultáneas consiste en saber, si a partir de
un conjunto de observaciones muestrales, que permite la estimación de la forma reducida es
posible estimar los parámetros de la forma estructural. El análisis se hace para cada
ecuación (de la forma estructural) y si es posible se dice que la ecuación está identificada, y
si no lo es, que no está identificada. Además, cuando la ecuación está identificada se puede
distinguir según que la solución sea única o no, entre identificación exacta y
sobreidentificación, respectivamente.
90
Para saber cómo es la identificación de la ecuación, sin necesidad de intentar resolver el

sistema, se utilizan las denominadas condiciones de orden (que es una condición necesaria
pero no suficiente) y condiciones de rango (que es una condición necesaria y suficiente).
Estas condiciones, si en el sistema existen restricciones de normalización y de exclusión, es
decir, si en cada ecuación existe una variable endógena con coeficiente igual a 1 o –1 y
algunos parámetros que acompañan a las variables predeterminadas son cero en algunas
ecuaciones, se pueden expresar como se muestra a continuación.
Condición de orden
Para aplicar esta condición a una ecuación, se compara el número de variables, tanto
endógenas como predeterminadas, excluidas en la ecuación, g 2 y k 2 , con el número de
ecuaciones del sistema menos una (g-1), de modo que:
- Si g 2 + k 2 < g − 1 la ecuación no está identificada (no hace falta aplicar después la
condición de rango, pues no se va a cumplir).
- Si g 2 + k 2 = g − 1 la ecuación puede estar exactamente identificada. Lo estará si se
cumple la condición de rango.
- Si g 2 + k 2 > g − 1 la ecuación puede estar sobreidentificada. Lo estará si se cumple
la condición de rango.
Por lo tanto, la condición de orden es: g 2 + k2 ≥ g − 1
Condición de rango: La aplicación de esta condición requiere obtener la matriz de

coeficientes de la forma estructural, A, que es igual a: A = (Γ' | β ') . Sea A* la submatriz de
A formada por los coeficientes que en las demás ecuaciones del sistema acompañan a las
variables excluidas de la ecuación que se quiere identificar, de modo que:
- Si rg ( A* ) ≠ g − 1 entonces la ecuación no está identificada
- Si rg ( A* ) = g − 1 entonces la ecuación está identificada, pero puede estar

exactamente identificada o sobreidentificada, para saberlo recurrimos a la condición
de orden.
Por tanto, la condición de rango es: rg ( A* )= g − 1
Si todas las ecuaciones del sistema están identificadas se dice que el sistema está
identificado. Si sólo lo están algunas, sólo esas se pueden estimar.
Identificamos las ecuaciones del EJEMPLO5:
Existen restricciones de normalización y de exclusión.

1ª Ecuación:
Condición de orden:
g 2 = 1
 g 2 + k2 = 3 > g − 1 = 2 ⇒ Puede estar sobreidentificada
k2 = 2 
91
Condición de rango:
 1 0 − β1 − β0 0 0
 1 −α 2 0
=A  0 1 −α1 −α 0 −α 2 0  A* = 
 −1 −1 1  −1 0 −1
 0 0 −1
rg(A*)=2=g-1=2 ⇒ La primera ecuación está sobreidentificada
2ª Ecuación:
Condición de orden:
g 2 = 1
 g 2 + k2 = 2 = g − 1 = 2 ⇒ La ecuación puede estar exactamente identificada
k2 = 1 
Condición de rango:
1 0
A* =   ⇒ rg ( A* ) = 2 = g − 1 = 2 ⇒ La segunda ecuación esta exactamente
 −1 −1 
identificada
3ª Ecuación: es una identidad
6.3.- Estimación de un sistema de ecuaciones simultáneas
Los métodos de estimación en modelos de ecuaciones simultáneas se clasifican en:

a) Métodos con información limitada
b) Métodos con información completa
Los primeros se caracterizan porque estiman cada una de las ecuaciones del sistema por
separado y proporcionan estimaciones menos eficientes al utilizar menos información, ya
que no utilizan ninguna información sobre la matriz de varianzas-covarianzas
contemporánea de las perturbaciones de la forma estructural, es decir, de Σ.
Por su parte, los métodos con información completa consideran toda la información del
modelo para su estimación conjunta, aunque si hay errores de especificación en una
ecuación, se trasladan a todo el sistema, y en ese caso, este tipo de métodos serían menos
eficientes que los de información limitada, ya que en ellos el error de especificación de una
ecuación sólo la afecta a ella.
Entre los que utilizan información limitada, los más utilizados son, Mínimos Cuadrados
Indirectos (MCI), Variables Instrumentales (VI), Mínimos Cuadrados en dos etapas
(MC2E) y Máxima Verosimilitud con información limitada.
Entre los que utilizan información completa, los más utilizados son Mínimos Cuadrados en
tres etapas (MC3E) y Máxima Verosimilitud con información completa.
De todos estos métodos, los de Máxima verosimilitud son los más complejos y no los
vamos a abordar en esta introducción así como el Método de Mínimos Cuadrados en tres
Etapas. El método de Mínimos Cuadrados Ordinarios en la forma estructural, por su parte,
generalmente no se utiliza puesto que requiere el cumplimiento de las hipótesis clásicas y
92
en los sistemas de ecuaciones es frecuente la dependencia entre la perturbación y la matriz

de regresores.
Además, la utilización de un método u otro está condicionada por el resultado de la
identificación de las ecuaciones.
- Si la ecuación no está identificada no se pueden estimar los parámetros de la forma
estructural.
- Si la ecuación está identificada se pueden estimar por Mínimos Cuadrados Indirectos
(MCI), por Variables Instrumentales (VI) o por Mínimos Cuadrados en dos etapas (MC2E).
Si está exactamente identificada se obtiene una única solución y los métodos coinciden. Si
está sobreidentificada, se obtienen varias soluciones.
1) Mínimos Cuadrados Indirectos
La aplicación de este método parte, en primer lugar, de la obtención de los estimadores de

( )
la forma reducida Π̂ por MCO para después aplicar la relación Π = − βΓ −1 , es decir,
Πˆ = − βˆ Γˆ −1 para despejar los elementos de β̂ y Γ̂ .
Si la ecuación no está identificada, para algún parámetro de la forma estructural no

obtendremos solución.
Si la ecuación está sobreidentificada, para algún parámetro de la forma estructural
obtendremos más de una solución.
Si la ecuación está exactamente identificada, para cada parámetro de la forma estructural
obtendremos una solución.
Como los resultados (cuando los haya) son funciones de estimadores consistentes y
asintóticamente eficientes, estos también lo serán.
2) Variables Instrumentales
- Si la ecuación está exactamente identificada, Variables Instrumentales proporciona

un resultado para cada estimador, pues disponemos del número exacto de instrumentos
necesarios.
- Si la ecuación está sobreidentificada, tenemos excesivos instrumentos y, por lo tanto,
obtenemos varios estimadores de Variables Instrumentales.
- Si la ecuación no está identificada, no hay instrumentos suficientes y no podemos
estimar por VI.
3) Mínimos Cuadrados en dos Etapas
Es el estimador de Variables Instrumentales que utiliza todos los instrumentos disponibles,

o un instrumento que es combinación lineal de ellos. Es el mejor de todos los estimadores
de Variables Instrumentales.
Aunque la ecuación esté sobreidentificada, este método proporciona una solución única.
93
Comparación entre estos estimadores
- Si la ecuación está exactamente identificada

EMCI=EVI=EMC2E
Propiedades: consistentes y asintóticamente eficientes.
- Si la ecuación está sobreidentificada
Si por ejemplo para un parámetro obtenemos por MCI dos soluciones, una coincide con una
de VI (usando un instrumento) y la otra con la otra utilizando el otro instrumento.
1) El EMC2E combina las dos soluciones y propone un resultado que es el mejor,
puesto que todos los estimadores son consistentes, pero el más eficiente es el de MC2E que
es el de VI que usa como instrumento una combinación lineal de los instrumentos.
Retomando el EJEMPLO5 ¿qué método de estimación se debería utilizar en cada una de

las ecuaciones anteriores?
El método más adecuado para la primera ecuación es MC2E pues está sobreidentificada y
este es el método más eficiente y el que proporciona una solución única.
El método para la segunda ecuación podría ser MCI, VI o MC2E. Los tres proporcionan el
mismo resultado por estar exactamente identificadas.
94
TEMA 7. INTRODUCCIÓN A LOS MODELOS NO LINEALES
7.1.- Especificaciones no lineales
Una de las hipótesis clásicas que se realiza en el modelo de regresión es la de la forma

funcional lineal. La Teoría Económica a veces nos indica cómo es la relación entre las
variables, pero otras veces tienen que ser los datos los que nos ayuden a decidir. La
especificación incorrecta en la forma funcional genera estimadores sesgados e
inconsistentes.
Hay que tener en cuenta que hay varios tipos de modelos no lineales, según que la no
linealidad afecte a los parámetros o a las variables. Dentro de los modelos no lineales en los
parámetros, algunos son linealizables utilizando transformaciones sencillas, son los
modelos intrínsecamente lineales y otros no, son los modelos intrínsecamente no lineales.
No linealidad en las variables:
* En las variables explicativas
Ej: Yt = β 0 + β 1 e X 1t + β 2 X 22t + ε t . Basta con definir nuevas variables de la forma: Z 1t = e X 1t
y Z 2 t = X 22t
* En las variables explicadas
Ej: YtXt + β1lnYt = β2Xt + εt. Sería imposible expresar Y como función de X y β.
No linealidad en los parámetros:
Modelos intrínsecamente lineales
Son modelos fácilmente linealizables mediante sencillas transformaciones.
Ejs: Yt = β0 X tβ1 εt ⇒ lnYt = lnβ0 +β1lnXt +lnεt ⇒ Yt = β 0 + β1 X t + ε t
* * * *
El planteamiento de estos modelos dependerá de lo que estemos interesados en estudiar.

Por ejemplo, si estuviéramos interesados en estudiar la elasticidad del gasto respecto a la
renta, es decir, la variación porcentual del gasto derivada de la variación porcentual de la
renta, el siguiente modelo lineal: Yt = β o + β1 X 1t + ε t siendo Y el gasto y X la renta no nos
serviría, ya que β1 mide la variación absoluta del gasto como consecuencia de una
variación unitaria de la renta y eso no es la elasticidad.
Si el modelo anterior del gasto lo hubiésemos expresado por medio de la función:
Yt = AX tβ1 eε t , se podría transformar, tomando logaritmos neperianos, en el siguiente
modelo (lineal en los parámetros): ln Yt = βo + β1 ln X 1t + ε t siendo β o = ln A y donde β1
mide la elasticidad de Y respecto a X , elasticidad que siempre es constante ( β1 ) y, por
19
eso, a estos modelos se les conoce con el nombre de modelos de elasticidad constante.
De esta manera, si el resultado de la estimación anterior fuese, por ejemplo, el siguiente:
( )
ln Yˆt =
−0,85 + 0,74 ln X 1t la elasticidad del gasto sería 0,74, es decir, si la renta aumenta en
un 1%, el gasto aumentaría en un 0,74%. Al ser el coeficiente menor que 1 se dice que la
variación % de Y ∆Y Y Y
19
=
Recordemos que la elasticidad (E) se define como: E = = pendiente
variación % de X ∆X X X
95
demanda es inelástica, es decir, el gasto aumenta en una proporción menor que la renta. Si
fuese mayor que 1 se dice que es elástica.
Un modelo económico típico de modelo lineal en logaritmos es la función de producción de
Cobb-Douglas: Qt = AK tβ1 Lβt 2 eε t
ln Qt =ln A + β1 K t + β 2 Lt + ε t
Se estima el modelo transformado y una vez conocidos los estimadores, se deshacen los
cambios para calcular los estimadores de los parámetros del modelo original si fuese
necesario.
Por otro lado, si en lo que estamos interesados es en estudiar modelos de crecimiento, en
nuestro ejemplo, en medir la tasa de crecimiento del gasto en función de la renta,
utilizaríamos los modelos semilogarítmicos donde solo la variable endógena está en
logaritmos: ln Yi = β o + β1 X 1i + ε i donde el coeficiente β1 mide la variación porcentual de
Y para determinada variación absoluta de X.
Finalmente, si estamos interesados en analizar cómo se comporta el gasto cuando la renta
aumenta en un determinado porcentaje, el modelo sería: Yi = β o + β1 ln X 1i + ε i donde el
coeficiente β1 mide la variación absoluta de Y para una variación porcentual de X.
7.2.- Modelos intrínsecamente lineales

La estimación por MCO de estos modelos así como la inferencia no tiene diferencias
sustanciales con lo visto en los modelos lineales.
Propiedades de los estimadores

a) Si los parámetros no sufren transformación, los estimadores conservan las
propiedades de MCO.
b) Si sufren transformaciones lineales (sumas y restas) los estimadores
conservan las propiedades de los estimadores de MCO pues la esperanza es un operador
lineal.
c) Si se realizan transformaciones logarítmicas, los estimadores no conservan
las propiedades finitas, pero dado que los estimadores de MCO coinciden con los de MV y
estos tienen la propiedad de la invarianza, se mantendrían las asintóticas.
Problemas con el coeficiente de determinación

a) Si el regresando no sufre modificación, el R2 encontrado para el modelo
transformado sirve también para medir la bondad del ajuste.
b) Pero si existe transformación en el regresando, el R2 nos medirá la bondad
del ajuste del modelo transformado, es decir, no nos medirá la variabilidad de Y sino por
ejemplo del lnY.
96
7.3.- Modelos intrínsecamente no lineales. Mínimos cuadrados no lineales

Son modelos que no se pueden linealizar mediante sencillas transformaciones. Un ejemplo
−v/β
: Qt A δ K t + (1 − δ ) Lt 
−β −β
de ellos es la función de producción CES= + εt
donde Q representa la producción, K el factor capital, L el recurso productivo trabajo, A es
el parámetro de eficiencia referente al estado de la tecnología, δ el denominado parámetro
de distribución que indica la participación relativa de cada factor en la producción, β el
parámetro de sustitución y ν el parámetro relativo a los rendimientos a escala.
De manera análoga a los modelos lineales o los modelos intrínsecamente lineales,
podríamos aplicar el método de minimización de la suma residual a las regresiones
intrínsecamente no lineales, sin embargo, la resolución de las ecuaciones derivadas de la
minimización no conduce a ecuaciones lineales.
Veamos un ejemplo sencillo. Sea el siguiente modelo: Yt =β o + X t β1 + ε t
( )
T T 2
β
La suma de los cuadrados de los residuos se expresa así: SCR= ∑ et = ∑ Yt − βô − X t 1
2 ˆ
=t 1 =t 1
Derivando la anterior expresión con respecto a cada uno de los parámetros e igualando a
cero, obtenemos:
∂SCR
( )
T
−2∑ Yt − βô − X t β1 =
ˆ
= 0
βˆ
o t =1
∂SCR
( )
T
−2∑ Yt − βô − X t β1 X tβ1 ln X t =
ˆ ˆ
= 0
βˆ
1 t =1
Siendo las siguientes ecuaciones normales:
T T
∑ Y=t βô + ∑ X t β1
ˆ
1 t =1
T T T
∑ Yt X t β1 ln X t βô ∑ X t β1 ln X t + ∑ X t 2 β1 ln X t
ˆ ˆ ˆ
=
1 =t 1 =t 1
Como podemos comprobar, las ecuaciones no son lineales ya que presentan parámetros a
ambos lados de las igualdades.
Un ejemplo de este tipo de modelos en Economía es la función de Consumo Agregado:
Ct = β o + β1Yt β2 + ε t
La obtención del estimador MCO requiere por tanto, la resolución de un sistema de

ecuaciones no lineales donde dicho estimador será, en general, una función no lineal del
vector Y. La resolución simultánea de un sistema de ecuaciones no lineales puede
conducirnos a varias soluciones o, incluso, a ninguna, de tal manera que el modelo
econométrico intrínsecamente no lineal puede tener varios estimadores mínimo cuadráticos
o, ni siquiera, tenerlos.
Debido a estos inconvenientes, es preciso buscar otros métodos que nos permitan obtener
los estimadores de mínimos cuadrados de una regresión intrínsecamente no lineal (método
de estimación no lineal), lo cual implica recurrir a procedimientos numéricos tales como
97
algoritmos de optimización no lineal. Uno de los procedimientos más utilizados es el de

Newton-Raphson.
Algoritmo de Newton-Raphson
Este procedimiento está basado en una aproximación cuadrática a la función a estimar en

torno a un valor inicial, por tanto se basa en una aproximación en series de Taylor de orden
2 de la función alrededor de un valor inicial βˆ o . Así la función a minimizar sería:
 ∂SCR ( β )  o ′ ∂ SCR ( β )
 2 
SCR ( β ) ≅ SCR β + 
ˆ o
( )
 ∂β

ˆ o 1 ˆ(
β −β + β −β  ) (  β − βˆ o ) ( )
 β = βˆ0 2  ∂β ∂β ′  β = βˆ0
donde SCR ( β ) representa la suma de los cuadrados de los residuos del modelo no lineal,
βˆ o el valor inicial que toma el vector columna de parámetros β, SCR βˆ suma de los ( )
o
∂SCR ( β ) ∂ SCR ( β )
2
cuadrados de los residuos evaluada en el valor inicial y y la primera y
∂β ∂β ∂β ′
segunda derivada de la suma residual, respectivamente, evaluados en βˆ o .
Si derivamos la expresión anterior con respecto al vector de parámetros β e igualamos a

∂SCR ( β )  ∂SCR ( β )   ∂ 2 SCR ( β ) 
cero:
∂β
 
 ∂β

 β = βˆ
+ 
∂ β ∂β ′
 β − βˆ o =
0 ( )
 ¨0  β = βˆ ¨0
Despejando β obtendríamos el primer valor del vector paramétrico que llamamos:

−1
 ∂ 2 SCR ( β )  
ˆ 1 βˆ o −  ∂SCR ( β ) 
β=   
 
 ∂β  β = βˆ¨ 0  ∂β ∂β ′  β = βˆ 
 ¨0 
Donde βˆ 1 constituye la matriz de orden Kx1 de los nuevos valores de los estimadores MCO
para la primera aproximación lineal de la regresión.
Siempre que exista dicha inversa, este procedimiento se repite de forma iterativa hasta
alcanzar un vector de estimadores que satisfaga los criterios de convergencia. En concreto
para m linealizaciones, la expresión del estimador será:
−1
 ∂SCR ( β )   ∂ 2 SCR ( β )  
βˆ
= m
βˆ m −1
−  
∂β

  ∂β ∂β ′ 
  β = βˆ¨ m −1    β = β¨ m −1 
ˆ
Tal que el criterio de convergencia vendría dado cuando βˆ − βˆ

m −1
m
0
Si los valores iniciales de los coeficientes en torno a los cuales se linealiza la regresión
están próximos a sus verdaderos valores, serán necesarias pocas iteraciones.
98
TEMA 8. INTRODUCCIÓN A LOS MODELOS DE ELECCIÓN DISCRETA
8.1.- Planteamiento del problema
Hasta ahora hemos introducido en nuestros modelos factores cualitativos (a través

de variables ficticias), para explicar el comportamiento de ciertas variables endógenas.
Siempre se introducían como regresores, es decir, en el lado derecho del modelo.
Pues bien, hay muchas situaciones en las que estamos interesados en modelizar el
comportamiento de determinados factores cualitativos, es decir, en la introducción de
variables ficticias como variables endógenas. Por ejemplo, si los individuos votan o no a un
determinado partido, si viajan o no en autobús, si están empleados o desempleados, o si las
empresas realizan innovaciones o no, si exportan o no, etc.
Ejemplo 1: Una pregunta habitual en muchas encuestas es si el individuo está o no
desempleado y se construye una variable cualitativa como la siguiente:
1 si el individuo i trabaja
Yi = 
0 si el individuo i está desempleado
Tiene gran interés económico plantear modelos en los que se expliquen los
determinantes de estar o no desempleado, por lo que la variable Yi es, en este caso, la
variable de interés o endógena. Otros modelos tratan de explicar los determinantes de la
participación femenina en el mercado laboral, por lo que la variable a explicar es como la
planteada, y los determinantes de dicha participación pueden ser la presencia de hijos de
determinadas edades, la edad, la experiencia, el salario del marido, su educación, etc.
Ejemplo 2: Supongamos que se desea estudiar las causas que llevaron a los padres a
elegir una escuela privada o pública para sus hijos. La elección en este caso es también
entre dos alternativas y, por lo tanto, se puede asignar a la variable dependiente dos valores.
Nota: Estas variables pueden tomar más de dos valores, pero centraremos nuestro estudio
en variables dicotómicas, igual que hicimos cuando las introducíamos como regresores en
el tema de variables ficticias de Econometría I.
Veamos a continuación cual es el tratamiento de este tipo de modelos.
8.2.- El modelo lineal de probabilidad

Sea el modelo Yi = β 0 + β1 X i + ε i donde Yi es una variable dicotómica que vale 1 si
ocurre el suceso y 0 si no ocurre.
La interpretación de esta ecuación como un modelo lineal de probabilidad se pone
de manifiesto cuando hallamos la esperanza matemática de cada una de las observaciones
de la variable dependiente, es decir, E (Yi= ) β 0 + β1 X i . Puesto que Yi sólo toma dos
valores 1 y 0 podemos escribir su distribución de probabilidad haciendo
 pi = prob(Yi = 1)

1 − pi = prob(Yi = 0)
99
entonces E (Yi ) = 1 ⋅ pi + 0 ⋅ (1 − pi ) = pi = β 0 + β1 X i
Por tanto la ecuación de regresión puede interpretarse como la probabilidad de que

ocurra el suceso para un valor dado de la variable Xi. La pendiente de la recta de regresión
mide el efecto de un incremento (o decremento) en una unidad de Xi sobre la probabilidad
de que ocurra el suceso.
La estimación de este modelo por MCO presenta una serie de inconvenientes:
• La perturbación no se distribuye como una normal. Toma sólo dos valores, al igual
que Yi, y por lo tanto su distribución es binomial. Para un tamaño muestral
suficientemente grande este no es un problema pues sabemos que la binomial se
aproxima a la normal.
• La perturbación es heteroscedástica. Este problema podría salvarse consiguiendo la
transformación adecuada para obtener la perturbación homoscedástica.
• No hay ninguna garantía de que las predicciones que el modelo proporciona estén
restringidas al intervalo [0,1].
8.3- El modelo Probit y el modelo Logit

Estos modelos surgen fundamentalmente para solventar los inconvenientes vistos
para el modelo de probabilidad lineal, y especialmente para solucionar el último, es decir, el
que las predicciones puedan estar fuera del intervalo [0,1].
La solución consiste en transformar el modelo original de modo que se restrinja la
predicción a estar dentro del intervalo [0,1]. Esto requiere transformar los valores que
pueden pertenecer a toda la recta real de forma que quedan trasladados a ese intervalo pero
que el modelo siga manteniendo las propiedades de un modelo de regresión. Todo esto
sugiere utilizar para E (Yi ) = pi una función de distribución adecuada, que por ser función
de distribución estará acotada entre 0 y 1.
Se suelen utilizar dos, la función de distribución de la normal, que da lugar al
modelo probit, y la función de distribución de la logística, que da lugar al modelo logit.
Criterios de selección
• No se puede utilizar el R2 pero sí el criterio de Akaike y el criterio de Schwartz.
• Otra medida de bondad de ajuste consiste en comparar si la predicción de la
probabilidad coincide con la realización muestral. Para ello se elige un umbral a
partir del cual asumimos que la predicción toma valor 1 (normalmente se elige una
probabilidad de 0,5 para dicho umbral) por lo que las observaciones para las que se
predice una probabilidad superior al umbral, se les asigna el valor 1 y, para las que
es inferior, el valor 0. Estas predicciones se comparan con los valores realizados. El
número de aciertos dividido por la muestra total, constituye una medida de bondad
del ajuste que se conoce como porcentaje correctamente predicho.
100

Copia de Material Teoria EconometrII 2015-2016

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Copia de Material Teoria EconometrII 2015-2016

Загружено:

Авторское право:

Доступные форматы

Material Docente de

Tercer curso del Grado en Economía

Tena 0.- Modelo de Regresión Generalizado…………………………………..1

ESQUEMA DEL TEMA 0: MODELO DE REGRESIÓN GENERALIZADO (MRG)

Especificación del modelo

Sea el modelo : Y=Xβ+ε sujeto a las siguientes hipótesis:

• ε → N (0, Σ ) o bien ε → N (0, σ 2 Ω )

Consecuencias de aplicar MCO a un MRG

El hecho de que la matriz de varianzas-covarianzas no sea escalar tiene una serie de

• La matriz de Var-Cov de βˆ MCO ya no es la misma, es decir ∑ββ ≠ σ ( X ' X )

• Si X es no aleatoria la distribución de βˆ MCO es la misma de ε (una normal)

• S2 deja de ser insesgado y consistente

por tanto S βˆβˆ también será sesgado

en realidad, en condiciones generales,

• βˆ MCO ≠ βˆ MV puesto que Eεε ' ≠ σ 2 I

• Los estadísticos de la t y la F tampoco serán válidos ya que en las distribuciones no

Estimación en el modelo de regresión lineal generalizado suponiendo no aleatoria y

Estimador de mínimos cuadrados generalizados o Estimador de Aitken:

Es el estimador que minimiza la suma de cuadrados de residuos generalizados

La función objetivo a minimizar es:

Se basa en transformar el modelo original de forma que la matriz de Var-Cov de las

Sea el modelo Y=Xβ+ε de regresión generalizado, por tanto

Transformamos el modelo con esta matriz P: PY=PXβ+Pε

que es un modelo que cumple las hipótesis clásicas:

• X* es no aleatoria por ser P y X no aleatorias

Estimación Máximo Verosímil

Maximizar lnL respecto a β es lo mismo que hacer mínima la expresión:

Maximizando lnL respecto a σ2 se obtiene:

Propiedades y distribución del estimador MCG de β

A) Propiedades y distribución para muestras finitas

• Eficiente, ya que alcanza la cota de Cramer-Rao

Estimador insesgado de σ2 en el MRG

El estimador de σ2 en el modelo transformado:

Si obtenemos un estimador consistente de θ : θˆ , podríamos calcular un estimador de

• Errores cometidos al utilizar estimadores de los parámetros de Ω

Propiedades del estimador factible

En la mayoría de los casos estas condiciones se mantienen con tal de que el

Comparación entre estimadores en el MRLNG. Contrastes y Bondad del Ajuste

Comparación entre estimadores en el MRLNG

EMCO ≠ EMV EMCG = EMV EMCGF

Lineal ELIO No lineal

Insesgado Consistente Sesgado

No óptimo Normal Distrib. Exactas no válidas

Consistente Distrib. exactas válidas Generalmente:

Normal S G2 insesgado, consistente si Ω̂ es consistente:

Distrib. Exactas no válidas ∑β ~

S βˆβˆ es sesgado S β~β~ insesgado Asintóticamente Normal

Bondad del ajuste en un MRLG

Si estimamos por MCO, el R2 es válido aunque el método de estimación no sea,

Si estimamos por MCGF evidentemente tampoco tiene sentido utilizar el R2.

Contrastes de restricciones sobre los parámetros en el MRLG (H o : Rβ = r )

• Si estimamos por MCO los contrastes habituales no son válidos ya que

• Si Ω es desconocida y obtenemos el estimador MCGF , sustituimos en la expresión

1.1.- Planteamiento general

o, en forma matricial, Y = Xβ + ε es que la matriz de varianzas-covarianzas de las

Si no se verifica cualquiera de las dos hipótesis, las varianzas no son constantes

Si expresamos Var (ε i ) = σ i2 = σ 2 wi ∀i = 1,2, ,... N , entonces

(a)Homoscedasticidad (igual varianza) (b) Heteroscedasticidad (varianza desigual)

Simbólicamente podemos expresar la heteroscedasticidad como

Obsérvese el subíndice de σ i2 , que es un recordatorio de que la varianza de ε i ya no es

• Errores de especificación del modelo: en general, algún error de omisión, cambio

∑ βˆβˆ = E (βˆ − β )(βˆ − β )' = E[( X ' X )

- El sesgo también se produce por el hecho de que el S 2 , el estimador

1.2.- Procedimientos para detectar la heteroscedasticidad: