Вы находитесь на странице: 1из 415

NOTAS DE CLASE:

ELEMENTOS DE
ECONOMETRÍA Y
ESTADÍSTICA
FINANCIERA
Carlos Mendoza Astroz
Universidad Nacional de Colombia
Facultad de Economía

Este documento es un borrador


sujeto a correcciones y su única
finalidad es servir como
complemento a una actividad
docente
NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 1

Tabla de contenido
Parte I CONCEPTOS BÁSICOS ................................................................................................................................. 3
1. TEORÍA ASINTÓTICA ..................................................................................................................................... 4
3. VALORES Y VECTORES PROPIOS ................................................................................................................ 14
4. DISTRIBUCION NORMAL MULTIVARIANTE .............................................................................................. 20
PARTE II MODELOS MULTIVARIANTES .............................................................................................................. 30
1. ANÁLISIS DE COMPONENTES PRINCIPALES (ACP) ................................................................................... 31
1.1. INTRODUCCIÓN .................................................................................................................................... 31
1.2 INTERPRETACIÓN GEOMETRICA ............................................................................................................. 32
1.3. RESULTADOS MATEMATICOS Y GRAFICOS DEL ACP ....................................................................... 35
1.4. CÁLCULO DE LOS COMPONENTES PRINCIPALES ............................................................................. 38
1.5. PROCESO DE EXTRACCIÓN ................................................................................................................. 41
1.6. TEOREMAS ............................................................................................................................................ 45
1.7. COMPONENTES PRINCIPALES NORMADO O POR CORRELACIONES .............................................. 52
1.8. COMPONENTES PRINCIPALES PARA MATRICES DE COVARIANZAS CON ESTRUCTURAS
ESPECIALES ...................................................................................................................................................... 61
1.9. COMPONENTES PRINCIPALES A PARTIR DE UNA MUESTRA ......................................................... 65
1.10 IDENTIFICACIÓN DE LOS COMPONENTES PRINCIPALES.................................................................... 73
1.11. PRUEBAS ESTADÍSTICAS ................................................................................................................. 75
1.12. CONCLUSIONES ................................................................................................................................ 78
MODELOS DE DATOS PANEL LINEALES ............................................................................................................. 79
I. INTRODUCCIÓN ........................................................................................................................................ 80
II. ESPECIFICACIÓN GENERAL DE UN MODELO DE DATOS DE PANEL ................................................... 88
OVERVIEW DE METODOS DE PANELES DE DATOS ...................................................................................... 91
CARACTERISTICAS DE DATOS PANEL ......................................................................................................... 113
VARIACION BETWEEN-WITHIN ................................................................................................................... 100
VARIABLES OMITIDAS Y EFECTOS NO OBSERVADOS ................................................................................ 103
III. METODOLOGIAS DE ESTIMACION DE MODELOS DE DATOS PANEL ............................................ 119
3. MODELOS DE EFECTOS FIJOS Y ALEATORIOS..................................................................................... 169
ELECCIÓN DEL MÉTODO: ¿EFECTOS FIJOS O EFECTOS ALEATORIOS? .................................................... 211
IV. ESTRUCTURA DE PRUEBAS DE HIPOTESIS: ANALISIS DE VARIANZA.......................................... 187
V. CONTRASTES DE HIPÓTESIS EN DATOS DE PANEL ........................................................................... 207
PRUEBA DE HAUSMAN .................................................................................................................................. 214
CONTRASTES DE AGRUPACIÓN DE DATOS ................................................................................................. 217
VIII. VENTAJAS Y DESVENAJAS DEL MODELO DE DATOS PANELES ..................................................... 251
PARTE VI. ANALISIS DE SERIES DE TIEMPO..................................................................................................... 258
PROCESOS ESTACIONALES ................................................................................................................................ 356
VECTORES AUTOREGRESIVOS (VAR) .............................................................................................................. 388

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 2

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 3

Parte I CONCEPTOS BÁSICOS

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 4

1. TEORÍA ASINTÓTICA
El análisis asintótico esta interesado en varias clases de
convergencia de sucesiones de estimadores a medida que los
tamaños de muestra crecen.

Se comienza con algunas de las definiciones respecto a


sucesiones no estocásticas de números. Cuando se aplican estos
resultados en econometría, N es el tamaño de muestra, y esto se
efectúa para todos los números enteros positivos.

Definición 1. Una sucesión de números no aleatorios


{an|n=1,2,3,….,N} converge a un valor a (tiene limite en a) si para
todo ε>0, existe un Nε tal que si N>Nε entonces, |an-a|<ε. Se nota
como an→a como N→∞.

Definición 2. Una sucesión {an|n=1,2,3,….,n} es acotada, si y solo,


si existe algún b<∞ tal que |an|≤b para todo n=1,2,3,….,N. de
otro modo, se dice que {an} es no acotada. Estas definiciones
aplican a vectores y matrices elemento a elemento.

Ejercicio. Suponga las siguientes series:


1. an=2+1/n entonces an converge a 2, an→2.

2. an=(-1)n entonces no es convergente pero es acotada.

3. an=n1/4 entonces an no es convergente ni es acotada.

Serie 1 Serie 2 Serie 3

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 5

Convergencia en Probabilidad
Definición 3. La variable aleatoria xn converge en probabilidad a
una constante c si
limn Prob( xn c > )=0 para cualquier >0.

La definición anterior indica que se hace cada vez más


improbable que xn tome valores distintos a c, a medida que n, el
tamaño de la muestra, aumenta. La convergencia en
probabilidad se denomina convergencia débil.

Ejemplo. Supongamos que tenemos una variable aleatoria xn


cuya distribución de probabilidad es la siguiente:
 1
1  si xn  0
f ( xn )  n
1
 si xn  n
 n
En este caso,
limn Prob( xn 0 > )=0

Es decir, xn converge en probabilidad a cero. A medida que n


aumenta, xn, toma el valor de n con una probabilidad cada vez
menor (1/n converge a cero a medida que n→∞). Esto es, toda la
masa de la distribución se concentra en aquellos puntos en la
vecindad de cero. En general, si, xn, converge en probabilidad a c,
es posible escribir
plim xn=c o x  c
P
n

Definición 4. Convergencia “casi segura” (almost surely o “a.s”) o


con probabilidad 1 se denomina convergencia fuerte. Esta se
define como:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 6

Prob{ limn xn( )=x( )} = 1

Esto es, la sucesión {xn} converge a x con probabilidad 1. Esto se


simboliza como:
a .s .
x n 1

Ejemplo 2. La convergencia fuerte, se observa en los siguientes


casos:
a. Si {xn} es una sucesión de variables aleatorias
independientes e idénticamente distribuidas con
E(xn)=μ<, entonces:
_ a.s.
xn  

Por la ley fuerte de los grandes números.


b. Prob{lim n xn=0} = 1 0 x 0
a .s .
n

Es común encontrar notaciones O(1/n) y o(1/n). Se dice


que cn es O(1/n) ocurre que si plim(ncn) es una constante
finita distinta de cero. En tanto, se dice que c es o(1/n) si
ocurre que plim(ncn)=0. Por ejemplo,
1 3 es O(1/n) dado que plim(nc )=1
c   n n
n n2
1
cn  2 es o(1/n) dado que plim(ncn)=0
n
Si xn es una sucesión de variables aleatorias con media μn y
varianza  , tal que: 2
n

limn n = y limn  =0 2
n

Entonces se dice que xn converge en media cuadrática (quadratic


mean o“q.m”). Esto se representa como:
q .m.
xn  

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 7

Además, se tiene que plim xn=μ. Este último resultado se basa en


la desigualdad de Chebychev, la cual establece que si xn es una
variable aleatoria con c y como constantes, entonces:
Prob( xn c > ) E(xn c)2/ 2
Si hacemos c=mn, tenemos que
Prob( xn n ) E(xn n)2/ 2=  /  . Si tomamos límites en
2
n
2

ambos lados de la desigualdad cuando n tenemos:


limn Prob( xn n ) limn  /  2
n
2

Lo cual implica que plim xn= , dado que limn n= y lim n  2


n

=0. La Convergencia en media cuadrática implica convergencia


en probabilidad, pero no viceversa.

Estimador Consistente
Se dice que un estimador  de un parámetro θ es consistente si y

sólo
plim  =θ

La media muestral x de cualquier población con media finita y


varianza finita σ2 es un estimador consistente de . La media
muestral esta dada por x   x donde x1,...,xn es una muestra de
__ n

i
i 1

una población cuya distribución tiene media y varianza finitas


y σ2, respectivamente. Entonces:

 ___ 1 n
  1
E  x    E xi  (n )  
n n
  i 1

2
 ___ 1 n
 1
Var  x   2 Var xi  2 (n ) 
2

n
  n i 1 n

Asumiendo que las variables aleatorias x son independientes e


idénticamente distribuidas. De lo anterior, limn E(x)= y

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 8

limn Var(x)=0. Por lo tanto, x converge en media cuadrática a


. Ello implica que plim x =
__

Teorema 1. Con muestreo aleatorio, para cualquier función g(x),


si E(g(x)) y Var(g(x)) son constantes finitas, se tiene que:
1 n
p lim  g ( xi )  Eg ( xi )
n i 1

Teorema de Slutsky. Para una función continua g(xn) que no es


una función de n se tiene:
plim g(xn)=g(plim xn).

Reglas de la Probabilidad Límite


Escalares. Si xn e yn son variables aleatorias con plim xn=c y plim
yn=d, entonces:
1. plim(xn+yn)=c + d (regla de la suma)
2. plim(xn yn)=c d (regla del producto)
3. p lim x   c (regla de la división (con d≠0).
n

 yn  d

Ejemplo. Supongamos que la media y varianza muestral del


conjunto de variables aleatorias i.i.d de x1,..,xn tienen una
esperanza y varianza poblacional μ y σ2 respectivamente, que
son estimadores consistentes. Esto es,
plim x =plim 1  x   y plim s2 = 1  ( x  x)  
__ n n __
2 2
i i
n i 1 n  1 i 1

Entonces,

Matrices. Sea Wn una matriz cuyos elementos son variables


aleatorias, tal que plimWn=𝛀, con 𝛀 matriz invertible. Entonces:
plim Wn-1= 𝛀 -1

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 9

Si Xn e Yn son matrices de variables aleatorias, tal que plim Xn=A


y plim Yn=B, entonces,

plim(XnYn)=AB (regla de la matriz producto)

Convergencia en Distribución
xn converge en distribución a una variable aleatoria x con
función distribución acumulada (f.d.a) F(x) si:
limn ( F(xn) F(x) )=0
En todos aquellos puntos de continuidad de F(x). Esto se
simboliza como:
d
xn  x

Reglas para la Distribución Límite. Si y plim yn=c, entonces:


d
xn  x
d

1. Si xn  y n  c  x
d

2. Si xn yn  cx

3. Si x  x y g(xn) es una función continua, entonces g ( x )  g ( x)


d d
n n

4. Si plim(xn-yn)=0, entonces xn e yn tienen la misma


distribución límite.

Ejemplo. Supongamos una muestra de n observaciones i.i.d.


extraídas de la distribución x~N(0, σ2). Sabemos que la
distribución se comporta bajo una distribución de la forma:

Donde,

Bajo ciertas condiciones de regularidad, se tiene que plim s2=σ2


y n x  N (0, ) . Entonces,
__ d
2

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 10

1 __ d
n x  N (0,1)
s
La convergencia en probabilidad implica convergencia en
distribución, pero no viceversa. Es decir, el concepto de
convergencia en probabilidad es más fuerte. En primer término,
si plim(  ), entonces   . Ello, porque:
  d
n n

 

lim n  f ( n )  1 si  n 
0 e.o. p..

Gráficamente,

Por otra parte, convergencia en distribución no implica


convergencia en probabilidad a una constante. Para probar tal
aseveración, basta con dar un contraejemplo. Supongamos que:

Se tiene que , donde


d
xn  x

Es decir, xn converge a una variable aleatoria pero no a una


constante.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 11

Distribución Asintótica de una Función de una Variable Aleatoria


Supongamos que n ( z   )  N (0, ) entonces si g(zn) es una función
d
2
n

continua que no depende de n, se tiene que:


d
n ( g ( z n )  g ( ))  N (0, ( g (  )) 2  2 )

Para analizar el caso multivariado, consideremos un vector zn de


variables aleatorias, μ un vector de medias, ambos de tamaño
kx1 y Σ la matriz de covarianzas de tamaño kxk, tal que,
n ( z   )  N (0, ) . g(zn) es un vector de J funciones continuas de zn
d
n

que no dependen de n, entonces:


d
n ( g ( z n )  g ( ))  N (0, CC T )

Donde C es una matriz jx k cuya j-ésima fila es el vector de


derivadas parciales de la j-ésima función con respecto a zn,
evaluado en μ:

Consistencia y Normalidad Asintótica de Mínimos Cuadrados


Ordinarios (MCO)
Consideremos el modelo clásico de regeresión lineal expresado
en términos matriciales:
y=Xβ +ε donde E(ε|X)=0, E(εεT)=σ2I, con σ2 constante finita.

Asumamos que = limn (1/n)XTX=Q, matriz positiva definida e


invertible, donde, por simplicidad, se asume que X es una matriz
de variables no estocásticas. El estimador MCO viene dado por:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 12

 1 1
  ( X T X )1 X T Y    ( X T X )1 ( X T  )
n n

  ( X T X )1 X T Y  ( X T X )1 X T ( X   )
 1 1
  ( X T X )1 X T Y    ( X T X )1 ( X T  )
n n
Entonces,
plim  = β +limn limn

1 T 1 1 T
(X X ) (X  )
n n
Por las propiedades de probabilidad límite descritas en
secciones anteriores se tiene que:
n n
1 T __
( X  )   xi i   wi  w
n i 1 i 1

Donde xi es el vector 1xk correspondiente a la i-esima fila de la


matriz X y wi≡xiεi. Se tiene que:

De ello, se puede observar que:

Esto implica que w converge en media cuadrática a cero y, por lo


__

tanto, plim w =0. Es decir, plim (1/n)XTε=0. En consecuencia, el


estimador MICO es consistente.
 =Q-10=β

Distribución Asintótica del Test de Restricciones Lineales


Supongamos que queremos contrastar un conjunto de J
restricciones lineales. Se realiza la prueba sobre la hipótesis
nula, H0, contra la hipótesis alternativa H1.
H0: Rβ=q
H1: Rβ ≠q,

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 13

Donde R es una matriz J x k, β es un vector k x 1 y q es un vector J


x 1. Por ejemplo, se dea comprobar si un subconjunto de los
coeficientes es igual a cero, de la forma:
H0: β1=0, β2=0, β3=0
H1: βi≠0 ∀ i

Con las siguientes matrices

Dicho conjunto de J restricciones puede ser contrastado con el


siguiente estadístico:

Donde  es el estimador MCO no restringido. Este se distribuye


F(J, n-k) bajo normalidad de los errores poblacionales del


modelo lineal. No obstante, aun cuando el supuesto de
normalidad no se satisfaga, es posible obtener la distribución
asintótica del estadistico. Específicamente, en muestras grandes
se tiene que:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 14

3. VALORES Y VECTORES PROPIOS


I. Conceptos.
Los vectores propios, valor característico o eigenvectores de un
operador lineal son los vectores no nulos que cuando son
transformados por el operador dan lugar a un múltiplo escalar
de sí mismos, con lo que no cambian su dirección.
Suponga la transformación del espacio para la siguente pintura:

En esta transformación de la MONALISA, la imagen se ha


deformado. El vector azul, representado por la flecha azul que va
desde el pecho hasta el hombro, ha cambiado de dirección,
mientras que el rojo, representado por la flecha roja, no ha
cambiado. El vector rojo es entonces un vector propio de la
transformación, mientras que el azul no lo es.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 15

Dado que el vector rojo no ha cambiado de longitud, su valor


propio es uno (1). Todos los vectores de esta misma dirección
son vectores propios, con el mismo valor propio.
El escalar λ recibe el nombre valor propio, valor característico o
eigenvalor. A menudo, una transformación del espacio queda
completamente determinada por sus vectores propios y valores
propios.
Las transformaciones lineales del espacio como rotación,
reflexión, ensanchamiento, o cualquier combinación de las
anteriores pueden interpretarse mediante el efecto que
producen en los vectores.

Los vectores pueden visualizarse como flechas de una cierta


longitud apuntando en una dirección y sentido determinados.
Dado lo anterior se puede inferir que:
1. Los vectores propios de las transformaciones lineales son
vectores que, o no se ven afectados por la transformación o
se ven multiplicados por un escalar, y por tanto, no varían
su dirección.
2. El valor propio de un vector propio es el factor de escala por
el que ha sido multiplicado para que no se vean afectados
por la transformación.

Por ejemplo, un vector propio de una rotación en tres


dimensiones es un vector situado en el eje de rotación sobre el
cual se realiza la rotación. El valor propio correspondiente es 1 y
el espacio propio es el eje de giro. Como es un espacio de una

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 16

dimensión, su multiplicidad geométrica es uno. Es el único valor


propio del espectro (de esta rotación) que es un número real.

Otro ejemplo sería una lámina de metal que se expandiera


uniformemente a partir de un punto de tal manera que las
distancias desde cualquier punto al punto fijo se duplicasen. Esta
expansión es una transformación con valor propio 2. Cada vector
desde el punto fijo a cualquier otro es un vector propio, y el
espacio propio es el conjunto de todos esos vectores.

II. Definiciones.
Sea una matriz simétrica Σ con de orden PxP con las siguientes
características:
 12  12  1p 
 
  21  22  2p 

     
 
 p1  p 2   pp 
Definición 1. La traza de Σ denotada por tr(Σ) se define como:
P
 11   11     pp   ii
i 1

Por lo tanto, la traza es la suma de todos los elementos de la


diagonal.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 17

Definición 2. Los valores propios (llamados raíces


características) de Σ son las raíces de la ecuación polinomica.
|Σ-𝛌I|=0 (1)
Cuando es desarrollada la expresión del determinante la
ecuación resultante es:
c1 p  c2  p 1    c p   c p 1  0 (2)
La ecuación (2) es una ecuación polinominal de λ con grado p.
Los valores propios son la solución a la ecuación anterior.

Definición 3. Cada valor propio tiene asociado un vector no cero


correspondiente, e, llamado vector propio que satisface la
condición:
Σe =𝛌e (1)
Debido a que Σ tiene P valores propios (ya que la matriz es de
orden PxP), tendrá P vectores propios. Denotemos, por e1,e2,…ep
los vectores propios de Σ correspondientes a los valores propios
λ1, λ2,… λp respectivamente.

Ejemplo. Suponga la siguiente matriz de covarianzas, encuentre


sus valores y vectores propios.
6 2
Σ=[ ]
2 3
a. Valores propios
6 2
Σ=[ ]
2 3
6 2 1 0
Σ − λI = [ ] − λ[ ]
2 3 0 1
6−λ 2
Σ − λI = [ ]
2 3−λ

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 18

El determinante de la matriz Σ-𝛌I, |Σ-𝛌I|, es igual a la siguiente


ecuación cuadrática o ecuación característica:
𝛌2-9𝛌+14=(𝛌-7)(𝛌-2)=0.
La solución son dos valores propios reales, diferentes y positivos
𝛌1=7 y 𝛌2=2.

b. Vectores propios
Es necesario calcular el vector propio asociado para la matriz Σ,
que para este caso corresponde al valor propio más grande
(λ1=7) por lo tanto se construye el siguiente sistema de
ecuaciones:
Σe=λe
6 2 e1 e1
[ ] [ ]=7[e ]
2 3 e2 2
Construyendo un sistema de ecuaciones se llega a que:
6e1+2e2=7e1
2e1+3e2=7e2
Resolviendo y dejándolo en términos de vectores se tiene que:
2e2 7e − 6e1 2e e1
[ ]=[ 1 ] [ 2 ]=[2e ]
3e2 − 7e2 −2e1 4e2 1
Existen infinitas soluciones. De manera que cualquier vector
propio de tamaño 2X1 que tenga su primer elemento igual al
doble del segundo será el vector propio de Σ asociado con el
primer valor propio λ1.

Si se asume, para eliminar infinitas soluciones, que la variación


de la primera componente del vector propio e es igual a uno
(e2=1) se tiene que:
e2=1: 2e2= e1 e1=2 y por tanto
e1=2: 4e2=2e1 e2=1

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 19

Entonces el vector propio asociado para el primer valor propio


(λ=7) es:
2
x=[ ]
1
Es usual en la práctica determinar un valor propio de modo que
su tamaño sea la unidad. Es decir, si existe el sistema 𝚺x=𝛌x, es
posible tener e=x/√x t x , entonces:

√x t x =√[2 1] [2]=√5
1
El vector propio normalizado de Σ correspondiente al primer
valor propio 𝛌1=7, corresponde a:
2/√5 0.8944
e1= [ ]=[ ]
1/√5 0.4472

Programación en STATA
matrix input A = (6,2\2,3)
matrix symeigen Vectores Valores = A
matrix list Valores
matrix list Vectores

Ejercicio. Encuentre los valores y vectores propios de la


siguiente matriz de covarianzas:
7 4
𝚺=[ ]
4 9

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 20

4. DISTRIBUCION NORMAL MULTIVARIANTE


Cuando se trabaja en la vida real, un supuesto habitual asume
que la variable en estudio, X, se distribuye con un
comportamiento normal. Por ejemplo, la altura, riqueza o
inteligencia de las personas, entre otras. La distribución normal
univariada es una expresión de este hecho partiendo de un
promedio muestral µ y varianza muestral σ2, que tiene la función
de densidad de probabilidad:
1 1 / 2( x   ) /  2
f ( x)  e
2 2 -∞<x<∞
Un gráfico de esta función es una forma de campana que agrupa
en el intervalo de una desviación estándar alrededor de la media
el 68.0% de la población, es decir, P(µ-σ≤X≤ µ+σ)=68% y
agrupa en el intervalo con dos desviaciones estándar alrededor
de la media el 95.0% de la población P(µ-2σ≤X≤ µ+2σ)=95%.
La función de densidad normal univariada usualmente se nota
como N~(µ,σ2). Esta formulación puede ser extendida al caso
cuando p>1. El tratamiento generalizado sobre variables como
una distribución normal se encuentra fundamentado en el
Teorema del Límite Central, que demuestra como la suma de
variables independientes se distribuye en el límite, o cuando la
muestra tiende al infinito, bajo esta función de distribución.

Teorema 1. Teorema de límite central. Sea X1,…..,Xn


observaciones independientes de cualquier población con media
µ y covarianza σij, entonces:
n ( X   ) se aproxima a NP(0, σ)
____

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 21

Para tamaños de muestra grande donde n debe ser más grande


que p. De una manera simplificada, indica que si existen X1,...,Xp
variables aleatorias (v.a.) independientes con media µ y varianza
común σ2<∞, la función de densidad se aproxima a la
distribución normal Z∼N(0,1) cuando el tamaño de muestra, n,
es grande. Esto es, para n grande
X 1  X 2  X 3 ......  X n __
 X  N ( , )
n
Para observar la aplicación en un ejemplo práctico sobre una
muestra aleatoria, es posible verificar el cumplimiento del
teorema del límite central bajo el supuesto de diferentes tamaños
de muestra.

n=30 n=1000 n=5000


Distribución normal bivariante
Es una generalización para vectores continuos del modelo
normal univariado. En el caso bivariante, la distribución normal
no se basa en un número, sino en un vector de variables
aleatorias (X1,X2) con vector medias muestrales µ = (µ1, µ2) y
matriz de covarianzas Σ, definida por:

Basado en el caso univariado tiene como función de densidad

Una distribución normal bivariada con media µ y matriz de


covarianzas Σ se nota como N(µ, Σ), y se puede representar
gráficamente como:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 22

Propiedades
1. La distribución marginal de X es N(µ1,σ1)
2. La distribución marginal de Y es N(µ2,σ2)
3. La distribución de Y condicionada por X = x0 se puede
representar como:

Donde ρ es el coeficiente de correlación para el caso bivariado.


ρ= cov(X1,X2)
σ1σ2
4. Si un vector aleatorio (X1,X2) tiene distribución N(µ,Σ) y
Cov(X1,X2)=0, entonces se puede representar su matriz de
covarianzas, Σ, de la forma:

Sustituyendo esta expresión en la función de densidad de


probabilidad para una distribución normal bivariada se obtiene
que f(x,y)=f(x)·f(y), en este caso se denominan factores los
vectores aleatorios estadísticamente independientes.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 23

Distribución Normal Multivariada


Se dice que un vector de variables aleatorias XT=[X1,X2…..Xp]
tiene una distribución normal multivariada si existe un vector
a=[a1,a2,…..,ap], tal que:
p
a X   ai xi
T

i 1

Donde cada uno de sus elementos del vector tiene una


distribución univariada para todos los conjuntos posibles de
valores seleccionados. La media de un vector de variables
aleatorias X se denota por μ1xp y la matriz de covarianzas de X se
denota por 𝚺pxp. Definidas por:
 E ( X 1 )   1 ) 
   
 E ( X 2 )   2 )
  E( X )  
   
 E ( X )   )
 p   p 

La matriz de covarianzas 𝚺 =Cov(X)=E[(X- μ)( X- μ)], de orden


pXp puede ser calculada como:
 12  12  1p 
 
  22  2p 
   21
     
 
 p1  p 2   pp 

Donde σii=Var(Xi)=E[(Xi-μi)2] y σij=cov(Xi)=E[(Xi-μi)(Xj-μj)]

Función de densidad de probabilidad normal multivariada


Suponga p variables estandarizadas aleatorias independientes e
idénticamente distribuidas (v.a.i.i.d.), Zi, i=1,…n por el Teorema
del Limite Central poseen una función de distribución de
probabilidad Zi~N(0,Σ) si n es grande. Puesto que Zi es

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 24

independiente y con la matriz Σ es posible obtener una función


de distribución de probabilidad de la forma:
n
f ( Z1 ,.....Z n )  f ( z )   f ( zi ) si se supone una distribución
i 1

normal multivariada
 
n
f ( Z1 ,.....Z n )  f ( z )   (2 ) 1 / 2 |  |-1e  2zi
2

i 1

 n 2
f ( Z1 ,.....Z n )  f ( z )  2 n / 2
||
-n
e   zi 
1
2
 i 1 
f (Z1 ,.....Z n )  f ( z )  2  n / 2 |  |- n e 12 Z T Z  
Donde ZT=(Z1,...,Zt) es un vector transpuesto de v.a.i.i.d.
normales. Ahora suponga la transformación X=AZ+B donde A es
una matriz no singular de tamaño nxn y B es un vector es un
vector nX1 de constantes. Es posible realizar la siguiente
transformación:
g ( z )  2  n / 2 | A |1 e12 Z T Z  pero Z=A-1(X-B)
g ( z )  2  n / 2 | A |1 e 12 A1 ( X  B)    A
T 1
( X  B) 
 
g ( z )  2  n / 2 | A |1 e 12 ( X  B)T At )( A1 ( X  B) ) 
Puesto que E[Z]=0, entonces E[X]=B y la propiedad de
independencia que implica sobre la matriz de covarianzas
cov[Z]=In, por tanto cov(X)=AAT. Estableciendo que μ=B y Σ=
AAT es posible reescribir g(x) de la forma estándar:
 
g ( z )  2  n / 2 |  |1 / 2 e 12 ( x   )T 1 ( x   ) ) 
La cual se conoce como distribución normal multivariada con
media μ y matriz de covarianza Σ.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 25

Teoremas
Teorema 2. Si Σ es positiva de modo que Σ-1 existe, entonces
Σe=𝛌e implica que Σ-1 e=  1  e
 

Así el par de valores propios y vectores propios de Σ


correspnden al par (1/𝛌,e) para Σ-1. También Σ-1 es definida
positiva.

Teorema 3. Si X es distribuido como una NP(μ,Σ) las q


combinaciones lineales
 a11 X 1  a11 X 2    a1 p X p 
 a X  a X  a X 
AX  
11 1 11 2 1p p 

  
 
a X  a
 q1 1 q 2 2 X    a qp X p
Son distribuidos Nq(Aμ,AΣAT) . También, X+d donde d es un
vector de constantes es distribuida Nq(A+b,Σ).

Teorema 4. Si X es distribuido N(μ,Σ), entonces cualquier


combinación lineal de variables aTX=a1X1+a2x2+…..+apXp es
distribuido N(aTμ,aTΣa). También, si la combinación lineal aTX es
distribuida como N(aTμ, aTΣa) para cada a, entonces X debe ser
N(μ,Σ).

Teorema 5. Todos los subconjuntos de X están normalmente


distribuidos. Si se particiona X, su vector de medias μ y matriz de
covariazas Σ será de la forma,

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 26

 X1    1    11 | 12 
        
X           
X2       21 |  22 
   2  
Teorema 6. Si X1 y X2 son dos vectores aleatorios independientes
de orden qX1 y qX2 respectivamente, entonces
a. Las covarianzas entre dichos vectores son iguales a cero,
Cov(X1,X2)=0. La matriz de ceros es de orden q1Xq2.
b. Si es      |    entonces X1 y X2 son independientes si y
 X1 
 
1 11 12

   N q1q 2   ,     
X2     2   21 
|  22  
   

solo si Σ12=0.
c. Si X1 y X2 son independientes y distribuidas Nq1(μ1,Σ11) y
Nq2(μ,Σ) respectivamente, entonces [X1 X2] es normal
multivariante distribuido como:
  1  11 | 0 
  
N q1q 2   ,      
   
  2   0
 | 11  

Teorema 7. Sea X una variable distribuida Np(𝛍,𝚺) con |𝚺|>0.


Entonces,
a. La matriz (x-μ)TΣ-1(x-μ) es distribuida como una chi-
cuadrado con p grados de libertad, χ2(0.5,2).
b. La distribución Np(𝛍,𝚺) asigna una probabilidad 1-𝛂 a la
elipse solida tal que {x|(x-μ)TΣ-1(x-μ) χ2(0.5,2)}, donde χ2(𝛂,p)
denota el contorno superior del 𝛂 y se describe como el
percentil de la distribución χ2.

Ejemplo. Suponga las diez empresas más grandes de Colombia


con los datos de ventas, utilidades y activos expresados en
millones de dólares.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 27

No ventas utilidades activos


Ecopetrol 126.97 4.22 173.29
Avianca 96.93 3.83 160.89
Suramerica 86.65 3.51 83.21
Tablemac 63.43 3.75 77.73
Coltejer 55.26 3.93 128.34
Coltabaco 50.97 1.8 39.08
Éxito 39.06 2.94 38.52
ETB 36.15 0.35 51.038
ISA 35.2 2.48 34.71
Argos 32.41 2.41 25.63
Determine si las ventas y utilidades registradas por estas
empresas hacen parte de una distribución normal bivariada. El
resultado puede ser comparado utilizando el resultado
establecido como:
(x-μ)TΣ-1(x-μ) ≤ χ2(0.5,2)

Si no se conoce la varianza poblacional, Σ, es necesario utilizar la


varianza muestral, S, de la forma:
(x-μ)TS-1(x-μ) ≤ χ2(0.5,2)
Donde se prueba si se encuentra sobre un distribución normal
bivariada con una distribución chi cuadrado con dos grados de
libertad que toma un valor de 1.39 χ2(0.5,2)=1.39. Valores
superiores afirma que no se encuentra sobre una distribución
normal.
POBLACIONAL MUESTRAL Variables centradas
9005.32 230.38 1000.59 25.60 No ventas utilidades χ2(0.5,2)
varianza
230.38 12.89 25.60 1.43 Ecopetrol 64.667 1.298 4.343
Avianca 34.627 0.908 1.199
0.0002 -0.00366 0.0018 -0.032915 Suramerica 24.347 0.588 0.594
inversa
-0.00366 0.14296 -0.0329 1.2866317 Tablemac 1.127 0.828 0.823
Coltejer -7.043 1.008 1.866
Coltabaco -11.333 -1.122 1.019
Éxito -23.243 0.018 1.023
ETB -26.153 -2.572 5.343
ISA -27.103 -0.442 0.815
Argos -29.893 -0.512 0.975

El resultado indica que siete de esas distancias (70%) son


inferiores a 1.39. Si fuera una distribución normalmente

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 28

distribuida es de esperarse que cerca de la mitad, cinco


observaciones, se encuentren dentro del contorno, razón por la
cual se rechaza la hipótesis que esta sea una distribución normal
bivariada.

Constrastes de multinormalidad
Para contrastar la normalidad univariada,como primer pasose
han desarrollado estrategias graficas que alertan sobre la
normalidad de un conjunto de datos. Al estrategia mas usada
consiste en graficar cuantilas de datos frente a cuantilas de
distribución univariada, estos graficos se conocen como QxQ
plot. Las cuantilas son similares a los percentiles, un grafico QxQ
plot se obtiene:
1. Se ordenan las observaciones de mayor a menor. Así la
cuartila muestral xi es la cuartila i/n.
2. Se ubican los pares y se examina la linealidad resultante.

Ejemplo. Suponga que se generaron números aleatorios


distribuidos bajo una distribución normal estándar con 500
observaciones. SeQ-Q
Normal gráfico genera el siguiente QxQ plot.
de VAR00001
4

1
Valor Normal esperado

-1

-2

-3

-4
-4 -3 -2 -1 0 1 2 3 4

Valor observado

El contraste estadístico de mayor significancia y utilización de


para corroborar la normalidad univariada es el Kolmogorov-

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 29

Smirnov. Este estadístico calcula la distancia entre la función de


distribución empírica de la muestra, Fn(X) y la teórica, F(X), en
este caso la normal. El estadístico de prueba consiste en:
Dn=max{|Fn(X)-F(X)|}

Donde max es la función máximo. Lo que intenta la prueba es


determinar la distancia máxima entre la distribución teórica y la
muestral, con ello realizar el estadístico. La prueba de hipótesis
asociada
H0: no es normal la muestra
H1: es normal la muestra

Ejemplo. Suponga que se generaron números aleatorios


distribuidos bajo una distribución normal estándar con 500
observaciones. Se demostrara el uso del estadístico Kolmogorov-
Smirnov (KS).

La prueba parte de un estadístico KS con un valor de 0.555 lo


que indica que la significaciona tiene un valor de 0.917 lo cual
rechaza la hipótesis nula de no normalidad de la muestra. Con
este resultado se puede asegurar con un 95.0% de confianza que
la muestra parte de una distribución normal.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 30

PARTE II MODELOS MULTIVARIANTES

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 31

1. ANÁLISIS DE COMPONENTES PRINCIPALES (ACP)


1.1. INTRODUCCIÓN
Un análisis de componentes principales (ACP) está interesado en
explicar la estructura de varianzas y covarianzas (información)
de un conjunto de variables a través de combinaciones lineales
de estas.

Dicha representación debe ser tal que al desechar dimensiones


superiores (generalmente de la tercera o cuarta en adelante) la
pérdida de información sea mínima.

El objetivo principal que persigue el ACP es la representación de


las medidas numéricas de varias variables en un espacio de
pocas dimensiones donde puedan percibir relaciones que de otra
manera permanecerían ocultas en dimensiones superiores y
permitir, en primer lugar, reducir los datos, y en segundo lugar,
efectuar interpretación de resultados.

Aunque p componentes son necesarias para reproducir la


variabilidad completa del sistema, muchas veces esta puede ser
resumida por un pequeño número k de componentes principales
(k<p).

Si es así (casi siempre) mucha información en los k componentes


se refleja como si existiera en las p variables originales.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 32

1.2 INTERPRETACIÓN GEOMETRICA


La representación gráfica implica la creación de un plano r-
dimensional y ubicarlo de tal manera que se encuentre lo más
aproximado al gráfico de dispersión de los datos originales.

Suponga un plano inicial que cruza a través del origen


determinado por la combinación lineal u1, u2,…,ur consistente de
todos los puntos con las siguientes caracteristicas:
x=b1u1+b2u2+………..+brur=UB para algun B

Este plano, puede ser trasladado a cualquier ubicación a través


de un punto a lo cual se convierte en a+UB para algún b.

El objetivo de los componentes principales (ACP) es seleccionar


un plano r-dimensional a+UB que minimice la suma de las
distancias al cuadrado, ∑nj=1 d2j , entre las observaciones xj y el
plano r-dimensional a+UB.

Grafico 1. Visión grafica del análisis de componentes principales

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 33

Las k componentes principales pueden reemplazar las p


variables iniciales del conjunto de datos originales, consistente
de p variables reducidas a un conjunto de datos de k
componentes principales.

Un análisis de componentes principales muchas veces revela


relaciones que no fueron previamente sospechadas, por lo tanto,
permite efectuar interpretaciones que ordinariamente no
tendrían algún tipo de sustento.

El análisis de componentes principales es un paso intermedio,


más que un fin en si mismo, debido a que es un intermediario
para procesos más largos de investigación. Por ejemplo, puede
ser insumo para regresiones múltiples, análisis de cluster,
construcción de indicadores, entre otros.

Se quiere construir un nuevo sistema de coordenadas


ortogonales (perpendiculares) en el cual los puntos puedan ser
representados de una manera tal que sus proyecciones sobre el
nuevo primer eje recojan la mayor cantidad posible de variación
(varianza). Las proyecciones sobre el segundo eje recoja el resto,
y asi sucesivamente.

Intuitivamente, para un grafico con dos variables, encontramos


que tales ejes corresponden a las rectas F1 y F2, representadas
en la gráfica 2 cuyo origen se encuentra en la intersección de los
promedios de las variables X y Y, que desde ahora será
denominado centro de gravedad G de la nube de puntos.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 34

Grafica 2. ACP para dos componentes

Con mucha frecuencia se maneja simultáneamente un número p


de variables numéricas. Si cada variable se representa sobre un
eje, se necesitaría un sistema de coordenadas con p ejes
perpendiculares entre sí para ubicar las coordenadas de los
puntos y poderlos representar.

Este grafico es imposible incorporarlo cuando p≥4, pero la idea


esbozada en el ejemplo anterior sigue siendo válida, buscar un
nuevo sistema de coordenadas con origen en el centro de
gravedad, G, de tal manera que el primer eje del nuevo sistema
(F1) refleje la mayor cantidad posible de variación a través de la
minimización de las distancias entre el plano y los datos. El
segundo eje (F2), refleje la mayor cantidad posible entre la
variación restante, el tercer eje (F3) la mayor variación posible
remanente después de las dos anteriores, y así sucesivamente.

Observando la figura anterior se puede deducir que el nuevo


sistema de coordenadas se logra después de dos movimientos en
la nube de puntos. Un primer movimiento es una traslación que
permite situar el nuevo origen en el centro de gravedad de la
nube, G.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 35

La nueva nube, obtenida después de esta traslación se llama


nube centrada. Un segundo movimiento que se hace sobre la
nube centrada es una rotación, usando el centro de gravedad
como punto pivotal. Existe una visión alternativa de rotación a
través de senos y cosenos

Esta rotación ha de hacerse de tal manera que el nuevo primer


eje del sistema de coordenadas apunte en la dirección de
máxima dispersión de la nube centrada. El segundo eje apunte
en la dirección con la segunda mayor dispersión y perpendicular
al anterior. El tercer eje en la dirección de tercera mayor
dispersión perpendicular a las dos anteriores y así
sucesivamente.

Es evidente que el nuevo sistema de coordenadas tiene entonces


tantos ejes perpendiculares entre sí como tenía el antiguo, es
decir, tantos ejes como variables se hayan considerado
inicialmente.

1.3. RESULTADOS MATEMATICOS Y GRAFICOS DEL ACP


Suponga considerar los componentes principales derivados de
variables aleatorias con una distribución normal multivariante.

Suponga X es distribuido como N(μ,Σ), aunque este supuesto no


es necesario. Se puede demostrar que la densidad de X es
constante sobre elipsoides centrados μ con la formula:
(X-μ)Σ-1(X-μ)=c2

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 36

La cual tiene ejes ±c√λi ei i=1,2,….p donde (λi,ei) es la


combinación de valor propio y vector propio de Σ. Es decir,
Gráfico 3. Representación grafica por elipsoides

Un punto sobre el eje i-esimo de la elipsoide tendrá coordenadas


a 𝐞ti =[ei1,ei2,……,eip] en el sistema de coordenadas que tiene
origen en μ y los ejes son paralelos a los ejes originales x1,x2,….,xp.

Será conveniente, en principio, establecer el punto en el origen,


es decir, μ=0 de manera que con A=Σ-1 es posible reescribir:
1 1 1
c2=xtΣ-1x=λ (𝐞𝐭𝟏 𝐱)2+λ (𝐞𝐭𝟐 𝐱)2+……..+λ (𝐞𝐭𝐩 𝐱)2
1 2 p
Esta ecuación define una elipsoide (puesto que λ1,λ2,…..,λp son
positivas) en un sistema de coordenadas con ejes y1,y2,….yn en
las direcciones e1,e2,….,ep, respectivamente.

Si λ1 es el valor propio más grande, entonces el eje principal tiene


que ir a en la dirección e1. Los restantes ejes serán definidos por
las direcciones de e2,…,ep.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 37

Para resumir, los componentes principales y1=𝐞1t x, y2=𝐞t2 x,…..


yp=𝐞tp x se encuentran en las direcciones de los ejes de una
elipsoide con densidad constante. Por lo tanto, cualquier punto
sobre el eje de la elipsoide i-esima tiene coordenadas x
proporcionales a 𝐞ti =[ei1,ei2,……, eip] y necesariamente la
coordenada de la primera componente principal tiene la forma
[0,0,….,yi,0,……0].

Cuando μ≠0, es la componente principal centrada en la medida


que yi=𝐞ti (x-μ) tiene media cero y dirección del vector propio ei.
Una elipse de densidad constante y componentes principales
para un vector aleatorio normal bivariante con μ=0 y 𝛒=0.75 se
demuestran en la siguiente figura.

Grafico 4. Elipse de densidada constante de tamaño xtΣx=c2 y las


componentes principales y1,y2 para un vector aleatorio normal
bivaraido X teniendo una media de cero.

Se puede observar que las componentes son obtenidas rotando


las coordenadas de los ejes originales en un angulo θ hasta que
coincida con los ejes de un plano r-esimo con densidad

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 38

constante. Este resultado aplica para p>2 dimensiones de igual


forma.

En conclusión, los resultados algebraicos y graficos indican que


los componentes principales son combinaciones de P variables
aleatorias x1,…,xp. Geometricamente estas combinaciones
representan una selección de un nuevo sistema de coordenadas
obtenido de rotar el sistema original con x1,…,xp como eje de
coordenadas. Los nuevos ejes representan las direcciones con
máxima variablilidad y proporciona una descripción más simple y
parsimoniosa de la estructura de covarianza de los datos.

1.4. CÁLCULO DE LOS COMPONENTES PRINCIPALES


Consideremos p variables aleatorias de tipo numérico X1,X2,….,Xp
las cuales posiblemente estén correlacionadas entre sí. Podemos
pensar que las p variables anteriores, consideradas
conjuntamente, forman una variable aleatoria multivariada,
denotada por un vector X=(X1,X2,….,Xp).

La matriz de covarianzas asociada al vector X está definida como


Σ donde la entrada en la fila i columna j es el valor de la
covarianza entre Xi y Xj , Cov(Xi,Xj). Esto hace que la diagonal de Σ
esté conformada por las varianzas Var(X1),Var(X2),….,Var(Xp) y
que sea simétrica1. Estas características también implican que
sean semidefinida positiva.

1 Se puede probar que es una matriz definida positiva, es decir, la forma cuadrática asociada a ella tiene todas sus raíces positivas.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 39

La idea que se persigue es determinar un nuevo conjunto de


variables y1,y2,...,yp, no correlacionadas entre sí (ortogonales o
perpendiculares), cuyas varianzas decrezcan desde la primera
nueva variable hasta la última, llamadas componentes
principales.

Cada componente principal yj (donde j=1,...,p) es una


combinación lineal de las x1,x2, ...,xp variables originales, es decir:

Suponga para el conjunto de variables iniciales representados


por un vector de variables X la j-esima componente principal:
yj = aj1x1+aj2x2+...+ajpxp (1)

O de forma matricial:
yj = aTx (2)

Donde aT=(aj1,…..,ajp) es un vector de constantes y xT=[x1,x2,...


,xp] es un vector de p variables aleatorias que componene la j-
esima variable ortogonal, yj. El objetivo es recoger la mayor
cantidad posible de variación (maximizar la varianza explicada)
por cada combinación lineal yj.

La forma para maximizar la varianza explicada es modificar los


coeficientes aij por cada combinación lineal yj incorporando las
condiciones de ortogonalidad definidas anteriormente.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 40

Por ello, para mantener la ortogonalidad de la transformación, y


evitar esta solución trivial de crecimiento infinito, se impone que
la suma de cuadrados de los coeficientes sea igual a uno y este
sea el módulo del vector aT=(a1j, a2j,..., apj), es decir, expresado de
manera formal:
p
a a j   akj2  1
T
j
k 1
(3)
El primer componente se calcula eligiendo el vector de
parámetros que maximice la información expresada, o minimice
la distancia entre el plano y los datos a través del valor del vector
a1.

La primera componente (y1) tiene la mayor varianza posible y se


calcula obteniendo los parámetros que minimizan la distancia
entre los datos y el plano r-dimensional a través de las
ponderaciones a1 del vector y1=𝐚1t x, sujeta a la restricción que los
parámetros no aumenten infinitamente, expresado como que la
suma de los cuadrados de las ponderaciones sobre las variables
originales, X, sea igual a la unidad, es decir, 𝐚1t 𝐚1 =1.

El segundo componente principal, y2, se calcula obteniendo los


parámetros que minimizan la distancia entre los datos y el plano
r-dimensional a través de las ponderaciones a2 del vector y2=𝐚t2 x.
Además, sujeta a la restricción que los parámetros no aumenten
infinitamente y la variable obtenida esté no correlacionada con
la primera componente principal (y1). Es decir, exprese la mayor
varianza posible no explicada por el primer componente.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 41

Del mismo modo, se eligen y3,y4,···,yp componentes no


correlacionadas entre sí, de manera que las nuevas variables
obtenidas tengan cada vez menor varianza.

1.5. PROCESO DE EXTRACCIÓN


El objetivo del proceso para encontrar las componentes
principales (yi) es elegir un vector de constantes a1 de modo que
se maximice la varianza de y1 sujeta a la restricción de que
𝐚1t 𝐚1 =1, como ya fue justificado.

El método habitual para maximizar una función de varias


variables sujeta a restricciones de igualdad es el método de
multiplicadores de Lagrange, usualmente aplicado en economía.

El problema consiste en maximizar la varianza explicada


ponderada por un vector de coeficientes a que determinan los
pesos de cada variable, at1 Σa1 , sujeta a la restricción 𝐚1t 𝐚1 =1.

La incógnita que se busca es un vector a1 desconocido de


parámetros sobre el vector de variables originales X que balance
las p variables existentes y determine una combinación lineal
óptima que maximiza la varianza explicada o que minimice las
distancias entre un plano y cada uno de los puntos originales.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 42

De esta forma, se puede representar un problema de


optimización matemática y su representación en una función
lagrangiana, ℓ(•), de la forma:
Max 𝐚𝐭𝟏 𝚺𝐚𝟏 (4)
a1
S.A. a1T a1  1

La función lagrangiana esta representada por:


(a1 )  a1T a1   (a1T a1  I )

Las condiciones de primer orden (CPO) del problema de


optimización respecto a los parámetros a están dadas por:
()
 2a1  2Ia1  0
a1
(  I )  0 (5)
Desarrollando la expresión anterior se tiene que:
(Σ−λI) = 0
Σ = λI premultiplicando por 𝐚𝐓𝟏
𝐚𝐓𝟏 Σa1 = 𝐚𝐓𝟏 λIa1
Var(y1) = 𝐚𝐓𝟏 λIa1 pero 𝐚𝐓𝟏 Σa1=Var(y1)
Var(y1) = 𝐚𝐓𝟏 λIa1
Var(y1) = λ𝐚𝐓𝟏 a1 pero 𝐚𝐓𝟏 a1=1
Var(y1) = λ (6)

De este modo, λ, es conocido como el primer valor propio de la


matriz de covarianzas, Σ, que es solución de la ecuación
característica (5) expresado en la ecuación (6).

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 43

Este resultado puede ser interpretado como la varianza de la


primera componente principal (y1) esta representada por el
primer valor propio de la matriz, Σ, Var(y1)=λ1.

El segundo componente principal se calcula como y2=𝐚𝐓𝟐 x y se


obtiene mediante un argumento parecido.

Además, se requiere que y2 esté no correlacionado con el


anterior componente y1, es decir, para asegurar la ortogonalidad
o independencia, se tiene que imponer que la covarianza entre
las variables (y2,y1) sea igual a cero, Cov(y2,y1)=0.

Por lo tanto, suponga la covarianza entre la primera (y1) y


segunda (y2) componente principal de la forma:
Cov(y2, y1) = Cov(𝐚𝐓𝟐 x, 𝐚𝐓𝟏 x)
= E[𝐚𝐓𝟐 (x−µ)·(x−µ)T𝐚𝟏 ]
= 𝐚𝐓𝟐 Σ𝐚𝟏
Cov(y2, y1) = 𝐚𝐓𝟐 Σ𝐚𝟏

Por los resultados de la primera componente que:


Σ = λI
Σa1 = λI𝐚𝟏
Cov(y2, y1) = 𝐚𝐓𝟐 Σa1 = 𝐚𝐓𝟐 λ𝐚𝟏
= λ𝐚𝐓𝟐 a1 pero λ> 0 entonces
𝐚𝐓𝟐 Σa1 = 0.

Es decir, se demuestra que los vectores de las ponderaciones de


la primera y segunda componente principal son ortogonales.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 44

De este modo, se tiene que maximizar la varianza de la segunda


componente principal, y2, es decir, a2Σa2, sujeta a dos
restricciones.

La primera, sobre el tamaño restringido de la suma de cuadrados


del vector de ponderaciones de la segunda componente
principal, 𝐚𝐓𝟐 a2=1.

La segunda, la independencia entre las ponderaciones de la


primera (y1) y segunda (y2) componente principal descrita como
𝐚𝐓𝟐 a1=0.

De esta forma, es posible construir un problema de optimización


lagrangiana, ℓ(•), de la forma:
Max 𝐚𝐓𝟐 𝚺𝐚𝟐
a2
a2T a2  1
Sujeto a a T a  0
2 1

La función lagrangiana, ℓ(•), es representada entonces por


(a2 )  a2T a2  1 (a2T a2  1)   2 (a2T a1 )
Las condiciones de primer orden (CPO) del problema están
dadas por:
()
 2a2  21 Ia2   2 a1  0
a2

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 45

Si se premultiplica por 𝐚1T la CPO en la ecuación entonces:


= 2𝐚1T Σ𝐚2 -2𝐚1T δ1Ia2-𝐚1T δ2𝐚1 =0
= 2𝐚1T Σ𝐚2 -2δ1I𝐚1T a2-δ2𝐚1T 𝐚1 =0
Si se conoce que 𝐚1T 𝐚1 =1 y 𝐚1T 𝐚2 =0. Entonces:
0=2𝐚1T Σ𝐚2 -δ2
O lo que es lo mismo:
δ2=2𝐚1T Σ𝐚2
Pero se demostró anteriormente que 𝐚1T Σ𝐚2 =𝐚𝐓𝟐 Σa1=0. De este
modo, queda finalmente la CPO como:
()
 2a2  2 2 Ia2  0
a2

Usando el mismo procedimiento que antes, elegimos λ2 como el


segundo valor propio mayor de la matriz de covarianzas, Σ, con
su vector propio asociado a2.

1.6. TEOREMAS
Los resultados anteriores se pueden expresar de una manera
sintética y con el formalismo necesario en los siguientes
teoremas.

Teorema 1. Sea Σ una matriz de covarianza asociada con vectores


aleatorios xT=x1, x2,……,xp. Suponga que la matriz Σ tiene pares
de valores y vectores propios (λ1,e1), (λ2,e2),…..,(λp,ep) donde
λ1≥λ2≥……≥λp≥0, la i-esima componente principal esta dada
por:
yi  eiT x  e1i x1  e2i x2  ....e pi x p i  1,2,...., p
De esta forma,

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 46

Var ( yi )  eiT ei  i


cov( yi , yk )  eiT ek  0 ik
Si algunos λi son iguales la elección del coeficiente ei asi como yi
no son únicos.

La solución a los problemas de optimización planteados


anteriormente por un método lagrangiano son resueltos
paralelamente a través de hallar los valores y vectores propios de
la matriz de covarianzas, Σ.

Teorema 2. Suponga que xT=x1, x2,……,xp tienen una matriz de


covarianzas con pares de valores y vectores propios (λ1,e1),
(λ2,e2),…..,(λp,ep) donde λ1≥λ2≥……≥λp≥0. Por otra parte, sea la
siguiente combinación y1=𝐞1t x, y2=𝐞t2 x,……., yp=𝐞tp x. Entonces:
p p

σ11+σ22+…..+σpp = Var ( X i )  1  2  ....   p   var( yi )


i 1 i 1

El resultado indica que la varianza poblacional (VP) es la suma


de los valores propios o el valor de la traza de la matriz Λ. La
proporción total de la varianza explicada (PVE) por la k-esima
componente es:

PVE= k=1,2,….p
k
1  2  ....  k
Muchas veces este porcentaje es bastante alto con un pequeño
valor de k<p lo que se traduce en una alta representatividad en
un espacio de pocas dimensiones.

Como puede deducirse de lo anterior, la varianza total se


descompone en un número finito de partes disjuntas λj de
tamaños cada vez menores, lo que en la práctica proporciona un

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 47

mecanismo para reducir la dimensionalidad de representación


de las variables.

En efecto, si se olvidan las últimas p-k componentes principales,


las primeras p tendrán una tasa de representatividad igual a
1  2     p k
100% de la varianza total de las variables
VT
originales.

Si por ejemplo, 80% o 90%, de la varianza poblacional total


puede ser atribuida a la primera y segunda componente
entonces estos pueden sustituir las p variables originales por las
componentes sin perdida de demasiada información.

Teorema 3. Si y1=𝐞𝐓𝟏 x, y2=𝐞𝐓𝟐 x,….. yp=𝐞𝐓𝐩 x son componentes


principales obtenidos de la matriz de covarianzas, Σ, entonces:
eki i
Y , X 
1 k
 kk i=1,2….p
Son los coeficientes de correlación entre la componente principal
i-esima (Yi) y la variable k-esima (xk). Lo que indica el teorema
anterior es que cada componente del vector 𝐞ti =[ei1,e12,…,eip]
también debe ser inspeccionado.

La magnitud de eik mide la importanica de la k-esima variable


sobre i esima componente principal, sin tener en cuenta otras
variables que se denominara “driver”.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 48

En particular eik es proporcional al coeficiente de correlación


entre la componente (Yi) y la variable (xk). Aunque las
correlaciones de las variables (X) con la componente principal
(Yi) muchas veces ayuda a interpretar los componentes, ellas
miden únicamente la contribución univariada de un individuo X
frente a la componente Y.

Es decir, ellas no indican la importancia de la variable X a la


componente principal Y, solo su grado de correlación en la
presencia de otras variables X.
Aunque coeficientes del vector propio y correlaciones calculadas
pueden conducir a distintas clasificaciones como medidas de
importancia, no se aprecian diferencias sustanciales en sus
valores.

En la práctica financiera, variables con relativamente altos


coeficientes de los componentes del vector (en valor absoluto)
tienden a tener alternativamente más correlacion entre la
componente y la variable.

De este modo las dos medidas, la primera multivariada


(coeficiente eik) y la segunda univariada (correlacion)
frecuentemente arrojan resultados similares.

Siempre es recomendado examinar los coeficientes y las


correlaciones en búsqueda de interpretar los componentes, por
esta razón, se recomienda en primera instancia verificar los
coeficientes eik, posteriormente las correlaciones aunque en la
mayoría de los casos arrojen resultados similares.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 49

Ejemplo. Suponga la siguiente de matriz de varianzas y


covarianzas, Σ, con variables aleatorias X1, X2, X3:

1 −2 0
Σ = [−2 5 0]
0 0 2

Despues de incluir la matriz en STATA se utiliza el comando


pcamat abc, n(0) names(x1 x2 x3) components(3) covariance que
arroja los siguientes resultados:
Tabla 1

La conclusión arroja los valores y vectores propios determinados


como:
λ1=5.83 𝐞1t =[-0.383, 0.924,0]
λ2=2.00 𝐞𝐭𝟐 =[0, 0, 1]
λ3=0.17 𝐞t3 =[0.924, 0.383, 0]

Por lo tanto, las componentes principales se convierten en:


Y1=e1t 𝐗=-0.383X1+0.924X2
Y2=et2 𝐗=X3
Y3=et3 𝐗=0.924X1+0.383X2

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 50

La suma de los componentes principales λ1+λ2+λ3 extraidos de


la matriz de covarianzas Σ es igual a la traza de esta matriz.
Ambos son iguales a ocho (8).

Utilizando los resultados del TEOREMA 1, se desea determinar la


varianza de la primera componente (Y1), es decir:
Var(y1)=e1t Σe1

O mejor
Var(y1)=Var(-0.383X1+0.924X2)
Var(y1)=(0.383)2Var(X1)+(0.924)2Var(X2)-2(0.383)(0.924)

Recurriendo a la matriz de covarianzas, Σ, implica que


Var(X1)=1, Var(X2)=5 y cov(X1, X2)=-2. Entonces:
Var(y1) = 0.147(1)+0.854(5)-0.708(-2)
Var(y1) = 5.83
Var(y1) = λ1
La varianza de la primera componente principal corresponde al
primer valor propio.

La varianza total utiliza el TEOREMA 2 a partir de la matriz de


covarianzas, Σ, la calcula de la siguiente forma:
p p

Var ( X )         var( y ) = σ11+ σ22+ σ33=1+5+2


i 1
i 1 2 3
i 1
i

La proporcion de la varianza explicada por la primera


componente principal (VEC1) es:

λ1 5.83 5.83
VEC1= λ =λ = 8.00 =0.7286
1 +λ2 +λ3 1 +λ2 +λ3

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 51

Es decir, la primera componente explica el 72.86% de la varianza


total.

Este mismo procedimiento se efectua para las demás


componentes. En este caso, los componentes Y1 y Y2 podrían
reemplazar las tres variables originales (X1, X2, X3) sin mayor
perdida de información ya que entre los dos explican el 97.86%
de la varianza total.

Es decir, la proporcion de la varianza explicada por la primera y


segunda componente principal (VEC1|2) es:
λ1 +λ2 5.83+2 7.83
VEC1|2= λ +λ = = =0.9786

1 λ +λ +λ
2 3 8.00
1 2 3

Por otra parte, utilizando el TEOREMA 3 es posible encontrar el


coeficiente de correlacion entre la primera componente (Y1) y la
variable X1 de la forma:
e11 √λ1 −0.383√5.83
ρY1,X1= = = -0.925
√σ11 √1
Para la componente (Y1) y la variable X2 se calcula de la siguiente
forma:
e12 √λ1 0.924√5.83
ρY1,X2= = = 0.998
√σ22 √5

Observese la variable x2 con el coeficientea asociado del valor


propio de -0.925 que recibe en la primera componente Y1.
Tambien tiene la más alta correlacion con 0.998 (en valor
absoluto).

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 52

La correlación de x1 con Y1 (-0.925), por otra parte, es casi tan


grande como la de x2 (.0.998) son casi igualmente importantes
para la primera componente principal (Y1).

Los pesos relativos (en valor absoluto) de los coeficientes de X1 y


X2 suguiere que X2 contribuye mas en la determinación de Y1 de
lo que hace X2. Puesto que ambos coeficientes son
razonablemente grandes y de signos opuestos, se puede afirmar
que ambas variables colaboran en la interpretación de Y1.

1.7. COMPONENTES PRINCIPALES NORMADO O POR


CORRELACIONES
Todo lo mencionado anteriormente tiene un sentido geométrico
y matemático muy claro pero en la práctica tiene un problema de
interpretación.

¿Qué significado tiene una variable artificial Fj que ha sido


construída, como una combinación de otras variables cuyas
naturalezas pueden ser muy diferentes?

¿Qué nombre puede recibir por ejemplo, una variable


conformada por una combinación de edad, peso, ingresos, etc?

Por otra parte, el peso de cada variable original, traducido


fundamentalmente en volatilidad, puede ser muy diferente para
cada variable.

Una variable muy dispersa puede contribuir enormemente a la


varianza total mientras que una variable más homogénea
contribuye menos. Esto finalmente determina la participación de

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 53

cada variable en la conformación de un factor generando ruido


en el cálculo.

El cálculo de los componentes principales de una serie de


variables x1,x2...,xp depende habitualmente de las unidades de
medida empleadas. Si transformamos las unidades de medida, lo
más probable es que cambien a su vez los componentes
obtenidos.

Una solución frecuente es usar variables x1,...,xp normalizadas.


Con ello, se eliminan las diferentes unidades de medida y se
consideran todas las variables implícitamente equivalentes en
cuanto a la información recogida.

Realizar ACP con variables originales estandarizadas resuelve


los dos problemas. El primero, con las variables estandarizadas
no tiene nombre, son simplemente números sin unidades en las
cuales se expresen las mediciones.

De otra parte, la estandarización lleva todas las escalas de


medida a una forma común de media 0 y varianza 1, con lo cual
se elimina el problema de medición y variabilidad diferente de
las variables originales.

El ACP realizado con variables originales estandarizadas se llama


ACP normado. El ACP normado equivale al ACP corriente pero
partiendo de la matriz de correlaciones ρ en vez de la matriz de
covarianzas Σ.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 54

El ACP normado debe ser la técnica a seguir en cualquier caso, a


menos que se quieran explorar algunas otras posibilidades de tipo
teórico o que se tengan variables muy similares tanto en su
naturaleza como en su escala de medida.

Los componentes principales de la matriz de correlaciones, le da


igual importancia a todas las variables originales, a diferencia del
ACP por matriz de covarianzas. En la matriz de correlaciones
todos los elementos de la diagonal son iguales a 1.

Si las variables originales están normalizadas, esto implica que


su matriz de covarianzas es igual a la de correlaciones, con lo que
la variabilidad total (la traza) es igual al número total de
variables.

La suma total de todos los valores propios será p y la proporción


de varianza recogida por el valor propio j-ésimo (componente)
será de λj/p. Los componentes principales pueden ser obtendos
de variables estandarizadas de la forma:
(X1 −μ1 )
Z1= ;
√σ11
(X2 −μ2 )
Z2= ;
√σ22
:
:
(Xp −μp )
Zp=
√σpp
En notación matricial:
Z=(V1/2)-1(X-μ)

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 55

Donde la matriz V1/2 es diagonal constituida por desviaciones


estándar. Donde E(Z)=0 y su matriz de covariazas es igua a:
Cov(Z)=(V1/2)-1Σ(V1/2)-1=ρ

Los componentes principales de Z pueden ser obtenidos de los


vectores propios de la matriz de correlaciones ρ de X. Todos los
resultados previos aplican exactamente igual con algunas
simplificaciones, puesto que la varianza de Zi es la unidad.

En el caso de variables estandarizadas se utilizará la misma


notación Yi para referirse a la i-esima componente principal y
(λi,ei) al par de valores y vectores propios de la matriz de
correlaciones, ρ, o matriz de covarianzas Σ.

Sin embargo, (𝛌i,ei) derivado de la matriz de covarianzas Σ en


general no son las mismas que las derivadas a través de la matriz
de correlaciones.

Teorema 4. La i-esima componente principal de variables


estandarizadas Z=[Z1,Z2,….,Zp] con una matriz de covarianzas
cov(Z)=ρ esta dada por:
Yi=𝐞ti Z=𝐞ti [(V1/2)-1](X-μ) i=1,…..,p

De forma matricial, (V1/2)-1 es una matriz diagonal con cada uno


de los componentes de la diagonal igual a la desviación estándar
de la j-esima variable, 1/√σjj . Ademas:
p p

∑ Var(Yi ) = ∑ Var(Zi ) = p
i=1 i=1

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 56

Las covarianzas entre las variables estandarizadas y las


componentes principales esta definida como:
ρYi,Zk=eik√λi i,k=1,2,…..,p

En este caso (λ1,e1), (λ2,e2),….., (λp,ep) son los pares de valores y


vectores propios de la matriz de correlaciones ρ dada la
característica de λ1≥λ2,….. ≥λp≥0.

La varianza total poblacional (variables estandarizadas) es


simplemente p, la suma de los elementos de la diagonal de la
matriz de correlaciones ρ.

Con variables estandarizadas Z en vez de variables sin


estandarizar (X) es posible encontrar la proporción de varianza
total explicada (VTE) por la k-esima componente principal de Z
como:
λ
VTE = pk k=1,2,……,p
Ejemplo. Suponga la siguiente de matriz de covarianzas, Σ, con
variables aleatorias X1, X2:
𝟏 𝟒
Σ=[ ]
𝟒 𝟏𝟎𝟎
Y una matriz de correlaciones, ρ, asociada:
𝟏 𝟎. 𝟒
𝛒=[ ]
𝟎. 𝟒 𝟏

Se calularon los pares de valores y vectores propios en STATA


con la siguiente sintaxis:
pcamat covarianza, n(0) names(x1 x2) components(2) covariance

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 57

Para la matriz de covarianzas, ρ, y para la matriz de


correlaciones, Σ, se utilizó:
pcamat correlaciones, n(0) names(x1 x2) forcepsd
components(2).

Grafico. Comparación resultados de PCA con matriz de


covarianzas y correlaciones

CORRELACIONES COVARIANZAS

a. Matriz de covarianzas
Los valores y vectores propios de la matriz de covarianzas, Σ, se
tienen que:
λ1=100.16 𝐞1t =[0.04, 0.99]
λ2= 0.84 𝐞𝐭𝟐 =[0.99,-0.04]

Las componentes principales se convierten en:


Y1=e1t 𝐗=0.04X1+0.99X2
Y2=et2 𝐗=0.99X1 - 0.04X2

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 58

b. Matriz de correlaciones
Los valores y vectores propios de la matriz de correlaciones, ρ, se
tiene que:
λ1=1+ρ=1.4 𝐞1t =[0.707, 0.707]
λ2=1-ρ= 0.6 𝐞𝐭𝟐 =[0.707,-0.707]

Las componentes principales se convierten en:


Y1=e1t 𝐗=0.707X1+0.707X2
Y2=et2 𝐗=0.707X1 - 0.707X2

Por ejemplo, para la primera componente, Y1, se tiene que:


X −μ X −μ
Y1=0.707Z1+0.707Z2=0.707[ 1 1 1 ]+0.707[ 21002 ]

Para la segunda componente Y2, se tiene que:


X −μ X −μ
Y2=0.707Z1+0.707Z2=0.707[ 1 1 1 ]-0.707[ 21002 ]

Dada la diferencia de las varianzas observadas por los valores


propios (λ1=100.16 y λ2=0.84), la variable X2 domina
completamente la primera componente principal (Y1)
determinada por la matriz Σ.

Ademas, La primera componente principal explica una


proporción de la varianza poblacional de 99.2%, es decir:
λ1 100.16
= = 0.992
λ1 + λ2 100.16 + 0.84

Cuando las variables están estandarizadas, sin embargo, el


resultado de las variables contribuye de igual manera a las

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 59

componentes principales determinadas por la matriz de


correlaciones ρ.

Utilizando el TEOREMA 4 se puede obtener que la correlación


entre la variable estandarizada Z1 respecto a la primera
componente principal se calcula como:
ρY1,Z1=e11√λ1 =0.707√1.4=0.837

La correlacion entre la variable estandarizada Z2 respecto a la


segunda componente principal se calcula como:
ρY1,Z1=e21√λ1 =0.707√1.4=0.837

En el caso de la primera componente principal explica una


proporción de 70% dela varianza total estandarizada, es decir:
λ1 1.4
= = 0.7
p 2
La importancia relativa de las variables, por ejemplo, la primera
componente principal se ve significativamente afectada por la
estandarización.

Cuando la primera componente principal se obtiene de la matriz


de correlaciones ρ esta expresada en términos de X1 y X2, las
magnitudes relativas calculadas de las ponderaciones son 0.707
y 0.707, valores equilibrados, que están en oposición directa a
aquellas ponderaciones 0.04 y 0.99 obtenidas de la componente
principal calculada por la matriz de covarianzas Σ.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 60

El ejemplo precedente demuestra que los componentes


derivados de la matriz de covarianzas Σ son diferentes a los
derivados de la matriz de correlaciones 𝛒.

Ademas, se puede establecer que los componentes principales no


es una función simple de otra. Es decir, efecutar el proceso de
estandarización tiene consecuencias en el cálculo y conclusiones.

Las variables deberían estar estandarizadas si ellas están


medidas en escalas con amplios rangos de diferencia o unidades
de medida que no son fácilmente comparables.

Por ejemplo, Si X1 representa ventas anuales en un rango de


$10.000 y $350.000 y X2 es la razón de rentabilidad sobre el
activo (ingreso brutos/total de activos) que se encuentra en un
rango de 1.0% y 6.0%.

Si se calcula utilizando la matriz de covarianzas, Σ, la variación


total será exclusivamente correspondiente a las ventas anuales.
En este caso se debe esperar una sola primera componente muy
importante (recoge la mayor cantidad de varianza explicada)
con una alta ponderación para X1.

Alternativamente, si ambas variables están estandarizadas, sus


magnitudes pueden ser del mismo orden, y X2 o (Z2) juega un rol
importante en la construcción de los componentes principales.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 61

1.8. COMPONENTES PRINCIPALES PARA MATRICES DE


COVARIANZAS CON ESTRUCTURAS ESPECIALES
Existen ciertos patrones sobre la matriz de covarianzas o
correlaciones donde los componentes principales pueden ser
expresados en formas simples.

Suponga la matriz diagonal de covarianzas, Σ, es decir:

Si se tiene un vector propio de la forma 𝐞ti =[0,0,….,1,….,0,0] con


un uno (1) en la posición i-esima se observa que:

O visto de otra manera Σei=𝛔iiei. Se puede concluir de lo anterior


que (𝛔ii,ei) es el par valor propio vector propio.

Puesto que la combinación lineal 𝐞ti X=Xi, por tanto, se establece


que el conjunto de componentes principales corresponde al total
de variables original aleatorias no correlacionadas.

Con una matriz diagonal de covarianzas, Σ, no se gana nada


extrayendo componentes principales.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 62

Desde otro punto de vista, si X esta distribuido Np(μ,Σ), el


contorno de la densidad constante son elipsiodes donde los ejes
cartesianos se encuentran en la dirección de la maxima varianza.
Consecuentemente no es necesario rotar las coordenadas del
sistema.

Si se desea efecuar estandarización de las variables, este


procediento substancialmente no altera la situación para una
matriz diagonal de covarianzas, Σ. En este caso se llega a que la
matriz de correlaciones, ρ, es iguala a la matriz identidad de
orden pxp, o mejor ρ=I.

De este modo, si ρei=1ei, el valor propio de uno (1) que


pertenence al vector de valores propios e es multiplicado por el
correspondiente coeficiente de correlacion ρ, asi las cosas,
𝐞ti =[0,0,…..,1,…..,0,0] con i=1,2,…,p son elecciones convenientes
para los valores propios. Consecuentemente, las componentes de
la matriz de correlaciones ρ son también las variables originales
Z1,…Zp.

Otro patrón de matriz de varianzas y covarianzas, Σ, el cual


describe algún tipo de correlación entre variables, tiene la
siguiente forma general:

La matriz de correlaciones, ρ, resultante es:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 63

Es también la matriz de covarianzas de variables estandarizadas.


La matriz de correlaciones anterior implica que las variables
X1,X2,….,Xp estan igualmente correlacionadas. Para este caso, los
p valores propios de la matriz de correlaciones correspondiente
pueden ser divididos en dos grupos.

Cuando el coeficiente de correlacion ρ es positivo, el más grande


es:
λ1=1+(p-1)ρ
Con vectores propios asociados:

Los restantes (p-1) valores propios son:


λ2= λ3=……….=λp=1-ρ
Los restantes vectores propios son:

La primera componente principal sobre variables estandarizadas


corresponde a:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 64

Es proporcional a la suma de p variables estandarizadas y puede


ser juzgada como un índice con igual ponderación.

Esta componente principal explica una proporción del total de la


varianza de la población como:

Si λ1/p=ρ para la correlacion cercana a uno (1) o p muy grande.

Por ejemplo, si la correlacion es ρ=0.8 y el numero de variables


p=5, la primera componente explica el 84% del la varianza total.
Cuando la correlación es cercana a uno, ρ=0.8, las ultimas p-1
componentes colectivamente contribuyen muy poco a la
varianza total y muchas veces pueden ser ignoradas.

En este caso especial, retener únicamente al primera


componente principal Y1=(1/√p)[1,1,….,1]X, una medida de
tamaño total, explica la misma proporción de la varianza de la
forma:

Si las variables están estandarizadas Z1,Z2,…,Zp tienen una


distribución normal multivariante con matriz de covarianzas
dada por:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 65

Las elipsoides de densidad son constantes, con el eje principal


proporcional a la primera componente principal
Y1=(1/√p)[1,1,….,1]Z,. Esta componente principal es la
proyección de Z sobre el plano 1t =[1,1,….,1] .

El eje secundario (y restantes componentes principales) ocurren


de forma simétrica y esférica en dirección perpendicular al eje
principal (y la primera componente principal).

1.9. COMPONENTES PRINCIPALES A PARTIR DE UNA MUESTRA


La matriz de covarianzas, Σ, por ser desconocida, no puede ser
usualmente utilizada directamente en los cálculos. En la práctica,
se usa la matriz de covarianzas estimada, S, a partir de una
muestra observada de n individuos.

Esta matriz constituye una estimación de Σ, por tanto, los


resultados obtenidos con ella constituyen estimaciones de los
valores poblacionales. Sin embargo, es necesaria una muestra
aleatoria cuyo tamaño n sea mayor que el número p de variables
consideradas.

El hecho de usar la matriz de covarianzas muestrales, S, en vez


de la matriz de covarianzas poblacionales, Σ, puede
eventualmente acarrear complicaciones de tipo computacional.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 66

Suponga x1,x2,…,xn representan n variables independientes de


alguna población p-dimensional con vector de media μ y matriz
de covarianzas, Σ. Estos datos arrojan una media muestral, 𝐱̅, la
matriz de covarianza muestral S y la matriz de correlaciones
muestrales R.

El objetivo es construir combinaciones lineales no


correlacionadas entre si de las medidas características que
cuentan en mayor medida con la variación en la muestra.

La combinación no correlacionada de variables que explican la


varianza serán llamadas componentes principales muestrales. La
combinación se encuentra descrita como:
𝐚𝐭𝟏 x=a11,xj1+a12xj2+………+a1pxjp para j=1,2,….,n

Tiene una media muestral at1 𝐱̅ y varianza muestral at1 𝐒a1 .


Tambien, los pares (at1 𝐱̅, at2 𝐱̅), para dos combinaciones lineales
tienen la covarianza muestral at1 𝐒a2 .

Los componentes principales muestrales están definidos como


aquellas combinaciones lineales las cuales tienen máxima
varianza muestral.

Como para las cantidades poblacionales, se tiene que reescribir


los coeficientes de los vectores para satisfacer 𝐚𝐭𝐢 𝐚𝐢 =1.
Especificamente:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 67

Primera componente = Combinacion lineal at1 xj que


principal muestral maximiza la varianza muestral de
at1 xj sujeto a 𝐚𝐭𝟏 𝐚𝟏 =1.

Segunda componente = Combinacion lineal at2 xj que


principal muestral maximiza la varianza muestral de
at2 xj sujeto a 𝐚𝐭𝟐 𝐚𝟐 =1 y la covarianza
muestral de los pares
COV(at1 xj, at2 xj)=0.
:::::: ::::::
:::::: ::::::

i-esima componente = Combinacion lineal ati xj que


principal muestral maximiza la varianza muestral de
ati xj sujeto a 𝐚𝐭𝐢 𝐚𝐢 =1 y la covarianza
muestral de todos los pares
COV(ati xk, ati xj)=0 ∀k.

La primera componente principal plantea el siguiente problema


de maximización:
MAXIMIZAR at at1 𝐒a1
1
S.A. 𝐚𝐭𝟏 𝐚𝟏
=1
La varianza corresponde al máximo valor propio, λ̂1, tal como se
demostró para los resultados poblacionales. Lograda por la
elección del vector propio 𝐞̂1 de la matriz de covarianzas
muestrales S.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 68

La eleccion sucesiva de maximizar las ponderaciones ai sujeto la


función objetivo ati 𝐒êk =ati λ̂1 êk =0, o mejor perpendicular al
vector propio 𝐞̂𝐤 .De este modo, se tiene el siguiente teorema.

Teorema 5. Si S={sik} es una matriz de covarianza muestral de


orden pxp con pares de valores y vectores propios
(λ̂1 ê1 ),( λ̂2 ê2 ),….,( λ̂p êp ), la i-esima componente principal esta
dada por:
ŷi = êti 𝐱 = êi1 x1+ êi2 x1+…….+êip xp
Donde λ̂1 ≥λ̂2 ≥…….≥λ̂p ≥0 y x es cualquier observación de las
variables X1, X2,….,Xp.

Tambien, se puede observar que:


Varianza muestral (ŷk )= λ̂k para k=1,2,…..,p
Covarianza poblacional (ŷi , ŷk )=0 i≠k

Adicionalmente:
p
Varianza total muestral =∑i=1 Sii = λ̂1 +λ̂2 +…….+λ̂p

El coeficiente de correlación entre la componente i-esima y la


variable k-esima se calcula como:
êik √λ̂i
rŷi ,xk =
√skk
Existe una notación diferenciada entre la visión poblacional y
muestral. Se denotan los componentes principales muestrales

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 69

como ŷ1 , ŷ2 ,….,ŷp independiente si son obtenidas por la matriz


de covarianzas muestrales S o de correlaciones muestrales R.

El proceso de extracción de los componentes construidos de la


matriz de covarianzas muestrales, S, o de la matriz de
correlaciones muestrales, R, no son los mismos, en general y
como se demostró para el caso poblacional, pero debe ser claro
del contexto la cual esta siendo utilizado, y la notación ŷi se
mantiene.

También es conveniente nombrar de manera adecuada los


vectores de coeficientes muestrales y el vector propio 𝐞̂i y la
varianza de los valores propios λ̂i para ambas situaciones.

Los componentes principales muestrales pueden ser obtenidos


̂=S como estimaciones por máxima verosimilitud de valores
de 𝚺
poblacionales de la matriz de covarianzas Σ, si Xj esta
normalmente distribuido.

En este caso los valores propios de Σ son distintos y en estos


casos los componentes principales muestrales como
estimaciones máximo verosímiles de sus correspondientes
contrapartes poblacionales.

La matriz de covarianzas muestrales 𝚺 ̂ tiene valores propios [(n-


1)/n] λ̂i y sus correspondientes vectores propios, 𝐞̂i , donde
(λ̂i , 𝐞̂i ) son los pares de valores propios y vectores propios
para la matriz de covarianza muestrales S.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 70

De este modo, tanto la matriz de covarianzas muestrales S y la


matriz de covarianzas estimada por máxima verosimilitud 𝚺 ̂
tienen la misma primera componente principal 𝐞̂ti x y la misma
̂ 1 +λ̂2 + λ̂p ).
proporción de la varianza explicada λ̂1 /(λ

Finalmente, ambas S y 𝚺 ̂ arrojan la misma matriz de


correlaciones R asintoticamente, si las variables son
̂ es irrelavante.
estandarizadas la elección entre S o 𝚺

Las observaciones xj son muchas veces centradas sustrayendo la


media muestral, x̅. Esto no afecta la matriz de covarianzas
muestrales y arroja la i-esima componente principal.
ŷi = 𝐞̂𝐭𝐢 (𝐱 − 𝐱̅) i=1,2,….,p

Los componentes principales muestrales también puede ser


obtenida de 𝚺̂=S, la estimación por máxima verosimilitud de la
matriz de covarianzas, Σ, si Xj esta normalente distribuida.

Ejemplo 3. En el cálculo de un score de crédito se proporciona


información sobre 5 variables sociodemográficas en el área de
Bogotá y sus alrededores. Los datos corresponden a 6100
potenciales clientes.

Los datos de la muestra seleccionada tienen las siguientes


estadísticas:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 71

X1 X2 X3 X4 X5
𝐱̅t = 4.47 3.96 71.42 26.91 1.64
Variable Total Grado Edad por Empleado del Valor medio
poblacional profesional empleado gobierno de vivienda
Medida Cientos (porcentaje) (porcentaje) (porcentaje) Cientos

La matriz de covarianzas muestrales de la forma:

Se puede resumir la información anterior en uno o dos


componentes principales?

La operatividad de STATA parte de una matriz creada en Excel la


importa a STATA, posteriomente los datos son convertidos en
una matriz a través del comando
mkmat var1 var2 var3 var4 var5, matrix(ejercicio)
rowprefix(Matriz)

Donde genera una matriz llamada ejercicio. Posteriomente,


ejecuta en análisis de componentes principales utilizando la
sentencia
pcamat ejercicio, n(0) names(x1 x2 x3 x4 x5).

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 72

Tabla 2

La primera componente explica el 67.7% de la varianza


muestral. Las primeras dos componentes, colectivamente
explican el 92.8% del total de la varianza.

Consecuentemente, la variacion muestral es resumida muy bien


por las dos componentes principales sin mayor pérdida de
información.

La primera componente aparece esencialmente como una


diferencia ponderada para esta base de variables
sociodemográficas entre el porcentaje del empleo del gobierno
(x4) y edad por empleado (x3). La segunda componente aparece
como una suma ponderada de las dos.

Las componentes poblacionales, los coeficientes 𝐞̂tik y las


correlaciones rŷ x deben ser examinados en cada uno de los
i k
componentes principales para efectuar una adecuada
interpretación.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 73

Cada componente de los vectores propios ei=[e1i, e2i,… epi] debe


ser analizada en la medida que corresponden a la magnitud de la
componentes del vector propio i-esimo, eki, que mide la
importancia de la k-esima variable en la i-esima componente
principal sin relacionar las demás variables.

En particular, eki es proporcional al coeficiente de correlación


entre yi y xk. Este análisis debe hacerse obligatoriamente con la
primera componente, es decir, ek1 que mide la importancia de la
k-esima variable en primera componente principal, además
especifica eki el coeficiente de correlación entre yi y x1.

1.10 IDENTIFICACIÓN DE LOS COMPONENTES PRINCIPALES


Cuántos factores son suficientes para una buena representación
de un problema? Tal vez los dos más extendidos son:
a. El criterio de Kaiser, según el cual se deben retener tantos
factores como valores propios de la matriz de covarianzas Σ
estén por encima del promedio de varianza total sobre
componentes existentes (VT/P).
b. Otro criterio, quizás más natural y lógico, consiste en
retener tantos factores como sean necesarios para lograr un
alto porcentaje de explicación de la varianza total. Para ello
se usan los porcentajes acumulados de los valores propios
con base en la varianza total del problema, junto con un
criterio personal acerca de qué se considera un buen
porcentaje de explicación.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 74

Habitualmente, se conservan sólo aquellos componentes que


recogen la mayor parte de la variabilidad, hecho que permite
representar los datos en dos o tres dimensiones si se conservan
dos o tres ejes principales, pudiéndose identificar entonces
grupos naturales entre las observaciones.

Si la varianza poblacional se encuentra concentrada en un 80%


en las dos o tres componentes es posible trabajar con estas
variables sin mayor perdida de información.

La herramienta grafica de verificación utiliza el gráfico de


sedimentación (scree plot) para determinar el peso de los
componentes principales dentro de la varianza explicada.

Grafico. Scree plot


valor

Valor propio

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 75

1.11. PRUEBAS ESTADÍSTICAS


PRUEBA DE ESFECICIDAD DE BARLETT
Antes de aplicar el análisis de componentes principales debe
comprobarse si es necesario, es decir, si la correlación entre las
variables analizadas es lo suficientemente grande como para
justificar la factorización de la matriz de coeficientes de
correlación.

Esta comprobación puede hacerse mediante la prueba de


Bartlett (1950), que parte de la hipótesis nula que la matriz de
coeficientes de correlación muestral, R, no es significativamente
distinta de la matriz identidad.
Ho: R=I
H1: R≠I

Bartlett calcula un estadístico basado en el valor del


determinante de la matriz de coeficientes de correlación, R, del
siguiente modo:

Donde k es el rango de la matriz que corresponde al número de


variables, n es el tamaño de la muestra y |R| es el determinante
de la matriz de correlaciones donde el estadístico de contraste es
una distribuida χ2.

El test de Bartlett tiene un gran inconveniente. Tiende a ser


estadísticamente significativo cuando el tamaño muestral n crece
(n→∞) o asintóticamente significativo. Algunos autores advierten
que únicamente se utilice cuando la razón n=k sea menor que 5.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 76

PRUEBA KMO
Definicion. Coeficiente de correlacion parcial. Permite conocer el
valor de la correlación entre dos variables A y B, si la variable C
permance constante para la serie de observaciones
consideradas.

El índice de Kaiser-Meyer-Olkin o medida de adecuación


muestral KMO tiene el mismo objetivo que la prueba de Bartlett,
trata de saber si es posible factorizar las variables originales de
forma eficiente.

El punto de partida, al igual que con al prueba de esfericidad de


Barlett, es la matriz de correlaciones muestrales, R, entre las
variables observadas. Las variables pueden estar relativamente
correlacionadas, pero la correlación entre dos de ellas puede
estar influenciada por las otras.

El índice KMO compara los valores de las correlaciones lineales


simples y parciales. Al comparar la magnitud de los coeficientes
de correlación simple y parcial determina el impacto entre
variables.

El estadístico KMO varía entre 0 y 1. Si el índice KMO está


próximo a 1, el ACP tiene sentido. Si el índice es bajo (próximo a
0), el ACP no será irrelevante. El estadístico tiene la siguiente
forma:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 77

Donde rij es el coeficiente de correlación lineal simple entre las


variables i-esima y j-esima y sij es el coeficiente de correlación
parcial entre las variables i-esima y j-esima. Existen dos
escenarios:
a. Si el coeficiente de correlación parcial es cercano a cero,
sij≅0, muestra que no existe relación entre las variables i-
esima y j-esima de forma directa. Sin embargo, si existe un
factor común a explicar entre todas las variables visto en la
correlacion lineal simple. Su resultado es el estadistico de
ajuste igual a uno, KMO≅1.
b. Si el coeficiente de correlación parcial es cercano a uno,
sij≅1, indica que las variables NO están midiendo un factor
común, únicamente la relación directa entr las variables i-
esima y j-esima, por tanto, el estadistico de ajuste es igual a
cero, KMO≅0.

Algunos autores han definido una escala para interpretar el


índice KMO de un conjunto de datos.
KMO CRITERIO
0.00 to 0.49 inaceptable

0.50 to 0.59 Bajo

0.60 to 0.69 Mediocre

0.70 to 0.79 Medio

0.80 to 0.89 Meritorio

0.90 to 1.00 Excelente

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 78

1.12. CONCLUSIONES
Los resultados encontrados por el método de análisis de
componentes principales pueden resumirse en las siguientes
conclusiones:
1. La varianza total es igual a la suma de los valores propios de
Σ. Es decir, la varianza total es la misma con las variables
originales que con las variables transformadas, Fi.
2. Las componentes principales son variables aleatorias no
correlacionadas entre sí obtenidas mediante
transformaciones lineales ortogonales de las variables
originales centradas. Esto es: Fj=ajX=aj1X1+ aj2X2+….+ aj2X2
para j=1,2,….p
3. Si todas las variables originales Xi son normalmente
distribuidas entonces todas las componentes principales
son normales.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 79

MODELOS DE DATOS PANEL LINEALES

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 80

I. INTRODUCCIÓN
En el análisis de información (financiera, económica,
empresarial, comercial, etc.) pueden existir diferentes
dimensiones sobre las cuales se podría estar interesado en la
estimación de modelos que traten de extraer relaciones de
causalidad o comportamiento.

Una de estas dimensiones la constituye el análisis de series de


tiempo, la cual incorpora información de variables individuales
durante un período determinado (ventana temporal).

Por otra parte, existe otra dimensión, independiente a la


anterior, que no incorpora el aspecto temporal sino que
representa el análisis de información para unidades individuales
de estudio en un momento determinado del tiempo (dimensión
estructural). En este tipo de análisis, o corte transversal, cada
elemento no lo constituye el tiempo sino las unidades de análisis.

Desde un punto de vista de corte transversal o dimensión


estructural, se podría, por ejemplo, modelar de forma estructural
los ingresos de las firmas del sector asegurador (I).

Un análisis de regresión basado en datos de corte transversal


para un año en particular podría incluir una serie de variables
explicativas tales como calidad de la gestión de la administración
(G), monto monetario del capital liquido (K), costos asociados a
mano de obra en número de horas (L), nivel de apalancamiento
financiero (A) y un término de error estocástico (uit). Con la

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 81

información incluida, el modelo de corte transversal se podría


expresar como2:
I=β0+ β1G+β2K+β3L+β4A+uit

Sin embargo, este modelo no podría identificar, o tomar en


cuenta, como la variable explicativa del ingreso (I) puede
identificar cualquier incremento en la productividad que pueda
ocurrir en el transcurso del tiempo como consecuencia de
mejoras tecnológicas, aprendizaje o procesos que hayan sido
incorporados.

De otro lado, desde una dimensión temporal o una visión de


series de tiempo, o modelo ARIMA, para este mismo ejemplo, se
podría determinar una estructura dinámica del comportamiento
de los ingresos (It) sobre una ventana temporal que depende del
comportamiento anterior de la variable k periodos atrás, así
como de los errores o innovaciones pasadas (uit). La estructura
del modelo es la siguiente:
It=ϕ1It-1+ϕ2It-2+……….+ ϕkIt-k+θ1uit-1+ θ2uit-2……….+ θkuit-k

Este modelo no tendría en cuenta la relación con otras variables


que pueden determinar su comportamiento, es decir, excluye del
análisis la gestión de la administración (G), monto monetario del
capital liquido (K), costos asociados a mano de obra en número

2Si se deseara utilizar variables rezagadas sobre una variable endógena, por ejemplo, considere el siguiente modelo de rezagos distribuidos de
Almon:

Donde xt es una variable exógena y ut es un término de perturbación estocástica. En general, las variables rezagadas x t y xt-1 son cercanas.
Adicionalmente, si se desea observar el cambio de la variable x en el tiempo entonces se tiene que x t-1+∆xt-1= xt-1+(xt-1- xt-2)=2xt-1-xt-2. Esta
estructura expone un alto componente de colinealidad entre variables. En general, no existe suficiente información para efectuar una estimación
precisa sin supuestos a priori.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 82

de horas (L), nivel apalancamiento financiero (A) como variables


de estudio.

Ambos tipos de análisis de información independientemente


permiten extraer conclusiones, sin embargo, los modelos de
corte transversal (análisis de regresión) y series de tiempo
(serie temporal) tienen ciertas limitaciones inherentes a su
estructura.

Para el primero, no arrojan luces sobre dependencia


intertemporal de eventos, tampoco resuelven satisfactoriamente
problemas fundamentales acerca de los orígenes de la
persistencia en el comportamiento, es decir, del verdadero
estado de dependencia entre variables o individuos o si su causa
es de origen espurio, siendo una metodología que no permite
controlar comportamientos heterogéneos de la población.

Para el segundo, su metodología no asume una forma


estructural, únicamente temporal, su principal utilidad radica en
la potencia frente de pronóstico de corto plazo.

Un modelo de datos panel incluye una muestra repetida de


entidades (individuos, empresas, bancos, ciudades, países, etc)
para un período determinado de tiempo, esto es, combina ambos
tipos de datos (dimensión temporal y estructural).

Las estructuras panel son mas informativas que una serie de


tiempo agregada, en la medida narra una historia individual. Por
ejemplo, una serie de tiempo analiza el comportamiento
histórico de la tasa de desempleo del 10% al año. Sin embargo, es

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 83

menos informativa que un panel de individuos, en la medida que


con una tasa del 10% desempleado puede ser que exista del total
de la población un total del 10% desempleado aleatoreamente
distribuido o que siempre exista el mismo tipo de personas que
corresponde al 10% de la población desempleada. Las políticas
son distintas.

Para obtener, por ejemplo, un panel sobre desempleo se cuenta


con variables exógenas como salarios, sector, horas trabajadas,
etc. Se selecciona aleatoriamente a un conjunto de individuos de
la población en un momento del tiempo y se recoge esa
información.

En otro momento (próximo mes, trimestre, año) se debe realizar


la misma entrevista a los mismos individuos. Este es el típico
procedimiento para construir bases de datos panel, por ejemplo,
encuestas de hogares que permiten obtener información de
interés para el mismo grupo de individuos en diferentes
periodos.

Una definición, un poco más formal, de datos panel, o datos


longitudinales (longitudinal data), representa medidas repetidas
en diferentes puntos del tiempo sobre la misma unidad individual,
como por ejemplo, personas, firmas, estados, países.

Con esta información se cuenta con un gran potencial en resolver


problemas más allá del corte transversal o series temporales que
no puede manejarse de manera satisfactoriamente
indivudualmente.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 84

Las regresiones panel pueden capturar variaciones sobre


unidades desde dos puntos de vista distintos, el primero, similar
a la regresión de corte transversal, el segundo, variación sobre el
tiempo o estructuras dinámicas.

La diferencia entre corte transversal y datos de panel radica en


que en el segundo sigue a las mismas unidades registradas en el
primero (individuos, familias, etc.), en distintos periodos de
tiempo. Un panel entonces requiere observar al mismo conjunto
de unidades en al menos dos momentos del tiempo diferentes.

ESTRUCTURA DE DATOS PANEL


T
E Y X t-1 t-2 t-3 t-n
y1 x1
y2 x2
E1 y3 x3
: :
yn xn
y1 x1
y2 x2
E2 y3 x3
: :
yn xn
: : : : : : : :
y1 x1
y2 x2
Ek y3 x3
: :
yn xn

Por ejemplo, pueden construirse paneles de hogares, firmas o


países. Un ejemplo tradicional radica en las encuestas sobre
hogares (en Colombia la Encuesta Nacional de Hogares -ENH).

Suponga que se comienza en el año 1968 con 4802 familias,


incluyendo hogares pobres. Se efectúan entrevistas anuales
donde se observan conductas y características socioeconómicas
de cada familia y de aproximadamente 31.000 individuos

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 85

quienes han sido registrados sobre la encuesta o derivados de las


familias encuestadas.

La lista de variables almacenada supera las 5.000. El objetivo es


tener cinco (5) segmentos distintos de la fuerza de trabajo. La
muestra original incluye 5.000 adultos 5.225 hombres jóvenes,
5.083 mujeres adultas, 5.159 mujeres jóvenes y 12.686 niños. Se
analizan por negros, indígenas, desplazados, militares y menores
de 18 años.

Combinando estos datos proporciona una rica y valiosa fuente


de variación la cual permite estimaciones más eficientes de los
parámetros.

Adicionalmente, más información muestral, implica estimaciones


más confiables y pruebas más sofisticadas de modelos de
comportamiento. Con menos supuestos restrictivos.

Otra ventaja, de las bases de datos panel es su habilidad para


controlar la heterogeneidad individual. No controlar estos
efectos individuales no observados específicos conduce a sesgo e
inconsistencia en los resultados estimados.

Las bases de datos panel son también mejores para identificar y


estimar efectos que no son detectables en series de tiempo o
cortes trasversales puros. En particular, los conjuntos de paneles
de datos permiten de mejor manera estudiar problemas
complejos de comportamiento dinámico.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 86

Por ejemplo, un modelo de corte transversal puede estimar la


tasa de desempleo en un punto en particular en el tiempo. Cortes
transversales repetidos en el tiempo pueden demostrar cómo
esta proporción cambia sobre el tiempo.

Únicamente bases de datos panel pueden estimar que


proporción de aquellos que están desempleados en un periodo
permanezcan desempleados en otro periodo y determinar sus
causas.

El principal objetivo de aplicar y estudiar datos panel, es capturar


la heterogeneidad no observable, ya sea entre individuos o
entidades, así como también en el tiempo, dado que esta
heterogeneidad no se puede detectar ni con estudios de series
temporales ni con estructuras de corte transversal.

En términos más formales. Suponga una estructura básica del


modelo de regresión de la forma:
yit=Xitβ+Ziα+uit

Los K regresores de Xit no incluyen el termino constante. La


heterogeneidad o efecto individual es Ziα donde Zi contiene un
termino constante y un conjunto de variables especificas
individuales las cuales pueden ser observadas (sexo, raza,
religión) o no observadas (habilidades, preferencias, etc).

Esta técnica permite realizar un análisis dinámico, al incorporar


la dimensión temporal de los datos estructurales, lo que
enriquece el estudio, particularmente en períodos de grandes
cambios.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 87

La principal ventaja de los paneles de datos es el incremento de


la precisión en el proceso de estimación. Este es el resultado de
aumentos en el número de observaciones al combinar o agregar
diferentes periodos de tiempo para cada individuo vistos desde
una regresión de corte transversal.

La aplicación de esta metodología permite analizar dos aspectos


de suma importancia y forman parte de la heterogeneidad no
observable.
1. Los efectos individuales específicos. Son aquellos que afectan
de manera desigual a cada uno de los individuos de estudio
contenidos en la muestra (consumidores, empresas, bancos,
etc), los cuales son invariantes en el tiempo e impactan de
manera directa las decisiones que tomen las unidades
individualmente. Usualmente se identifica este tipo de
efectos asociados a sexo, raza, capacidad empresarial,
eficiencia operativa, capitalización de la experiencia, acceso
a la tecnología, productividad, management, etc.

2. Efectos temporales. Son aquellos que impactan por igual a


todas las unidades individuales pero que varían en el
tiempo. Este tipo de efectos pueden asociarse, por ejemplo,
a impactos regulatorios, innovaciones tecnológicas o en
variables macroeconómicas, cambios en tasas de interés o
aranceles que pueden afectar por igual a todas las empresas
o entidades que tienen una evolución o trayectoria
dinámica.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 88

II. ESPECIFICACIÓN GENERAL DE UN MODELO DE DATOS DE


PANEL
La especificación de un modelo de datos panel parte de las
siguientes características:
yit = αit + Xitβ + uit con i = 1,......,N y t = 1,...,T.

Donde el subíndice i se refiere al individuo o a la entidad de


estudio (corte transversal), t a la dimensión en el tiempo (serie
temporal).

El parametro, α es un vector de interceptos correspondiente al


total de individuos (i) con variación en el tiempo (t), es decir,
existen NxT parámetros, Xkit es la i-ésima observación al
momento t-esimo para la K-esima variable explicativa x que
pertenece al vector de variables explicativas X, β es un vector de
tamaño Kx1 con K parámetros correspondiente a cada una de las
variables explicativas, por ultimo, yit es la i-ésima observación al
momento t-esimo para la variable respuesta o dependiente y.

La muestra total de las observaciones en el modelo vendría dado


por el número de individuos multiplicado por el número de
periodos de análisis (NxT)3.

Por otra parte, es usual interpretar modelos de datos panel a


través de sus componentes en el término de error. Al término de
error de la ecuación anterior, uit, se le suele llamar error
compuesto dado que tiene un componente fijo no observado
entre individuos y otro que cambia en el tiempo.
3A partir de este modelo general, y con base en ciertos supuestos y restricciones acerca del valor de algunos de los parámetros, se pueden derivar
otras variantes de modelos datos panel.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 89

Es decir, el término uit incluido en la ecuación de regresión panel,


puede descomponerse de la siguiente manera:
uit = μi + δt + εit
El primer término, conocido como heterogeneidad no observada
de la muestra, μi, representa efectos no observables que difieren
entre individuos o entidades de estudio pero no en el tiempo.

Corresponde a un efecto por individuo invariante periodo a


periodo, y corresponde a un vector conformado por las variables
constantes en el tiempo capturadas por el término de error. Por
ejemplo, la variable sexo es un componente de heterogeneidad
individual que puede ser no observada en un análisis.

El segundo término, δt, se le identifica con efectos no observables


que varían en el tiempo pero no entre las unidades de estudio.
Por ejemplo, cambios regulatorios que afectan a todos los
individuos desde su periodo de expedición.

Por último, εit se refiere al término de error puramente aleatorio


que tiene componentes por individuo y tiempo. Tiene las
caracteresiticas similares al componente del error de corte
transversal.

La mayoría de las aplicaciones con datos panel modelan el


componente de error, uit, para efectos no observables entre
individuos que no varían en el tiempo (μi≠0), pero no efectos de

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 90

cambio en el tiempo (δt=0), este modelo conocido como de un


factor o one way.

Las diferentes variantes para el modelo one way de componentes


de errores surgen de distintos supuestos que se hacen acerca de
efectos no observables que difieren entre las unidades de
estudio (μi). Pueden presentarse tres (3) posibilidades:
1. Considera a μi=0, es decir, no existe heterogeneidad no
observable entre los individuos, entidades o firmas. Dado lo
anterior, el término de error, uit, satisface todos los
supuestos del modelo lineal general, por lo cual, el método
de estimación de mínimos cuadrados (OLS) produce los
mejores estimadores lineales insesgados (BLUE).
2. Considera a μi≠0, es decir, existe heterogeneidad no
observable entre individuos, entidades o firmas. Considera a
μi con un efecto fijo sobre los regresores y distinto para cada
firma. En este caso, la heterogeneidad no observable se
incorpora a la constante del modelo.
3. Considera a μi≠0, es decir, existe heterogeneidad no
observable entre los individuos, entidades o firmas.
Considera a μi como una variable aleatoria no observable
que varía entre individuos pero no en el tiempo.

En los casos dos y tres se utilizaran metodologías especiales de


estimación para datos panel que serán expuestas más adelante.

Existe, además de la estructura de un factor o one way, el modelo


de dos factores o two-way en el cual el componente de error
ademas de la estructura de modelamiento individual no
observado (μi≠0) incorpora el efecto no observable que varían

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 91

en el tiempo pero no entre las unidades de estudio es distinto de


cero (δt≠0).

El modelo de dos factores o two way pretende capturar efectos


temporales específicos (innovaciones) sumándolos a la medición
de efectos no observables que difieren entre las entidades de
estudio pero no en el tiempo que no están incluidos en la
regresión (δt≠0 y μi≠0), Balgati (2001).

ESTRUCTURA DATA PANEL SEGÚN TÉRMINO DE ERROR

Método de estimación

Efecto no observado

OVERVIEW DE METODOS DE PANELES DE DATOS


Distintas caracteristicas en la construcción de modelos de datos
panel se pueden configurar según la disponibilidad de las
observaciones individuales, asi como de sus intervalos de tiempo
y estructura de los errores o innovaciones. Por ejemplo, se
pueden observar los siguientes casos:

1. Modelo A. Las pendientes de los coeficientes, β, y el


intercepto, α son constantes en el tiempo (t) e iguales para
todos los individuos (i), conocido como modelo restringido:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 92

2. Modelo B. Las pendientes de los coeficientes, β, son


constantes en el tiempo (t) y los individuos (i). El
intercepto, α, varia sobre los individuos (i):

3. Modelo C. Las pendientes de los coeficientes, β, son


constantes para los individuos (i) y el tiempo (t). El
intercepto, α, varia sobre los individuos (i) y el tiempo (t):

4. Modelo D. Las pendientes de los coeficientes, β, varían sobre


los individuos (i) pero no sobre el tiempo. El intercepto, α,
varia sobre los individuos (i).

5. Modelo E. Las pendientes de los coeficientes, β, varían sobre


el tiempo (t) e individuos (i). El intercepto, α, varia sobre el
tiempo (t) y individuos (i). Se conoce como modelo no
restringido:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 93

Existen dos procedimientos para estimar el modelo en un


sistema de datos panel. Cada uno de ellos parte del supuesto de
endogeneidad, es decir, la dependencia entre términos de error y
regresores (E[XU]=0).

El primero, asume algún tipo de correlación entre regresores y


términos de error (endogeneidad) e implica el reconocimiento
que variables omitidas pueden generar cambios en los
interceptos ya sea a través del tiempo o entre unidades de corte
transversal. En este caso, el modelo es conocido como efectos fijos
(Fixed Effects o FE).

El otro modelo es efectos aleatorios, asume independencia entre


regresores y términos de error al tratar de capturar estas
diferencias a través del componente aleatorio (Random effects o
RE) por medio de la estructura de covarianzas.

La selección de Efectos Fijos (FE) o Efectos aleatorios (RE) tiene


un impacto significativo en las metodologias de estimación y
consistencia de los estimadores.

Además, la variabilidad del intercepto, α, y las pendientes de los


parametros, β, sobre los individuos (i) y el tiempo (t) tiene
impacto en la estructura de covarianzas, y por tanto, impacto en
los intervalos de confianza y pruebas de hipótesis.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 94

Una revisión de los modelos para datos paneles lineales no


dinámicos, y recopilar los puntos anteriores, se puede encontrar
en el siguiente gráfico:

MODELOS DE DATOS PANEL O CORTE LONGITUDINAL

La primera especificación (A) se refiere al caso en que no existe


heterogeneidad no observable en la estructura de datos de panel,
μi=0, por tanto, se emplea el método de Mínimos Cuadrados
Ordinarios (OLS) con la ventaja de ganar grados de libertad.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 95

En los casos en que se rechaza la hipótesis de homogeneidad


entre individuos en un sistema de datos de panel, μi≠0, es decir,
existe heterogeneidad no observable ya sea a través del tiempo,
entre unidades de estudio (individuos) o en ambos sentidos,
debe buscarse una especificación que la capture en forma
apropiada con el fin de evitar el problema de sesgo e
inconsistencia sobre los estimadores de los parámetros de las
variables explicativas, Xit, que se cometería si se emplea la
especificación A, o modelo restringido, cuando existe un efecto
no observado (sesgo por variables omitidas).

Una forma simple, y de hecho la más utilizada, es incorporar esta


heterogeneidad no observada empleando los modelos de
intercepto variable, identificados en las especificaciones con
intercerto variable entre los individuos (modelo B) o con el
intercepto variable en el tiempo y los individuos (modelo C).

Estos modelos son ampliamente utilizados cuando se analizan


datos panel lineales debido a que son estimables, a diferencia de
los modelos D y E, proporcionan alternativas simples y generales
sobre el supuesto de los parámetros y toman valores comunes
para todos los individuos (i) en el tiempo.

Los modelos B y C, donde varia el intercepto, parte de un modelo


lineal para todos individuos (i) y tiempo (t). A partir del modelo
general se pueden representar los modelos B y C mediante las
siguientes ecuaciones:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 96

Modelo B

Modelo C

El primer paso después de comprender los modelos panel de


trabajo radica en identificar las variables explicativas
observadas (Xk) en la base de datos panel de tres formas
posibles:
1. Una variable que cambia en el tiempo y por individuo (Zit). Se
trata de variables que cambian entre individuos en un
momento del tiempo, y que además cambian a lo largo del
tiempo. Como ejemplo se pueden mencionar ingresos
totales, nivel de beneficios, nivel de capital, razones
financieras, entre otras.
2. Una variable por cada individuo, sin cambios en el tiempo
(Zit=Zi). Este es el caso de variables que son las mismas para
cada unidad de corte transversal a través del tiempo.
Ejemplos de ellas se tienen características como sexo,
religión y otras características sociodemográficas.
3. Una variable por periodo pero no cambia entre individuos
(Zit=Zt). Son las mismas variables para todos los individuos
en un momento del tiempo pero varían a lo largo del
periodo de estudio. Como ejemplo, cambios en la actividad
regulatoria, nivel de precios, tasas de interés, etc.

En conclusión, en una base de datos panel pueden existir


distintos tipos de variables que son capaces de representar
diferentes efectos.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 97

Se pueden tener variables invariantes en el tiempo (xit=xi), que


no varían con los individuos (xit=xt) o que varían tanto con el
tiempo como con los individuos (xit) que tienen un impacto
directo y significativo en los procesos de estimación por paneles
de datos.

REGRESIÓNES AGRUPADAS, EFECTOS FIJOS Y ALEATORIOS


Ya definidos los modelos de trabajo B y C en las especificaciones
panel e identificadas las variables disponibles es necesario
revisar la estructura de composición del término de error con el
objetivo de implementar estrategias de estimación. Las más
utilizadas son las siguientes:

a. Regresión agrupada (pooled). Estima el siguiente modelo:

Es un modelo de estimación donde no existe diferenciación


entre individuos y no intenta capturar efectos no
observados. Utiliza técnicas tradicionales por OLS. Es
posible por las características de la base de datos panel que
E(xit,ui)≠0. Entonces, la regresión agrupada (pooled) estará
sesgada. Muchas veces dicha correlación es debida a un
error de especificación por la ausencia de alguna variable
relevante (variables omitidas) o la existencia de cualidades
no observables (heterogeneidad no observable) de cada
individuo.

b. Regresión panel por Efectos fijos (Fixed effect o FE). Los


modelos de regresión de datos panel realizan distintas
hipótesis sobre el comportamiento de los residuos, como ya

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 98

se notó anteriormente. Esto tiene un impacto en las


metodologías y supuestos sobre el modelo de regresión a
implementar en un modelo one way. El modelo a estimar es:

Donde αi =α+vi, luego reemplazando en (2) queda:

Es decir, supone que el error (uit) puede descomponerse en


dos partes, una parte fija, constante para cada uno de los
individuos representando el efecto individual no observado
(vi) y otra aleatoria que cumple requisitos OLS (uit).

El elemento representando el efecto individual no


observado (vi) se incorpora al intercepto para ser estimado
posteriormente. Esta metodología permite modelar algún
tipo de endogeneidad en los términos de error, a diferencia
del modelo de regresión lineal general, es decir, E[XU]≠0 y
efectuar estimaciones consistentes.

c. Regresión panel por aleatorios (random effects o RE). Tiene


la misma especificación que el modelo efectos fijos con la
salvedad que el efecto individual no observado vi, en lugar
de ser un valor fijo a ser estimado para cada individuo es
una variable aleatoria con un valor medio vi y una varianza
Var(vi)≠0. Es decir, la especificación del modelo es igual a:

Salvo que ahora el efecto individual no observado, vi , es una


variable aleatoria. Su estructura parte del supuesto de

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 99

exógeneidad fuerte E[XU]=0. Por tal motivo, además, con la


existencia de n individuos distintos la estructura de
covarianzas debe ser contemplada con el supuesto de
heterocedasticidad a través de una estructura de
̂.
covarianzas más general, 𝚺

El modelo de efectos ale atorios (RE) es más eficiente pero


menos consistente que el de efectos fijos (FE). Es decir, es
más exacto en el cálculo del valor del parámetro pero puede
contener sesgo a diferencia del modelo de efectos fijos.

Adicionalmente, Al ser el efecto individual no observado vi


una variable aleatoria no se está seguro del valor exacto en
el origen que pueda tener cada individuo sino que este
término probablemente gravitará en torno a un valor
central. Eso implica que el modelo parte del supuesto que la
base de datos panel proviene de una muestra de un gran
universo de individuos.

En conclusión, La principal diferencia entre los modelos de


efectos fijos (Fixed effect o FE) y efectos aleatorios (random
effects RE) parte de como cada uno de ellos efectua un
tratamiento distinto del supuesto de exogeneidad fuerte,
E[XU]=0. Ademas de estas diferencias se suma otra importante, el
modelo de efectos fijos (Fixed effect o FE) en su construccion
parte de una poblacion, mientras el modelo de efectos aleatorios
(random effects RE) inicia desde una muestra aleatoria.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 100

VARIACION BETWEEN-WITHIN
La variable dependiente y regresores del modelo de datos panel
pueden variar sobre el tiempo (t) e individuos (i), como ya se ha
definido. La variación en el tiempo de una variable x para un
individuo es conocida como variación within y la variación de
una variable x a través de individuos se conoce como variación
between4.
Variación Between Vs Within

Individuo 2
Variacion Between

Individuo 1

Variación Within
ithinetween

Esta distinción tiene una significancia importante dentro del


modelo de datos panel debido a que estimadores y variables
difieren en su uso según la ponderación que se efectuá entre el
efecto de variabilidad between o within.

La variación total alrededor de la media se define como


x̅ = 1/NT ∑N T
i=1 ∑t=1 x it la cual se divide en variación within
(suma respecto a los T periodos) y between (suma respecto a los
N individuos).

4 Esta metodología es conocida como estimación de dinámicas entre grupos. En análisis de corte transversal tradicional, cada observación captura
información de su nivel de largo plazo y su componente cíclico. El estimador de efectos entre grupos (between) en términos generales reduce el
problema de un panel longitudinal a uno de corte transversal, empleando el cálculo promedio de las variables al interior de cada individuo. El
procedimiento general para obtener este estimador necesita calcular el promedio de la variable dependiente y de los regresores a lo largo del
tiempo. Posteriormente, realiza una estimación OLS donde se usan como regresores y variable dependiente los promedios calculados en el paso 1.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 101

La variación within, para cada regresor, xit, se calcula como el


promedio en el tiempo de cada uno de los individuos de la
variable x (media de la variable x para el individuo i-esimo a
través del tiempo, x̅i = 1/T ∑Tt=1 xit )

La variación between mide las diferencias a través de los


individuos para la variable x de la forma (x̅i − x̅). Explota sólo la
variación de corte transversal.

A partir de la descomposición de promedios (x̅) y la varianza


muestral (S) para la variable x es posible encontrar las
variaciones between y within calculadas como:

PROMEDIOS:
Total: N T
1
x̅ = ∑ ∑ xit
NT
i=1 t=1
En el grupo (WITHIN): T
1
x̅i = ∑ xit
T
t=1
Entre grupos (BETWEEN): x̅iB
=(x̅ i − x̅)
DESVIACIÓN ESTÁNDAR MUESTRAL
En el grupo (WITHIN) o 1
s =√ ∑N ∑T (x − x̅i )2
entorno a la media individual: within= NT−1 i=1 t=1 it
Entre grupos (BETWEEN) o 1
s =√ ∑N (x̅ − x̅ )2
entorno al promedio de between N−1 i=1 i
individuos respecto al total:
Total o entorno a la media total: N T
1
stotal = √ ∑ ∑(xit − x̅)2
NT − 1
i=1 t=1

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 102

En la mayoría de aplicativos es posible generar tablas donde se


expone estadisticos descriptivos como máximo, mínimo,
percentiles, varianza, etc. En STATA, por ejemplo, xtsum.

CALCULO WITHIN BETWEEN STATA

EJERCICIO. Calcule la variación between, within y overall para la


siguiente base de datos panel.

PERIODO INDIVIDUO Y X1 X2 X3
1 1 23 16 31 42
2 1 45 6.5 87 78
3 1 76 8 32 65
1 2 21 43 4 38
2 2 98 5 55 75
3 2 5 78 24 29

Es importante resaltar que variables para las cuales no existe


cambio en el tiempo pero si entre individuos (zit=zi) como sexo,
raza o religión existe variación between pero no cuentan con
variación within.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 103

Dentro del analisis de bases de datos panel es posible medir


variaciones totales que corresponden al componente between y
cero o muy pequeña variacion within.

Para variables discretas, una tabulación de valores (histograma)


puede ofrecer una visión completa de observaciones que toman
ese valor (overall), individuos para los que alguna vez toma ese
valor (between) y el porcentaje de individuos que nunca cambia
de valor (within).

A si mismo para variables dummy, se puede calcular una matriz


de transición (ofrecen idea de persistencia dinámica de efectos
observados) donde se exponga la evolución de la variable entre
el periodo actual (xit) y el siguiente (xit+1) bajo la existencia (1) o
no (0) del evento registrado.

MATRIZ DE TRANSICION EFECTOS PANEL WITHIN BETWEEN

ALGUNOS SUPUESTOS DE TRABAJO EN METODOLOGIAS DE


DATOS PANEL
Dentro de la construcción del modelo de datos panel, visto como
una generalización de modelos de corte transversal, surgen
comparaciones obligadas entre ellos. En especial sobre aquellos
supuestos que por su naturaleza son solucionados por la
metodología panel. Entre ellos:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 104

1. Sesgo de heterogeneidad
2. Variables omitidas y efectos no observados
3. Correlación serial resultante de efectos constantes en el
término de error
4. Problema de parametros incidentales

SESGO DE HETEROGENEIDAD
Al incluir efectos between y within dentro del análisis y observar
la significancia de la interacción entre individuosy tiempo entre
variables e individuos surge la pregunta ¿que ocurre si este
efecto se omite?

El no contar con el efecto individual no observado, αi, y aplicar


OLS a una base de datos panel se suele llamar sesgo de
heterogeneidad. Surge de omitir una variable que difiere entre
individuos pero no cambia en el tiempo.

ANALISIS BETWEEN-WITHIN-OVERALL
OLS/FGLS

Within
Between

Overall

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 105

El grafico anterior ayuda a comprender el sesgo por


heterogeneidad. Suponga una muestra con 4 individuos (N=4) y
20 periodos de tiempo (T=20). Para el individuo i-esimo existe
una pendiente idéntica y positivamente relacionada en una
forma lineal entre Y y X.

Para la muestra completa la relación es ligeramente descendente


y lineal. Si el interés se centra en el modelo anterior, la
estimación sobre todos los eventos de la muestra (overall) es un
sesgo de heterogeneidad.

Es decir, el sesgo en el proceso de estimación causado por omitir


αi y aplicar OLS a datos agrupados (pooled).

VARIABLES OMITIDAS Y EFECTOS NO OBSERVADOS


Si la heterogeneidad no observada no es controlada conduce al
sesgo por variables omitidas que puede ser corregido por
variables instrumentales (2LS) en el caso de corte transversal5.

Para el caso de datos panel existen diferentes metodologías


alternativas de tratamiento.

La ventaja de los modelos de datos panel para construir y probar


modelos de comportamiento más amplio que el puramente de
corte transversal o series de tiempo.

5En la práctica es difícil encontrar buen un instrumento para le calulo del estimador de variables instrumentales ya que debe tener caracterisitcas
a veces incompatibles como que revele información similar a la variable a reemplazar dentro del modelo de regresion y adicionalmente sea
exógena frente a los regresores.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 106

Estos proporcionan medios para resolver o reducir la magnitud


de problemas econométricos que se observan en estudios
empiricos relacionados con la presencia de variables omitidas
(no medidas o no observadas) que estan correlacionadas con
variables explicativas.

Utilizando información de la dinámica intertemporal, y de las


entidades individuales, de una manera natural, se pueden
incorporar efectos de variables omitidas o no observadas.

Por ejemplo, suponga el siguiente modelo de regresion:

Donde xit y zit son vectores de tamaño k1X1 y K2X2 de variables


exogenas, α*, β y ρ son vectores de parámetros de tamaño 1X1,
k1X1 y k2X1, respectivamente.

El término de error uit es una variable aleatoria, independiente e


identicamente distribuida (vaiid) sobre individuos (i) y tiempo
(t) con media cero y varianza σ2it .

La regresión por mínimos cuadrados de yit sobre xit y zit arroja


estimadores consistentes e insesgados de α*, β y ρ.

Ahora suponga que valores de los regresores zit son no


observables y la covarianza entre regresores xit y zit es no cero.

Entonces, los coeficientes de regresión por minimos cuadrados


de yit sobre xit son sesgados e inconsistentes.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 107

Sin embargo, si se encuentran disponibles observaciones


repetidas para un grupo de individuos, ellas pueden permitir
deshacerse de los efectos no observados de z.

Por ejemplo, si los regresores zit=zi para todo t (es decir, los
valores de la variable no observada, z, permanecen constantes a
traves del tiempo pero cambia a traves de los individuos), es
posible tomar la primera diferencia de las observaciones
individuales sobre el tiempo y se obtiene:

Donde la diferencia de la variable respuesta para el individuo i-


esimo entre el periodo actual (yit) y el anterior (yit-1), o mejor,
(yit-yit-1), debe ser igual a la diferencia entre los regresores para
el individuo i-esimo en los periodos t y t-1.

Si se efectua la diferencia sobre los regresores zit se eliminan


variables no observadas que no cambian en el tiempo, por
ejemplo raza o sexo.

De forma similar, si zit=zt para todo i (es decir, los valores de z


permanecen constantes a traves de los individuos pero varian a
traves del tiempo), se puede tomar la desviacion respecto a la
media a traves de los individuos en un periodo dado y obtener:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 108

Donde el promedio aritmético de la variable respuesta para


todos los individuos, y̅, en cada periodo de tiempo se define
como y̅t=(1/N)∑Ni=1 yit .

Por tanto, (yit-y̅t) es la diferencia entre la respuesta de cada uno


de los individuos (yi) respecto al promedio de todos los
individuos (y̅) evaluados en cada periodo de tiempo (t).

Para los regresores aplica una fórmula similar. Es el promedio


aritmético de cada una de las observaciones de los individuos en
cada periodo de tiempo.

Se define como 𝐱̅t=(1/N)∑Ni=1 𝐱 it , donde (xit-x


̅t) será la diferencia
o desviación entre cada observación para cada individuo (i)
respecto a su promedio en cada periodo de tiempo (t).

Si se efectua la diferencia sobre los regresores zit se eliminan


variables no observadas que cambian en el tiempo, pero si entre
los individuos por ejemplo políticas o legislaciones.

Es decir, esta metodología permite minimizar el número de


variables no observadas que se encuentran ubicadas en la media
temporal a través de la estructura panel.

Por último, u̅t=(1/N)∑N i=1 uit es el promedio de las innovaciones


de todos los individuos en cada periodo, su diferencia (uit-u̅t)
revela la distancia entre las innovaciones ocurridas en cada uno
de los individuos (i) respecto al promedio de las innovaciones de
los individuos calculadas en cada periodo de tiempo.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 109

La regresión por OLS de las ecuaciones anteriores proporcionan


estimadores consistentes e insesgados de β como una alternativa
de solución a efectos no observados y variables omitidas.

Sin embargo, si se tiene un conjunto de datos de corte


transversal con un unico individuo (i=1) y se cuenta con
variables que no cambian en el tiempo pero si entre individuos
(zit=zi), o una base de datos con un periodo de tiempo (t=1) con
variables que no cambian entre individuos pero si en el tiempo
(zit=zt), tal transformación no puede ser ejecutada, por tanto, no
se puede asegurar la consistencia de β, a menos que existan
variables instrumento (IV) que estén correlacionados con x pero
no correlacionados con z y u.

Es importante observar que a pesar de los cambios temporales,


el valor de los parámetros β permanecen constantes. La
diferencia también aplica a los términos de error.

CORRELACIÓN SERIAL RESULTANTE DE EFECTOS CONSTANTES


EN EL TÉRMINO DE ERROR
Suponga el modelo de regresión panel con un efecto permanente
no observado a través de los individuos (μi).

Un problema de las estimaciones de datos panel radica en la


posible correlación serial entre los errores de diferentes
periodos causados por la existencia de este efecto no observado
(μi).

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 110

Sea el modelo E, o modelo no restringido, donde varían


intercepto (α) y pendientes (β) a través de los individuos (i) y
tiempo (t):

Donde uit está compuesto por un término de heterogeneidad no


observada, μi, y un término aleatorio puro para individuos y
tiempo ϵit.

Suponga un análisis para dos periodos (t=2) para el individuo


i-esimo:
En t=1: yi1= α∗i1 +𝛃´i1 xi1+ui1 con ui1 = μi+ϵi1
En t=2: yi2= α∗i2 +𝛃´i2 xi2+ui2 con ui2 = μi+ϵi2

Las ecuaciones anteriores demuestran como los errores, uit, del


modelo usualmente estaran correlacionados serialmente dada la
existencia del término de heterogeneidad no observada
invariante en el tiempo para el individuo i-esimo, μi. Es decir,
COV[uit,uis]≠0 para todo t≠s.

Con datos de panel no es posible suponer que las observaciones


son independientes ya que factores no observados que afectan a
los regresores en un periodo también afectarán a esas mismas
variables en el periodo siguiente.

Para validez del modelo Panel, y su metodología de estimación,


es necesario controlar la probable correlación de los errores del
modelo de regresión sobre el tiempo para individuos objetos de
estudio.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 111

En particular, la formula usual de OLS para los errores


estandarizados en una regresión OLS agrupada (pooled),
típicamente exagera el volumen de información independiente lo
cual implica ganancias en precisión, varianza y grados de
libertad, conduciendo a subestimar los errores estándar, y por
tanto, t-estadísticos pueden ser demasiado grandes.

Esto causa estimadores OLS menos eficientes (o de mayor


varianza) en comparación a los que se obtendrían sin
autocorrelación de los residuos y tiene implicaciones en la
construcción de pruebas t utilizadas para contrastar la
significancia de regresores, xit.

Entre mayor varianza, aumenta la posibilidad de encontrar la


verdadera significancia y mayor la probabilidad de cometer error
tipo I y error tipo II6.

INFERENCIA ROBUSTA A LA HETEROCEDASTICIDAD Y


CORRELACIÓN SERIAL DESPUÉS DE OLS
Suponga un nuevo modelo más general donde las observaciones
de Ti para el individuo i en la ecuación panel son las siguientes:

Donde X es un vector de variables explicativas, β es un vector


Kx1 de parametros a estimar y w es el termino de error o
perturbación estocastica. El estimador OLS es:
̂ols=(XtX)-1XtY
𝛃
6 Declarar un coeficiente estadísticamente no significativo, cuando en realidad lo es.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 112

Si los errores muestrales tienen igual varianza a σ2 y son no


correlacionados, entonces OLS de 𝛃 ̂ols es BLUE y su varianza
puede ser estimada como:
̂ols]=S2(XtX)-1
VAR[𝛃

Si el supuesto de homocedasticidad es violado, es decir,


E[UtU]≠σ2In el estimador de la varianza pierde propiedades
deseadas de eficienciay consistencia. La varianza en este caso es:
VAR[𝛃 ̂ols]= (XtX)-1XtΣX(XtX)-1

Donde β ahora incluye el término constante. En esta


configuración, puede asumirse heterocedasticidad entre los
individuos.

Sin embargo, en un conjunto de datos panel, el principal


problema, y de mayor significancia, es la correlación cruzada
entre individuos o autocorrelación de los términos de error o
perturbación estocastica.

En una base de datos panel o longitudinales un conjunto de


observaciones pueden pertenecer al mismo individuo pero en su
componente del error se encuentran efectos no observados que
se llevará a través de todos los T períodos.

Suponga el modelo anterior con un vector de perturbación o


término de error, wit, además de los componentes omitidos.

Entonces, la estructura de covarianzas puede ser definida como:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 113

Con el fin de concentrar la corrección exclusivamente en la


varianza de los parámetros (y no en el valor de los parámetros)
existe una propuesta de corrección similar a la estimación
ideada para el contexto en el que exista un problema de
autocorrelación.

Esta corrección, se denomina estimación de Newey–West o


estimacion robusta y produce resultados adecuados en muestras
grandes. Para este caso la matriz de covarianza asintótica a ser
estimada siguiendo el tipo White es:

̂ i es un vector de Ti residuos para el individuo i-esimo.


Donde 𝐰
Por ejemplo, en paneles largos, se pueden estimar fácilmente los
parámetros (αi,βi).

En paneles cortos, se necesita suponer una distribución para


(αi,βi) o condiciones en los regresores como en el modelo de
efectos aleatorios (RE), se suele suponer que son independientes
de los regresores E[XU]=0.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 114

PROBLEMA DE PARAMETROS INCIDENTALES


Bajo un contexto de paneles cortos no es posible encontrar los
parámetros para efectos fijos (FE) tanto para el proceso de
estimación como para efectuar contrastes de hipótesis.

La causa se debe al problema de parámetros incidentales. Es


decir, la incapacidad de calcular nuevos parámetros a medida
que crece con el tamaño muestral.

Si se considera que N tiende a infinito entonces conceptualmente


el número de efectos fijos (FE) calculados crecería también
infinitamente, lo que genera un modelo inestimable (N→∞
entonces αi→∞).

En otras palabras, asintóticamente a la hora de utilizar


contrastes de multiplicadores de Lagrange (LM), así como
estimación máximo verosímil (MV), por ejemplo, cuando el
número de individuos (N) tienda al infinito implicaría la
estimación de un número infinito de variables dummy.

Existen potenciales soluciones para continuar con técnicas


tradicionales de estimación y contraste.

En primer lugar, modelos de efectos aleatorios (RE) en el caso


que los efectos no observables no se encuentren correlacionados
con los regresores del modelo.
En segundo lugar, incluir diferencias temporales pero no
individuales (zit=zt). Por último, variables instrumentales (IV) o

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 115

variables que reflejen de una manera aproximada las diferencias


no observadas.

De por si, para minimizar el impacto del problema de


parámetros incidentales en el caso de estimaciones FE los
efectos individuales no observados (αi) son eliminados a través
de diferencias temporales (yit-yit-1) o por diferencias respecto a
sus promedios (yit-y̅).
CARACTERISTICAS ADICIONALES DE DATOS PANEL
A partir de lo anterior es posible identificar algunas otras
caracteristicas sobre modelos de datos panel, entre ellas:
1. Un término más preciso para el modelo one way es definido
como el modelo de efectos aleatorios específicos de un solo
factor (one-way individual specific random effects model) o
simplemente modelo de intercepto aleatorio (random
intercept model).

2. Los datos panel son usualmente observados en intervalos


regulares de tiempo (meses, trimestres, años) con las
mismas caracteristicas de los datos de series de tiempo.

3. Los paneles de datos pueden ser balanceados, significando


que todas las unidades individuales son observadas en
todos los periodos (Ti=T ∀i), aunque pueden existir paneles
desbalanceados (Ti≠T para algún i). En cualquier caso, la
consistencia del estimador requiere que el proceso de
selección de la muestra no conduzca a errores de
correlación con regresores.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 116

En la descripción de los datos se hace indispensable para


paneles balanceados, exponer el número de observaciones,
determinar el número de individuos distintos (N) y total de
periodos cubiertos por el panel (T).

Para paneles NO balanceados, además de lo anterior, se


debe considerar periodos concretos en que se observa cada
individuo (Ti) y el número total de observaciones existentes,
∑Ni=1 Ti .

Adicionalmente, es importante tener en cuenta que no tiene


porque haber individuos observados todos los periodos y
que individuos con el mismo numero de observaciones (Ti)
pueden ser observados en periodos diferentes.

4. Las bases de datos pueden ser de diferentes tipos. Entre


ellos, paneles cortos (pocos periodos y muchos individuos)
o paneles largos (muchos periodos y pocos individuos) o
ambos, conocido como campo aleatorio (muchas periodos y
muchos individuos).

Esta distincion tiene consecuencias para las metodologias de


estimacion e inferencia sobre el modelo. El foco inicial de
trabajo radica en paneles cortos, lo que implica, datos de
muchas unidades individuales y pocos periodos.

PANEL CORTO BALANCEADO PANEL LARGO BALANCEADO

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 117

T
E Y X t-1 t-2 t-3
y1 x1
E1 : :
yn xn T
y1 x1 E Y X t-1 t-2 t-3 ………… t-n+1 t-n
E2 : : y1 x1
yn xn E1 : :
y1 x1 yn xn
E3 : : y1 x1
yn xn E2 : :
y1 x1 yn xn
E4 : :
yn xn
: : : : :
y1 x1
Ek : :
yn xn

PANEL CORTO DESBALANCEADO PANEL LARGO DESBALANCEADO


T
E Y X t-1 t-2 t-3
y1 x1
E1 : :
yn xn T
y1 x1 E Y X t-1 t-2 t-3 ………… t-n+1 t-n
E2 : : y1 x1
yn xn E1 : :
y1 x1 yn xn
E3 : : y1 x1
yn xn E2 : :
y1 x1 yn xn
E4 : :
yn xn
: : : : :
y1 x1
Ek : :
yn xn

5. Los errores del modelo están altamente correlacionados. Se


enfatiza como la correlación o agrupamiento sobre el
tiempo para un individuo dado, con interdependencia sobre
otras unidades individuales puede existir.

Para algunos modelos de datos panel, tales como


información de países, pueden adicionalmente existir
correlaciones entre individuos.
A pesar del supuesto hecho, es necesario realizar
correcciones sobre los términos de error para efectuar el
proceso de estimación por mínimos cuadrados ordinarios
(OLS), y en algún caso, es necesario corregirlas, teniendo

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 118

ganancias en eficiencia utilizando mínimos cuadrados


generalizados factibles (FGLS) o métodos generalizados de
momentos (GMM).

6. Los coeficientes de regresión, β, están en función del tipo de


regresor y son capaces de modificar la metodología de
estimación aplicada. Por ejemplo, algunos regresores como
género, pueden ser invariantes en el tiempo, es decir, xit=xi
para todo t, y en algunos casos, como es para efectos fijos,
no puede ser calculada.

Desde otro punto de vista, algunos regresores, tales como


una tendencia temporal, pueden ser invariantes entre los
individuos afectándolos a todos por igual en el tiempo, es
decir, xit=xt para todo i, y algunos pueden variar sobre el
tiempo y sobre los individuos de manera simultánea, es
decir, xit.

7. Algunos o todos los coeficientes estimados dentro del


modelo pueden variar a través de los individuos o sobre el
tiempo, es decir, xit.

8. La literatura enfatiza en el modelo de efectos fijos. Este


modelo permite a los regresores, xit, tener algún grado de
endógeneidad (determinados dentro del modelo) lo que
indica que los regresores, x, están correlacionados con un
componente del error invariante en el tiempo. Otras ramas
enfatizan el modelo de efectos aleatorios que asume
regresores completamente aleatorios y exógenos o efectos
aleatorios.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 119

9. Los paneles de datos permiten estimación de modelos


dinámicos donde la variable dependiente rezagada pueden
convertirse en regresor tal como lo expone Arellano (2002).

III. METODOLOGIAS DE ESTIMACION DE MODELOS DE DATOS


PANEL
Las metodologías de estimación en paneles de datos lineales
pueden ser resumidas de la siguiente manera:

Modelo Estimador
Agrupado (Pooled) 1. OLS
Between 1. OLS
1. FGLS
Efectos Aleatorios (RE) 2. OLS para un estimador GLS
3. Máximo verosímil.
1. LSDV.
2. Condicional de maxima verosimilitud.
Efectos Fijos (FE) 3. Primeras Diferencias
4. Within o de efectos fijos
5. Within o de efectos fijos con GLS

Suponga el modelo lineal general o no restringido (Modelo E) de


la forma:

Donde yit es la variable dependiente en terminos escalares, xit, es


un vector de Kx1 variables independientes y β es un vector Kx1
de parámetros estimados que varian a través de los individuos y
el tiempo, uit es el término de perturbaciones con el índice
individual (i=firma, país, etc) de forma transversal e indexado
en el tiempo (t).

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 120

Este modelo es demasiado general y no es calculable dado que


existen más parámetros a ser estimados que observaciones en la
base de datos panel.

Por tal motivo, deben imponerse restricciones sobre la


variablidad del intercepto, αit y las pendientes, βit, con especto a
los individuos (i), el tiempo (t) y el comportamiento del término
de error (uit) en el proceso de estimación.

1. MODELO AGRUPADO
El modelo más restrictivo es el modelo agrupado (pooled model)
especifica coeficientes constantes, el supuesto usual para
estimaciones de corte trasversal (cross section) es el siguiente:
yit=α+Xitβ+εit
Si este modelo se encuentra correctamente especificado y los
regresores no están correlacionados con el término de error
(exogeneidad fuerte).

Por tanto, no existen efectos individuales no observados,


entonces es consistente y eficientemente estimado por OLS y la
inferencia pueden proceder de forma fiable.

En el contexto de datos de panel también se le llama promedio


poblacional o population average, con los siguientes supuestos:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 121

La inferencia debe usar errores estándar robustos por la


probable correlación entre individuos y en el tiempo para evitar
sesgos en el cálculo de la varianza estimada y el cálculo de
estadísticas t y F sea apropiado.

Dada la correlación de los errores donde se incorpore efectos no


observados se pueden obtener estimaciones consistentes si los
factores no observados, que a su vez están correlacionados con
las variables exógenas, si se mantienen constantes en el periodo
analizado.

2. ESTIMADOR ENTRE GRUPOS (BETWEEN ESTIMATOR)


El estimador entre grupos (between estimator o BE) en paneles
cortos, al igual que el modelo pooled calcula una variación de
corte transversal. Es decir, utiliza los datos between para el
individuo i-esimo sobre k regresores, o mejor, y̅i, x̅i1, x̅i2,…..,x̅ik.
Suponga el modelo de media individual de la forma:
yit=α+Xitβ+εit

Ajustando los promedios aritméticos de la variable dependiente,


yit, regresores, xit y el término de error, εit, sobre el tiempo,
resulta en:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 122

El cual puede ser reescrito como el modelo between de la forma:

Donde los promedios aritméticos en el tiempo de la variable


endógena, regresores y término de error son y̅i = 1/T ∑Tt=1 yit ,
𝐱̅ 𝐢 = 1/T ∑Tt=1 xit y ε̅i = 1/T ∑Tt=1 εit ), respectivamente.

El estimador entre grupos (BE) es un estimador OLS de la


regresión de y̅i sobre un intercepto (α) y los regresores
promediados a través del tiempo, 𝐱̅ i .

Este utiliza la variación entre diferentes individuos, análogo a


una regresión de corte transversal. Tambien interpretable a un
modelo panel en el caso especial donde t=1.

Este estimador es consistente si los regresores, 𝐱̅ i , son


independientes del termino de error compuesto (αi-α+ε̅i ), o lo
que es lo mismo, bajo el supuesto de exogeneidad estricta o
fuerte de los regresores, xit, respecto al término de error
compuesto, εit, utilizándose errores estándar robustos.

Puede ser utilizado en el caso de coeficientes constantes


(pooled) y de efectos aleatorios.

En contraste, para un modelo de efectos fijos (FE) el estimador


entre grupos (BE) es inconsistente en la medida que el
intercepto αi se asume no correlacionado con xit, en este caso con
el promedio de las observaciones para el individuo i-esimo, 𝐱̅ i .

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 123

En la práctica apenas se utiliza debido a que el estimador


agrupado (pooled) y el de efectos aleatorios (RE) son superiores,
es decir, son consistentes bajo las mismas condiciones y más
eficientes asintóticamente.

3. MODELO EQUICORRELACIONADO O EFECTOS ALEATORIOS


El estimador OLS agrupado (pooled) o BE se obtiene apilando o
promediando los datos sobre los individuos (i) y tiempo (t) con
una regresión estimada por OLS para NT observaciones de la
forma:

El estimador OLS es consistente si el modelo anterior tiene


regresores no correlacionados con los términos de error, es
decir, si la relación entre el termino de error (uit) y regresores
(xit) es cero, Cov[uit, xit]=0, a pesar que el numero de individuos
crezca (N→∞) o el tiempo aumenta (T→∞) lo cual conduce a
estimadores consistentes y eficientes.

La matriz de covarianzas, por otra parte, usualmente utilizada


para un modelo pooled o BE se fundamenta en errores que se
asumen como vaiid con matriz de covarianzas Σ=σ2I.

Sin embargo, si existen efectos individuales no observados


(μi≠0), caracteristicos de la visión panel, los términos de error
para un individuo i-esimo estarán probablemente positivamente
correlacionados (en el tiempo para un individuo y/o entre
individuos), por lo que la matriz de covarianzas Σ divergerá de la

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 124

metodología utilizada por OLS. Los OLS aplicables a pooled o BE


no es apropiada.

El estimador OLS no es conveniente si se asume la existencia de


un efecto individual no observado sin correlación con las
variables explicativas, COV[XiU] ≠0.

La metodología de efectos aleatorios (RE) asume que la matriz


de covarianzas generada (Σ) es diferente a la esperada en OLS
donde existe homocedasticidad (Σ=σ2I). Es necesario modificar
este supuesto y trabajar metodologías más generales de
estimación como GLS o FGLS.

Un modelo de efectos aleatorios (RE) puede ser estimado por OLS


con los parámetros 𝛃 consistentes aunque es un modelo
ineficiente por su estructura de covarianzas.

En un modelo de efectos aleatorios (RE) en la medida que asume


independencia entre regresores y términos de error para los
i-esimos individuos en t periodos no es posible construir una
matriz agregada, Σ, si cada individuo tiene su estructura de
covarianzas, que se denominará Ω.

Este análisis de correlacion de los términos de error también se


puede observar desde un punto de vista de la información
utilizada para la construcción de pruebas de hipótesis e
intervalos de confianza.

Los supuestos usuales de estimación OLS tratan cada T años


como piezas independientes de información.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 125

Si existe correlación positiva de los términos de error el


contenido de la información es menor. Las NT observaciones
correlacionadas tiene menos información que NT observaciones
independientes. Esto tiene implicaciones en el calculo al
sobreestimar la precisión del estimador de la varianza ya que
mayor varianza hace menores los t-estadisticos.

El modelo de efectos aleatorios (RE) es la especialización de un


modelo agrupado (pooled) para los i-esimos individuos.

En la medida que el componente individual no observado, αi,


pueda ser incluido en el término de error a través del tiempo.
Suponga el modelo B:
t
yit= αi+𝐱 it β+uit
Puede ser visto como la regresión de la variable dependiente, yit,
sobre los regresores, xit, con un término compuesto de error tipo
one way, uit=αi+εit.

Los supuestos sobre el efecto individual no observable (αi) y el


término de error (εit) son variables aleatorias que tienen la
distribución de probabilidad la forma αi~[0,σ2α ] y εit~[0,σ2ε ]
respectivamente.

Esto implica que cada elemento de la matriz de covarianzas,


Cov[uit,uis], será calculado como la relación (covarianza) entre el
efecto individual no observado (αi) y el componente del término

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 126

de error (εi) para los periodos t y s sean o no contemporaneos.


Es decir:

Bajo un término de error compuesto (uit) suponiendo la


existencia de efectos individuales no observados vistos como
una variable aleatoria (αi) e incluidos en el termino de error,
cuando es calculada la matriz de covarianzas para el individuo
i-esimo, 𝛀, impone restricciones de estar igualmente
correlacionado (equicorrelacionado) en el mismo periodo.

Cuando los periodos t y s coincidan (t=s), correlacion


contemporánea, la diagonal de la matriz de covarianzas (𝛀)
asocia la volatilidad del término de error de ese periodo
corresponde a la suma de la varianza del efecto individual no
observado (σ2α ) más la varianza del término de error (σ2ε ), es
decir, para el caso COV[uit,uit]= (σ2α + σ2ε ).

El modelo de efectos aleatorios (RE) es conocido como modelo


equicorrelacionado por esta razón.

Para periodos cuando t y s son distintos (t≠s), correlacion no


contemporánea, con elementos fuera de la diagonal de la matriz
de covarianzas para el individuo i-esimo (𝚺), la volatilidad del
modelo corresponderá únicamente a la varianza del componente
individual no observado (σ2α ).

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 127

Se construirá una matriz de covarianzas 𝚺 de tamaño TxT que


corresponden a los T periodos de observaciones para el
individuo i-esimo.

De forma matricial, suponga E[𝐮𝐢𝐭 𝐮𝐭𝐢𝐭 |x]=𝚺 para ser estimada por
FGLS de forma que para el i-esimo individuo:

̂=σ
𝚺 ̂2u 𝟏T 𝟏tT =
̂2ε 𝐈t + σ

Se espera para un individuo i-esimo exista una correlación


considerable en el tiempo, de modo que COR[yit,yis]>0 ∀ i≠s, sea
alta. Después de la inclusión de regresores la correlacion de los
terminos de error, COR[uit,uis], puede permanecer no cero y
muchas veces puede ser bastante significativa.

Por ejemplo, si un modelo pronóstica ganancias individuales en


un año, dada la correlación positiva existente entre periodos, la
varianza calculada puede ser mucho mayor de la esperada y
puede sobrepronosticar ganancias para el mismo individuo en
otros años.

En un modelo de efectos aleatorios (RE) el coeficiente de


correlación no depende del tiempo, es decir, COR[uit,uis] para
t≠s, se calcula como:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 128

Los coeficiente de correlación tienen muchas correcciones


posibles, dependiendo de la estructura de correlación y
heterocedasticidad para el individuo y entre individuos asumida
para los regresores y si son paneles cortos o largos.

Puesto que las observaciones del individuo i-esimo y j-esmo se


suponen independientes, es decir, no existe relación entre los N
individuos, la matriz de covarianzas, Ω, del modelo RE será
diagonal.

En estos modelos siempre es útil el análisis por bloques de T


observaciones para cada uno de los individuos (i).

Cada elemento de la diagonal esta constituida por bloques de


matrices de covarianzas, 𝚺, de tamaño TxT que corresponden a la
estructura de covarianzas para cada individuo.

La matriz de covarianzas del modelo RE para todos los


individuos, 𝚺, será de tamaño NTxNT. De forma matricial:

𝚺 𝟎 … 𝟎
Ω =[ 𝚺 … 𝟎]=I ⊗𝚺
⋮ ⋮ ⋱ 𝟎 n
𝟎 𝟎 … 𝚺

ESTIMADORES PARA EL MODELO DE EFECTOS ALEATORIOS


Cuando los grupos considerados son extracciones muestrales de
una población más grande, puede resultar apropiado considerar
que los efectos individuales no observados están aleatoriamente

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 129

distribuidos entre los grupos. En este caso se considera un


modelo de estimación de efectos aleatorios (RE).

El estimador de efectos aleatorios (RE) explota rasgos y


supuestos especiales de los datos panel. El estimador RE es
inconsistente si el modelo de efectos fijos (FE) es el adecuado.

Sea el modelo de efectos aleatorios (RE) especificado en la


siguiente forma funcional:

El cual puede ser reescrito como:

Donde además las pendientes (β) y los regresores (xit) existe un


intercepto no estocástico (μ) y un efecto individual no observado
(αi). Puede ser nuevamente reescrito como:

Donde wit=[1 xit] y δ=[μ β]t. Los efectos específicos individuales


αi se asumen como una realización de vaiid con una distribución
[α,𝜎𝛼2 ], de la misma manera, el termino de error εit es una vaiid
[0,𝜎𝜀2 ].

El intercepto escalar μ, a diferencia del modelo de efectos fijos,


se convierte en una variable no aleatoria y se adiciona al modelo
para posteriormente ser estimada.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 130

De este modo, se asume en el modelo αi y εit como vaiid con las


siguientes propiedades:

Sin embargo, bajo algunos supuestos, y trabajando sobre


promedios los efectos individuales no observados y los términos
de error pueden ser normalizados a tener media cero, es decir:
αi~N[0,σ2α ] εit~N[0,σ2ε ]
t
El modelo puede ser reexpresado como yit=μ+𝐱 it β+uit, donde el
termino de error compuesto, uit, tiene dos componentes
uit=αi+εit.

Por esta razón el modelo de efectos aleatorios (RE) es también


conocido como modelo de componentes del error (error
components model). Una terminología más explícita puede ser
conocido como modelo de intercepto aleatorio (random
intercept model).

Existen una multiplicidad de estimadores consistentes del


modelo de efectos aleatorios (RE) entre otros:
1. Estimador por GLS. Este reconoce el hecho que mínimos
cuadrados generalizados (GLS), es más eficiente (mínima
varianza) que estimaciones por OLS.
2. Estimación OLS para un estimador GLS. Supone efectuar
transformaciones adecuadas para realizar estimaciones OLS
con consistencia de los estimadores encontrados.
3. Estimador máximo verosímil. Asume que tanto el efecto no
observado (αi) como el término de error (εit) son

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 131

normalmente distribuidos y construye una función de


verosimilitud.

Los dos primeros estimadores son asintóticamente equivalentes


aunque en algunos casos pueden variar en muestras finitas
dependiendo de estimaciones específicas y características
utilizadas para el valor de las varianzas del efecto no observado
(σ2α ) y el termino estocástico (σ2ε ). El estimador MV es
consistente aunque ineficiente si σ2α y σ2ε son vaiid.

ESTIMADOR POR GLS


Puesto que la matriz de covarianzas para un individuo Ω es una
matriz semidefinida positiva puede ser factorizada a través de la
descomposición espectral de la siguiente forma:
Ω=Ct𝚲Ct

Donde C son los vectores propios de Ω y las raíces características


de la matriz Ω están organizadas en una matriz diagonal 𝚲. Sea
𝚲1/2 la matriz diagonal con el i-esimo elemento de la diagonal
igual a √λi y sea T=Ct𝚲1/2, entonces TtT=𝚺. Tambien sea la
matriz Pt=Ct𝚲-1/2 entonces PtP=𝚺-1. Suponga un modelo lineal
general:
Y=Xβ+ε
Premultiplicando por la matriz P definida anteriormente:
Y = Xβ+ε
PY = PXβ+Pε
Y* = X*β+ε*

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 132

Al derivar los estimadores, β, el estimador GLS tiene la siguiente


formula funcional:

Para calcular este estimador transformando se require encontrar


Ω-1/2=[I⨂Σ]-1/2. Ya que la matriz calculada es necesario encontrar
Ω-1/2.

El valor de Ω-1/2 corresponderá a la estimación de efectos


aleatorios (RE) por Mínimos Cuadrados Generalizados (GLS)
consistente en una regresión de desviaciones parciales entre la
variable dependiente, yit, y su media. Esta misma operación se
efectua para las variables exógenas, xit.

Para demostrar lo anterior, se construirá un estimador de


efectos aleatorios (RE) para el intercepto no estocástico (μ) y las
pendientes (β). Suponga el modelo:

Se puede demostrar, por medio de metodologías de estimación


por mínimos cuadrados generalizados (GLS), que al multiplicar
por un factor adecuado es equivalente a encontrar un estimador
GLS a través de regresiones de desviaciones parciales estimadas
por OLS sobre la ecuación transformada.

Para comprender un poco mejor esta idea suponga el estimador


de mínimos cuadrados generalizados (GLS) de la forma

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 133

̂GLS=(XtΩ-1X)-1XtΩ-1Y, utilizando la descomposición espectral


𝛃
sobre la matriz de covarianzas Ω se puede encontrar que:
̂GLS=(XtΩ-1/2Ω-1/2X)-1XtΩ-1/2Ω-1/2Y.
𝛃
Utilizando el hecho que Ω es simétrica, semidefinida positiva y
con algunas propiedades de las matrices transpuestas se llega a
̂GLS=([Ω-1/2X][ Ω-1/2X])-1[Ω-1/2X][YΩ-1/2].
que el estimador es 𝛃

El es timador por GLS en este caso se puede interpretar de forma


individual cuando se efectua la multiplicación para cada
elemento de Ω-1/2X, que de aqui en adelante se asociará con un
parámetro de corrección λ̂.

Para calcular Ω-1/2 se puede demostrar que Ω-1/2=IT-(λ/T) 𝟏T 𝟏tT .


Donde el parámetro estimado de corrección, λ, es:

La transformación de desviaciones parciales entre la variable


dependiente, yit, y su media sobre resulta ser:
yi1 − λy̅i
−1/2
𝚺i yi=[ ⋮ ]
yit − λy̅i

−1/2
De la misma forma, aplica la multiplicación de 𝚺i X para los
regresores Xi. Los datos en su conjunto transformados por GLS se
calcula regresando las desviaciones parciales de yit sobre la
transformación de xit.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 134

Un procedimiento de estimación parte del modelo inicial


yit=μ+xit+(αi+εit) para posteriormente restar el modelo
transformado calculado previamente el factor de corrección λ, es
decir, λ̂yit=λ̂μ+λ̂xit+(λ̂αi+λ̂εit). El resultado es:

El parámetro estimado de corrección, λ̂, es consistente y es


sinónimo de FGLS.

El valor de λ̂ está en función de estimaciones de la varianza de


los efectos individuales no observados (σ2α ) y los términos de
error (σ2ε ).

El término de error es una combinación del efecto no observado


(αi) y el termino estocástico (εit) de forma lineal, vit=(1-
λ̂)αi+(εit-λ̂ε̅).

Sin embargo, para el calculo del factor de corrección (λ̂) es


necesario estimaciones de la varianza del efecto individual no
observado (αi) y el componente del error (εit).

La metodología de cálculo parte de encontrar la varianza del


componente del error de la forma:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 135

̂2ε ) se
Pa ra el cálculo de la estimación de la varianza del error (σ
necesitan de los parámetros de la regresión between (𝛃 ̂W ), y de
los promedios entre individuos de los los regresores (𝐱̅i) y la
variable dependiente (y̅i).

Posteriomente, se determina el componente del error al


̂B)2 que puede
cuadrado de la regresión Between, û2B =(y̅i-μ̂B-x̅it 𝛃
ser reescrito como un término de error de la covarianza
û2B =σ2α +σ2ε /T.

Utilizando esta última ecuación se puede obtener la varianza del


componente individual no observado:

De este modo, se estima la varianza del componente individual


no observado (σ2α ) en función del termino de error estocástico
estimado (σ2ε ).

La varianza del estimador 𝛔 ̂2α en algunos casos puede ser


negativa lo cual en algunos programas estadísticos asume que la
varianza del componente individual no observado es cero
̂2α =0) de modo que λ̂=0 y la estimación se convierte en un
(𝛔
modelo pooled.

Estimadores más eficientes de los componentes de la varianza


del termino de error compuesto, σ2u , se integra por la varianza
del componente individual no observdo (σ2α ) y el componente

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 136

del error (σ2ε ) que son posibles bajo esta técnica que es una entre
varias. Por ejemplo Amemiya7 calcula otros estimadores pero no
necesariamente incrementa la eficiencia del estimador 𝛃 ̂RE.

Para resumir, es necesario encontrar un parámetro de


corrección λ̂, para efectuar una estimación consistente y eficiente
por FGLS. Para ello se estima, en primer lugar, la varianza del
término de error (σ ̂2ε ). Posteriormente, la varianza del
componente individual no observado (σ ̂2α ).
σ
̂ε
λ̂ = 1 −
̂2ε + Tσ
√σ ̂2α

En la medida que el parámetro estimado de corrección, λ̂ difiere


de cero, se presenta ineficiencia de OLS. El estimador OLS
comparado con GLS otorga demasiada ponderación a las
variaciones en unidades (within). OLS incluye todas las
variaciones en los regresores X, en vez de distribuir una parte a
la variación aleatoria entre grupos (Between) atribuible a una
variación entre individuos.

A partir del parámetro estimado de corrección, λ̂, se puede


derivar lo siguiente:
1. Si el parámetro de corrección es igual a cero, λ̂=0, en este
camos FGLS coincide con OLS, es decir, corresponde a una
regresión pooled por OLS. Este escenario ocurre cuando la
varianza del componente individual no observado (σα) es
igual a cero.

7 Amemiya, T. (1985), Advanced Econometrics, Cambridge, MA, Harvard University Press.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 137

2. Si el parámetro de corrección converge a uno, λ̂→1, existen


dos posibilidades para alcanzar este valor estimado de λ̂.

La primera, si la varianza del error es cero (σε=0) entonces


el total de las variaciones entre individuos serian causados
por los efectos individuales no observados (σα≠0) que son
constantes en el tiempo y serían equivalentes variables
dummy o identificadoras (similar al modelo FE). Es la única
fuente de variación en la regresión y si se estiman se recoge
este efecto completamente.

La segunda, ocurre cuando el número de periodos está


creciendo (T→∞). En la medida que el tiempo pase el efecto
no observado se vuelve observado (asintoticamente) se
convierte nievamente en una variable identificadora (no
necesariamente una dummy).

3. Si el parámetro de corrección es igual a uno, λ̂=1,


corresponde a un estimador within. Se puede interpretar
como el efecto si la varianza de los términos de error (σε)
fuese cero, es decir, el único efecto existente sería el
componente individual no observado (σμ). En este caso, los
modelos de efectos fijos (FE) y efectos aleatorios (RE) son
indistinguibles.

Suponga, de nuevo, el modelo de regresión RE de pendientes (β)


y regresores (xit) existe un intercepto no estocástico (μ) y un
efecto individual no observado (αi) que son agrupados como:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 138

Ya calculado el factor de corrección, λ̂, el cálculo de los


parámetros del modelo de efectos aleatorios (δ̂RE) para las
pendientes (β̂RE) y el intercepto (μ̂RE) es el siguiente:

Donde wit=[1 xit] y 𝐰̅=[1 x̅i]. Las pruebas de consistencia del


estimador requieren que toda la muestra crezca NT→∞, es decir,
tanto el número de individuos (N→∞) o el tiempo (T→∞)
crezcan infinitamente.

Tambien, con las estimaciones de los términos de error (εit) y los


efectos individuales no observados (αi) que se presentaron
anteriormente sobre la regresión OLS del modelo corregido se
tiene que:

Se puede calcular la matriz de covarianzas estimada de la


siguiente forma:

Que corresponde a la varianza por OLS (σ2XtX) incluyendo el


componente del factor de corrección, λ̂, en un modelo
transformado.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 139

Para paneles cortos, ya que existen pocos periodos pero muchos


individuos, se debe tener en cuenta que el supuesto de los
términos de error en principio se asumen independientes sobre
los individuos.

Esta esta propiedad se pierde de modo que Cov[uit,ujs]=0 con i≠j


necesita un estimador robusto de la varianza que minimice los
efectos de autocorrelación y heterocedasticidad y permitan un
comportamiento general para calcular el error compuesto
(αi+εit) el cual puede ser determinado de la forma tipo White:

Lo cual arroja una forma modificada de la varianza de los


estimadores incluyendo el tiempo:

Donde 𝐰 ̅ y 𝛆̃it=𝛆̂it-λ̂𝛆̅̂ donde 𝛆̂it son los residuos


̃ it=wit-λ̂𝐰
calculados del modelo RE. Esta estimación permite
autocorrelaciones para εit, así como heterocedasticidad de forma
arbitraria.

ESTIMACIÓN OLS PARA UN ESTIMADOR GLS


Para verificar como el estimador FGLS en el modelo de efectos
aleatorios (RE) se puede simplificar para convertirse en un
estimador OLS, y de esta forma, sea más fácilmente calculado

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 140

computacionalmente se parte del modelo agrupado, como se


mostró anteriormente:

En primer lugar, se agrupan observaciones de todos los T


periodos para el individuo i-esimo. Posteriormente, se efectúa al
igual que para el modelo de efectos fijos la agregación por
individiuos (se pasa de yit a yi, por ejemplo). Entonces:

Donde yi, 1T, εi y Xi fueron definidas anteriormente y 𝐖it =[1 𝐗 ti ].

Para efectuar el proceso de estimación por GLS, como se observó


anteriormente, es necesario obtener la matriz de covarianzas
individuales, Ω, a partir del vector de términos de error (1αi+εi).

Dada la independencia de los efectos individuales no observados


(αi) y el componente estocástico (εit) se puede calcular el
siguiente valor esperado:
E[(1αi+εi)(1αi+εi)t]=E[εiεit]+E[α2i ]𝟏𝐓 𝟏𝐭𝐓 .

Puesto que el termino de error,εit , es una vaiid distribuida [0, σ2ε ]


y αi es una vaiid distribuida [0, σ2α ] se puede obtener la matriz de
covarianzas, Ω, del modelo de la forma:
Σ=σ2ε IT+σ2α 𝟏𝐓 𝟏𝐭𝐓 =

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 141

Donde la matriz Q=IT-(1/T) 𝟏𝐓 𝟏𝐭𝐓 fue introducida anteriormente


y ψ2=σ2ε /[σ2ε +Tσ2α ] o el factor de correción elevado al cuadrado.

Utilizando el hecho que QQt=Q puede ser demostrado que la


inversa de la matriz de efectos individuales corresponde a:
𝚺-1=(1/σ2ε )[Q+ψ2(IT-Q)]
Efectuando la descomposición espectral sobre Ω-1/2 se puede
llegar a que:

El estimador GLS se obtiene premultiplicando la ecuación:

Aplicando este procedimiento y efectuando el reemplazo


correspondiente se tiene que:

Donde el factor de correción equivale a λ=(1-ψ). Ejecutando


algebra para Wi,1αi y εi se puede encontrar el siguiente modelo:

El modelo anterior tiene una varianza de σ2ε IT. Lo anterior


demuestra como el estimador GLS es un estimador OLS con una
versión agrupada del modelo:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 142

Con el escalar λ que es estimador consistente y comunica las


estimaciones OLS y GLS.

En conclusión, las dos metodologías anteriores son muy similares,


tanto para la estimación por FGLS como para OLS. Necesitan de un
factor de corrección que para el primero corrige la matriz de
covarianzas. Para el segundo, deriva la misma matriz con los
supuestos de minimos cuadrados ordinarios.

ESTIMADOR MÁXIMO VEROSÍMIL


En la derivación de las dos metodologías anteriores, los errores
no se asumen normales. Si ellos son normales puede
maximizarse una función de verosimilitud con respecto a las
pendientes (β), intercepto (μ) y varianzas del componente
aleatorio (σ2ε ) y del componente individual no observado (σ2α ).

Dadas las varianzas del componente aleatorio (σ2ε ) y del efecto


individual no observado (σ2α ) el estimador de máxima
verosimilitud (MLE) para las pendientes (β) y el intercepto (μ)
es el mismo estimador GLS.

Pero si no se toma este supuesto y se procede a efectuar el


proceso de optimización del estimador de máxima verosimilitud
(MLE) el cual arroja nuevos estimadores del componente
̃2 ) y del componente no observado (σ̃2 ) que difieren
aleatorio (σ ε α
de los estimadores observados anteriormente, como son:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 143

El estimador de máxima verosimilitud (MLE) para las


pendientes (β) y el intercepto (μ) están dadas por el modelo:

Con parámetro estimado de corrección, λ reemplazado por un


estimador alternativo, λ̃ , que también tiene características de
ser consistente y definido como λ̃ =1-σ
̃ε /(Tσ
̃α + σ̃ε )1/2 .

Asintóticamente, los estimador MLE y GLS de efectos aleatorios


son equivalentes, pero pueden diferir en muestra finita.

Para el MLE, dadas las características del modelo, pueden existir


dos máximos locales mejor que uno con 0<ψ2≤1, así que cuando
se analicen los resultados por esta metodología es necesario
asegurarse de la existencia de un máximo global.

ESTIMADORES PARA EL MODELO DE EFECTOS FIJOS


El modelo de efectos fijos (FE) se puede especificar a través del
modelo B de la siguiente manera:

Donde los efectos específicos individuales α1,α2,…,αn miden la


heterogeneidad no observada que esta posiblemente
correlacionada con los regresores, X.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 144

Es decir, admiten algún tipo de endogeneidad (E[Xε]≠0). Los


estimadores de las pendientes, 𝛃, son vectores de tamaño Kx1 y
los términos de error, εit, distribuidos como vaiid [0,σ2].

Algunas características importantes del modelo de efectos fijos


(FE):
1. El modelo de efectos fijos (FE) tiene sentido cuando se esta
interesado en el impacto de variables que varíen en el
tiempo y entre individuos (Zit).
2. El modelo de efectos fijos (FE) explora las relaciones entre
el regresor y las características de un individuo (agente,
empresa, etc.) aprovechando la endogeneidad implícita
dentro del modelo E[Xαi]≠0, o mejor, los E[XU]≠0.
3. Al observar una correlación entre los efectos individuales
no observados (αi) y regresores (X) se asume
implícitamente que cada entidad tiene caracteristicas que
pueden tener influencia en la variable dependiente (por
ejemplo, si es hombre o mujer, como efecto no observado,
implica una distinta remuneración salarial).
4. Cuando se utilizan el modelo de efectos fijos (FE) se asume
que algunos efectos en el tiempo (WITHIN) en cada uno de
los individuos pueden impactar o sesgar el predictor o
variable dependiente y es necesario controlarla. Este es la
racionalidad del supuesto de correlación entre los efectos
individuales no observados y los regresores.

El reto en el proceso de estimación en la presencia de N efectos


individuales específicos (αi) incrementa el número de individuos
infinitamente (N→∞), es decir, el problema de parámetros
incidentales.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 145

Para propósitos prácticos usualmente el principal interés,


reconociendo la significancia de los efectos individuales
específicos (αi), se encuentra en las K pendientes, 𝛃, las cuales
representan el impacto marginal de un regresor (xit) con
respecto a la variable respuesta, ∂E[yit]/∂xit, mientras los demás
permanecen constantes.

En este caso, con un panel corto, los N parámetros de efectos


individuales no observados, α1,α2,…,αn, generan el problema de
parámetros incidentales. Su presencia, por tal motivo, impide la
estimación de los parámetros, 𝛃, que sí son de interés.

Es de observar que existen, para modelos lineales, distintos


caminos a ser estimados los parámetros de las pendientes y
encontrar los efectos marginales por efectos fijos (FE) a pesar
del problema de parámetros incidentales. Estos incluyen:
1. Estimador within o de efectos fijos. Estimaciones OLS a
través de un modelo within.

2. Estimador within o de efectos fijos con GLS. Estimar por GLS


en el siguiente modelo within:

3. Estimador de Primeras Diferencias. Estimar por OLS el


modelo de primeras diferencias:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 146

4. Estimador condicional de maxima verosimilitud. Estimar por


el método de máxima verosimilitud condicionada sobre las
medias de los individuos y̅it con i=1,2,….,n.
5. Estimador LSDV. Estimación directa por OLS a través de
variables dummy para cada uno de los N efectos fijos o
estimación LSDV:

Las dos primeras metodologías de estimación within siempre


conducen al mismo estimador de los parámetros β.

El estimador de primeras diferencias, o tercer metodología de


estimación, difiere de los otros para T>2, estas diferencias
generalmente no son tenidas en cuenta en modelos no lineales.

Para la cuarta metodologías de estimación, dada la condición de


máxima verosimilitud, es necesario adicionar al supuesto sobre
normalidad de los términos de error, es decir, εit~N[0,σ2].

El modelo LSDV, o quinta metodologías de estimación, se puede


demostrar que tiene los mismos resultados que un estimador
within.

ESTIMADOR WITHIN O DE EFECTOS FIJOS


Específicamente, suponga un modelo de media individual, o
modelo B, de la forma:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 147

Tomando promedios aritméticos sobre el tiempo resulta en el


siguiente modelo:

Sustrayendo de yit el promedio en el tiempo y̅i resulta en el


modelo within:

En un panel corto, por ejemplo, este estimador mide la


desviación del individuo i-esimo respecto a los regresores, xit,
sobre sus valores promedio en el tiempo, 𝐱̅i, es decir, (xit-𝐱̅i). Este
proceso también se efectúa para la variable dependiente yit y el
termino de error, εit.

Con esta metodología el término de efectos individuales no


observados (αi) se cancela.

Este estimador within es calculado por OLS. Un rasgo especial


resulta en estimadores consistes de β en el modelo de efectos
fijos (FE), mientras para el modelo OLS agrupado (pooled) o el
estimador entre grupos (BE) no son consistentes.

Es un estimador consistente y eficiente de β, si el intercepto que


representa el efecto individual no observado, 𝛂i , se calcula como
efectos fijos (FE) y el término de error estocástico del error
compuesto 𝛆it son vaiid.

Utilizando un estimador OLS resulta en el estimador within


̂w de la forma:
(WE) o estimador de efectos fijos 𝛃

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 148

Los efectos individuales, 𝛂i, pueden ser estimados como un


residuo de la regresión de la forma:

La estimación de los efectos individuales no observados (α


̂i ) es
insesgada y consistente cuando T→∞ puesto que α ̂i promedia T
observaciones como mejor estimador muestral.

En paneles cortos la estimación de los efectos individuales no


observados (α ̂i ) es inconsistente, sin embargo, es consistente
̂w .
para las estimaciones de las pendientes, 𝛃

En la mayoría de investigaciones se juzga a los parámetros


individuales no observados estimados (α̂i ), como parámetros
auxiliares o problemáticos8 (ancillary parameters o nuisance
parameters) ya que en algunos casos no son necesarios en
estudios, y por lo tanto, no necesitan ser consistentemente
estimados.

Además, esta eliminación no afecta el proceso de estimaciones


consistentes de las pendientes, 𝛃̂w , que determinan los efectos
marginales de las variables de interés.

8Sin embargo, estos parametros muchas veces resultan utiles en informacion industrial, laboral, ambiental,entre otros por ejemplo véase
McClellan, M. and Staiger, D. Comparing Hospital Quality at For-Profit and Not-for-Profit Hospitals in The Changing Hospital Industry: Comparing
Not-for-Profit and For-Profit Institutions, (eds.). Cutler, David M. pp.93-112, The University of Chicago Press, 2000. Tambien, Murdock, J. 2006.
Handling unobserved site characteristics in random utility models of recreation demand. Journal of Environmental Economics and
Management,51, 1-25.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 149

̂𝐰 debe demostrar
Para la consistencia del estimador within de 𝛃
la condición de exógeneidad fuerte:

Esto debe ocurrir si N→∞ o T→∞ y adicionalmente que:

Debido a la presencia de promedios, como mejor estimador


máximo verosímil (MV), sobre los regresores 𝐱̅ 𝐢 = 1/T ∑Tt=1 xit
y en el término de error 𝛆̅𝐢 hace que no exista correlación entre
los términos de error y regresores de manera contemporánea,
E[εit|xit]=0.

Una condición suficiente, adicional a la anterior, para el


cumplimiento de la exógeneidad fuerte radica en incluir no solo
los términos de error contemporáneos y regresores actuales
sino también los rezagados, es decir, E[εit|xi1,xi2,….,x1T,]=0. Esto
excluye en el estimador within variables rezagas endógenas como
regresores.

Por otra parte, la estimacion de la varianza debe contemplar


como los términos del error compuesto están correlacionados en
el tiempo (t) para un individuo dado (i).

Se puede demostrar que los métodos OLS usuales son aplicables


cuando existe homocedasticidad. Por ejemplo, bajo el supuesto
del término estocástico, εit, distribuido como una vaiid se tiene
que:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 150

Donde ẍ it = xit-x̅i . Un estimador consistente e insesgado de la


varianza del término de error, σ2ε , y calculada como
̂2ε =[N(T-1)-K]-1∑N
σ T
i=1 ∑t=1 ε
̂it . Donde los grados de libertad son
iguales al tamaño de muestra (NT) menos el número de
parámetros en el modelo (K) y el número de efectos individuales
(N).

Es de observar que si la regresión within de la forma:

Es estimada utilizando OLS a través de un paquete estadístico


normal o comandos no panel es necesario incrementar el valor
de las varianzas reportadas en un valor [N(T-1)-K]-1[NT-K] para
ajustar la varianza a la autocorrelación de los errores.

La matriz de covarianza asintótica de un panel robusto


(estimado con errores robustos tipo White), es decir, controla
correlación y heterocedasticidad, está dado por:

Para paneles cortos con efectos fijos (FE) resulta en una varianza
donde se incluye efectos en el tiempo para periodos
contemporáneos (t=s) y no contemporáneos (t≠s) de la forma:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 151

Donde el término de error estocástico es ε̈ it = εit-ε̅i .

La derivación matricial es útil en términos de cálculo dado el


tamaño de las matrices.

Se comenzará con un modelo para los i-esimos individuos de la


forma:

Donde xit y β son vectores kx1. Los i-esimos individuos,


agrupando todas las T observaciones tienen la siguiente
estructura matricial:

También pueden ser escritos de la forma:


yi=αi1+Xiβ+εi

Donde 1t=[1,1,….,1] es un vector de tamaño Tx1 de unos. Xi es


una matriz TxK de T observaciones y K regresores, los vectores
de la variable respuesta, yi, y los términos de error, εi, son de
tamaño Tx1.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 152

Es posible transformar el modelo para sustraer la media


individual a través de las matrices P y Q de tamaño TxT. Es decir,
P=(T-1)𝟏𝐓 𝟏𝐭𝐓 de manera que Q=IT - P

Premultiplicando la matriz Q crea desviaciones respecto a la


media. También tiene propiedades de ser ortogonal e
idempotente. Ahora premultiplicando el modelo de efectos fijos
por Q se obtiene:

Utilizando el hecho que Q1=0 se elimina el componente de los


interceptos (αi1). Este modelo, es equivalente a:
yi-1y̅it =(Xi-1x̅it )β+(εi-1ε̅i ).
A partir de esta premultiplicación por la matriz Q resulta en el
modelo within.

Una estimación por OLS del modelo de efectos fijos (FE) ajustado
̂w con una matriz de
por la matriz Q resulta en el estimador 𝛃
covarianzas, asumiendo independencia de los individuos, igual a:

Si se asume el supuesto que los términos de error, εit, son vaiid,


eliminando la posibilidad de heterocedasticidad y

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 153

autocorrelación, se puede escribir que [0,σ2ε ], de modo que su


resultado asume exógeneidad fuerte, es decir, [0,σ2ε I].

El vector Qε es entonces independiente sobre los individuos (i) y


el tiempo (t) con media cero y las siguientes propiedades sobre
la varianza:

Entonces:

De modo que el cálculo con la varianza asumiendo exógeneidad


fuerte resulta en:

Utilizando el hecho que:

Estimadores alternativos, más allá de la exógeneidad fuerte,


pueden ser utilizados con una visión más general. En particular,
el supuesto de no correlación serial sobre los términos de error,
εit, utilizado anteriormente, puede ser relajado.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 154

Si el termino de error, εi, es vaiid [0,Ω] se utiliza una forma más


general para la matriz de covarianzas con la corrección por la
matriz Q, o de desviaciones respecto a la media, asumiendo que
no existe correlaciones entre individuos, es decir, [Qεi, Qεj] para
i≠j.

La varianza V[Qεj] se reemplaza por los (Qε̂i )(Qε̂i )t donde


̂w . Esto resulta en la estimación dada por:
𝛆̂i =yi-Xi𝛃

El WE tiene varias interpretaciones y características a ser


trabajadas, entre ellas:
1. Este procedimiento se focaliza en la literatura que trata los
efectos individuales no observados como parámetros
incomodos que pueden ser ignorados dado que el principal
interés se encuentra en las pendientes (β) y sus efectos
marginales.
2. El estimador Within utiliza una estructura de covarianzas
que toman desviaciones respecto a los promedios de media
individual, lo que es equivalente a tomar residuos de la
regresión de yit y xit sobre dummies individuales y trabajar
con los residuos.
3. La principal limitación del estimador WE radica en los
coeficientes de los regresores invariantes en el tiempo
(xit=xi) que no pueden ser identificados, entonces son
omitidos, es decir, (xit-𝐱̅i)=0. Varios estudio, por ejemplo,
buscan estimar el efecto de regresores invariantes en el

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 155

tiempo, xi. Regresiones sobre paneles de salarios se puede


estar interesados en efectos de género o raza, por esta razón
se prefiere no utilizar el estimador WE.
4. Estimaciones agrupadas (pooled) o efectos aleatorios (RE)
tienen, en algunos casos, mejores resultados estadisticos,
pero estos estimadores son inconsistentes si el modelo de
efectos fijos (FE) es el adecuado.

ESTIMADOR WITHIN O DE EFECTOS FIJOS POR GLS


Suponga el modelo within transformado respecto a su
desviación a la media (premultiplicado por la matriz Q), de la
forma:

Puede ser estimado por FGLS. Si los términos de error, εit, son
vaiid [0,σ2ε ] no existen muchas ganancias estadísticas utilizando
GLS, lo recomendable es trabajar por OLS.

Pueden existir ganancias si otros modelos son asumidos para la


distribución de los términos de error, εit. Existen situaciones
donde puede limitarse OLS para su utilización, como datos
multinivel.

Por ejemplo, en investigación en educación se podría requerir


medir el rendimiento de colegios que utilizan un método de
aprendizaje contra colegios que usan uno diferente.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 156

Sería un error analizar estos datos pensando que los estudiantes


son muestras aleatorias simples de la población de estudiantes
que aprenden bajo un método particular y que no están
correlacionadas a través del tiempo. Los alumnos son agrupados
en clases (cursos), los cuales a su vez son agrupados en colegios.

El desempeño de los estudiantes dentro de una clase está


correlacionado, como el desempeño de los estudiantes dentro de
la misma escuela y el tiempo con el programa implementado.

Para observar el ejemplo anterior a través de un modelo panel


de efectos fijos (FE) utilizando OLS no es posible, es necesaria
una nueva estructura de correlaciones, y por tanto, una matriz
de covarianzas, entre periodos e individuos como metodología
para incorporar correlaciones temporales y datos anidados, es
decir, implementar GLS o FGLS.

La aproximación es esencialmente la misma para GLS pooled sin


efectos fijos (FE) donde se pone de manifiesto su relación con el
estimador RE.

Observese que Qεi es independiente de Qεj con i≠j y


V[Q𝜎𝜀2 ]= 𝜎𝜀2 Q, así que el estimador de efectos fijos con GLS, visto
como una generalización del OLS, se puede escribir en forma:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 157

Para efectuar este procedimiento, en los FE los efectos


individuales no observados fueron eliminados. Esto último
conduce a que el término de error Qεi sea de rango menor al
completo.

Si no se cuenta con rango completo y se necesita calcularla la


metodología de trabajo se orienta a la utilización de la inversa
generalizada o inversa de Penrose9, Q-, que es utilizada como Q
ya que no es de rango completo10.

ESTIMADOR EN PRIMERAS DIFERENCIAS


El estimador en primeras diferencias (FDE), al igual que el
estimador within explota rasgos especiales de los datos panel.
En un panel corto mide la asociación entre cambios dentro de los
individuos durante un periodo en los regresores, xit, y la variable
dependiente, yit.

Especificamente, suponga el modelo:

Rezangando un periodo se tiene que:

Sustrayendo una de la otra, se tiene el modelo de primeras


diferencias:

9 Sea A una matriz cuadrada o rectangular, se dice que una matriz G es una g-inversa (o inversa generalizada) de A cuando AGA=A . Naturalmente
que G ha de ser de tipo n×m en el caso de ser A del tipo m×n . Si A es cuadrada e invertible, entonces es fácil comprobar que la inversa A−1 es (la
única) g-inversa de A , de manera que el concepto de g-inversa es una generalización del concepto de inversa
10 Sin embargo, QtQ-Q=QtQ puesto que QtQ-Q=Q, para una inversa generalizada, y Q=QQt dado que Q es idempotente. Reemplazando QtQ-Q=Q por

QtQ en la fórmula anterior de estimación 𝛃̂w,GLS .

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 158

El intercepto del modelo, αi, se cancela, al igual que en el modelo


within.

El estimador en primeras diferencias (FDE) utiliza en su proceso


de estimación una metodología OLS. Al igual que el estimador
within (WE), es consistente en un modelo de efectos fijos (FE),
aunque los coeficientes invariantes en el tiempo de los
regresores, xi, no son identificados.

El estimador FDE es menos eficiente que un estimador WE para


T>2 si los términos de error, εit son considerados como una
vaiid.

Una estimación OLS efectuá el estimador de primeras diferencias


de la forma:

Obsérvese que existen N(T-1) observaciones en esta regresión


ya que se perdió una en el proceso de diferenciación11.

La consistencia del estimador de primeras diferencias requiere,


nuevamente el supuesto de exógeneidad fuerte o estricta visto
como E[εit-εi,t-1|xit-xi,t-1].

Esta condición es fuerte e implica que los términos de error y de


los regresores de forma contemporánea son iguales a cero, es
decir, E[εit|xit]=0, pero es una condición más débil que la
11. Un error común en esta implementación radica en agrupar las NT observaciones, posteriormente substraer el primer rezago. Entonces la
observación (1,1) es borrada mientras todas las T primeras observaciones (i,1), i=1,2,…,N deben ser borradas después de diferenciar. Deben ser
borradas todas las primeras observaciones de la muestra.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 159

condición de exogeneidad fuerte impuesta para la consistencia


del estimador within ya que para este último impone
exógeneidad fuerte para efectos contemporáneos y no
contemporáneos, es decir E[εit|xi1,xi2,….,x1T,]=0.

La inferencia asintótica del estimador de primeras diferencias


requiere ajustar los errores estándar calculados por OLS para
tener en cuenta las correlaciones en el tiempo de los términos de
error ∆ε̂i = (εit-εi,t-1).

Como primer paso de inferencia asintótica es necesario obtener


̂FD . Para lo anterior, se
la varianza asintótica del estimador 𝛃
agrupan las observaciones de los individuos de la siguiente
manera:

Donde para cada individuo i-esimo el modelo tiene ∆yi como un


vector (T-1)x1 de variables dependientes y variables
explicativas (∆𝐗 ̂ ti ) como una matriz (T-1)xK y calculados los
regresores como la diferencia entre los periodos
(xi2-xi1)t……(xiT-xiT-1)t.

Tiene una matriz de covarianzas, asumiendo independencia


entre los individuos como:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 160

El supuesto básico radica en asumir que los términos de error


estocastico, εit, son vaiid [0,σ2ε ] o asume exógeneidad fuerte. Con
lo anterior, se calcula la diferencia rezagada del término de
error, es decir ∆ε̂i =(εit-εi,t-1) y se identifica como un proceso de
media móvil con un rezago, MA(1), con varianza 2σ2ε y un
periodo separado por autocovarianzas σ2ε para los individuos.

De lo anterior se concluye que V[∆σ2ε ] es igual a σ2ε multiplicado


por una matriz (T-1)x(T-1) con un valor de dos en la diagonal y
uno fuera de la diagonal.

Un supuesto más realista radica en asumir los términos de error,


εit, están correlacionados en el tiempo para un individuo i-esimo,
de modo que COV[εit,εit]≠0 para t≠s, pero independiente entre
individuos.

Para calcular esta premisa en necesario hallar un estimador que


sea más robusto y permita formas más generales de
autocorrelación y heterocedasticidad como:

En esta forma general se reemplaza la varianza estimada, V[∆σ2ε ],


por (∆ε̂i )t(∆ε̂i ).

Es importante resaltar que no se puede utilizar OLS para estimar


los términos de error estándar del modelo de primeras
diferencias ya que estos sólo son correctos en el improbable caso

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 161

que los términos de error, εit, sean un paseo aleatorio de modo


que (εit-εit-1) son vaiid.

Para el caso de dos periodos (T=2) las primeras diferencias y el


estimador within son iguales. Para demostrarlo suponga el caso
de un modelo de primeras diferencias de la forma:

Analizando únicamente la variable dependiente con dos


periodos (T=2) se tiene que la diferencia (yi1-yi2) es el valor en
primeras diferencias de la variable.

Ahora suponga un modelo within de la forma:

Al igual que el modelo anterior con dos periodos (T=2) se tiene


que:
(y +y ) (y −y ) (y −y )
y̅i= i1 2 i2 así que (yi1-y̅i)= i1 2 i2 y (yi2-y̅i)=− i1 2 i2

Pero (yi1-yi2)=(yi1-y̅i)-(yi2-y̅i) lo cual coincide con el estimador de


primeras diferencias. De forma similar aplica para los regresores
x.

Para valores superiores a dos periodos (T>2) los dos


estimadores difieren. Bajo el supuesto que εit son vaiid se puede
demostrar que el estimador GLS de primeras diferencias es igual
al estimador within.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 162

̂FD calcula los parámetros del modelo por OLS. Sin


El estimador 𝛃
embargo, es menos eficiente que 𝛃̂W . Por esta razón el estimador
en primeras diferencias no es mencionado o trabajado en
modelos lineales. Es utilizado extensivamente cuando variables
rezagadas son incluidas en modelos panel, por ejemplo, paneles
dinámicos o no lineales.

En estos casos el estimador within (𝛃 ̂W ) se convierte en


inconsistente, aunque el estimador de primeras diferencias es
inconsistente permite a través de supuestos de exógeneidad
débil realizar estimación por variables instrumentales (IV).

ESTIMADOR CONDICIONAL DE MAXIMA VEROSIMILITUD


La estimación de máxima verosimilitud condicionada maximiza
la función de verosimilitud conjunta de y11,….,yNT condicionada
sobre los promedios individuales y̅1, y̅2,….., y̅NT. Este método tiene
el atractivo que para modelos paneles lineales, y bajo
normalidad, los efectos fijos, αi, son eliminados de modo que el
proceso de maximización es únicamente con respecto a los
parámetros de las pendientes, β.

Suponga que yit está condicionada sobre los regresores xit y los
parámetros αi, β y 𝛔2 son vaiid con distribución normal
t
N[αi+𝐱 it β,𝛔2]. Entonces la función de verosimilitud condicionada
es:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 163

La primera igualdad define la verosimilitud condicionada


asumiendo independencia sobre los individuos (i). La segunda
igualdad demuestra que es una distribución de probabilidad
condicionada sobre los promedios de la variable dependiente, y̅.
La tercera desigualdad plantea la función de verosimilitud bajo
normalidad a ser maximizada.

El resultado clave radica en que para efectos fijos el parámetro


de intercepto, α, no aparece en la ecuación final de modo que
LCOND(β ,𝛔2, αi) es de hecho, LCOND(β,𝛔2) y puede ser maximizada
el logaritmo de la función de verosimilitud condicional con
respecto a β,𝛔2 únicamente.

El resultado del estimador de máxima verosimilitud


condicionada 𝛃 ̂CML resuelve las condiciones de primer orden
(CPO) de la forma:

O de forma equivalente:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 164

Sin embargo, estas son las mismas condiciones para una


regresión OLS de (yit-y̅i) sobre (xit-x̅i). El estimador condicional
por máxima verosimilitud condicional 𝛃 ̂CML , por lo tanto, es un
equivalente de un estimador within, 𝛃 ̂w .

Intuitivamente, este método arroja estimadores consistentes


porque la función condicionada sobre el promedio de la variable
dependiente a través del tiempo elimina los efectos individuales
no observados (αi).

Más formalmente, y̅i es un estadístico suficiente para αi y


condicionado sobre un estadístico suficiente que permite
estimaciones consistentes de β.

ESTIMADOR DE MÍNIMOS CUADRADOS DE VARIABLES FICTICIAS


(LSDV)
Una variación de los modelos B o C permiten estructurar
variaciones a través de los individuos y en el tiempo por medio
del intercepto mientras las pendientes permanecen constantes.
Entonces, suponiendo dummies para cada individuo
t
representada yit=αi+γtds,it+𝐱 it +uit o el modelo a estimar de otra
manera es:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 165

Donde las N dummies individuales dj,it son iguales a uno si el


individuo (i) es igual al intercepto (j), o mejor (i=j), e igual a
cero si son diferentes, (i≠j).

En otro escenario, las (T-1) dummies temporales ds,it son iguales


a uno si el periodo (t) es igual al rezago (s), o mejor (t=s), e igual
t
a cero si son diferentes, (t≠s). Se asume que 𝐱 it no incluyen
intercepto.

Este modelo tiene N+(T-1)+dim[x] parámetros que pueden ser


estimados consistentemente si N→∞ y T→∞

Si se utilizan en paneles cortos (N→∞ y T ̅) el análisis se puede


dividir en dos partes. La primera, los parámetros de efectos no
observados para los individuos (αi) implica un desafío dentro de
este proceso de estimación, ya que es necesario calcular los β
para N interceptos individuales (αi), debido a que al ser un panel
corto se busca identificar diferencias para una gran cantidad de
individuos (N→∞).

En algunos casos resolver este problema implica tener dummies


individuales para grupos de observaciones, por ejemplo, región,
ciudad, etc.

La segunda, si se desea efectuar un análisis two way, los


parámetros de rezago (δt) pueden ser consistente estimados de
modo que las (T-1) dummies son incorporadas dentro de los
t
regresores 𝐱 it .

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 166

Considere el modelo original de efectos fijos de la forma:

Antes de cualquier diferenciación. Un análisis por OLS puede ser


aplicado directamente al modelo, simultáneamente estimando α
y β. En principio no es necesaria una metodología especial.

Simplemente se estima yit sobre xit y un conjunto de N variables


indicadoras d1,it,….,dN,it donde dj,it es igual a uno si i=j e igual a
cero en otra parte.

Sin embargo, como N crece existen demasiados regresores para


permitir la inversión de la matriz X de tamaño (N+K)(N+K),esta
es otra característica del problema de parámetros incidentales.

Con algún tratamiento matricial el problema se reduce a la


inversa de una matriz KxK.

El estimador resultante de β por LSDV es igual al estimador


within. Este es un caso que aplica el teorema Frish Waugh12 para
un subconjuto de una regresión y derivar los parametros.

12 Supongamos que se particiona una matriz X, cuyo rango es k, en dos matrices X1 y X2, cuyos rangos son respectivamente r y k−r, de manera que:

Para obtener la fórmula del estimador OLS resulta útil dividir las ecuaciones normales XtXβ̂= Xty

Este sistema puede resolverse en dos etapas. Primero obteniendo una expresión para β̂2 de la forma Sustituyendo en la
primera ecuación permite obtener Agrupando términos se puede obtener que
Cuya solución es Que resulta ser es el estimador:
La matriz M2 es idempotente y simétrica por lo que: Y Es una matriz de
residuos de la regresión de X1 en las variables X2. De igual manera Por lo tanto, β̂1 es el conjunto de coeficientes que se
obtienen cuando los residuos de una regresión de y en las variables de X 2 se regresan a su vez en el conjunto de residuos obtenidos cuando cada
variable de X1 se regresa en las variables de X2.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 167

Si las variables dummy están particionadas en la regresión y si


los residuos de esta regresión son utilizados en un segundo
estado de la regresión, entonces es posible estimar la regresión
completa. Pero los residuos generados son desviaciones de sus
respectivas medias, es decir, una regresión within.

Para observarlo algeraicamente, agrupe un vector TxQ sobre los


N individuos para resultar en el modelo de efectos fijos por
variables dummy de la forma:

También pueden ser escritos de la forma:

Donde y es un vector de tamaño NTx1, el producto Kroneker


(IN⊗1T) es una matriz NTxN de bloques diagonales y X es una
matriz de tamaño NTxK de regresores.

La estimación OLS de este modelo resulta en el estimador de


mínimos cuadrados de variables ficticias (LSDV). Desde un
punto de vista algebraico de la forma:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 168

Donde la matriz de medias muestrales X ̅=[x̅1……, x̅N]t, x̅i=


̅=[y̅1,……, y̅N]t y̅i= (1/T) ∑Tt=1 yi . Utilizando la
(1/T) ∑Tt=1 xi , Y
fórmula de inversas particionadas y ejecutando el algebra
conduce a que:

Reexpresando la forma anterior en términos de sumatoria


implica que el estimador por variables dummy es igual al
estimador within, es decir, 𝛃 ̂LSDV = 𝛃
̂W . En ambos modelos
converge al siguiente estimador:

Este mismo análisis puede ejecutarse para las estimaciones de


efectos observados entre los estimadores de mínimos cuadrados
por variables dummy (LSDV) y el estimador within, es decir,
̂ LSDV = 𝛂
𝛂 ̂ W . En ambos modelos converge al siguiente estimador:

Para paneles cortos un problema radica, al igual que para el


estimador within, en como las estimaciones consistentes de β y α
no garantizan que existan N+K parámetros a estimar en la

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 169

medida que N→∞, es decir, el problema de parámetros


incidentales.

Es de observar que las estimaciones consistentes de β es posible


aunque α sea inconsistentemente estimados, a menos que T→∞.

Este estimador es eficientemente en su segundo momento si εit


son vaiid [0,σ2]. Resulta en el estimador within de β es más
eficiente que estimadores alternativos que eliminan αi, tales que
substraen la primera observación o periodo previsto de
observaciones.

Si adicionalmente los errores son normalmente distribuidos, el


estimador LSDV es igual al estimador por maxima verosimilitud
por la equivalencia usual de OLS y MLE en modelos lineales con
errores normales.

MODELOS DE EFECTOS FIJOS Y ALEATORIOS


Sea el modelo one way, de un factor o de media individual
(individual specific effects model) para una variable dependiente
escalar, yit, la cual permite a cada unidad de corte transversal
tener interceptos diferentes (αi), aunque todas las pendientes
(β) sean las mismas el cual se representa como:

Donde xit son los regresores, αi es el intercepto individual (i), εit


es el termino de error estocástico definidos como vaiid sobre
individuos (i) y tiempo (t).

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 170

Una atracción de los datos panel radica en la posibilidad de


ejecutar estimaciones consistentes de los parámetros al permitir
heterogeneidad individual no observada que puede estar
correlacionada con los regresores conocida como modelo de
efectos fijos (Fixed Effects o FE).

Con esta propiedad los términos de error pueden estar


correlacionados con los regresores xit y permite una forma
limitada de endogeneidad.

La forma de expresar el modelo B o C en términos de una


metodologia de estimación de efectos fijos (FE) parte de utilizar
dummies y consideradas como parte del intercepto para
individuos (i) y tiempo (t) e incluirlas en los regresores xit a ser
estimados por el método de LSDV o eliminar los interceptos para
cada individuo, αi, de este modo, asegura la consistencia del
estimador β en un panel corto (within).

Bajos otros supuestos y escenarios de trabajo el tratamiento de


la heterogeneidad individual no observada asume una
distribución independiente de los regresores y términos de error
(exogeneidad fuerte) vistos en los Efectos Aleatorios (Random
Effects).

En este caso, si los interceptos para cada individuo, o efectos


individuales no observados (αi), son variables aleatorias que
están distribuidos independientemente de los regresores (xit) y
pueden capturar la heterogeneidad no observada13,
13La heterogeneidad observada se refiere a diferencias entre individuos que son medidas a través de los regresores, y no observada se refiere a
otras diferencias no capturadas. En presencia de heterogeneidad no observada incluso individuos con los mismos valores de todas las variables
independientes pueden tener peligro de encontrarse en un estado determinado.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 171

explícitamente asume que no existe correlación entre


observaciones y términos de error (supuesto de exógeneidad
fuerte o exógeneidad estricta14) en el proceso de estimación de
un modelo de efectos aleatorios (RE) las dummies hacen parte
del término de error afectando la estructura de la matriz de
covarianzas, y por tanto, el método de estimación que utilizará
metodologías FGLS .

En el modelo de efectos aleatorios (RE) los términos de error, εit,


se asumen vaiid sobre el modelo:

Es decir, en RE:

De este modo, el término de error asume media cero


condicionada sobre valores presentes, pasados y futuros de los
regresores, xit.

El modelo de efectos aleatorios (RE) usualmente hace el


supuesto adicional que:

Obsérvese que no existe una distribución de probabilidad


específica para los interceptos (αi) y términos de error (εit).

En el caso que los efectos fijos (FE) están presentes y


correlacionados con los regresores, xit, entonces los estimadores
minimo cuadráticos asociados, es decir, estimaciones OLS para

14 Bajo condiciones más flexibles, como exogeneidad débil permite incluir variales rezagadas en un modelo panel.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 172

los modelos agrupados (pooled) y de efectos aleatorios (RE) son


inconsistentes.

Comparando el modelo de efectos fijos (FE) con el supuesto de


endogeneidad entre regresores y términos de error tiene la
ventaja de permitir estimaciones consistentes de parámetros,
incluyendo coeficientes que no varían en el tiempo pero
excluyendo aquellos que varian entre individuos.

TABLA EFECTOS FIJOS Y EFECTOS ALEATORIOS

TABLA. ESTRATEGIAS DE ESTIMACIÓN DE DATOS PANEL


MODELO
Estimacion de β Agrupado o Pooled Efectos aleatorios Efectos fijos
Agrupado/pooled Consistente Consistente/ineficiente Inconsistente
Between Consistente/ineficiente Consistente/ineficiente Inconsistente
Within Consistente Consistente Consistente
Primeras diferencias Consistente Consistente/ineficiente Consistente
Efectos aleatorios Consistente Consistente/ineficiente Inconsistente

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 173

Con lo anterior se pueden identificar varias características y


diferencias entre efectos fijos (FE) y efectos aleatorios (RE):
1. Las propiedades estadísticas de los paneles de datos varían
con el tratamiento de los efectos no observados. Por ejemplo,
si el supuesto de efectos aleatorios, o independencia entre
regresores y términos de error (exógeneidad fuerte o
estricta), no puede ser soportado por los datos a través de
las pruebas de hipótesis correspondientes, esta es la
principal razón para la elección del modelo de Efectos Fijos
(FE) como punto de partida.

2. El modelo de efectos fijos (FE) tiene el atractivo al permitir


establecer relaciones de causalidad bajo supuestos más
débiles que las que se necesitan para establecer la relación
de exogeneidad con datos de corte transversal o con
modelos de datos panel sin efectos fijos, como los modelos
agrupados (pooled) y modelos de efectos aleatorios.

3. Los supuestos de exógeneidad fuerte en efectos aleatorios


(RE) excluyen modelos con variables dependientes
rezagadas o variables endógenas como regresores15.

4. Los nombres efectos fijos (FE) y efectos aleatorios (RE) son


potencialmente engañosos ya que su principal diferencia
radica desde el punto de vista de la exógeneidad entre los
regresores, xit, y el termino error, 𝛆it. El efecto individual
visto como regresor (αi) o por medio de la modificación de

15 Chamberlain (1980) ofrece una discusión detallada de los supuestos y pruebas de exogeneidad para datos panel.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 174

los términos de error (μi) es una variable aleatoria con


características iguales para los modelos FE y RE.

5. Para el calculo de los parámetros, β, en FE o RE parten del


principio de una forma lineal16:
E[yit|αi,xit]= αi+xitβ
El efecto específico individual αi es una variable aleatoria,
como se afirmó en el punto anterior, para ambos modelos.

En paneles cortos, los mas utilizados, no puede ser


consistentemente calculados, por las limitaciones en el
número de observaciones.

De este modo, no es posible estimar E[yit|αi,xit]


directamente. Para solucionar esta dificultad es posible
transformar αi tomando expectativas con respecto a xit, es
decir, condicionando sobre los regresores a la ecuación, de
la forma:
E[yit|αi,xit]= αi+xitβ
Para el modelo de efectos aleatorios (RE), la exógeneidad
entre regresores y términos de error permite afirmar que
E[αi|xit]=α, de este modo, E[yit|xit]=α+xitβ y es posible
identificar E[yit|xit].

En el modelo de efectos fijos (FE) E[αi|xit] varia con respecto


a xit, dado el supuesto de endogeneidad entre regresores y
16 Se acoge por este caso la notación de Wooldridge (2002).

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 175

términos de error, por tanto, no es conocido su valor y su


variación.

Así las cosas, en FE no es posible identificar E[yit|xit], sin


embargo, es posible consistentemente estimar β en paneles
cortos y calcular los efectos marginales:

El pronóstico, relacionado con el valor marginal de los


parametros, de la media condicional no es posible. En lugar
de ello, sólo cambios en la media condicional causados por
regresores variables en el tiempo se pueden pronosticar.

6. En paneles cortos el modelo FE permite únicamente la


identificación de efectos marginales ∂E[yit|ci,xit]/∂xit para
regresores que varían en el tiempo, de modo que regresores
que varian sobre los individuos como raza o género, por
ejemplo, no son identificados. En el modelo RE permite la
identificación de todos los componentes de β y E[yit|xit],
pero el supuesto de E[ci|xit] como una variable constante y
exógena es débil frente a aplicaciones realistas.

7. En el modelo de efectos aleatorios (RE) las estimaciones de


los componentes de la varianza por individuos (i) o
periodos (t) asumen el mismo intercepto y pendiente para
todos. La heterogeneidad no observada se representa en el
término de error y no debería estar correlacionada con los
regresores. La diferencia entre individuos (i) y periodos (t)
se presenta en la varianza de los términos de error, no en
los interceptos. Un modelo RE es estimado por GLS cuando

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 176

la matriz de covarianzas Ω entre grupos es conocida. El


FGLS se utiliza cuando Ω es desconocida, en la mayoría de
los casos.

8. Los coeficientes de efectos fijos de los regresores variables


en el tiempo (xt) son estimables pero pueden ser muy
imprecisos si la mayor parte de la variación en un regresor
corresponde a la sección transversal en lugar del tiempo. Es
decir, la variación between es mayor a la variacion within.

9. Incluso coeficientes de los regresores variables en el tiempo


pueden ser difíciles o teóricamente imposibles de identificar
en modelos no lineales con efectos fijos. Por estas razones,
también se utilizan modelos de efectos aleatorios, aunque la
interpretación causal puede ser entonces injustificada.

10. La estimación de efectos fijos es un análisis condicional, ya


que mide el efecto de xit sobre yit controlados en algun
sentido por el efecto individual no observado (αi). La
estimación de efectos aleatorios es en cambio un ejemplo de
análisis marginal ya que los efectos individuales se integran
como vaiid.

11. Si el verdadero modelo es efectos aleatorios (RE) y se desea


realizar un análisis condicional o análisis marginal variará
con la aplicación. Si el análisis es para una muestra aleatoria
de países entonces se utilizará efectos aleatorios. Si
intrínsecamente se está interesado en países en particular
en la muestra parte de efectos fijos y será la elección.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 177

Aunque esto puede implicar una pérdida de eficiencia en la


estimación.

12. Si el modelo verdadero tiene efectos individuales


específicos (αi) correlacionados con regresores (xi) un
análisis de efectos aleatorios no es significativo ya que el
estimador es inconsistente. En cambio, estimadores
alternativos de efectos fijos (within-LSDV) y primeras
diferencias son necesarios. Debido al deseo de determinar la
relación de causalidad aplicaciones se enfatizan estos
últimos estimadores.

13. El enfoque de efectos fijos (FE) puede ser interpretado


como aplicable a grupos considerados en el estudio, pero no
a incluidos en la muestra. Cuando grupos son extracciones
muestrales de una población más grande, puede resultar
apropiado considerar que los efectos individuales no
observados están aleatoriamente distribuidos y es aplicable
un modelo de estimación de efectos aleatorios (RE).

ESTRATEGIA DE ANÁLISIS PANELES DE DATOS.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 178

INFERENCIA ESTADÍSTICA DE PANELES CON ESTIMADOR DE


ERRORES ROBUSTOS
Varios modelos de datos panel incluyen términos de error. En
algunos escenarios es razonable asumir la independencia sobre
los individuos (i) dentro de la estructura panel.

Sin embargo, los términos de error potencialmente pueden estar


serialmente no correlacionados (correlacionados sobre el
tiempo, t y entrevindividuos) y/o ser heterocedasticos. Para
encontrar una inferencia estadística valida requiere controlar
ambos de estos factores.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 179

Los estimadores consistentes por heterocedasticidad de White17


son fácilmente extensibles a paneles cortos puesto que para la
i-esima observación de la matriz de varianza del error es de
dimensión finita TxT mientras N→∞.

De esta forma, errores estándar robustos para datos panel


pueden ser obtenidos sin asumir formas funcionales específicas
dentro del error individual (within individual) o
heterocedasticidad.

El estimador más eficiente utiliza el método generalizado de


momentos (GMM)18

Es importante observar frecuentemente y con cuidado los


comandos de datos panel en programas econométricos donde
calcula por defecto el término de error asumiéndolos como una
vaiid conduciendo a inferencias erróneas.

En particular, la regresión OLS agrupada (pooled) de yit sobre xit


sin control de los efectos individuales es muy probable contenga
alguna correlación entre los términos de error en el tiempo,
COV[uit,uis]>0 para t≠s o entre individuos.

17Este estimador propuesto por White (1980) reconoce que en los errores de los modelos de regresión lineal pueden ser heterocedasticos, y
propone efectuar una corrección que calcula los residuos del modelo de la siguiente forma:

Son conocidos como heteroskedasticity-robust standard error.


18 El método generalizado de los momentos (GMM) es un instrumento de estimación de parámetros estadísticos la cual bajo supuestos no muy

restrictivos, son consistentes y con funciones de distribución fácilmente calculables. Los mínimos cuadrados ordinarios, mínimos cuadrados
generalizados, estimación en dos etapas e incluso (bajo algunos supuestos adicionales) máxima verosimilitud, pueden ser considerados casos
particulares de GMM. Otra de las características del método es que no requiere la especificación de una forma particular de distribución de las
variables aleatorias involucradas en el modelo que se estudia. A pesar de estas cualidades, las propiedades de los estimadores obtenidos por el
método generalizado de los momentos no son siempre buenas en muestra pequeñas.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 180

Ignorar esta correlación serial puede conducir a varianzas más


pequeñas, y por tanto, sobreestimar los t estadísticos.

ERRORES ESTÁNDAR EN PANELES ROBUSTOS TIPO SÁNDWICH19


En algunos casos es posible efectuar transformaciones sobre los
modelos de datos panel estimados para encontrar una forma
común de tratamiento.

Los modelos pueden ser estimados por OLS. Sin embargo,


efectuadas las transformaciones correspondientes, pueden
incluir correlación serial y contemporánea.

El estimador por OLS del vector de parámetros del modelo


transformado, 𝛉̂, para efectos within por ejemplo, tiene la
siguiente expresión:

Para el caso del estimador de primeras diferencias (FDE) la


suma de periodos será desde t=2 a T. En este caso también es
necesario considerar la consistencia del estimador. Si el modelo
19Un estimador tipo sándwich hace referencia al relajamiento de supuestos a través de las observaciones para ser independientes a través de los
clusters de las observaciones. Su nombre se debe a que los términos de error estimado, e j, se encuentra entre las matrices (XtX)-1, las cuales a
medida que el tamaño de muestra crece comprimen el tamaño de los termos de error estimado, e j,.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 181

está correctamente especificado entonces el álgebra OLS resulta


en:

Dada la independencia sobre los individuos (i) la condición


esencial para la consistencia radica en la independencia de los
̃ i, 𝐮
regresores y el término de error, E[𝐖 ̃ i]=0.

Este requiere el supuesto de exogeneidad fuerte entre los


̃ i|𝐰
regresores y el termino de error de la forma, E[𝐮 ̃ i]=0 . La
̂OLS es de la forma:
varianza asintótica de 𝛉

Dada la independencia de los errores sobre los individuos la


estimación es consistente para V[𝛉̂OLS]. Este modelo de datos
panel transformado es análogo al problema de corte transversal
̂OLS].
de obtener estimadores consistentes de V[𝛉

Sin embargo, si existen algún supuesto violado en los términos


de error deben implementarse estimadores panel robustos de la
matriz de varianza asintótica del estimador OLS agrupado
(pooled) del modelo transformado que puede controlar tanto la
correlación serial y la heterocedasticidad de la forma:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 182

̂ i =𝐮
Donde 𝐮 ̃ i=𝐲̃i-Wiθ.

El estimador V ̂[𝛉̂OLS] asume independencia sobre los individuos.


Un caso representativo de paneles cortos encuentra creciendo el
numero de individuos, N→∞, y permite que la varianza de los
errores, V[uit], y su covarianza, Cov[uit,uis] varíe en los individuos
(i) pero no entre ellos.

Si dentro de la estructura de covarianzas, ademas se incluyen


dos periodos de tiempo t y s una reexpresión del estimador
̂[𝛉
V ̂OLS] es la siguiente20:

Donde 𝐮̂ it =𝐲̃it-𝐖 ̂. Este estimador también fue propuesto por


̃ it𝛉
Arellano (1987) para el estimador de efectos fijos (FE).

ERRORES ESTÁNDAR POR EL MÉTODO DE BOOTSTRAP21


El método de bootstrap proporciona un camino alternativo para
obtener errores estándar panel. El supuesto clave parte de

20 En STATA los errores estándar de panel robustos calculados por V ̂OLS] pueden utilizar estimaciones por OLS y ajustarles una metodología de
̂[𝛉
términos de error con cluster robusto seleccionando individuos como variable de cluster.
21 Es un método de simulación por remuestreo (resampling) que esencialmente es un experimento de simulación de Montecarlo donde la muestra

observada es tratada como la población. En otras palabras, cada iteración, de tamaño N, efectua una muestra con remplazamiento para
posteriormente obtener el cálculo de los estimadores. Este proceso se efectua K veces. Calculando el promedi de los estimadores permite calcular
el sesgo de cualquier estimador. Puede ser utilizado para obtener errores estándar, intervalos de confianza y p-values ara pruebas estadísticas.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 183

asumir las observaciones independientes sobre los i-esimos


individuos.

Este método efectúa un procedimiento de remuestreo con


remplazamiento sobre los individuos (i) y utiliza todos los
periodos de tiempo observados para un individuo (i) dado.

Los datos {(yi,Xi)|i=1,…,N} resultan en muestras pseudo-


aleatorias y para cada muestra ejecuta una regresión OLS de 𝐲̃it
sobre 𝐰̃ it B veces, por tanto al final del proceso cuenta con B
estimadores 𝛉 ̂b , b=1,2…B.

El estimador de datos panel por bootsrtap calcula la matriz de


varianzas y covarianzas

Donde 𝛉̅
̂ =B-1∑Bb=1 𝛉
̂. Este método no proporciona refinamiento.
Dada la independencia sobre los individuos (i) el estimador es
consistente en la medida que los individuos crezcan, N→∞.

Es asintóticamente equivalente a estimar V ̂[𝛉̂OLS] y exactamente


igual al caso de corte transversal y asintóticamente equivalente
al estimador de heterocedasticidad consistente de White.

Este método puede ser aplicado a cualquier estimador panel que


cuenta con independencia sobre los individuos (i)22 y N→∞,

22 Se debe efectuar un remuestreo por bootstrap únicamente sobre los individuos (i) no sobre los individuos (i) y el tiempo (t).

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 184

incluyendo el estimador GLS para regresiones agrupadas


(pooled) de paneles cortos.

ERRORES ESTÁNDAR CORREGIDOS PARA PANEL (PANEL


CORRECTED STANDARD ERRORS - PCSE).23
Las bases de datos panel asumen una estructura diagonal en el
proceso de estimación en los términos de error a través de su
estructura de covarianzas.

En particular, y por lo general, se supone que para cualquier


individuo la varianza del error es constante, de modo que la
única fuente de heterocedasticidad es la varianza del error a
través de diferentes individuos.

Sin embargo, las bases de datos panel muestran a menudo


errores no esféricos debido a la correlación contemporánea y
heterocedasticidad a través de los individuos.

Dada esta condición de errores no esféricos en modelos para


datos panel lineales es común el uso de una metodología de
estimación por FGLS para mejorar la inferencia y estimación.

Sin embargo, Beck y Katz (1995) mostraron que estimaciones


FGLS tenían pocas propiedades de muestra finita.

En particular, en un estudio de simulación mostraron que los


errores estándar estimados para este modelo generan intervalos
de confianza significativamente pequeños y a menudo
23Para una introducción técnica pero fácil de entender sobre las propiedades de FGLS y PCSE, ver: Nathaniel Beck, “Time-Series-Cross-Section
Data: What Have We Learned in the Past Few Years?”, Annual Review of Political Science, 4: 271-93 (2001).

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 185

subestiman la variabilidad en un 50% o más, con aumentos en la


eficiencia pero que ignoran errores no esféricos.

Por lo tanto, Beck y Katz (1995) sugirieron la estimación de


modelos lineales de datos panel por mínimos cuadrados
ordinarios (OLS) y propusieron un estimador tipo sándwich de
la matriz de covarianza de los parámetros estimados, que
llamaron errores estándar del panel con corrección (PCSE), esta
es robusta a la posibilidad de errores no esféricos. Sea el modelo
panel de la forma:

Donde i=1,…,N son el numero de individuos y t=1,…,T son los


periodos. Para Ti es el número de periodos en el panel para el i-
esimo individuo y ϵit es la perturbación estocastica que puede
estar autocorrelacionada a lo largo del tiempo (t) o
contemporaneamente correlacionada a traves de los individuos.
Este modelo puede ser escrito de forma panel como:

Para un modelo con perturbaciones heterocedasticas y


correlación contemporanea pero sin autocorrelación, la matriz
de covarianza se asume como:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 186

Donde σii es la varianza de las perturbaciones para el individuo i-


esimo, σij es la covarianza de las perturbaciones entre el
individuo i-esimo y el individuo j-esimo. Una forma más general
si el panel es o no balanceados puede ser escrito como:

Si no existe autocorrelación especificada los parámetros, β, son


estimados por OLS. Si se especifica autocorrelación los
parámetros, β, son estimados por regresiones Prais-Wisten.

Cuando existe autocorrelación con coeficientes de correlación


especificados cada nivel panel ρi es calculado con un coeficiente
común de correlación calculado como:

Donde ρi es el coeficiente de correlación estimada para el


individuo i-esimo y m número de paneles. La covarianza de OLS
o coeficientes Prais-Winsten es:

Donde Ω es la matriz de covarianza de las perturbaciones. Donde


los paneles son balanceados se puede escribir Ω como:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 187

Donde Σ es una matriz de covarianzas NxN de perturbaciones.


Cada elemento de Σ se calcula como:

Donde ϵi y ϵi son los residuos para las estimaciones de las


matrices de covarianzas de los individuos i-esimo y j-esimo,
respectivamente, que puede ser ajustada periodo a periodo y
donde Tij es el número de residuos entre los individuos i y j.

IV. ESTRUCTURA DE PRUEBAS DE HIPOTESIS: ANALISIS DE


VARIANZA
Los datos panel proporcionan información sobre
comportamiento individual a través del tiempo (t) y los
individuos (i)24.

Para cada regresión lineal, el análisis de datos panel estándar


utiliza un rango mucho más amplio de modelos y estimadores
que en el caso de datos de corte transversal, por ejemplo.

24 Suponga se tiene observaciones muestrales de características de N individuos sobre T periodos con K variables explicativas denotados por y it,
xkit i=1,…,N, t=1,…..,T, k=1,…,K. Convencionalmente, las observaciones de la variable, y, son asumidas como resultados aleatorios de algún
experimento con una distribución de probabilidad condicionada sobre vectores de características x y un número fijo de parámetros Θ, f(y|x,Θ).
Cuando los datos panel son utilizados, una de sus principales objetivos es utilizar toda la información para efectuar inferencia sobre el vector de
parámetro Θ. Por ejemplo, un modelo puede postular a la variable, y, es una función lineal de x. Sin embargo, para ejecutar una regresión por
mínimos cuadrados con NxT observaciones se necesita asumir que los parámetros de la regresión toman valores iguales a todas las unidades
individuales para todos los periodos. Si este supuesto no es válido, las estimaciones agrupadas (pooled) pueden conducir a una falsa inferencia ya
que sus resultados no son consistentes.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 188

Un modelo muy general para datos panel permite que varíen los
coeficientes asociados con el intercepto (α) y las pendientes (β)
sobre el individuo (i) y el tiempo (t), es decir:

Donde yit es una variable dependiente escalar, xit, es un vector de


Kx1 variables independientes, uit es un término de perturbación
estocástica, uit.

Sea el siguiente modelo para individuos (i) y tiempo (t), con las
siguientes características:

Este modelo es demasiado general en la medida que existen más


parámetros, NT(K+1) más el número caracterizando el término
de error, uit, que la disponibilidad de grados de libertad, NxT.

Además, deben incluirse restricciones adicionales en la medida


que parámetros de intercepto (αit) y pendiente (βit) varían
respecto a los individuos (i), el tiempo (t). Por tal motivo, es
necesaria una estructura de restricciones que debe ser impuesta
sobre la ecuación anterior, antes de efectuar cualquier
inferencia.

El primer paso de la exploración de datos parte de probar si los


parámetros que caracterizan el comportamiento aleatorio de la
variable endógena, yit, permanecen constante a través de los
individuos (i) y el tiempo (t).

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 189

Un procedimiento utilizado para identificar el origen de la


variación muestral es el análisis de varianza. El nombre “análisis
de varianza” o ANOVA posee categorías particulares para
contrastar pruebas de hipótesis lineales, además, se pueden
estipular valores esperados de una variable aleatoria, yit, y su
interacción en la estructura de dependencia (definiendo uno o
más factores) a la cual los individuos pertenecen25.

Por otra parte, modelos de análisis de varianza, en algunos casos,


son de carácter mixto involucrando variables exógenas, como lo
ejecutan los modelos de regresión, y al mismo tiempo, permiten
la relación de cada individuo yi como depende al factor al cual
pertenece.

Basado en el principio de análisis de varianza Walpole (2003),


suponga el siguiente modelo de la forma más general o no
restringido:

Donde α∗it y βit son vectores de parámetros de tamaño 1X1 y 1XK,


xit son regresores independientes y uit es el termino de error.

Dada las características del modelo anterior, y la necesidad de


incluir restricciones, dos aspectos de los coeficientes estimados
pueden ser contrastados a través de pruebas de hipótesis.

25En el procedimiento de análisis de varianza supone que cualquier variación que exista entre parámetros se atribuye a dos posibles causas. La
primera, variación en la absorción de un factor entre observaciones (within). La segunda, la variación entre (between) los factores.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 190

El primero, la homogeneidad de todos coeficientes o las


̂, y la potencial combinación con la
pendientes de regresión, 𝛃
̂.
homogeneidad de todos los interceptos de regresión 𝛂

El procedimiento de prueba tiene tres (3) pasos a seguir y


probar por medio de contrastes de hipótesis de manera
conjunta:
1. Paso 1. Las pendientes los regresores, 𝛃 ̂, son las mismas.
2. Paso 2. Los interceptos, 𝛂̂ , son los mismos.
3. Paso 3. Las pendientes e interceptos son homogéneos entre
diferentes individuos (i) a través del tiempo (t).

Si la hipótesis de homogeneidad global no se rechaza (paso 1)


terminara en este punto.

Si la hipótesis es rechazada, es decir, no existe homogeneidad


entre pendientes (𝛂 ̂ ) e interceptos (𝛃̂), el segundo paso de
análisis es decidir si las pendientes de regresión (𝛃̂) son las
mismas (paso 2).

̂) no se
Si la hipótesis de homogeneidad de las pendientes (𝛃
rechaza entonces no es necesario el tercer paso.

Por último, si se rechaza la hipótesis del paso 2, se efectuá el


paso 3.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 191

Es decir, se parte de un inicio de homogeneidad en el paso 1


hasta llegar a comprobar heterogeneidad en pendiente e
intercepto.

ESTRUCTURA DE CONTRASTE DE HIPÓTESIS EN UN MODELO DE


DATOS PANEL

Aunque este tipo de análisis puede ser ejecutado en varias


dimensiones, por ejemplo, individuos (i) y tiempo (t) o de dos
factores (two way), el análisis de varianza de un solo factor (one
way) es el más utilizado (individuos, suponiendo el factor
temporal igual a cero).

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 192

CONTRASTES DE PARAMETROS ESTIMADOS Y SUMA DE


CUADRADOS DE LOS RESIDUOS RESPECTO A LOS INDIVIDUOS
Basado en la estructura anterior de contrastes de hipótesis del
grafico anterior para encontrar heterogeneidad en un modelo de
regresión, se asumen los parámetros del intercepto constantes
sobre el tiempo (t) pero varían a través de los individuos.

De esta forma, se definirá el CASO 0, como un modelo de


regresión para cada individuo (i) en cada periodo de tiempo (t),
o modelo no restringido, de la forma:

Tres (3) tipos de restricciones pueden ser impuestas sobre el


modelo anterior asociados a los pasos iniciales:
CASO 1. H01 : Asociado al paso 1. Los coeficientes de pendiente de
la regresión, 𝛃̂, son los mismos y los interceptos no lo son
̂ i, es decir:
𝛂

CASO 2. H02 : Asociado al paso 2. Los coeficientes de interceptos


de la regresión, 𝛂 ̂ , son los mismos y las pendientes no lo
son 𝛃̂i, es decir:

CASO 3. H03 : Asociado al paso 3 de homogeneidad del modelo. Los


coeficientes de interceptos y pendientes son los mismos,
es decir:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 193

El CASO 0 es el modelo no restringido. El CASO 1 es el modelo de


media individual.

Dado que tiene poco significado preguntar si los interceptos son


los mismos cuando las pendientes cambian se ignorara el CASO
2.

El CASO 3 es la regresión agrupada (pooled). Sean los promedios


aritméticos de los individuos (i) a través del tiempo (t) para los
regresores x, y la variable dependiente, y, respectivamente, se
tiene que:

Estimación del modelo no restringido. Las estimaciones de


mínimos cuadrados de 𝜷 y 𝛼𝑖∗ en el modelo no restringido, CASO
0, están dadas por:

En la terminología del análisis de varianza, la ecuación anterior,


se conoce como estimación entre grupos (within group
estimates). Dónde:

La suma de cuadrado de los residuos (RSSi) se define como:

La suma de cuadrados del modelo no restringido, o CASO 0, es:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 194

Estimación de caso 1. La regresión del modelo de media


individual, es decir, los coeficientes de las pendientes de la
̂ , son las mismos y los interceptos no lo son 𝜶
regresión, 𝜷 ̂ i, tiene
los siguientes parámetros estimados:

Dónde:

Sea Wyy= ∑𝑁 𝑖=1 𝑊𝑦𝑦,𝑖 la suma de cuadrados de los residuos del


CASO 1, o el modelo de media individual, se define como:

Estimación de CASO 3. El modelo más restrictivo es un modelo


agrupado (pooled) donde se especifican coeficientes de
pendiente e intercepto constantes. El supuesto usual para
análisis de corte transversal, indica que:

La regresión por mínimos cuadrados agrupada (pooled


estimation) para el CASO 3, o los coeficientes de interceptos y
pendiente son los mismos y tienen los siguientes parámetros
estimados:

Dónde:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 195

La suma de cuadrados de los residuos para este modelo son:

Si este modelo es correctamente especificado, y los regresores


están no correlacionados con el término de error (que determina
la utilización de efectos fijos o aleatorios), entonces puede ser
estimado consistentemente utilizando OLS agrupados (pooled).

Sin embargo, el término de error, en la mayoría de los casos, se


encuentra correlacionado a través del tiempo para un individuo
(i).

Además, el proceso de estimación por OLS no es recomendable


en la medida que pueden generar sesgos importantes26.

CONSTRUCCIÓN DE LAS PRUEBAS DE HIPÓTESIS


Bajo el principio de análisis de varianza, y utilizando la suma de
cuadrados de residuos de la regresión calculados en cada uno de
los casos anteriores, definidos como:

26 El estimador OLS agrupado (pooled) es inconsistente si el modelo de efectos fijos es apropiado.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 196

S1: suma de cuadrados del residuo (SSR) del modelo no


restringido, o CASO 0
S2: suma de cuadrados del residuo (SSR) del modelo de
media individual, o CASO 1
S3: suma de cuadrados del residuo (SSR) del modelo
agrupado (pooled), o CASO 3

Bajo el supuesto adicional que el termino de error, uit, es una


vaiid y normal distribuida sobre los individuos (i) y en tiempo
(t) con media cero y varianza 𝜎𝑢2 , es posible efectuar una prueba
F que puede ser utilizada para contrastar las restricciones sobre
los modelos para el CASO 1, los coeficientes de pendiente de la
̂ , son los mismos y los interceptos no lo son 𝜶
regresión, 𝜷 ̂ i y el
CASO 3 los coeficientes de interceptos y pendiente son los
mismos.

El CASO 1 y CASO 3 pueden ser observados como el CASO 0, o


modelo no restringido, sujeto a restricciones lineales. Por
ejemplo, la hipótesis de interceptos heterogéneos pero
pendientes homogéneas (CASO 1) puede ser reformulado en una
prueba de hipótesis sobre el modelo no restringido, CASO 0,
sujeto a (N-1)K restricciones lineales donde se plantea la
siguiente prueba de hipótesis sobre los β dejando libres a los
interceptos:

La hipótesis de interceptos (α) y pendientes (β) homogéneas,


CASO 3, también puede ser estructurada en un modelo no
restringido, CASO 0, con (K+1)(N-1) restricciones lineales, es

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 197

decir, restringiendo en una prueba de hipótesis interceptos (α) y


pendientes (β) de la forma:

De este modo, las pruebas utilizadas en el analisis de varianza


(ANOVA) es equivalente a pruebas de hipotesis ordinarias, H0,
fundamentada en la estimación de modelos no restringidos y el
cálculo de la suma de cuadrados de los residuos (SSR) que
pueden incorporar restricciones lineales y efectuar las pruebas
de hipotesis correspondientes.

El calculo del estadistico para determinar la prueba de hipótesis,


H03 , o que los coeficientes de interceptos y pendientes son los
mismos, se divide en dos partes.

La primera, define la suma de cuadrados de los residuos (SSR)


del modelo no restringido, CASO 0 o S1, dividido entre la varianza
de los terminos de error del modelo agrupado (pooled), S1/𝜎𝑢2 ,
que se distribuye χ2 con NT-N(K+1) grados de libertad.

La segunda, mide el efecto de los individuos en el modelo y se


calcula como la diferencia entre la suma de cuadrados de los
residuos del modelo agrupado (S3) menos la suma de cuadrados
de los residuos del modelo no restringido (S1) o (S3-S1).

Es decir, lo que no explica el modelo agrupado (pooled) menos el


no restringido corresponde a la suma de cuadrados debido al
efecto de los individuos (i).

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 198

La razón (S3-S1)/𝜎𝑢2 se distribuye χ2 con (N-1)(K+1) grados de


libertad. Se asume que (S3-S1)/𝜎𝑢2 es independiente de S1/𝜎𝑢2 . La
división de las dos distribuciones χ2 es una distribución F de la
forma:

El estadístico para efectuar la prueba de contraste de interceptos


y pendientes comunes es F con (N-1)(K+1) y N(T-K-1) grados de
libertad.

El contraste se realiza sobre una distribucion F con (N-1)(K+1)


y N(T-K-1) grados de libertad y un nivel de confianza de (1-α),
(F(N-1)(K+1) y N(T-K-1)).

Si no es significativo, se agrupan los datos y estima una sola


ecuación, o el CASO 3, o mejor, no se puede rechazar la hipótesis
nula de interceptos y pendientes comunes, 𝐻03 , bajo el estadístico
de prueba F3.

Si el estadístico F3 es significativo se encontró no homogeneidad,


o se rechaza la hipótesis nula de homogeneidad (𝐻03 ), que puede
ser atribuida a dos causas. La primera, pendientes heterogéneas.
La segunda, interceptos heterogéneos.

El calculo del estadistico para determinar la prueba de hipótesis


H01 , o que los interceptos (α) son heterogéneos pero las
pendientes (β) son homogéneas, de divide en dos partes.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 199

La primera, define la suma de cuadrados de los residuos del


modelo de media individual, S2, dividido por la varianza del
termino del error del modelo agrupado (pooled), S2/𝜎𝑢2 , que se
distribuye χ2 con N(T-1)-K grados de libertad.

La segunda, mide el efecto del intercepto en el modelo y se


calcula como la diferencia entre la suma de cuadrados de los
residuos del modelo de media individual, CASO 1, (S2) menos la
suma de cuadrados de los residuos del modelo no restringido
(S1) o (S2-S1).

Es decir, los residuos del modelo, S2, hacen explícito el


componente de intercepto individual, αi∗ , si se le resta el efecto
del modelo no restringido el resultado es el efecto del intercepto.
Por lo tanto, la razón (S2-S1)/σ2u se distribuye χ2 con (N-1)K
grados de libertad27. Se asume que (S2-S1)/σ2u es independiente
de S1/σ2u .

El estadístico F, como combinación de distribuciones


independientes χ2, para contrastar H01 , o los coeficientes de
pendiente de la regresión son los mismos y los interceptos no lo
son, está dado por:

El contraste se realiza sobre una distribucion F con (N-1)K y NT-


N(K+1) grados de libertad y un nivel de confianza de (1-α), (F(N-
1)K y NT-N(K+1)).

27La diferencia de la diferencia de (S2-S1) pueden ser deducidos sus grados de libertad dado que S1 tiene [NT-N(K+1)] y para S2 tiene [ N(T-1)-K].
La resta es (N-1)K grados de libertad

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 200

Si es significativo, es decir, no se puede rechazar la hipotesis nula


donde las pendientes de la regresión son las mismas y los
interceptos no lo son.

Si el estadistico F1 no es significativo, se puede rechazar la


hipotesis nula donde las pendientes de la regresión son las
mismas y los interceptos no lo son.

Por otra parte, se puede determinar el grado de no


homogeneidad en los interceptos. Si la hipótesis de interceptos
heterogéneos no se rechaza, conociendo de antemano que
existen pendientes homogéneas, H01 , CASO 1, se pueden aplicar
pruebas condicionadas para interceptos homogéneos, es decir:
dado
En este caso, dada la restricción sobre los parámetros de
pendiente (β), la suma de cuadrados del modelo de media
individual (coeficientes de pendiente de la regresión, 𝛃̂, son los
̂ i) se convierte en el modelo
mismos y los interceptos no lo son 𝛂
no restringido, S2, y como su versión restringida la suma de
cuadrados del modelo agrupado (pooled), S3.

La diferencia entre la suma de cuadrados de los residuos entre el


modelo agrupado (pooled) y el modelo de interceptos
heterogéneos pero pendientes homogéneas, revela su semejanza
estadística, es decir, (S3-S2).

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 201

Si la diferencia tiende a cero los dos modelos son equivalentes, si


la diferencia se incrementa existe un efecto significativo de los
individuos (i) en el modelo de media individual respecto al
modelo agrupado (pooled).

Bajo la hipótesis nula H4, la suma de cuadrados del residuo del


modelo agrupado o restringido, S3, dividido por el termino del
error del modelo no restringido, S3/σ2u , tiene una distribución χ2
con NT-(K+1) grados de libertad y la suma de cuadrados del
residuo del modelo de modelo de interceptos heterogéneos pero
pendientes homogéneas, S2/σ2u , tiene una distribución χ2 con
N(T-1)-K grados de libertad. La resta de los grados de libertad de
(S3-S2)/σ2u , tiene una distribución χ2 con N-1 grados de libertad28.

Dado que S2/σ2u es independiente de (S3-S2)/σ2u , la cual se


distribuye χ2 con N-1 grados de libertad su puede construir una
prueba F para H4 de la siguiente forma:

El contraste se realiza sobre una distribucion F con (N-1) y T(N-


1)-K grados de libertad y un nivel de confianza de (1-α), (F(N-1) y
T(N-1)-K;(1-α)).

CONTRASTES DE PARAMETROS ESTIMADOS Y SUMA DE


CUADRADOS DE LOS RESIDUOS RESPECTO AL TIEMPO
Alternativamente, es posible asumir que los coeficientes son
constantes a traves de los individuos en un periodo dado, pero

28 La diferencia de grados de libertad se puede calcular como: [NT-(K+1)]-[N(T-1)+K]=N-1

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 202

pueden variar sobre el tiempo tanto el intercepto (α∗t ) como las


pendientes (βt).

Es posibe efectuar una regresion separada para cada corte


trasnversal durante cada periodo de tiempo, de la forma:

Donde, de nuevo, se asume que uit es una vaiid con media cero y
varianza constante, σ2u .

De forma analoga al analisis de varianza (ANOVA), puede ser


ejecutado un metodo para contrastar la heterogeneidad de los
parametros de corte transversal sobre el tiempo.

De este modo, se puede probar la homogeneidad del intercepto y


las pendientes a traves del tiempo sobre la siguiente prueba de
hipotesis:

Efecutando la diferencia entre la suma de cuadrados del residuo


del modelo agrupado (S3) menos la suma de cuadrados del
residuo del modelo de coeficientes constantes a traves de los
individuos pero pueden variar sobre el tiempo tanto en el
intercepto (α∗t ) como en las pendientes (βt), S1´ , se tiene el
siguiente estadistico distribuido F:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 203

El contraste se realiza sobre una distribucion F con (T-1)(K+1) y


NT-T(K+1) grados de libertad y un nivel de confianza de (1-α),
(F(T-1)(K+1) y NT-T(K+1);(1-α)), donde se define el calculo de la suma de
cuadrados del residuo del modelo con coeficientes constantes a
traves de los individuos pero pueden variar sobre el tiempo
tanto en el intercepto (α∗t ) como en las pendientes (βt), S1´ , de la
siguiente forma:

De manera similar, se puede contrastar la hipotesis de


interceptos heterogeneos en el tiempo (α∗t ), pero pendientes
homogeneas (βt) en el tiempo, bajo la siguiente prueba de
hipotesis:

Se calcula la diferencia entre la suma de cuadrados del residuo


del modelo con coeficientes constantes a traves de los individuos
pero pueden variar sobre el tiempo, S1´ , menos la suma de
cuadrados del residuo del modelo de media individual
modificado, en vez del promedio de los individuos el promedio
del tiempo para cada individuo, S2´ , donde:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 204

Utilizando el siguiente estadistico F, una modificacion a F1 o la


prueba que contrastaba si los interceptos (α) son heterogéneos
pero las pendientes (β) son homogéneas entre individuos.

Ahora realiza la misma prueba sobre el tiempo en vez de los


individuos. El estadístico F es:

El contraste se realiza sobre una distribucion F con (T-1)K y NT-


T(K+1) grados de libertad y un nivel de confianza de (1-α), (F(T-
1)K y NT-T(K+1);(1-α)).

Tambien, dentro de estos contrastes temporales, es posible


contrastar la hipotesis de homogeneidad de los interceptos (α∗t )
condicionada sobre pendientes homogeneas (βt), es decir:

Se realiza la difencia entre la suma de cuadrados del residuo del


modelo agrupado menos la suma de cuadrados del residuo del
modelo de media individual modificado, en vez del promedio de
los individuos, el promedio del tiempo para cada individuo, S2´ .

Con estos resultados se tiene el estadístico de contraste


distribuido F de la forma:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 205

El estadistico efectua un contraste con una distribucion F con (T-


1) y T(N-1)-K grados de libertad y un nivel de confianza de (1-
α), (F(T-1),T(N-1)-K;(1-α)).

En general, a menos que se efectuen las pruebas en ambas


secciones, es decir, corte trasnversal y serie de tiempo, e
indiquen el no rechazo de la homogeneidad de los coeficientes
de regresion de pendientes e intercepto, el agrupamiento no
condicionado (es decir, el modelo pooled o una sola regresion
por OLS utilizando todas las observaciones de corte transversal a
traves del tiempo) puede conducir a un serio sesgo dentro del
proceso de estimacion.

RESUMEN DE PRUEBAS DE HIPOTESIS Y CONTRASTES DE


HIPOTESIS

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 206

Pueden existir sutuaciones incomodas en los proceso de


contrastes de hipotesis.

Una posibilidad existe en el contraste de parametros e intercepto


comunes con variacion de los individuos y constante el tiempo
(F3) o contraste de parametros e intercepto comunes con
variacion del tiempo y constantes los indivuduos (F3´ ) se pueden
encontrar resultados opuestos con pruebas de hipotesis donde
no se rechaze la hipotesis de pendientes e interceptos
heterogeneos donde varian los individuos y es constante el
tiempo (F1) o varian el tiempo y estan constantes los individuos
(F1´ ).

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 207

Dada las hipotesis nula y alternativa que son de algun modo


diferente en los dos casos.

Peor aun, se puede rechazar la hipotesis sobre el supuesto de


homogeneidad utilizanto la razon F3 (F3´ ), pero entonces
encontrar a F1 (F1´ ) y F4 (F4´ ) que no pueden ser rechazadas en
sus hipotesis nulas, de modo que la existencia de heterogeneidad
indicada por F3 (F3´ ) no se puede salvar.

Este resultado es bastante apropiado en un nivel estadistico


formal, aunque en el menos formal pero nivel importante de
interpretacion de las pruebas estadisticas puede ser molesto.

V. CONTRASTES DE HIPÓTESIS EN DATOS DE PANEL


Los modelos de datos panel se clasifican en dinámicos o estáticos
según incluyan o no en sus ecuaciones variables pertenecientes a
diferentes periodos temporales. En la especificación estática, el
modelo de regresión de un solo factor (one way) supone que el
error aleatorio se descompone en uit=μi+ϵit. Donde cada μi es el
efecto individual (no observado) de cada individuo de corte
transversal, invariante en el tiempo29. El modelo a estimar es el
siguiente:
Yit=αi+xitβ+uit
La presencia del efecto fijo (FE) en esta ecuación hace que una
estimación de β por OLS no sea consistente y sea sesgada. Los

29Los interceptos para cada uno de los individuos, αi~(0,σ2α ), son variables aleatorias independiente e idénticamente distribuidas (vaiid) sobre los
individuos (i). El termino estocástico puro, ϵit~(0,σ2ϵ ), son variables aleatorias independiente e idénticamente distribuidas (vaiid) sobre los
individuos (i) y el tiempo (t), donde existe una condición de exogeneidad entre ellos, es decir, E[ϵit|αi]=0 ∀ i,j,t.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 208

métodos que se utilizan para solventar ese problema son la


estimación de efectos fijos (FE) o entre grupos (within groups) y
la estimación de efectos aleatorios (RE) por Mínimos Cuadrados
Generalizados factibles (FGLS). La estimación de efectos fijos
(FE) puede llevarse a cabo transformando el modelo anterior en
otro en términos de las medias de grupo, es decir:

Y estimando por OLS, o también, mediante una estimación por


mínimos cuadrados de variables ficticias (LSDV), αi. En este
contexto, pueden plantearse los siguientes contrastes.

CONTRASTE DE EFECTOS INDIVIDUALES EN MODELOS DE


COMPONENTES DE ERROR DE UN SOLO FACTOR (ONE WAY)
La significancia conjunta de las variables dummys en un modelo
one way de efectos fijos (FE) debe demostrar que todos los
coeficientes asociados con el intercepto, α, son iguales a cero.

O mejor, no existe diferencia entre los N individuos visto a través


de sus valores en el intercepto de forma que puede ser
contrastada mediante la hipótesis nula y alternativa construida
de la siguiente manera:
H0: α1=α2=α3=…=αN=0
H1: αi ≠0
El estadístico de contraste es el siguiente:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 209

Donde el RSSR es la suma de cuadrados de residuos (Residual


Sum of Squares) de la regresión que se obtiene de la estimación
OLS en el modelo agrupado (within) y el RSSU es la suma de
cuadrados de los residuos de la estimación por LSDV.

La distribución, con sus grados de libertad, para efectuar el


contraste de la hipótesis nula, H0, converge a una FN-1,N(T-1)-K.

MULTIPLICADORES DE LAGRANGE (LM) PARA CONTRASTAR


PRUEBAS DE EFECTOS ALEATORIOS
La prueba de Breusch y Pagan sobre un modelo de efectos
aleatorios (RE) consiste en identificar la existencia de
autocorrelación residual entre los términos de error de un
modelo estimado en distintos momentos del tiempo equivalente
a probar la existencia de efectos constantes en el término de
error.

La hipótesis nula en la prueba LM propuesta por Breusch y


Pagan (1980)30 para efectos aleatorios trata de demostrar como
las varianzas, a través de los individuos, o su heterogeneidad es
cero.

Es decir, no existe diferencia significativa a través de los


individuos (o no existe efecto panel). Puede ser escrito en
términos de pruebas de hipótesis como:
H0: σ2α =0
H0: σ2α ≠0

30 Paquetes estadísticos como STATA trabajan con las modificaciones efectuadas sobre esta prueba por Baltagi and Li (1990).

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 210

Trabajando a partir de estimaciones por máxima verosimilitud a


partir de la ecuación, yit=αi+xitβ+ϵit, se construye el estadístico
LM=LM1+LM2. Dónde se pueden construir los siguientes
estadísticos:

Siendo ϵ̂ los residuos de la estimación OLS de la ecuación


yit=αi+xitβ+ϵit, IN e IT son matrices identidad de tamaño N y T, las
matrices JT y JN son de tamaños T y N respectivamente.

El objetivo de la prueba es decidir entre una regresión con


efectos aleatorios (αi) y una regresión por mínimos cuadrados
(OLS) o regresión pooled.

La distribución, con sus correspondientes grados de libertad,


para efectuar el contraste de la hipótesis nula, H0, converge a una
χ12 .

De manera análoga, es posible decidir a través de un contraste


entre la regresión con efectos temporales (δt) o una regresión
por mínimos cuadrados (OLS) o regresión agrupada (pooled
regression). El estadístico de contraste es LM2, bajo la prueba de
hipótesis:
H0: σ2δ =0
H1: σ2δ ≠0

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 211

La distribución, con sus correspondientes grados de libertad,


para efectuar el contraste de la hipótesis nula, H0, converge a una
χ12 .

Cuando el valor del estimador sea mayor a aquel reportado en la


tabla de valores críticos de la distribución χ2 con un (1) grado de
libertad, bajo el nivel de significancia deseado, se rechaza la
hipótesis nula.

En ese caso se confirma la existencia de un componente fijo en el


error, y es necesario aplicar efectos aleatorios (RE) o alguna
metodología de efectos fijos (FE). Si por el contrario no es
posible rechazar la hipótesis nula, se asume que no existe un
término fijo en el error y se utiliza OLS.

ELECCIÓN DEL MÉTODO: ¿EFECTOS FIJOS O EFECTOS


ALEATORIOS?
El modelo de efectos fijos (FE) tiene la atracción de permitir
utilizar datos panel para establecer causación bajos supuestos
débiles de exógeneidad en comparación con aquellos donde se
utilizan supuestos fuertes como corte transversal, modelos
agrupados (pooled) y efectos aleatorios (RE).

En algunos estudios la causalidad es clara, de este modo los


efectos aleatorios (RE) es apropiada. En otros casos, determinar
esta causalidad puede ser insuficiente para utilizar un modelo de
efectos aleatorios (RE), y por tanto, para medir la correlación y
determinar una relación de causalidad, de este modo, permite
utilizar otras aproximaciones.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 212

El modelo de efectos fijos (FE) tiene varias debilidades prácticas.


La estimación de los coeficientes de cualquier regresor que no
varia en el tiempo, xi, tales como la variable género, raza, etc., no
es posible absorbela dentro de algún efecto especifico en
particular.

Los coeficientes de regresión que varían en el tiempo son


estimables, pero las estimaciones pueden ser imprecisas si la
variación en el modelo panel en su mayoría corresponde al
componente de corte transversal (efecto between) sobre las
variables de tiempo.

La predicción de la media condicional no es posible. Únicamente


cambios en la media condicional causados por cambios en
regresores que cambien en el tiempo, xit, pueden ser
pronosticados.

Regresores de coeficientes que varían en el tiempo pueden ser


difícil o teóricamente imposible de identificar en modelos no
lineales con efectos fijos, por esta razón se utilizan efectos
aleatorios (RE).

La decisión acerca de la estructura apropiada reconociendo el


hecho de incorporar efectos individuales no observados para el
análisis sobre una base de datos panel, es decir, efectos fijos (FE)
o efectos aleatorios (RE) depende en parte de los siguientes
aspectos:
1. Objetivos del estudio. Si se desea hacer inferencia con
respecto a la población, es decir, trabaja con una muestra
aleatoria, lo mejor es utilizar una especificación del tipo

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 213

aleatorio. En caso, si el interés es limitado a una muestra


que se ha seleccionado a conveniencia, o bien, que se está
trabajando con la población, la estimación de efectos fijos
(FE) será la correcta.

Adicionalmente, si el interés particular está puesto en los


coeficientes de las pendientes (β) de los parámetros, y no
tanto en las diferencias individuales, se debería elegir un
método que relegue estas diferencias y tratar la
heterogeneidad no observable como efectos aleatorios.

El modelo de efectos fijos se ve como un caso en que hace


inferencia condicionada a los efectos que ve en la muestra.
El modelo de efectos aleatorios hace inferencia condicional
o marginal respecto a una población. Se deja al investigador
que decida si hace inferencia con respecto a las
características de una población o solo respecto a los efectos
que están en la muestra.
2. El contexto de los datos, es decir, cómo fueron obtenidos y
el entorno de donde provienen. Con el método de efectos
fijos (FE) la heterogeneidad no observable se incorpora en
el intercepto del modelo, mientras con el modelo de efectos
aleatorios (RE) se incorporan en el término de error, por lo
cual, modifica la matriz de covarianza del modelo.
3. Emplear un modelo de efectos fijos (FE) o aleatorios (RE)
genera diferencias en las estimaciones de los parámetros en
los casos en que se cuenta con ventanas de tiempo acotadas
o T pequeño y un número de entidades o individuos cada
vez mayor o paneles cortos (N→∞ y T ̅).

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 214

En estos casos, debe hacerse uso más eficiente de la información


para estimar esa parte de la relación de comportamiento
contenida en las variables que difieren sustancialmente de un
individuo a otro.

PRUEBA DE HAUSMAN
Esta prueba permite determinar qué modelo es el más adecuado
para una estructura de datos panel, si efectos fijos (FE) o efectos
aleatorios (FE).

Utiliza para ello una prueba χ2 con la hipótesis nula (H0)


afirmando que el modelo de efectos aleatorios (RE) es el que
mejor explica la relación de la variable dependiente (yit) con las
explicativas (xit), por tanto, tiene la hipótesis alternativa (H1)
que el mejor método que se ajusta es el de efectos fijos (FE).

Para efectuar la prueba es necesario elegir el método de


estimación de un modelo one way, el cual juega un papel
importante ya que puede incorporar la existencia de correlación
entre regresores (xit) y los términos de error (endogeneidad).

Por tanto, resulta arriesgado suponer que tal correlación no


existe, es decir, que E[uit|xit]=0, puesto que uit=μi+ϵit contiene
un individual no observado, que puede estar correlacionado con
los regresores xit, por tanto, conducir a estimadores
inconsistentes.

Cuando E[μi|xit]≠0 el estimador OLS para efectos fijos (FE) es


consistente. Si se desea efectuar hipótesis nula para demostrar lo
anterior se tiene que:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 215

H0: [μi|xit]=0
H1: [μi|xit]≠0

Para este caso, tanto OLS como y FGLS son consistentes, siendo
FGLS el estimador lineal insesgado de varianza mínima.

El contraste de Hausman se utiliza para analizar la posible


correlación entre los efectos no observados que difieren entre los
individuos (μi) y los regresores, xit, de este modo, poder decidir
entre una estimación por efectos fijos (FE) o efectos aleatorios
(RE).

La prueba de hipótesis planteada es la siguiente:


H0: E[μi|xit]=0 El modelo de efectos aleatorios (RE) es el que
mejor explica la relación de la variable
dependiente con las explicativas.
H1: E[μi|xit]≠0 El modelo de efectos (FE) fijos es el que
mejor explica la relación de la variable
dependiente con las explicativas.

El estadístico de Hausman tiene la siguiente forma:

Como se puede observar, QFE,RE es el cociente del cuadrado de la


diferencia entre los dos estimadores de los parámetros 𝛃̂ de los
efectos fijos (FE) y aleatorios (RE) multiplicados por la
diferencia entre las varianzas de éstos.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 216

Así, bajo la hipótesis nula H0, donde existe independencia del


efecto individual no observado (μi) y los regresores, tanto en el
modelo de efectos fijos (FE) como para efectos aleatorios (RE)
por estimación FGLS son consistentes.

Por tanto, deben tender al mismo valor cuando NT→∞, de modo


que la diferencia entre los estimadores debe ser pequeña.

Puesto que el estimador 𝛃̂RE es más eficiente que 𝛃


̂FE, implica que
la varianza del primer estimador es pequeña en comparación del
segundo estimador, por tanto, la diferencia entre las varianzas
debe ser grande.

La combinación de ambas características dará como resultado un


valor del estadístico QFE,RE cercano a cero (0), por tanto, sea
necesario rechazar la hipótesis nula.

Si, por el contrario, H0 no es cierta, es decir, no existe


independencia del efecto individual no observado (μi) y los
regresores, entonces el estimador por efectos fijos, 𝛃 ̂FE, es
̂RE, lo es.
inconsistente pero el estimador de efectos aleatorios, 𝛃

De este modo, debe existir una diferencia positiva y significativa


̂FE-𝛃
entre los valores de estos estimadores (𝛃 ̂RE). Esto implicará
que el valor del estadístico QFE,RE será alto rechazando la
hipótesis nula (Greene 2005).

Hausman y Taylor (1981) demostraron como la misma hipótesis


puede ser contrastada utilizando cualquier par de diferencias

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 217

̂FGLS-𝛃
𝛃 ̂FE o 𝛃
̂FGLS-𝛃
̂BE donde 𝛃
̂BE es el estimador de 𝛃
̂ mediante
estimación entre grupos o between.

La distribución de la prueba, con sus correspondientes grados de


libertad, para efectuar el contraste de la hipótesis nula, H0,
converge a una χ2NT .

Para el modelo de dos factores (two way), la prueba de Hausman


se basa igualmente en la diferencia entre el estimador de efectos
aleatorios por FGLS, 𝛃̂RE, y el estimador de efectos fijos, 𝛃
̂FE, con
variables dummy individuales (αi) y de tiempo (δt), sólo que la
equivalencia de los contrastes intercambiando los estimadores
̂FGLS, 𝛃
𝛃 ̂FE, 𝛃
̂BE no se mantiene en este caso, aunque otro tipo de
equivalencias han sido establecidas (Baltagi 2001).

CONTRASTES DE PENDIENTES IGUALES


Otra pregunta que se plantea en el análisis de datos panel es si
en necesario plantear un modelo donde las respuestas para
todos los individuos son iguales como, yit=αi+xitβ+uit, donde
todos los coeficientes de pendiente, β, son similares para todos
los individuos y para todos los periodos (modelo restringido)

O por el contrario, incluir una pendiente diferente para cada


individuo, μi, o para cada periodo de tiempo, δt, (modelo no
restringido), de modo que se tendría una ecuación de regresión
para cada individuo i-esimo de la siguiente forma:
yit=xitβi+uit

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 218

En este caso, la prueba de hipótesis radica en la decisión de


agrupar las respuestas de regresores, xit, vistos a través de los
parámetros de pendiente, β, para todos los individuos i-esimos.

O mejor, probar si las respuestas difieren entre individuos o no,


de modo que:
H0: βi=β ∀i=1,2,…..,N
H1: βi≠βj ∀i≠j

Si el término de error uit se distribuye N(0,σ2I), de forma


homocedastica, se puede construir el siguiente estadístico:

Donde e=(INT-X(XtX)-1Xt)y y ei=(IT-Xi(𝐗 ti 𝐗 i )-1𝐗 ti )yi, que es


precisamente una prueba F o test de Chow extendido al caso de
N regresiones lineales.

La distribución de la prueba, con sus correspondientes grados de


libertad, para efectuar el contraste de la hipótesis nula, H0,
converge a una F(N-1)(K+1),N(T-K-1).

Para el caso con distribución de los errores uit heterocedastica, es


decir, cuando uit se distribuye N(0,Ω) , el estadístico F extendido
o de Chow no sigue una distribución F, y no es correcto utilizar
este test.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 219

En este caso, si se puede escribir Ω=σ2Σ, basta con


−1/2
premultiplicar por 𝚺 las variables en el modelo yit=xitβi+uit y
aplicar al modelo transformado el test de Chow anterior.

El estadístico F para la prueba de Chow en el modelo


transformado contiene en su expresión la matriz de covarianzas
Σ, de modo que cuando ésta no es observable se deberá utilizar
un estimador consistente de Σ.

La distribución de la prueba, con sus correspondientes grados de


libertad, para efectuar el contraste de la hipótesis nula, H0,
también converge a una F(N-1)(K+1),N(T-K-1).

CONTRASTE DE EFECTOS INDIVIDUALES Y DE TIEMPO EN


MODELOS DE COMPONENTES DE ERROR DE DOS FACTORES
(TWO WAY)
Un modelo de regresión de componentes de error de dos
factores (two way) incluye, además de un efecto individual
invariante en el tiempo, αi, un efecto común a todos los
individuos el cual captura efectos temporales o
macroeconómicos no observables, δt, en el componente de error
uit31. El modelo de regresión, es por tanto:
yit=αi+xitβ+δt+ϵit
El modelo de estimación entre grupos (within groups) conlleva
tomar promedios aritméticos en la ecuación anterior, tanto en
los individuos como en el tiempo, y transformar el modelo
anterior en:
yit-y̅i-y̅t+y̅=(x̅it-x̅i-x̅t+x̅)tβ+(ϵit-ϵ̅i-ϵ̅t-ϵ̅)
31El componente de intercepto para los individuos αi y el componente estocástico puro, ϵit, tienen los mismos supuestos que en el modelo de un
solo factor (one way), además, δt~(0,σ2ϵ ) es una vaiid para todo t y αi, δt y ϵit son independientes para todo i,j,t.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 220

En este modelo de componentes de error de dos factores (two


way) puede también contrastar la significancia conjunta de las
variables dummies ejecutadas en la estimación por mínimos
cuadrados de variables dummy (LSDV), de forma similar a como
se indicó para los modelos de un solo factor (one way), para dos
los grupos de variables no observadas, individuos (i) y tiempo
(t). De este modo, la prueba de hipótesis del modelo de dos
factores (two way) se puede expresar como:
H0: α1=α2=α3=…=αk=0 y δ1=δ2=δ3=………=δT=0
H1: αi ≠0 ∀ i∈N o δ j ≠0 donde j∈T

El estadístico de contraste para este caso es:

Donde el RSSR es la suma de cuadrados de residuos (Residual


Sum of Squares) de la regresión que se obtiene de la estimación
OLS en el modelo agrupado y el RSSU es la suma de los cuadrados
de los residuos de la regresión entre grupos (within groups)
sobre la ecuación transformada por promedios aritméticos.

La distribución, con sus correspondientes grados de libertad,


para efectuar el contraste de la hipótesis nula, H0, converge a una
FN+T-2,(N-1)(T-1)-K.

Dada la estructura anterior de contraste de hipótesis, es posible,


además, efectuar pruebas de no tener efectos individuales
(αi=0), dada la existencia de efectos temporales (t), es decir:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 221

H0: α1=α2=α3=…=αk=0 tal que δj≠0 donde j∈T


H1: αi ≠0 ∀ i∈N o δ j ≠0 donde j∈T

En este caso, la suma de cuadrados de residuos de la regresión,


RSSR, incluye únicamente los componentes no observados
temporales en la regresión:
yit-y̅i-y̅t+y̅=(x̅it-x̅i-x̅t+x̅)tβ+(ϵit-ϵ̅i-ϵ̅t-ϵ̅)

Mientras que la suma de cuadrados residuales de la regresión


within, RSSU. La distribución, con sus correspondientes grados
de libertad, para efectuar el contraste de la hipótesis nula, H0,
converge a una F(N-1),(N-1)(T-1)-K.

Obsérvese la diferencia entre la construcción de las pruebas de


hipótesis nula, contrastando efectos individuales en los modelos
de un solo factor (one way) y dos factores (two way):
H0: αi=0 i=1,2,…,N suponiendo que δt=0 para
t=1,2,….,T (One way)
H0: αi=0 i=1,2,…,N sabiendo que δt=0 para
t=1,2,….,T (Two way)

Mientras en el primero caso realiza una prueba de


heterogeneidad entre los individuos a través del intercepto
(αi=0) donde supone un efecto temporal, en el segundo caso
sabe de la existencia del efecto del tiempo (t) dentro de la
estructura de datos panel.

Esta es una diferencia radical en la construcción y el contraste de


la prueba hipótesis.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 222

De forma análoga, se puede efectuar el contraste de hipótesis de


la significancia de efectos temporales (t) conociendo de
antemano la existencia de efectos de heterogeneidad individual
(αi≠0), donde se puede plantear la prueba:
H0: δ1= δ2=…………= δT= 0 sabiendo que αi≠0
H1: δj≠0

Donde la suma de cuadrados de residuos de la regresión, SSRR,


está dado por la regresión de la forma yit-yit-1=(xit-xit-1)tβ+(ϵit-ϵit-
1) y suma de cuadrados residuales de la regresión entre grupos
(within groups) procede de la regresión yit-y̅i-y̅t+y̅=(x̅it-x̅i-
x̅t+x̅)tβ+(ϵit-ϵ̅i-ϵ̅t-ϵ̅).

La distribución, con sus correspondientes grados de libertad,


para efectuar el contraste de la hipótesis nula, H0, converge a una
F(T-1),(N-1)(T-1)-K.

VI. DATOS PANEL EN STATA


Se muestran las siguientes salidas con su correspondiente
análisis en el programa STATA.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 223

Estimador de efectos fijos (FE)


Sobre cada una de las salidas para el modelo FE se hace una
breve descripción de los conceptos y principales resultados.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 224

Estimador de efectos aleatorios (RE)


Sobre cada una de las salidas para el modelo RE se hace una
breve descripción de los conceptos y principales resultados.

Prueba de Multiplicadores de Lagrange (LM)


La prueba LM permite decidir entre una regresión de efectos
aleatorios (RE) o por OLS. Es una prueba de Poolability.

La hipótesis nula de la prueba LM expone que las diferencias a


través de individuos es cero. Esto es, no hay una diferencia
significativa entre unidades (es decir, no afecta el panel). Frente
a la alternativa que hay una diferencia significativa entre las
unidades (es decir, afecta el panel)

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 225

H0: σ2α =0 (No existe un efecto individual no observado)


H1: σ2α ≠0 (Existe un efecto individual no observado)

Prueba de Hausman
Para decidir entre FE o RE se utiliza la prueba de HAUSMAN
donde la hipótesis nula radica en que el modelo a utilizar es
efectos aleatorios (RE) contra la alternativa de efectos fijos (FE).

La prueba en el modelo trasfondo determina estadísticamente


sobre los términos de error (Ui) si están correlacionados con los
regresores contra su hipótesis que no.

Es una prueba de exógeneidad entre los efectos individuales no


observdos y los términos de error.

Para efectuarla se implementa un modelo de efectos fijos (FE) y


se almacena las estimaciones. Luego se ejecuta un modelo de

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 226

efectos aleatorios (RE) y se almacena las estimaciones. Después


se ejecuta la prueba.

H0: Efectos individuales no observados (αi) están no


correlacionados con los regresores. Se utiliza un modelo RE
H1: Efectos individuales no observados (αi) están
correlacionados con los regresores. Se utiliza un modelo FE.

Hausman demostró que la diferencia entre los coeficientes de


efectos fijos y aleatorios (βFE-βRE) puede ser utilizada para
probar la hipótesis nula que los términos de error ui y las
variables X no están correlacionadas.

Así pues, la hipótesis nula de la prueba de Hausman parte de los


estimadores de efectos aleatorios (βRE) y de efectos fijos (βFE) no
difieran sustancialmente.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 227

Si se rechaza la hipótesis nula, Ho, los estimadores difieren, y la


conclusión es efectos fijos (βFE) es más conveniente que efectos
aleatorios.

Si no se puede rechazar Ho, no existe sesgo de qué preocuparse y


es preferible efectos aleatorios que, al no estimar tantas
dummies, es un modelo más eficiente.

DIAGNÓSTICO Y ESPECIFICACIÓN DE MODELOS PANEL EN STATA

REGRESIÓN AGRUPADA (POOLED OLS)


El enfoque restringido de análisis de datos panel es omitir las
dimensiones del espacio y el tiempo de datos agrupados y sólo
calcular la regresión OLS. Este modelo se expresa:
Yit    1 X 1it   it (1)

Donde se encuentra la i-ésima unidad transversal en el periodo


t-esimo. Si se trata de explicar la variable respuesta o
dependiente con las variables independientes de la forma:

reg spend dem* divgov dis1 persinc* aper* popul*

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 228

EFECTOS ALEATORIOS (RANDOM EFFECTS)


El primer modelo (ecuación 1) supone el intercepto de la
regresión es la misma para todos los individuos. Sin embargo, es
probable que se necesite controlar el efecto individual.

El modelo RE permite suponer que cada unidad transversal tiene


un intercepto diferente. Este modelo se expresa como:
Yit  i  1 X1it   it (2)

Donde αi= μ+εi. Es decir, se supone una variable aleatoria con


un valor esperado α y una desviación vi. Sustituyendo en (2) se
obtiene:
Yit    1 X1it  i   it
(3)
Stata estima el modelo de efectos aleatorios con el comando

xtreg spend dem* divgov dis1 persinc* aper* popul*, re

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 229

Si se analiza el modelo anterior (ecuación 3), se observa que si la


varianza de μi es igual a cero, es decir, σ2u =0, entonces no existe
ninguna diferencia relevante entre el modelo pooled (ecuación
1) y el modelo de efectos aleatorios (ecuación 3).

¿Cómo se puede determinar si es necesario utilizar el modelo de


efectos aleatorios (RE) o de datos agrupados (pooled)?

Breusch y Pagan formularon la prueba conocida como Prueba de


Multiplicador de Lagrange (LM) para efectos aleatorios (RE) la
cual en su hipótesis nula, Ho, afirma que no existe un efecto
individual no observado, (H0: σ2α =0), frente a la alternativa de
existe un efecto individual no observado (H1: σ2α ≠0).

La prueba de Breusch y Pagan se implementa en Stata con el


comando xttest0 después de la estimación de RE.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 230

xttest0

Con el p-value y la probabilidad que se encuentra en la región de


rechazo indica que se puede rechazar la hipótesis nula Ho de “no
existen efectos individuales no observados”. Por lo tanto, los
efectos aleatorios (RE) son significativos y es preferible utilizar
este método en vez del procedimiento agrupado (pooled).

EFECTOS FIJOS (FIXED EFFECTS)


¿Cómo se puede permitir que el intercepto varíe con respecto a
cada individuo? Existen dos opciones. La primera, utiliza el
modelo LSDV por el cual estima una dummy para cada individuo
de la siguiente manera:
Yit  i  1 X1it  eit (4)
Stata utiliza el comando:
xi: reg spend dem* divgov dis1 persinc* aper* popul* i.stcode

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 231

La segunda utiliza el estimador within con el comando xtreg.


xtreg spend dem* divgov dis1 persinc* aper* popul*, fe

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 232

¿Cuál de los modelos pooled (ecuación 1) o de efectos fijos


(ecuación 4) es el apropiado?

El modelo pooled (1) esta restringido, pues asume un intercepto


común para todos los individuos. Por lo tanto, para compararlo
con un modelo de efectos fijos (FE) estimados por LSDV se
puede utilizar una prueba estadística tipo F.

La prueba plantea la hipótesis nula como Ho: d1=d2=…..=di=0. Es


decir, todas las variables dicotómicas son iguales cero frente a la
alternativa, Ha, al menos una variable dicotoma es distinta de
cero.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 233

Si la prueba se rechaza, significa que al menos una variable


dicotómica es distinta de cero. Por tanto, es necesario utilizar el
método de efectos fijos (FE).

La prueba F de significancia de los efectos fijos (FE) se reporta


automáticamente con el comando xtreg, fe. Al final de la salida de
la estimación de efectos fijos (FE) aparece:

El p-value indica que se puede rechazar la hipótesis nula, Ho, de


“todos los coeficientes son iguales al cero” por lo que es
preferible utilizar el método de FE frente al modelo agrupado.

EFECTOS FIJOS vs. ALEATORIOS


Las pruebas de Breusch y Pagan para efectos aleatorios, y la
prueba F de significancia de los efectos fijos indican que tanto el
modelo de efectos aleatorios (RE) como el de efectos fijos (FE)
son adecuados frente al modelo agrupado (pooled) o determinar
estadísticamente si se incorporan o no los efectos indivuales no
observados.

¿Pero cómo decidir cuál de los dos usar? La respuesta depende


de la posible correlación entre el componente de error individual
vi y las variables explicativas X.

La prueba de Hausman se implementa en Stata después de la


regresión con efectos aleatorios con el comando hausman:
xtreg spend dem* divgov dis1 persinc* aper* popul*, fe

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 234

estimates store FIXED


xtreg spend dem* divgov dis1 persinc* aper* popul*, re
estimates store RANDOM
hausman FIXED RANDOM

En este ejemplo, se rechaza la hipótesis nula. Es decir, la


diferencia entre los coeficientes de efectos aleatorios (RE) y fijos
(FE) sí es sistemática. Por lo tanto, conviene utilizar el método
de efectos fijos (FE).

EFECTOS TEMPORALES (TWO-WAY FIXED EFFECTS).


La incorporación de variables dicotómicas permite modelar
características de unidades transversales que no cambian en el
tiempo pero que sí afectan el resultado de interés.

Ahora bien, también, de forma indirecta, es posible agregar


variables dicotómicas temporales al modelo. Es decir, una para
cada año en la muestra, que capturen eventos comunes a todas
las entidades durante un período u otro.

Agregando efectos temporales, la ecuación (4) se transforma en:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 235

Yit  vi   t  1 X 1it   it (5)

Donde δt representa un vector de variables dicotómicas para


cada año.

Estas variables dicotómicas permitirán controlar por aquellos


eventos a los que fueron sujetos todos los individuos en un año
dado y, al igual que los efectos fijos, pueden reducir sesgos
importantes.

En Stata se pueden incorporar efectos temporales al modelo de


efectos fijos con el comando xi.

xi: xtreg spend dem1 demmaj1 demgov divgov dis1 persinc*


aper* popul* i.year, fe

(Producto omitido por tamaño)

O bien, generando tanto las dummies de estado como de año,

xi: reg spend dem1 demmaj1 demgov divgov dis1 persinc* aper*
popul* i.stcode i.year

(Producto omitido por tamaño)

Al igual que con los efectos por individuos, se puede realizar una
prueba F para conocer la significancia conjunta de las variables
dicotómicas temporales en el modelo.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 236

La hipótesis nula parte de δ1= δ2=…..=δn=0. En este ejemplo,


luego de estimar un modelo con efectos fijos por individuo y
tiempo, se indica en la ventana de comando:

testparm _Iyear_1951 - _Iyear_1989

El p-value de la prueba F indica que rechaza la hipótesis nula, Ho,


por lo que es posible afirmar que las variables dicotómicas
temporales son conjuntamente significativas y pertenecen al
modelo.

PRUEBAS SOBRE LA ESTRUCTURA DEL MODELO PANEL


Es importante señalar que aun cuando se ha intentado modelar
la heterogeneidad temporal y espacial, la ecuación (5) puede
estar mal especificada en otros aspectos.

De acuerdo con los supuestos de Gauss-Markov, los estimadores


OLS son BLUE o MELI siempre y cuando los términos de errores,
εit, sean independientes entre sí y se distribuyan idénticos con
varianza constante σ2.

Con frecuencia estas condiciones son violadas en datos panel.

HETEROSCEDASTICIDAD
Cuando la varianza de los errores de cada unidad transversal no
es constante, se encuentra con una violación de supuestos
iniciales de la estructura de estimación panel.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 237

ESTRUCTURA DE LOS TÉRMINOS DE ERROR

Una forma de saber si la estimación tiene problemas de


heteroscedastidad es a través de la prueba del Multiplicador de
Lagrange de Breusch y Pagan.

Sin embargo, de acuerdo con Greene (2005), ésta y otras


pruebas son sensibles al supuesto sobre la normalidad de los
errores.

Afortunadamente, la prueba Modificada de Wald (WALD*) para


Heterocedasticidad funciona aún cuando dicho supuesto es
violado.32

La hipótesis nula de esta prueba parte de no existe problema de


heteroscedasticidad, es decir, σ2i =σ2 para todo i=1…N, donde N
es el número de unidades transversales.

32 Para una discusión sobre esta prueba, consulta Greene, W. 2000. Econometric Analysis. Upper Saddle River, NJ: Prentice Hall, p. 598.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 238

Naturalmente, cuando la hipótesis nula, Ho, se rechaza, se tiene


un problema de heteroscedasticidad. Esta prueba puede
implementar en Stata con el comando xttest3 después de estimar
el modelo de efectos fijos:

xtreg spend dem* divgov dis1 persinc* aper* popul*, fe


xttest3

La prueba indica que se rechaza la hipótesis nula, Ho, de


varianza constante y no se rechaza la hipótesis alternativa Ha de
heteroscedasticidad.

CORRELACIÓN CONTEMPORÁNEA
Las estimaciones en datos panel pueden tener problemas de
correlación contemporánea si las observaciones de ciertas
unidades están correlacionadas con observaciones de otras
unidades en el mismo periodo de tiempo.

Como se observó en la sección sobre heterogeneidad, las


variables dicotómicas de efectos temporales se incorporan al
modelo para controlar los eventos que afectan por igual a todas
las unidades en un año dado.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 239

La correlación contemporánea es similar, pero con la posibilidad


de algunas unidades estén más o menos correlacionadas que
otras.

El problema de correlación contemporánea se refiere a la


correlación de los errores de al menos dos o más individuos en el
mismo periodo t.

En otras palabras, se tienen errores contemporáneamente


correlacionados si existen características no observables de
ciertos individuos que se relacionan con las características no
observables de otros individuos.

Por ejemplo, errores de dos individuos pueden relacionarse pero


mantenerse independientes de los errores de los demás.

El comando xttest2 de Stata ejecuta la prueba de Breusch-Pagan


para identificar problemas de correlación contemporánea en los
residuales de un modelo de efectos fijos.

La hipótesis nula, Ho, afirma la existencia de independencia


transversal (cross-sectional independence). Es decir, los errores
entre unidades son independientes entre sí.

La prueba de hipótesis parte de determinar la matriz de


correlación de los residuales, obtenida sobre las observaciones
comunes a todas las unidades transversales, e identificada como

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 240

una matriz identidad de orden N, donde N es el número de


individuos33.

Si la hipótesis nula Ho se rechaza, entonces existe un problema


de correlación contemporánea. El comando xttest2 se
implementa después de un modelo de efectos fijos (FE). En este
ejemplo:
xtreg spend dem* divgov dis1 persinc* aper* popul*, fe
xttest2

Breusch-Pagan LM test of independence: chi2(1081) =


4106.551, Pr = 0.0000
Based on 17 complete observations

El p-value del estadístico χ2 indica que se puede rechazar la


hipótesis nula. Por tanto, también es necesario corregir el
problema de correlación contemporánea.

AUTOCORRELACIÓN
La independencia se viola cuando los errores de diferentes
individuos están correlacionados (correlación contemporánea),
o cuando los errores dentro de cada individuo se correlacionan
temporalmente (correlación serial) o ambos.

En este ejemplo, es muy probable que el nivel de gasto (spend)


en t esté asociado con el nivel de gasto (spend) en t-1.

33 Para una discusión de esta prueba, consulta Greene, W. 2000. Econometric Analysis. Upper Saddle River, NJ: Prentice Hall, p. 601.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 241

Existen muchas maneras de diagnosticar problemas de


autocorrelación.34

Sin embargo, cada una de estas funciona bajos ciertos supuestos


sobre la naturaleza de los efectos individuales.

Wooldridge desarrolló una prueba flexible basada en supuestos


mínimos. La hipótesis nula de esta prueba parte de la no
existencia de autocorrelación. Naturalmente, si se rechaza, se
puede concluir que ésta sí existe.35

El método de Wooldridge (2002) utiliza los residuos de una


regresión de primeras diferencias, observando que si los
términos de error, εit, no está serialmente correlacionados,
entonces la correlación entre los errores εit diferenciados para el
periodo t y t-1 es igual a -0.5.

El comando xtserial requiere que se especifiquen la variable


dependiente e independientes del modelo. En este ejemplo:

xtserial spend dem1 demmaj1 demgov divgov dis1 persinc* aper*


popul*, output

34 Muchas de las pruebas que se utilizan para diagnosticar problemas de correlación serial en series de tiempo han sido ajustadas para aplicarse a
datos tipo panel en Stata. Estas pruebas puedes bajarlas por internet del modulo “PANELAUTO” y “PANTEST2” tecleando en la línea de comando:
ssc install panelauto y ssc install pantest2.
35 Para una discusión más amplia de esta prueba, consulta Wooldridge, J. M. 2002. Econometric Analysis of Cross Section and Panel Data.

Cambridge, MA: MIT Press.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 242

La prueba indica que existe un problema de autocorrelación que


es necesario corregir.

Una manera de hacerlo es a través de un modelo de efectos fijos


(FE) con término (ρ) autorregresivo de grado 1 (AR1) que
controla la dependencia del tiempo( t) con respecto a su valor
rezagado (t-1).

El modelo AR1 con efectos fijos se especifica de la manera:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 243

Yit  vi  1 X1it  i   it

Donde 𝛆it=𝛒𝛆it-1+𝛈it, es decir, los errores tienen una correlación


de primer grado, que se determina a partir del coeficiente ρ.

Donde |ρ|<1 y εit es una vaiid con media cero y varianza 𝜎𝜀2 . La
selección del modelo RE o FE utiliza los mimos supuestos que
modelos anteriores sobre el componente individual no
observado (αi).

El comando xtregar de STATA ajusta una regression cuando los


terminos de error tiene un componente autoregresivo de primer
orden.

Este comando ofrece un estimador within para efectos fijos (FE)


y un estimador GLS según Baltagi-Wu36, el cual extiende el
estimador panel proporcionado en Baltagi-Li37 a un caso de
paneles desbalanceados con desigualdad de observaciones.

Ambos estimadores ofrecen distintas estimaciones del


coeficiente de correlación ρ. El modelo AR1 es ejecutable en
Stata de la forma:

xtregar spend dem* divgov dis1 persinc* aper* popul*, fe

36Baltagi, B. H., and P. X. Wu. 1999. Unequally spaced panel data regressions with AR(1) disturbances. Econometric Theory 15: 814–823.
37Baltagi, B. H., and Q. Li. 1991. A transformation that will circumvent the problem of autocorrelation in an error-component model. Journal of
Econometrics 48: 385–393.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 244

¿CÓMO SOLUCIONAR LOS PROBLEMAS DE HETEROGENEIDAD,


CORRELACIÓN CONTEMPORÁNEA, HETEROSCEDASTICIDAD Y
AUTOCORRELACIÓN?
Los problemas de correlación contemporánea,
heteroscedasticidad y autocorrelación examinadas pueden
solucionarse conjuntamente con estimadores de Mínimos
Cuadrados Generalizados Factibles (Feasible Generalizad Least
Squares ó FGLS), o con Errores Estándar Corregidos para Panel
(Panel Corrected Standard Errors ó PCSE).38

38Para una introducción técnica pero fácil de entender sobre las propiedades de FGLS y PCSE, ver: Nathaniel Beck, “Time-Series-Cross-Section
Data: What Have We Learned in the Past Few Years?”, Annual Review of Political Science, 4: 271-93 (2001).

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 245

Beck y Katz (1995) demostraron que los errores estándar de


PCSE son más precisos que los de FGLS. Desde entonces,
distintos trabajos utilizan PCSE en sus estimaciones para panel.39

En este ejemplo sobre el gasto estatal, se han detectado


problemas de heteroscedasticidad, correlación contemporánea y
autocorrelación. Para corregir estos problemas se ejecuta:

El comando de STATA xtpcse calcula estimaciones panel


corregidas por desviación estándar (PCSE) para modelos panel
donde los parametros son estimados por regresión de la forma
Prais-Winten. Cuando se calculan los errores estándar de la
matriz de covarianza se suponen provienen de paneles
correlacionados contemporáneamente y heterocedasticos.

xi: xtpcse spend dem1 demmaj1 demgov divgov dis1 persinc*


aper* popul* i.stcode i.year, correlation(ar1)

(Producto omitido por tamaño)

ó también el comando:

xi: xtgls spend dem1 demmaj1 demgov divgov dis1 persinc* aper*
popul* i.stcode i.year, panels (correlated) corr(ar1)

(Producto omitido por tamaño)

39 Hasta la fecha, el debate entre FGLS y PCSE continúa, y ya se han desarrollado algunos métodos alternativos. Para propósitos de este curso, vale
la pena estimar ambos métodos y comparar resultados.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 246

Un Buen resumen se observa en las dos siguientes tablas. La


primera, presenta la estrucutra metodológica de trabajo y las
pruebas estadosticas a implmentar. La segunda, expone los
comandos mas utilizados bajo distintos supuestos.

METODOLOGIA DE TRABAJO Y PRUEBAS

Stata ejecuta FGLS y PCSE con los comandos xtgls y xtpcse


respectivamente para solucionar estos problemas.

Las opciones que ofrecen estos comandos dependen de los


problemas detectados en las pruebas que se han revisado.

La siguiente Tabla presenta los comandos que se pueden


ejecutar cuando se encuentren con problemas de correlación
contemporánea, heteroscedasticidad, autocorrelación y sus
combinaciones.

Por ejemplo, si las pruebas sólo detectaron problemas de


heteroscedasticidad, entonces los comandos son:
xtgls […] , p(h)
xtpcse […] , het.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 247

Si existen problemas de heterocedasticidad y correlación


contemporánea, entonces los comandos son:
xtgls […] , p(c)
xtpcse […]

COMANDOS DE STATA APLICABLES

Estos comandos no calculan automáticamente efectos fijos (FE),


por lo que en caso de ser necesario, se debe incluir variables
dummy con el comando xi.

MODELOS DE DATOS PANEL NO LINEALES


Los métodos de estimación e inferencia de panel de datos, dadas
sus características, son más complicados que los modelos de
corte transversal o series temporales. Los errores estándar en
las estimaciones de paneles de datos necesitan ser ajustados
debido a que cada periodo de tiempo adicional no es
independiente del periodo anterior, y por tanto, requieren el uso
de modelos más ricos y métodos de estimación más potentes.

PANEL DINÁMICO BINOMIAL NEGATIVA


En algunos casos sobre datos de conteo se demuestra que la
varianza excede la media (Cameron and Trivedi 2005). Para
modelos de datos de conteo panel el propósito es modelar la
sobredispersión a través de la distribución binomial negativa y

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 248

un estimador asociado de los parámetros. El estimador de


Máxima verosimilitud no es consistente cuando las variables
explicativas están en un contexto dinámico o en modelos de
datos panel con variables de conteo como estrictamente
exógenas. Su principal aplicación recae en economía de la salud y
modelos de patentes. En la literatura académica, aunque existen
desarrollos y aproximaciones, en la actualidad no existe una
metodología clara de implementación de modelos paneles
dinámicos sobre datos de conteo modelados binomiales
negativos.

PANEL DINÁMICO TOBIT


La metodología TOBIT trabaja sobre modelos censurados y
truncados de regresión. Este tipo de modelos generalmente
aplica cuando la variable explicativa es continua pero la masa de
probabilidad tiene uno o más puntos restringidos. Dentro de la
literatura se reconocen modelos truncados, cuando las
observaciones se encuentran fuera del rango específico y están
totalmente perdidas dentro de la selección de la muestra, los
modelos censurados, por otra parte, dentro del espacio muestral
se encuentran representado de alguna manera dentro de alguna
de las variables explicativas. La representación de la variable
dependiente es de la siguiente forma:

y ∗ si y ∗ > 0
y={
0 si y ∗ ≤ 0

La metodología de estimación generalmente utiliza técnicas por


máxima verosimilitud (MLE), sin embargo, tiene deficiencias
sobre efectos individuales y observaciones iniciales.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 249

Adicionalmente, tiene una alta complejidad que en algunos casos


lo hace inmanejable (HSIAO Pag. 259). Otros autores Arellano
Bowe, Labeaga (1999) han desarrollado metodologías
alternativas pero no han alcanzado una importante acogida
dentro de la comunidad académica por su complejidad
computacional.

PANEL DINÁMICO POISSON


La metodología XTDINAMPOISSON es un programa que estima
modelos dinámicos de datos de conteo utilizando regresiones de
Poisson en un ambiente agrupado. En el modelamiento de datos
de conteo, donde existe una naturaleza no lineal producida por
resultados de su variable dependiente como discreta y no
negativa (y=m>0), el método generalizado de momentos GMM
es implementado40. Su aplicación principalmente se destina a
las aplicaciones hacia economía de la salud y riesgo operativo.
Esta modelo, con el objetivo de incluir estructuras panel, realiza
el agrupamiento o clustering para la estimación de los
parámetros. Se asume que las observaciones sobre los
individuos provienen de la misma familia (cluster) y están
correlacionados con otros individuos, pero no existe agrupación
entre diferentes clusters. En un contexto panel se puede asumir
que las observaciones sobre el mismo individuo son las mismas
en dos periodos distintos de tiempo. Adicionalmente, se incluye
una estructura panel sobre instrumentos GMM con la selección
de rezagos, en este caso un periodo. Los resultados son
estimadores consistentes en una estructura agrupada. Aunque
esta metodología desarrollada por Hansen (1982) es potente en

40 El estimador de Variables Instrumentales (IV) es un caso especial del Método Generalizado de Momentos (GMM)

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 250

sus resultados, en algunos casos puede generar sesgo, en


particular con muestras pequeñas, regresores altamente
persistentes en su estructura dinámica y cuando los
instrumentos GMM son predictores débiles de las variables
endógenas. Algunos autores resaltan el efecto positivo de el
feedback dinámico sobre el problema de inflación de ceros, y por
tanto, colaborar en la solución de la sobredispersión (Cameron &
Trivedi).

Dentro del programa se incluye una prueba de identificación y el


estadístico de Wald. En relación al primero, en el Contexto GMM,
las restricciones de sobreidentificación pueden ser probadas
empleando el estadístico J de Hansen (1982) que evalúa la
idoneidad del modelo. Rechazar la hipótesis nula implica que los
instrumentos seleccionados no satisfacen las condiciones de
ortogonalidad requeridas para su empleo, con el siguiente
estadístico:

PANEL PROBIT MULTINOMIAL ORDENADO


La metodología REGOPROB es un programa que estima
MODELOS GENERALIZADOS PROBIT ORDENADOS CON
EFECTOS ALEATORIOS. La característica de estos modelos parte
de tomar en la variale dependiente un ordenamiento donde
valores mas altos corresponde a un mayor resultado, es decir, si
se tiene una escala de 1 a 5, 5 es mayor que 4, 4 mayor que 3, y
así sucesivamente. Aplicaciones de estos modelos se encuentran
en medición de bienestar o modelos de riesgo de crédito. El
modelo generalizado relaja el supuesto de regresiones

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 251

paralelas41 sobre modelos probit estándar al soportar


restricciones lineales y permite parcialmente especificar
variables independientes (nl) o de todas las variables
explicativas (pl). La función de verosimilitud para cada unidad
utiliza un método de optimización numérica por cuadratura
Gauss-Hermite42, regoprob es una generalización de goprobit.

VII. VENTAJAS Y DESVENAJAS DEL MODELO DE DATOS


PANELES
La técnica de datos panel presenta una serie de ventajas y
desventajas en comparación con los modelos de series de tiempo
y de corte transversal. Las más relevantes son las siguientes
ventajas:
1. Permite disponer de un mayor número de observaciones
incrementando los grados de libertad y reduciendo la
colinealidad entre las variables explicativas y, en última
instancia, mejorando la eficiencia de las estimaciones
econométricas.
2. Permite capturar la heterogeneidad no observable ya sea
entre unidades individuales de estudio, como en el tiempo.
Con base en lo anterior, la técnica permite aplicar una serie
de pruebas de hipótesis para confirmar o rechazar dicha
heterogeneidad y cómo capturarla.
3. Los datos panel suponen, e incorporan en el análisis, el
hecho que los individuos, firmas, bancos o países son
41 Este supuesto parte que todas las razones de probabilidad (odds ratio) son las mismas evaluando la variable dependiente sobre cualquier valor
de m (y=m). también se conoce como supuesto de proporcionalidad de razones de probabilidad. En términos prácticos, suponga un modelo con
variables de edad y escolaridad. Este supuesto indica que cambios en la edad tiene el mismo efecto sobre las razones de probabilidad que
escolaridad.
42 El método de quadratura Gauss-Hermite, constituye una variante de considerable importancia en la técnica general de interpolación pues

permite optimizar el cálculo efectivo de integrales sobre intervalos incluso infinitos. La principal funcionalidad es la solución eficaz de integrales.
Las Cuadraturas Mecánicas o de Gauss demuestran la existencia de cuadraturas estableciendo su forma explícita para intervalos finitos de
integración. La extensión de estos métodos a intervalos infinitos fue realizada posteriormente por los franceses Legendre, Laguere, Hermite y
otros.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 252

heterogéneos. Los análisis de series de tiempo y de corte


transversal no tratan de controlar esta heterogeneidad
corriendo el riesgo de obtener resultados sesgados.
4. Permite estudiar de una mejor manera la dinámica de los
procesos de ajuste. Esto es fundamentalmente cierto si se
analiza el grado de duración y permanencia de ciertos
niveles, características o efectos (por ejemplo, medidas
regulatorias, pobreza, desempleo, etc.).
5. Permite elaborar y probar modelos relativamente
complejos de comportamiento en comparación con los
análisis de series de tiempo y de corte transversal. Un
ejemplo claro de este tipo de modelos, son los referencias a
medir niveles de eficiencia técnica por parte de unidades
económicas individuales (empresas, bancos, etc).
6. Una ventaja de la metodología de paneles de datos es el
incremento en la precisión de estimación. Este es el
resultado del incremento en el número de observaciones
combinando o agrupando (pooling) distintos periodos de
tiempo para cada individuo. Sin embargo, para validar la
inferencia estadística se necesita controlar la probable
correlación de errores del modelo de regresión sobre el
tiempo para un individuo. En particular, la forma usual de
estimación por mínimos cuadrados de los errores standard
en una regresión agrupada por OLS (pooled) típicamente
exagera las ganancias en la precisión, conduciendo a
subestimar errores estándar y t estadísticos que pueden ser
exagerados.
7. Los datos panel tienen la posibilidad de estimaciones
consistentes del modelo de efectos fijos, los cuales permiten
que la heterogeneidad individual no observada pueda estar

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 253

correlacionada con los regresores (endogeneidad). Tal


heterogeneidad no observada conduce al sesgo por
variables omitidas que debe ser corregido por métodos de
variables instrumentales (IV) utilizando únicamente una
sola sección de corte transversal (t=1), pero en la práctica
es difícil obtener un instrumento válido. Los datos panel
cortos ofrecen un camino alternativo, como se observó
anteriormente, para proceder si un efecto especifico
individual no observado es asumido e invariante en el
tiempo.
8. Proporcionan la posibilidad de generar pronósticos más
acertados para resultados individuales que las series
individuales aisladas. Si el comportamiento individual es
similar sobre ciertas variables, lo datos panel proporcionan
la posibilidad de aprender el comportamiento individual,
observando el comportamiento de otros, adicionalmente, la
información temporal de su comportamiento individual
(variación between y within). De esta forma, es más
ajustada que la utilizada si existiera una descripción del
comportamiento individual obtenida por los datos
agrupados (pooling data).

Desventajas:
1. En términos generales, las desventajas asociadas a la técnica
de datos panel se relacionan con los procesos para la
obtención y el procesamiento de información estadística
sobre las unidades individuales de estudio, cuando esta se
obtiene por medio de encuestas, entrevistas o utilizando
algún otro medio de levantamiento de los datos. Ejemplos
de este tipo de limitaciones son cobertura de la población de

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 254

interés, porcentajes de respuesta, preguntas confusas,


distorsión deliberada de las respuestas, etc., que causa
impacto en la construcción y balanceo de las bases de datos,
errores y variables omitidas.
2. El poder de los datos panel radica en la capacidad de aislar
efectos de acciones específicas, tratamientos o políticas.
Para cumplir con este propósito debe estar condicionado
con la estructura de datos. La información utilizada puede
demostrar cómo cada uno los i-esimos agentes económicos
a través del tiempo (t) pueden ser influenciados desde
diferentes factores, la lista puede ser infinita, de tal forma,
que es necesario permanezcan aquellos factores que se
creen tiene un impacto significativo. Sin embargo, si factores
de efectos individuales o específicos en el tiempo existen
entre los cortes transversales o las series de tiempo no son
capturadas por las variables explicativas puede conducir a
heterogeneidad en los parámetros en la especificación del
modelo. Ignorar tal heterogeneidad conduce a estimaciones
inconsistencias o sin sentido. Esto es conocido como sesgo
de heterogeneidad. Se pueden observar desde dos puntos
de vista (HSIAO 2003).

Caso 1. Interceptos heterogéneos (αi≠αj), pendientes


homogéneas (βi=βj).

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 255

Las elipses con líneas punteadas representan el punto de


dispersión (nube de puntos) para un individuo sobre el
tiempo, y la línea recta punteada representa las regresiones
individuales. Las líneas solidas sirven para demostrar la
regresión por mínimos cuadrados (OLS) ejecutada por el
modelo de panel de datos. Cada una de las figuras 1.1, 1.2 y
1.3., expone un sesgo para la metodología de datos
agrupados (pooled) debido a la heterogeneidad de los
interceptos. En cada uno de estos casos una regresión
agrupada (pooled) ignora la heterogeneidad de los
interceptos, y no debería ser utilizada. Adicionalmente, el
sesgo de la pendiente general estimada, o la línea gruesa, no
puede ser determinada de forma a priori.

Caso 2. Interceptos heterogéneos (αi≠αj) y pendientes


heterogéneas (βi≠βj).

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 256

Los puntos de dispersión, como en las figuras 1.1. y 1.2., no


se muestran y los números en círculos significan las
unidades individuales (i) donde la regresión ha sido
incluida en el análisis. Por ejemplo, en la figura 1.4., un
agrupamiento sencillo de las NT observaciones, asumiendo
parámetros idénticos para todas las unidades de corte
transversal conduciría a resultados sin sentido en razón a
que representaría un promedio de coeficientes que difieren
en gran medida a través de los individuos (i). La figura 1.5.,
tampoco tiene sentido en una figura agrupada, causado por
la falsa inferencia en la relación agrupada (pooled) ya que
su forma es curvilínea para efectuar un adecuad
agrupamiento de los individuos, de este modo, el supuesto
de homogeneidad no tiene sentido.

BIBLIOGRAFIA
Cameron, C. & P. Trivedi. Microeconometrics: Methods &
Applications, Cambridge U. Press, 2005
Hilbe, J. Negative Binomial Regression. 2006
Hsiao, C. Analysis of Panel Data. Editorial: Cambridge University
Press. 2003
Long, J. Scott. Regression Models for Categorical and Limited
Dependent Variables. 1997.
Wooldridge, J. Econometric Analysis of Cross Section and Panel
Data. 2002
Winkelmann, R. Econometric Analysis of Count Data. Springer.
2008.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 257

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 258

ANALISIS DE SERIES DE TIEMPO


UNIVARIADA

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 259

INTRODUCCIÓN
En 1970, Box y Jenkins desarrollaron un cuerpo metodológico
destinado a identificar, estimar y diagnosticar modelos dinámicos
de series temporales en los que la variable tiempo juega un papel
fundamental, conocidos como modelos ARIMA.

La metodología de análisis ARIMA es sólo una pequeña parte de


lo que se conoce normalmente como “Econometría de Series
Temporales” pero, sin duda alguna, una de las más utilizadas y
germen de otros muchos desarrollos posteriores.

Esta metodología permite que los propios datos temporales de la


variable a estudiar indiquen las características de la estructura
probabilística subyacente y ayuden a pronosticar (su meta
principal).

La utilización de modelos ARIMA es principalmente para


pronóstico a corto plazo, descartando la comprensión estructural
del fenómeno o la simulación de escenarios.

Los procedimientos se han contrapuesto a la llamada


“econometría estructural”, es decir, a la especificación de modelos
econométricos apoyada en las teorías subyacentes.

Sin embargo, hoy en día estos conceptos y procedimientos


constituyen una herramienta para apoyar y complementar los
conocimientos econométricos tradicionales que es un modo
alternativo de “hacer econometría”.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 260

COMPOSICIÓN DE PATRONES SISTEMÁTICOS Y ESTOCÁSTICOS


El enfoque de análisis temporal de una serie descansa siempre, en
mayor o menor medida, en la idea genérica que una serie
temporal de datos puede dividirse en componentes parciales que
agregados conforme un esquema de suma o multiplicación y
configuran el aspecto global de la serie observada.

Suele así afirmarse que cualquier serie de datos temporales


proviene de la agregación de cuatro patrones de evolución de sus
datos: tendencia, ciclo, estacionalidad y componente estocástico o
no sistemático.

SERIE COMPUESTA POR TENDENCIA, ESTACIONALIDAD Y


COMPONENTE ALEATORIA

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 261

Ciclo: Patrón de evolución que revela cierta propensión de la serie


a repetir a muy largo plazo una misma secuencia de
comportamientos tendenciales.

Por ejemplo....
Ciclos de crecimiento intertrimestral de la economía americana puede señalarse
que, a principios de 2000, el ciclo económico de crecimiento no había
terminado.

10%
8%
6%
4%
2%
0%
-2%
-4%
1970

1975

1980

1985

1990

1995

2000
Componente de tendencia: Generalmente asociado con el cambio
en la media a lo largo del tiempo. Se identifica la tendencia con el
patrón de evolución sostenido a medio o largo plazo por encima
de la existencia de movimientos a corto plazo.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 262

Por ejemplo....
La representación de los índices bursátiles DOW JONES, IBEX y NIKKEI revelan
en el caso del DOW JONES e IBEX la tendencia de la cotización de los índices ha
sido creciente durante los últimos 15 años y especialmente acelerada desde
mediados de 1995.

Estacionalidad: Patrón de evolución de la serie que se repite de


forma más o menos invariable en momentos similares de espacio
temporal, generalmente un año.

Por ejemplo....
Observando la serie mensual de ventas de artículos de navidad puede comprobarse
como existe una marcada estacionalidad, especialmente en el período de finde año.

250000

200000

150000

100000

50000
1995

1996

1997

1998

1999

2000

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 263

Innovación, componente aleatorio o no sistemático: Porción no


sistemática del comportamiento temporal de una serie, o al
menos movimiento que no puede catalogarse como estacional,
tendencial y/o cíclico.

La idea básica del análisis de series de tiempo consiste en que


cada uno de estos componentes puede ser analizado de forma
separada para posteriormente, agregar los análisis parciales en
un resultado conjunto.

En ocasiones, el análisis se centra sólo en alguno de los


componentes sistemáticos por separado (tendencia,
estacionalidad, ciclo).

En otras ocasiones, como es el caso del modelamiento de series


de tiempo, lo que interesa es ir más allá de los componentes
cíclicos, tendenciales y estacionales, estudiando el componente
no sistemático, de carácter aparentemente aleatorio, para tratar
de identificar algún patrón de interés en su evolución que ayude a
entender la progresión de la serie completa.

Así pues, la aplicación de modelos de series de tiempo suele


realizarse por descomposición, analizando en primer lugar la
tendencia de la serie, pasando después a observar la
estacionalidad y concentrándose después en la identificación del
componente estocástico o no sistemico.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 264

SERIE DE TIEMPO Y PROCESOS ESTOCÁSTICOS


Un proceso estocástico es una sucesión de variables aleatorias Yt
ordenadas, pudiendo tomar t cualquier valor entre el intervalo
abierto (-, ).

Por ejemplo, la siguiente sucesión de variables aleatorias puede


ser considerada como proceso estocástico:
Y -5 , y-4 , y-3 , y-2 ,........ y3 , y4
El subíndice t no tiene, en principio, ninguna interpretación a
priori, aunque si se habla de proceso estocástico en el contexto
del análisis de series de tiempo este subíndice representará el
paso del tiempo.
PROCESO ESTOCASTICO

Definición. Proceso estocástico. Conjunto de variables aleatorias


(Yt)t∈I , donde el índice t toma valores en un conjunto I. Llamamos
trayectoria del proceso a una realización del proceso estocástico.
Si I es discreto, el proceso es en tiempo discreto. Si I es continuo,
el proceso es en tiempo continuo.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 265

Una serie de tiempo es una realización de un proceso estocástico


teórico con valores discretos ajustado a una serie real. El análisis
de series de tiempo tratará, a partir de un modelo teórico inferir
las características de la estructura probabilística subyacente del
verdadero proceso estocástico conocido como proceso generador
de datos (PGD).

Definición. Serie de tiempo. Es la realización de un proceso


estocástico en tiempo discreto donde los elementos de I están
ordenados y corresponden a instantes equidistantes del tiempo.
Es decir:
Si I = {1, . . . , n}, la serie es y1, y2, . . . , yn;
Si I = ℕ, la serie es y0, y1, y2, . . . ,;
Si I = ℤ, entonces la serie es . . . , y−2, y−1, y0, y1, y2....

Una serie temporal describe la evolución aleatoria de una


variable en el tiempo.

PROCESO ESTOCÁSTICO ESTACIONARIO EN SENTIDO FUERTE.


Suponga que cada una de las variables Yt que configuran un
proceso estocástico tendrán su propia función de distribución con
sus correspondientes momentos.

Así mismo, cada conjunto de variables tendrá su correspondiente


función de distribución conjunta y sus funciones de distribución
marginales de probabilidad.

Se dice que un proceso estocástico es estacionario en sentido


estricto o fuerte si las funciones de distribución conjuntas (no
sólo la esperanza, varianzas o autocovarianzas, sino las funciones

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 266

de distribución conjunta de probabilidad completas) son


constantes, o dicho con más propiedad, son invariantes con
respecto a un desplazamiento en el tiempo (variación de t).

Definición. Proceso estocástico estacionario en sentido fuerte. Un


proceso es estacionario en sentido estricto si al realizar un mismo
desplazamiento en el tiempo de todas las variables de cualquier
distribución conjunta finita, resulta que esta distribución que no
varía, es decir:

Para todo conjunto de índices (i1, i2, ..., ir) y todo j.

PROCESO ESTOCÁSTICO ESTACIONARIO EN SENTIDO DÉBIL


La definición de estacionariedad en sentido estricto puede
relajarse sustancialmente utilizando la denominada
estacionariedad en sentido débil. Se dice que un proceso
estocástico es débilmente estacionario si:
a. Las esperanzas matemáticas de las variables aleatorias no
dependen del tiempo, son constantes:
E[ Y t ] = E[ Y t+m ]  m
b. Las varianzas son constantes y no dependen del tiempo (son
finitas):
Var[ Y t ] = Var[ Y t+m ]    m
c. Las autocovarianzas entre dos variables aleatorias del
proceso correspondientes a períodos distintos de tiempo
(distintos valores de t) sólo dependen del lapso de tiempo
transcurrido entre ellas:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 267

Cov( Y t ,Y s ) = Cov( Y t+m ,Y s+m )  m


De esta última condición se desprende que si un fenómeno es
estacionario sus variables pueden estar relacionadas linealmente
entre si, pero de forma que la relación entre dos variables sólo
depende de la distancia temporal k transcurrida entre ellas.

Definición. Proceso estocástico estacionario en sentido débil. Un


proceso estocástico estacionario en sentido débil existe si
mantiene constantes todas las características de sus momentos a
lo largo del tiempo, es decir, si para todo t:

PROCESO ESTOCÁSTICO RUIDO BLANCO (WHITE NOISE)


En este contexto, un proceso ruido blanco es una sucesión de
variables aleatorias (proceso estocástico) con esperanza
matemática nula (cero), varianza constante, y autocovarianzas
nulas para distintos valores de t. Es un caso particular de un
proceso estacionario en sentido débil.

Definición. Proceso estocástico ruido blanco. Es un proceso


estacionario εt que cumple las siguientes características:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 268

Se puede interpretar un proceso estocástico ruido blanco como


una sucesión de valores sin relación alguna entre ellos, oscilando
en torno a una media cero dentro de un margen constante.

Si además yt, proceso estocástico ruido blanco, es un proceso


normalmente distribuido, entonces todas las variables del
proceso son independientes. En este caso, (Yt) se llama ruido
blanco normal o gaussiano.

En este tipo de procesos implica que conocer valores pasados no


proporciona ninguna información sobre el futuro ya que el
proceso es puramente aleatorio, por consiguiente, carece de
memoria, también es conocido como procesos de memoria corta.

GRAFICO. PROCESO RUIDO BLANCO

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 269

PROCESO ESTOCÁSTICO PASEO ALEATORIO (RANDOM WALK)


Suponga un proceso estocastico que se encuentra definido como
un paseo aleatorio y está determinada su forma funcional por:

Este Yt es un tipo de proceso estocástico no estacionario (existen


cambios en su media y varianza a lo largo del tiempo).

Esto implica que el efecto de cualquier suceso que ocurra en el


pasado se queda para siempre impactando la dinámica de la serie,
también es conocido como procesos de memoria larga.

Esta es una diferencia clave respecto a los procesos estacionarios,


donde el impacto de lo ocurrido en el pasado remoto tiende a
desaparecer, en la medida en que los parámetros estimados se
hacen sucesivamente más pequeños.

GRAFICO. PROCESO PASEO ALEATORIO

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 270

Definición. Función de medias. La función de medias de un


proceso estocástico (Yt)t∈I es una función de t que proporciona
las esperanzas de las variables Yt para cada periodo t.

Definición. Función de varianzas. La función de varianzas de un


proceso estocástico (Yt)t∈I es una función del tiempo (t) que
proporciona las varianzas de las series Yt para cada t.

Definición. Función de autocovarianzas. La función de


autocovarianzas de un proceso estocástico (Yt)t∈I es una función
que describe las covarianzas entre las variables del proceso en
cada par de instantes. Por ejemplo:

Definición. Función de autocorrelación. La función de


autocorrelación de un proceso estocástico (Yt)t∈I es una función
de dos instantes que describe las correlaciones entre las
variables en un par de instantes ti, tj∈I cualesquiera i≠j.

Definición. Función de autocorrelación simple (FAS). Es la


función de autocorrelación entre dos variables separadas por h
instantes para series estables en autocovarianza. Se denota por
ρh. Proporciona las correlaciones en función del rezago h.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 271

Definición. Función de autocorrelación parcial (FAP). Mide el


aporte de las variaciones de una variable Yt frente a otra
variable, aislados los efectos de las restantes variables.

Por ejemplo, sea la variable Yt rezagada un periodo, Yt-1. La


función de autocorrelación simple (FAS) ignora el hecho que
parte de la correlación que pueda existir entre yt y yt-2, se debe a
que ambas están correlacionadas con yt-1.

Los coeficientes de autocorrelación parcial de los modelos


teóricos se denotan como ϕKK, y los estimados para la muestra
cómo Φ̂ kk.

ECUACIONES DE YULE-WALKER
Sea el model AR(p) donde se omite la constante por simplicidad
en la exposición:

Suponga el modelo estacionario, si se multiplica cada miembro


por el rezago YT-K se tiene que:

Suponga ahora que E[YtYt-k]=γk y es la autocovarianza entre la


variable t en el periodo t y el periodo k, entonces:

Dividiendo por la varianza del proceso respecto al periodo


actual, es decir, γ0 se tiene que:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 272

Si se tiene k rezagos que pueden ser realizaciones de k=1,2,…,p


se genera un sistema de p ecuaciones lineales:

Ya que existe una condición de simetría dentro de las


correlaciones implica que ρk-j=ρj-k este sistema de ecuaciones
recibe el nombre de ecuaciones de Yule-Walker.

El sistema de ecuaciones anterior puede ser considerando en


términos de coeficientes de autocorrelación ρi.

En particular si en vez de la autocorrelación poblaciona,l ρi, se


dispone de las estimaciones, ρ̂i , puede plantearse el siguiente
sistema de ecuaciones para la estimación de ϕi.

La solución a este sistema de ecuaciones arroja los


̂ que forman la función de autocorrelación parcial
coeficientes Φ
o FAP.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 273

Definición. Matrices de autocovarianzas y autocorrelaciones de


orden h. Las matrices de autocovarianzas y autocorrelaciones de
orden h son:

Matriz de covarianzas Matriz de correlaciones

ANÁLISIS DEL CORRELOGRAMA DE UNA SERIE


Un procedimiento que no requiere la aplicación de ningún
contraste en las series, es el de observar el correlograma de la
misma. Es decir, la representación gráfica de su función de
autocorrelación simple (FAS) y parcial (FAP).

Distintos trabajos, en especial los presentados por Hoskin


(1989), Diebold y Rudebusch y Lo (1991), se han centrado en
analizar las variaciones de las funciones de autocorrelación en
términos del orden de integración d de una serie.

En general, la regla a aplicar será sencilla. Los valores de la FAS o


la FAP de una serie no estacionaria desciende muy suavemente
hacia el cero, mientras que cuando no hay presencia de raíces
unitarias el descenso es exponencial.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 274

Las imágenes que se muestran a continuación corresponden a


series reales de tipo de cambio. La diferencia en el patrón de
evolución sobre un correlograma.

FAS DEL TIPO DE CAMBIO EN COLOMBIA


SERIE ESTACIONARIA SERIE NO ESTACIONARIA

La razón del comportamiento de la FAS y FAP en uno y otro está


en función de las raíces características del polinomio de la
ecuación en diferencias para el proceso estocastico.

De esta forma, si la serie no estacionaria guarda memoria larga


sobre las innovaciones pasadas y recientes (precisamente por
presentar un componente de tendencia), la relación entre dos
valores separados por un lapso de tiempo j-esimo presentarán
necesariamente algún tipo de relación, o sea, los coeficientes de
correlación yt,yt-j tenderán a mantenerse elevados.

Efectivamente, la expresión de la solución de una ecuación en


diferencias de primer orden puede expresarse como:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 275

A partir de las expresiones anteriores puede calcularse el


coeficiente de autocorrelación yt,yt-j para cada caso.

Cuando es una serie estacionaria, el término a1 o correlacion


entre dos periodos de tiempo, y es menor a la unidad fuerza a los
coeficientes de autocorrelación a descender rápidamente hacia
cero en una progresión geométrica de razón a1. La expresión de
la serie de coeficientes de autocorrelación es:

Si existe el caso de series no estacionarias, el término a1 igual a la


unidad, la estructura del proceso tiene la forma:

El cálculo de las correlaciones, sin embargo, es un término lineal


(t-s). La expresión de los coeficientes de correlación es ahora:

Si se representan s rezagos en el caso de procesos


autoregresivos de orden 1, AR(1), por ejemplo, para series
estacionarias, el ritmo de descenso de los coeficientes de
autocorrelación es directo y rápido. Mientras que el caso del
paseo aleatorio (random walk) el descenso es tenue, sobre todo
para las primeras observaciones.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 276

PROCESO DE IDENTIFICACIÓN DE ESTRUCTURA DE REZAGOS


SIGNIFICATIVOS
Basados en la FAS y FAP se puede determinar los órdenes de los
procesos estocásticos basados en las siguientes reglas:

Los procesos AR tienen memoria relativamente larga, ya que el


valor actual está correlacionado con todos los anteriores rezagos,
aunque con coeficientes decrecientes si la serie es estacionaria.

Sin embargo, si se desea analizar procesos de memoria corta


usualmente son utilizados los procesos de media móvil, o
procesos MA, una familia de procesos que tiene esta propiedad.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 277

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 278

Existe una dualidad entre procesos AR y MA, de manera que la


FAP de un MA(q) tiene la estructura de la FAS de un AR(q), y la
FAS de un MA(q) tiene la estructura de la FAP de un AR(q).

Un proceso AR(p) puede escribirse como un proceso MA(∞), es


decir, como suma infinita de innovaciones. De otra parte, un
proceso MA(q) puede expresarse como un AR(∞), es decir, como
suma infinita de valores anteriores de la serie.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 279

FAS y FAP de un modelo ARIMA (1,1)

En concreto, un examen detallado de las funciones de


autocorrelación simple y parcial demuestra que:
a. Un proceso genérico AR(p) muestra un decrecimiento rápido
de los coeficientes de autocorrelación simple (FAS) junto a la
presencia de P coeficientes significativos de autocorrelación
parcial.
b. De forma simétrica, un proceso genérico MA(q) muestra un
decrecimiento rápido de los coeficientes de autocorrelación
parcial (FAP) junto a la presencia de Q coeficientes
significativos autocorrelación simple.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 280

Aunque el aspecto teórico de un AR(p) o un MA(q) es sencillo de


diferenciar, cuando se analizan series temporales reales, la
representación de correlogramas muestrales resulta siempre algo
menos evidente, y por tanto, más confusa. En ese sentido,
conviene observar las siguientes recomendaciones:

a. El análisis de los correlogramas es sólo un análisis


preliminar que después podrá complementarse con medidas
técnicas adicionales por lo que, en todo caso, el correlograma
deberá utilizarse para realizar sólo un juicio preliminar que
después conviene refrendar con otros cálculos.

b. El patrón AR(p) exige la presencia simultánea de un


decrecimiento en la función de autocorrelación simple y (p)
valores estadísticamente significativos en la FAP. De forma
similar, los patrones de un MA(q) deben aparecer también
de forma simultánea.

c. El número p o q de rezagos significativos en la FAP o en la


FAS puede evaluarse en términos estadísticos43 pero en un
primer momento basta observar si los valores de los
coeficientes son gráficamente significativos, es decir, si
presentan un valor evidentemente mayor que el resto de
coeficientes. Los rezagos estadísticamente significativos son
de orden limitado. Un valor aparente significativo en un

43 Bartlett demostró que


ˆ k  N 0, 1 n 
Como para cualquier distribución normal estándar, el intervalo de confianza al 95% es 1,96*DT , pueden calcularse los límites de nulidad de los
“ρ”: cualquiera que se salga de esos límites es estadísticamente distinto de “0” (límites que aparecen dibujados en el correlograma de E-Views)

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 281

orden elevado (salvo en los retardos estacionales), sin que


previamente los anteriores retardos parezcan significativos,
suele indicar alguna atipicidad en la serie, y no un patrón de
interés analítico.

Para la evaluación econométrica, más allá del análisis gráfico de la


FAS y FAP, pueden considerarse criterios estadísticos habituales
como los siguientes:
a. Análisis de la significancia individual de los coeficientes AR y
MA. Para ello puede utilizarse el contraste “t” clásico de
significación estadística individual al modo habitual.
b. Criterios de información (Akaike44 y/o Schwarz45 entre
otros). Recordando que, entre modelos alternativos, se
elegirá aquel con el menor valor del criterio de información.
c. Evaluación de los errores. El análisis de errores clásico de
una regresión puede proporcionar criterios suficientes para
elegir entre posibles modelos alternativos. En este sentido,
pueden utilizarse cualesquiera medidas que resuman. A
proiri el tamaño y sus características (ausencia de trazas
autocorrelacionadas o heterocedásticas, capacidad de ajuste
de los puntos de cambio de tendencia) que permitan intuir
su comportamiento a posteriori.

44 El coeficiente AIC: responde a la expresión:


 e' e 
2k  n ln( L)  2k  n ln  
 n 
2k k  1
Para muestras pequeñas, se propone la versión corregida AICc (muestras pequeñas): AIC 
n  k 1
45 El criterio de Schawrz, denominado generalmente BIC, es algo más exigente que el AICE para la inclusión de nuevas variables y responde a la
 e' e   ln( n) 
expresión ln    k  
 n   n 

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 282

TABLA RESUMEN PROCESO DE IDENTIFICACIÓN

El problema principal de la utilización de este método radica en


el comportamiento de la función de autocorrelación cuando
existe una serie que es no estacionaria esta es extremadamente
similar al del caso de una serie estacionaria en el que la raíz toma
un valor muy cercano a la unidad.

Suponga cuatro (4) correlogramas correspondientes a distintos


valores del coeficiente a1 del proceso teórico:

Donde la sucesión εt ha sido generada idéntica para todos los


casos:

Puede comprobarse como el primero de los casos (paseo


aleatorio) puede confundirse con el resto aun cuando el valor de
a1 esté relativamente alejado de la unidad (ρ=0.95).

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 283

En el gráfico siguiente se puede observarse la similitud entre el


valor del coeficiente de autocorrelación de un AR(1) y el de un
paseo aleatorio para valores muy cercanos a la unidad e incluso,
cómo el ritmo de decrecimiento es más lento para un ρ=0.98
cuando, como en este caso el número de observaciones es 30.

SERIE CON COEFICIENTES DE CORRELACIÓN CERCANOS A LA


UNIDAD Y UN PASEO ALEATORIO

PRUEBA DE AUTOCORRELACION: LJUNG BOX


Despues de la observación del gráfico de la función de
autocorrelación simple y parcial puede completarse el análisis
con el cálculo de contrastes.

Este tipo de prueba estadística permite, después de calculados


los coefeicientes de correlacion simple y parcial, determinar si
cualquiera de un grupo de autocorrelaciones de una serie de
tiempo son diferentes de cero.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 284

El estadístico conocido como Q fue propuesto por Box y Pierce


(1970) y Ljung y Box (1978). Los estadísticos calculados son:

Q de Box-Pierce

Q de Ljung-Box

En ambos casos, la hipótesis a contrastar radica en que los p


primeros coeficientes de autocorrelación calculados ρj son
iguales a cero. El escalar T será igual al número total de
coeficientes de correlación representados en el correlograma.
H0: ρj =0
H1: ρj ≠0
Estos contrastes se distribuyen como una χ2 con (T-k) grados de
libertad.

Su aplicación se puede ver en dos partes. La primera, si se están


observando las pruebas directamente sobre una serie, no para
los residuos de un modelo, los grados de libertad de la χ2 serán
entonces p rezagos que corresponde al proceso de identificación.

En segundo lugar, aplicarlos sobre los residuos de un modelo


ARIMA previamente estimado, con técnicas que se expondrán
posteriormente, para saber si se está ante un proceso ruido
blanco o no, en este caso el parámetro k toma el valor de los
coeficientes estimados de ese modelo ARIMA.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 285

Si el estadístico supera el p-valor se rechaza la hipótesis nula de


los p primeros coeficientes son significativamente nulos.

Salida Prueba Ljung-Box

La PAC muestra la El estadístico de prueba Ljung- Grafica la AC la cual Grafica la PAC la cual no
La AC muestra la correlación
correlacion entre el valor Box parte de la hipótesis nula demuestra un lento muestra picos después del
entre el valor corriente de
corriente de unemp y su que todos los coeficientes de decaimiento en la segundo rezago lo cual
unemp y el valor 3 trimestres
valor tres trimestres atrás es correlación superiores al tendencia, siguiriendo no muestra que los otros
atrás es 0.8045. AC puede ser
0.1091 sin el efecto de los rezago k son iguales a cero, estacionareidad dentro rezagos son espejos del
utilizado para definir el
dos periodos previos. PAC Esta serie muestra del proceso estocastico. segundo rezago.
modelo MA(q) únicamente si
puede ser utilizado para autocorrelación significativa en
la serie es estacionaria.
definir el modelo AR(p) el valor Prob>Q el cual en
únicamente en series cualquiera es menor que 0.05,
estacionarias por lo tanto, rechaza la
hipótesis nula que todos los
rezagos son no
correlacionados.

TRANSFORMACIONES A LA SERIE
En su mayoría las series de tiempo económicas tienen
características incompatibles con una proceso generador de datos
(DGP) estacionario.

Sin embargo, en algunos casos transformaciones simples sobre la


serie original pueden cercarla a la estacionariedad. En tal caso,
una transformación logarítmica puede ayudar a estabilizar la
volatilidad y acercar al proceso de varianza constante dentro de
la definición del segundo momento del proceso estacionario en
sentido débil.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 286

Evaluación de la serie a distintas transformaciones


Yt Log Yt

D Yt Ds Log Yt

De otro lado, si se efectua un proceso de diferenciación sobre una


serie de tiempo es capaz de eliminar su tendencia de largo plazo
buscando un nivel constante sobre su media, una característica
del primer momento de un proceso estacionario en sentido débil.

Definición. Diferenciación. Es un procedimiento que tiene como


objetivo eliminar la tendencia de una serie de datos que consiste
en suponer que la tendencia evoluciona lentamente en el tiempo,
de manera que en el instante t la tendencia debe estar próxima a
la tendencia en el instante t−1.

De esta forma, si se resta a cada valor de la serie anterior, la serie


resultante estará aproximadamente libre de tendencia.
Matematicamente de la siguiente forma:

De forma general:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 287

Debido a que las primeras diferencias son tasas de variación de la


serie, una manera de resumir este resultado puede indicar que la
serie original tiene una tendencia en media y varianza
proporcional a los niveles de la serie en tasas de cambio y pueden
estar en línea con un proceso generador de datos (DGP)
estacionario.

Por ejemplo, una metodología usual de trabajo, calcula la


diferencia del logaritmo de la serie para encontrar un proceso
estacionario en sentido débil, en sus primer y segundo
momentos, es decir, ∆log yt = log yt-log yt-1, se traduce en una
serie sin tendencia y varianza constante. Esta metodología es un
caso particular de una metodología mas general conocida como
transformaciones de BoX-Cox.

TRANSFORMACIONES DE BOX-COX
La familia de transformaciones más utilizada para resolver los
problemas de falta de normalidad y de heterocedasticidad de una
serie es la familia de transformaciones Box-Cox.

Para el caso de series de tiempo, y buscar las condiciones de un


proceso estacionario en sentido débil, un requisito es la varianza
contante. En la mayoría de los casos sobre series reales este
supuesto no se cumple.

Con el objetivo de encontrar una varianza constante la


transformación de BOX-COX debe ser utilizada dentro del
procedimiento.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 288

Si se desea transformar la variable Y, cuyos valores muestrales se


suponen positivos, en caso contrario se suma una cantidad fija M
tal que Y + M > 0. La transformación de Box-Cox depende de un
parámetro 𝜆 por determinar y viene dada por:

Si se quieren transformar los datos para conseguir normalidad y


homocedasticidad, el mejor método para estimar el parámetro 𝜆
es utilizar la estimación por máxima verosimilitud y se calcula
para diferentes valores de 𝜆 según la transformacion:

Siendo ŷ=(y1,y2,…..yn)1/n la media geométrica de la variable Y.


Para cada 𝜆, se obtiene el conjunto de valores {Ui(𝜆)}i=1…n. La
función de verosimilitud es:

Se elige el parámetro λ̂ que maximiza L(λ). En la práctica, la


transformación más utilizada para buscar la homocedasticidad y
normalidad en el proceso estocástico el logaritmo natural.
ESTRUCTURA DE MODELOS ARMA
Los modelos de series de tiempo tratarán de expresar la
evolución de una variable Yt de un proceso estocástico en función

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 289

del pasado de esa variable o de impactos aleatorios que esa


variable sufrió en el pasado.

Para ello, se utilizarán dos tipos de formas funcionales lineales. La


primera los modelos autorregresivos (AR). La segunda, modelos
de Medias Móviles (MA).

MODELOS AUTORREGRESIVOS AR(P)


Definimos un modelo AR (autorregresivo) como aquel en el que la
variable endógena de un período t es explicada por las
observaciones de ella misma correspondientes a períodos
anteriores (parte sistemática) más un término de error ruido
blanco (innovación).

Los modelos autorregresivos se abrevian con la palabra AR tras la


que se indica el orden del modelo: AR(1), AR(2),....etc.

El orden del modelo expresa el número de observaciones


rezagadas de la serie de tiempo analizada que intervienen en la
ecuación. Así, por ejemplo, un modelo AR(1) tendría la siguiente
expresión:
Y t =  0 + 1Y t -1 + at
La expresión genérica de un modelo autorregresivo, no de un
AR(1), sino de un AR(p) sería la siguiente:
Y t =  0 + 1Y t -1 + 2 Y t -2 + ......+ p Y t - p + at

Esta forma funcional se acompaña de una serie de restricciones


conectadas con importantes hipótesis analíticas:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 290

a. La correlación entre una variable y su pasado va


reduciéndose a medida que nos alejamos más en el tiempo
(proceso ergódico).
b. La magnitud de los coeficientes está limitada en valor
absoluto. Así, por ejemplo, en el caso de un AR(1), el
coeficiente autorregresivo de un proceso estocástico
estacionario ha de ser inferior a 1 en valor absoluto. En el
caso de un AR(2), es la suma de los dos coeficientes la que no
puede exceder la unidad. Estas restricciones expresadas en
los coeficientes conectan con las propiedades de
estacionariedad del proceso, o dicho de otro modo, sólo los
modelos cuyos coeficientes respetan una serie de
condiciones (que dependen del orden P del modelo)
representan procesos estocásticos estacionarios y, por tanto,
tienen utilidad analítica.

OPERADOR Y POLINOMIO DE REZAGOS


El operador rezago Lp aplicado al valor Yt de una determinada
serie devuelve el valor de esa serie rezagado p observaciones. Es
decir:
LpYt=Yt-p

Un polinomio de rezagos de orden p p(L) se compone de una


sucesión de p operadores de rezagos con sus respectivos
coeficientes:
 p (L) = 1 -  1 L -  2 L2 - ...... -  p L p
El polinomio de rezagos permite abreviar la expresión de un
modelo AR(p) escribiéndose como:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 291

 p (L)Y t =  0 + at
La utilidad del polinomio de rezagos no es permitir una notación
abreviada. Las características del polinomio de rezagos o, más
concretamente, el valor de sus raíces características (soluciones
del polinomio) permiten analizar las propiedades de
estacionariedad del proceso estocástico que subyace al modelo
ARIMA.

Es decir, se pueden evaluar características relevantes del proceso


estocástico que se está modelando estudiando las propiedades
matemáticas del polinomio de rezagos de ahí su utilidad.

CONDICIONES DE ESTACIONAREIDAD
Sea el modelo Autoregresivo de orden P (se omite la constante
por simplicidad) se tiene que:

Utilizando el operador de rezagos (L) se tiene que:

De manera sintética:

La expresión puede interpretarse como una ecuación en


diferencias finitas de la variable yt. Como la variable at es ruido
blanco, y por consiguiente no influye sobre la existencia de una

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 292

tendencia en la variable, la trayectoria en el tiempo está


determinada por el polinomio autoregresivo. En otras palabras:

Sea un modelo autoregresivo de orden 2 o AR(2) que se expresa


de la forma:

La ecuación homogénea de grado dos en yt es:

Sustituyendo a yt por r2 se obtiene una ecuación característica de


la forma:

El polinomio autogregresivos utilizando el polinomio de rezagos


(L) tiene la siguiente forma:

Las raíces de la primera ecuación (1) corresponden a las raíces


inversas del polinomio autoregresivo. Para el caso general de la
ecuación característica es:

El polinomio autoregresivo correspondiente:

La solución general de la ecuación homogénea puede plantearse


como:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 293

Cuando t→∞ la trayectoria en el tiempo para yt va a estar


determinado por la raíz de mayor modulo. Sean p raíces reales.
Si existe |ri|>1 entonces yt no tiene limite (o no tiene límite
finito).

Si dentro de las raíces de la ecuación característica existen


soluciones complejas, tiene el mismo efecto para el módulo de
raíces reales.

En resumen, las características de la ecuación característica


deben ser inferiores a 1 como las raíces del polinomio
autoregresivo son las inversas correspondientes a la ecuación
característica se llega a la regla general de la estacionareidad de
un proceso AR(p).

Las raíces de un polinomio autoregresivo deben ser, en modulo,


superiores a la unidad o deben estar fuera del circulo unitario.

MODELO DE MEDIAS MÓVILES MA(Q)


Un modelo de medias móviles (MA) es aquel que explica el valor
de una determinada variable en un período t en función de un
término independiente y una sucesión de términos de error o
innovaciones correspondientes a períodos precedentes,
convenientemente ponderados.

Estos modelos se denotan normalmente con las siglas MA,


seguidos, como en el caso de los modelos autorregresivos, del
orden entre paréntesis.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 294

Así, un modelo con q términos de error MA(q) respondería a la


siguiente expresión:
Y t =  + at + 1 at -1 + 2 at -2 + ....+ q at -q
Que de nuevo puede abreviarse utilizando el polinomio de
rezagos (como en el caso de los modelos AR) en una forma MA(1)
de la forma:
Y t =  q (L) at + 
¿Qué significa que una variable aleatoria se explique en función
de las innovaciones cometidas en períodos precedentes? ¿De
dónde proceden esos errores? ¿Cuál es la justificación de un
modelo de este tipo?

En realidad, un modelo de medias móviles (MA) puede obtenerse


a partir de un modelo autorregresivo al realizar sucesivas
sustituciones:
Y t =  Y t -1 + at  Y t -1 =  Y t -2 + at -1 
Y t = at +  at -1 +  Y t -2  ........
2

Y t = at +  at -1 +  at -2 +  at -3 + ....+  at - j +
2 3 j

PROCEDIMIENTOS DE ANÁLISIS DE ESTACIONARIEDAD DE


SERIES DE TIEMPO
El estudio de la estacionariedad de las series de tiempo resulta
clave en la práctica para la construcción de un modelo
econométrico.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 295

La atención a la estacionariedad de las series de tiempo se ha


convertido en algo indispensable por varios motivos, entre ellos:
1. La detección de la no-estacionariedad resulta
estadísticamente fundamental, ya que afecta de forma
decisiva al uso de distribuciones en las etapas de
identificación, contraste y validación de los modelos
planteados. En ese sentido, no debe olvidarse que la mayor
parte de la teoría econométrica está construida asumiendo
la estacionariedad de las series.
2. Trata de evitar al máximo que la no estacionariedad de las
variables guíe los resultados de las estimaciones de las
relaciones que las unen, provocando la obtención de análisis
espurios.
3. El análisis de estacionariedad es básico como etapa previa
en el análisis de cointegración, una de las principales
aportaciones a la técnica econométrica de los últimos años.
4. El concepto de tendencia estocástica frente al tradicional de
tendencia determinista interesa conceptualmente a la teoría
económica, en especial, en el contexto del análisis temporal
de los efectos de la política económica sobre las variables
macroeconómicas.

TENDENCIAS DETERMINISTAS Vs TENDENCIAS ESTOCÁSTICAS

TENDENCIAS DETERMINISTAS
Cuando se analiza la solución general a una ecuación en
diferencias que representa una serie de tiempo, se admite una
descomposición de la serie en componentes cíclico, tendencia,
estacional y estocástico.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 296

La principal característica que define al componente de tendencia


frente al estocástico es la presencia de efectos permanentes sobre
la serie de tiempo yt.

En un gran número de ocasiones, las series pueden no presentar


componente de tendencia, como es el caso de un proceso
autorregresivo puro AR(1) en el que los coeficientes cumplan las
condiciones de estacionariedad:

Como se aprecia en el gráfico siguiente, este proceso fluctúa


alrededor del valor medio representado por una línea horizontal
cruzándolo frecuentemente sin que ningúna innovación sobre yt
se convierta en permanente para valores futuros:

Proceso AR(1) Sin tendencia

Definir la tendencia constante en una serie de tiempo,yt ,utiliza el


siguiente cálculo. Por ejemplo, la serie:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 297

Presenta un patrón dominado fundamentalmente por una


tendencia como en los siguientes casos presentados de formas
lineales o cuadráticas:

Este tipo de proceso, se clasifica dentro de aquellos que vienen


definidos por lo que se denomina una tendencia determinista.

Este patrón de evolución parecería servir adecuadamente al


análisis de ciertas series económicas dado que resulta usual
encontrar magnitudes que exhiban perfiles similares a los
presentados.

Esta tendencia de tipo determinista puede combinarse con el


proceso autorregresivo para generar otra variedad de proceso
con tendencia determinista que se denomina proceso
estacionario sobre una tendencia. Su expresión sería la siguiente:

En este caso, el proceso es dominado por la componente de


tendencia sumando a un proceso estacionario, con un valor
razonable de la varianza de εt.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 298

Poder distinguir gráficamente su evolución temporal como un


modelo de tendencia determinista con un componente
estocástico puro como el presentado en los gráficos anteriores
resulta casi imposible.

TENDENCIAS ESTOCÁSTICAS
Si se observan algunas series en economía, se puede caer en la
tentación de calificarlas entre aquellas con tendencias
deterministas como las observadas hasta aquí.

Sin embargo, desde la teoría económica sería muy difícil


justificar una tendencia determinista. Aún a pesar de existir
componentes tendenciales importantes desde el punto de vista
teórico, seguramente estos no serían de naturaleza determinista.

Es muy posible, por ejemplo, que la productividad tienda a


crecer de forma natural en la medida en que con el paso del
tiempo se va incorporando mejoras tecnológicas en procesos
productivos.

Sin embargo, ambos procesos teóricos no se producirán, con


total seguridad, de una manera invariable, constante, predecible,
determinista, con el paso del tiempo.

Frente a la tendencia determinista surge, por tanto, la necesidad


de definir un componente de tendencia, con efectos permanentes
en la evolución de la serie analizada, pero de naturaleza
estocástica.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 299

PASEO ALEATORIO (RANDOM WALK)


El caso más simple de modelo con tendencia estocástica viene
determinado el paseo aleatorio simple:

Con εi ruido blanco. La solución recursiva de un paseo aleatorio


corresponde a:

Esta expresión permite comprobar que un paseo aleatorio es


estacionario en media por definición:

Su varianza, sin embargo, no es constante dado que su expresión


corresponde a:

Según este proceso la varianza se amplía con el paso del tiempo


tendiendo a infinito a medida que t también lo hace.

Lo interesante de la ecuación anterior puede observarse


claramente como cada una de las innovaciones definidas como
εt=(ε0,ε1,...,εt-1,εt) tiene sobre yt un efecto permanente (o de
tendencia) sobre yt pero siempre tratándose de un elemento de
naturaleza aleatoria.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 300

Así, la denominada esperanza condicional para yt+s, es decir, el


valor más probable de yt+s dadas las t realizaciones anteriores
del proceso yt, es precisamente yt para todos los posibles valores
de t y s.

Esto confirma que cualquier innovación o shock de la sucesión


contenida en:

Tiene una presencia sobre yt+s de la misma intensidad que sobre


yt. Es decir, estamos ante un componente de tendencia.

¿Existen, en la realidad, fenómenos que se comporten como


paseos aleatorios? Nótese que, gráficamente, el paseo aleatorio
fluctúa ampliamente sin presentar tendencia a crecer o a
decrecer.

Rara vez alcanza un valor anterior y ninguna fuerza tiende a


devolverlo a su nivel de equilibrio, cualquiera que sea el mismo.
¿Es posible encontrar series en economía de esa naturaleza?
Figura1: Serie SIN tendencia determinista Figura 2: Serie CON tendencia
(No Estacionaria en media ) determinista (No estacionaria en media)

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 301

12.0000 50.0000

10.0000

8.0000 40.0000

6.0000
30.0000
4.0000

2.0000
20.0000
0.0000

-2.0000
10.0000
-4.0000

-6.0000
0.0000
-8.0000

-10.0000 -10.0000
ene-96

ene-97

ene-98

ene-99

ene-00

ene-01

ene-02

ene-03

ene-04

ene-05

ene-96

ene-97

ene-98

ene-99

ene-00

ene-01

ene-02

ene-03

ene-04

ene-05
PASEO ALEATORIO CON DERIVA (TENDENCIA DETERMINISTA
MÁS TENDENCIA ESTOCÁSTICA)
El paseo aleatorio con deriva (drift) incorpora una constante a0
dentro de la expresión del paseo simple de la forma:

La expresión deriva se aplica ya que el proceso así definido


experimentará una variación constante definida por el término
a0 dado que la solución genérica recursiva a la ecuación anterior
responde a la expresión:

Después de t períodos, el valor de yt se ve impactado por todas


las innovaciones pasadas y presentes a través del término de
tendencia estocástica al mismo tiempo, de forma invariable,
también permanente pero perfectamente conocida, por el
término determinista a0t.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 302

A diferencia del paseo aleatorio simple la deriva incluida en este


otro modelo supone que el proceso no sólo no será estacionario
en varianza sino tampoco en media.

Para la varianza se tiene que:

Comparando un paseo aleatorio simple de otro con deriva, el


patrón gráfico de evolución de este tipo de procesos vendrá
dominado por la componente tendencial determinista del
mismo.

No obstante para muestras pequeñas y una varianza de εt


suficientemente elevada su aspecto puede confundirse con un
paseo aleatorio sin deriva.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 303

En cualquier caso, si el paseo aleatorio con deriva resulta


gráficamente muy similar al presentado al de tendencia
determinista explica como frecuentemente se califican procesos
deterministas que, probablemente, presenten un componente
con tendencia estocástica.

Solamente para muestras grandes un proceso estocástico podrá


ser distinguido del otro en la medida en que, aunque el paseo
aleatorio con deriva presentará una marcada evolución de su
tendencia, por tanto, tenderá a fluctuar de forma algo más visible
sobre la línea de tendencia de lo que lo haría un modelo
determinista puro.

CONCEPTO DE INTEGRACIÓN
Si se toma un paseo aleatorio (random walk) y es expresado en
primeras diferencias se comprueba que, además de seguir
siendo estacionario en media, se convierte también en un
proceso estacionario en varianza, es decir:

En el caso de un paseo aleatorio con tendencia determinista (con


deriva) la diferenciación permite también convertir la serie en
estacionaria tanto en media como en varianza:

Además:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 304

Se puede así mismo comprobar como las covarianzas para


observaciones del proceso separadas por el rezago j-esimo sólo
dependen del valor de ese rezago. Es decir, se puede comprobar
que ambos procesos diferenciados cumplen con estacionariedad
en sentido débil.

La idea que la diferenciación corrige los problemas derivados de


la presencia de tendencias estocásticas y determinísticas puede
generalizarse matemáticamente del siguiente modo.

Suponga el caso general de un modelo ARIMA con sus


polinomios de rezago del tipo:

En el que se supone la presencia de una raíz unitaria en el


polinomio de rezagos A(L), mientras que se mantienen las
condiciones de estacionariedad para el proceso definido sobre εt
mediante el polinomio L(B), o sea, se supone que todas sus
raíces estan fuera del círculo unitario.

Si el polinomio A(L) tiene efectivamente una raíz característica


puede ser factorizado y expresarlo de la forma:

Donde ahora A’(L) será un polinomio de orden inferior a la


unidad al original A(L), es decir, p-1.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 305

La principal característica de este nuevo polinomio es que ya no


contiene una raíz unitaria, por tanto, todas sus raíces estan fuera
del círculo unitario. La ecuación original del modelo ARIMA
quedaría ahora:

O lo que es igual:

Incluyendo la diferenciación sobre la variable yt se tiene que:

Por tanto, la diferencia de un proceso con una raíz unitaria es


ahora estacionaria, y lo mismo ocurre cuando se esta ante dos
raíces unitarias, si se toman diferencias dos veces o ante d raíces
unitarias si se efectuan d diferencias. Por ejemplo, suponga el
siguiente proceso ARIMA (2,1,2):

Este puede expresarse como:

Utilizando los polinomios de rezagos resulta:

El polinomio de rezagos de la parte autorregresiva contiene una


raíz unitaria por lo puede escribirse como:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 306

Es interesante observar que no es necesario que yt siga un paseo


aleatorio puro. Si en un proceso del tipo:

La perturbación aleatoria no fuera ruido blanco sino que siguiera


un proceso autorregresivo de la forma:

La primera diferencia de yt daría una serie estacionaria siempre


y cuando ρ fuera menor que la unidad en valor absoluto.

Definición. Serie integrada de orden d. Se dice que una serie yt no


estacionaria es integrada de orden d, representada como yt~I(d),
cuando puede ser transformada en una serie estacionaria
diferenciándola d veces.

Siguiendo la definición dada por Engle y Granger (1987), una


serie sería integrada de orden d si admite una representación
ARMA estacionaria e invertible después de ser diferenciada d
veces.

Un proceso ruido blanco, por ejemplo, o una serie AR(1) con


coeficiente menor que la unidad son series I(0). Una serie que
siga un paseo aleatorio es, sin embargo, una serie I(1). Granger
(1986) y Engle y Granger (1987) caracterizaron las series I(0)
frente a las I(1) de la siguiente forma:

PROCESO INTEGRADOS Vs NO INTEGRADOS

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 307

Sin embargo, la diferenciación de una serie para convertirla en


estacionaria sólo es adecuada cuando se encuentra ante
tendencias estocásticas, nunca cuando existen tendencias
deterministas.

EVALUACIÓN DE TENDENCIAS DETERMINISTICAS


En ese caso, el procedimiento habitual para eliminar la tendencia
determinística parte de aplicar sobre la serie original un filtro
adicional.

Se estima la regresión de la serie no estacionaria yt sobre un


término de tendencia determinista obteniéndose una estimación
de la serie original yt.

Es suficiente entonces con trabajar con la serie transformada:

En el gráfico siguiente (en azul) puede observarse como la serie


original presenta una tendencia lineal creciente que puede ser
estimada (representada) con la línea discontinua (tendencia).

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 308

La serie corregida (filtrada) de tendencia reproduce exactamente


las mismas variaciones que la serie original pero sin mostrar
tendencia alguna.

Estimación de tendencia y serie filtrada de tendencia


Serie Original Tendencia Serie (sin) "filtrada de" tendencia
800,00

600,00

400,00

200,00

0,00

-200,00

-400,00
1
6
11
16
21
26
31
36
41
46
51
56
61
66
71
76

81
86
91
96
GENERACIÓN DE SERIE FILTRADA DE TENDENCIA
Para realizar un filtro de tendencia, se asume que la tendencia
(Tt) es un componente que se agrega a la serie sin tendencia
(YSTt) generando la serie original (Yt).

En el gráfico anterior, la serie original (en azul) es la suma de los


valores de la serie sin tendencia (en rojo) más los valores de la
tendencia (línea discontinua):
yt  Tt  YSTt
Para calcular los valores de la tendencia en cada período se
efectua una regresión simple de la serie en función contra una
variable de tiempo (t=1,2,3,4,……). El residuo de esta regresión
será la serie filtrada de tendencia.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 309

La única decisión a considerar será el tipo de función matemática


que mejor ajusta la tendencia de la serie (lineal, parabólica,
exponencial, etc).

SERIES CON DISTINTOS TIPOS DE TENDENCIA:


REPRESENTACIÓN GRÁFICA Y FUNCIÓN MATEMÁTICA A
ESTIMAR
TENDENCIA Potencial TENDENCIA Exponencial
Serie Potencial Ajuste Serie Exponencial Ajuste
200000,00 80000,00
70000,00
150000,00
60000,00
50000,00
100000,00
40000,00
50000,00 30000,00
20000,00
0,00
10000,00
0,00
-50000,00
-10000,00
-100000,00 -20000,00
1

15

22

29

36

43

50

57

64

71

78

85

92

99

15

22

29

36

43

50

57

64

71

78

85

92

99
yi  a  tib  ui yi  a  bt  ui
TENDENCIA Logarítmica TENDENCIA Polinomica
Serie Logarítmica Ajuste Tendencia Polinómica Ajuste
40,00 100,00
35,00 80,00
30,00
60,00
25,00
40,00
20,00
20,00
15,00

10,00 0,00

5,00 -20,00

0,00 -40,00
1
7
13
19
25
31
37
43
49
55
61
67
73
79
85
91
97

1
7
13
19
25
31
37
43
49
55
61
67
73
79
85
91
97

yi  a  b  ln( t )  ui yi  a  b  t  b  t 2  ui

Sobre la elección del modelo de tendencia se debe tener en


cuenta:
1. Debe priorizarse la sencillez en la selección del modelo de
tendencia. Esta debe sólo centrarse en la evolución de la
serie de modo que no es necesario que la tendencia
reproduzca exactamente cada movimiento a corto plazo. Un

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 310

comportamiento oscilante podría modelarse, por ejemplo,


con una función sinusoidal.

AJUSTE DE TENDENCIA
Ajuste de Tendencia Correcto (serie Ajuste de Tendencia Incorrecto (tendencia
oscilante alrededor de una tendencia sobreparametrizada)
monótonamente creciente)
30.0000 30.0000

25.0000 25.0000

20.0000 20.0000

15.0000 15.0000

10.0000 10.0000

5.0000 5.0000

0.0000 0.0000
96

97

98

99

00

01

02

03

04

05

96

97

98

99

00

01

02

03

04

05
e-

e-

e-

e-

e-

e-

e-

e-

e-

e-

e-

e-

e-

e-

e-

e-

e-

e-

e-

e-
en

en

en

en

en

en

en

en

en

en

en

en

en

en

en

en

en

en

en

en
2. Si existen dudas sobre el modelo de tendencia a utilizar,
pueden probarse especificaciones alternativas (lineal Vs
logarítmica, potencial Vs exponencial, por ejemplo) y
utilizarse los resultados de la regresión (R2, porcentaje de
error absoluto medio, contrastes t para los términos
incluidos en la regresión, etc) con el fin de valorar cuál de las
especificaciones ajusta mejor la evolución de la serie.
3. Las tendencias pueden ser compuestas, es decir, para un
determinado período de análisis pueden combinarse
distintos tipos de tendencias (primero lineal creciente, luego
lineal decreciente, por ejemplo)
4. Algunas tendencias pueden no ser lineales por lo que su
estimación con un modelo de regresión lineal requerirá la
linealización previa de la función a estimar si no se conocen
métodos de estimación no lineales.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 311

5. En presencia de componentes estacionales conviene


habitualmente eliminarlos antes de proceder al análisis de
tendencia

En todo caso, una vez elegido el modelo de tendencia más


adecuado, el procedimiento de filtrado es:
1. Se estima, conforme al modelo elegido, la regresión de la
serie en función del tiempo. En el ejemplo gráfico, el ajuste
lineal por OLS implica estimar:
yt  a  bTt  U t
2. La tendencia se corresponde con la serie estimada (ŷt) en
tanto que la serie filtrada es simplemente el residuo de esta
regresión. La serie original (yt) menos la estimación de la
tendencia (ŷt).

Debe tenerse especial cuidado para no confundir la tendencia


determinista y estocástica, ya que entonces tanto uno como otro
método resultarían incorrectos de aplicar.

Por ejemplo, si se tiene un proceso del tipo:

En el que se tiene tendencia determinista pero no estocástica. Si


se toma una primera diferencia la anterior expresión quedaría:

O sea, se habría eliminado la tendencia temporal pero incluida


una raíz unitaria en el proceso MA, que ahora sería no invertible.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 312

Debe notarse que este problema también se planteará, por las


mismas razones, en el caso en el que sobrediferenciacion de una
serie más allá de su orden de integración.

Se comente un error si se intentar transformar un modelo con


tendencia estocástica aplicando el filtro representado para la
eliminación de la tendencia determinista:
1. En primer lugar, el t-estadístico de significancia individual
tiende a infinito para la variable de tendencia determinista
introducida en el filtro y es inconsistente, por lo que resulta
fácil rechazar erróneamente la hipótesis de nulidad del
parámetro de tendencia.
2. El R2 converge a una distribución no degenerada, es decir, a
medida que el tamaño de la muestra se incrementa y no
converge hacia un escalar, sino hacia una variable aleatoria.
3. Un efecto adicional comentado por Durlauf y Phillips (1988)
es que, en estos casos, el estadístico DW de la errónea
regresión de la serie sobre una tendencia temporal tiende a
acercarse a cero. Este síntoma puede utilizarse como
medida de alerta cuando se encuentre en una situación
similar.

En cualquier caso, la trascendencia de un posible error en los


resultados del modelo exige establecer un modus operandi con
más garantías. El chequeo de la presencia de raíces unitarias es
insalvable, para lo cual deben conocerse extensamente los
contrastes más habituales que permitan detectarlas.

PROCEDIMIENTOS PARA LA DETECCIÓN DE RAÍCES UNITARIAS

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 313

ANÁLISIS DEL GRÁFICO TEMPORAL DE LA SERIE


Apoyándose en las características comunes de las series
integradas frente a las no integradas, resumidas en la tabla
anterior, se puede utilizar la representación gráfica de una serie
para el análisis de su estacionariedad.

Efectivamente, uno de los métodos que suelen proponerse como


suficientes para la detección de la no estacionariedad de una
serie es el del análisis de representaciones gráficas de la misma.

Así, la contemplación del gráfico de evolución temporal de la


serie es un insumo para decidir si la serie es o no estacionaria en
virtud, por ejemplo, de la pendiente que presente.

Gráfico de serie no estacionaria

Por otro lado, suelen aconsejarse medidas como el gráfico rango


de la media para detectar la no estacionariedad en varianza.
Ambos procedimientos sólo son parcialmente útiles.

Efectivamente ya se ha visto anteriormente cómo pueden


confundirse con facilidad representaciones gráficas de procesos

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 314

con tendencias estocásticas de procesos con tendencias


deterministas y los efectos que tiene un error en su confusión.

Por otro lado, incluso con procedimientos técnicamente


elaborados, resulta aún más complejo diferenciar, por ejemplo,
un proceso con una raíz unitaria de otro con una raíz
autorregresiva elevada.

En el gráfico siguiente, por ejemplo, se han representado dos


procesos, uno estacionario y otro con una raíz unitaria. En
ambos casos se ha utilizado la misma sucesión de perturbaciones
aleatorias mientras que los coeficientes utilizados en cada caso
han sido diferentes.

DIFERENCIACIÓN GRAFICA DE PROCESOS ESTACIONARIOS Y NO


ESTACIONARIOS
Modelo estacionario
Modelo I(1):

No obstante, a pesar que el análisis gráfico no puede considerase


una herramienta suficiente para el análisis de la estacionariedad
de una serie, si ha de servir como etapa previa a la aplicación de
contrastes más avanzados.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 315

Efectivamente, observar la evolución gráfica de la serie puede


permitir localizar cambios de estructura, comportamientos
estacionales o medias y tendencias de tipo determinista, lo que
permitirá aplicar con mayor porcentaje de éxito, las pruebas de
raíces unitarias.

CONTRASTES DE NO ESTACIONARIEDAD PRUEBA DICKEY-


FULLER
La prueba habitual a la hora de determinar la estacionariedad de
una serie de tiempo consiste en la aplicación de la prueba de
Dickey–Fuller (DF). Éste es una prueba de No estacionariedad el
cual contrasta la hipótesis nula como la presencia de una raíz
unitaria en el proceso generador de datos de la serie analizada.
H0: existe raíz unitaria (es un proceso no estacionario)
H1: No existe Raíz unitaria (es un proceso estacionario)

Se supone inicialmente, como modelo de partida para el análisis


de una determinada serie yt, un proceso estacionario
autorregresivo de orden uno como hipótesis nula H0:

Frente a este modelo se plantea el modelo alternativo de un


paseo aleatorio no estacionario del tipo:

Se trata, por tanto, de contrastar si el coeficiente a1 es igual a la


unidad o distinto de ella.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 316

Para probar el coeficiente a1, no se puede utilizar el contraste


tradicional t-student sobre una estimación por OLS del primer
modelo.

La razón radica en que la hipótesis nula que habitualmente se


contrasta a partir de la cual se deriva la expresión y propiedades
de la prueba t parte de probar (a1=0). Sin embargo, en este caso
se necesita contrastar H0: a1=1.

Si la hipótesis nula no se rechaza, ya que la varianza de yt sería


no estacionaria, dado que crecería con los valores del tamaño de
muestra según la expresión dada de la varianza de un paseo
aleatorio con deriva:

En estas condiciones la estimación del parámetro a1 sería una


estimación inconsistente y sesgada respecto al verdadero valor
del parámetro y el uso de la distribución t-student estándar sería
incorrecta. Efectivamente, en el modelo simple AR(1):

La estimación de a1 será consistente según los valores que tome


la estimación. Si |a1|<1, la distribución del estimador es
asintóticamente normal, o lo que es lo mismo, el estadístico t-
student converge hacia una N(0,1) cuando los grados de libertad
tienden a infinito.

En el caso de que |a1|>1, también puede caracterizarse la


distribución del estimador del parámetro y de su razón de

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 317

contraste t si bien la convergencia en el límite no se produce


hacia una normal.

El problema surge cuando |a1|=1, ya que en este caso, la


distribución del parámetro, y por tanto, de su razón de contraste
estadístico no puede caracterizarse adecuadamente dada la
inconsistencia y sesgo de los resultados.

La distribución del estimador es entonces función de


movimientos Brownianos. Según Fuller (1976) se tiene que
N(a1-1) converge en distribución a un cociente de integrales de
Wiener.

Por tanto, la distribución de probabilidad asintótica del


estimador OLS del modelo AR(1) presenta una discontinuidad
cuando a1=1 y, como sustituto, deberán utilizarse las
distribuciones derivadas de forma empírica mediante un
procedimiento de Montecarlo realizado por Dickey (1976).

En este experimento se generaron un elevado número de series


ruido banco εt para construir el mismo número de paseos
aleatorios con deriva. La estimación de los parámetros de interés
en cada uno de esos modelos controlados arrojó las siguientes
conclusiones:
1. El 90% de los valores estimados del parámetro a1 estaban
menos alejados de 2.58 errores estándar del verdadero
valor (la unidad).
2. El 95% de los valores estimados del parámetro a1 estaban
menos alejados de 2.89 errores estándar del verdadero
valor (la unidad).

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 318

3. El 99% de los valores estimados del parámetro a1 estaban


menos alejados de 3.51 errores estándar del verdadero
valor (la unidad).
Tras este experimento de Dickey, fue Fuller (1976) quien obtuvo
la distribución límite apropiada y publicó, tabulados, toda una
batería de valores críticos, dado que el valor empírico del
contraste varía en función del tamaño muestral.

Estas tablas de referencia, permiten prescindir de la distribución


t-student a la hora de contrastar si el parámetro a1 es igual, o no,
a la unidad.

Más recientemente, MacKinnon (1991) realizó un número


mayor de simulaciones que las tabuladas por Dickey y Fuller.
Además, MacKinnon estimó la superficie de respuesta usando los
resultados de la simulación, lo que permite calcular los valores
críticos de la prueba DF para cualquier tamaño muestral y
cualquier número de variables en el lado derecho de la ecuación.

El modelo utilizado para el contraste DF no es el expuesto al


comienzo sino otro equivalente derivado de la siguiente forma:

Por tanto, la hipótesis nula inicial se transforma ahora en H0:


γ=0 frente a la alternativa H1: γ <0. Decir que γ es nulo es lo
mismo que a1=1, o existe una raíz unitaria. Decir que es menor

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 319

que cero equivale a decir que a1 es menor que la unidad o un


proceso autorregresivo estacionario.

El procedimiento básico para la aplicación de la prueba DF es


aparentemente sencillo. Se estima el modelo propuesto y se
calcula el valor estimado de la t del parámetro analizado.

Una vez calculado se compara con el valor empírico de


referencia obtenido con las tablas de Dickey y Fuller o de
MacKinnon. Si el valor estimado para γ es superior al tabulado
dado un determinado nivel de confianza se admite la hipótesis
nula, o sea, la presencia de raíz unitaria.

REPRESENTACIÓN DE UNA PRUEBA DF EN STATA

PRUEBA DF Y PROCESO GENERADOR DE DATOS


Los valores críticos del t-estadístico de referencia para el
contraste DF no sólo dependerán del tamaño muestral también

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 320

del tipo de modelo estimado, por tanto, del proceso generador de


datos supuesto.

Por tanto, antes de estimar los parámetros del modelo es


necesario decidir si el proceso generador de datos será el simple,
presentado anteriormente, ó contendrá una constante (a0), un
término de tendencia determinista (a2t) o ambas
simultáneamente. Los tres modelos propuestos por Dickey-
Fuller son por tanto:

Modelo 1. Simple
Modelo 2. Constante
Modelo 3. Constante y
tendencia determinística

Una vez decidido el modelo estadístico de referencia la manera


de efectuar el contraste será diferente. Se nota generalmente por
las letras τ para el caso más simple, τμ para el caso del modelo
con constante y ττ para el caso del modelo con tendencia
determinista.

Consultar correctamente el estadístico de referencia es


fundamental dado que las diferencias entre los distintos valores
de τ, τμ y ττ son importantes. Por ejemplo, para un nivel de
significancia del 95% y 100 observaciones los valores críticos
serían –1.95 para τ, -2.89 para τμ y –3.45 para ττ.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 321

Tal y como describen Suriñach (1995) los modelos 2 y 3


presentados por Dickey y Fuller son en realidad formas
reducidas de determinados modelos estructurales.

Así, el modelo 2, que contrasta la hipótesis nula de paseo


aleatorio con deriva frente a una alternativa de esquema AR(1)
estacionario sin tendencia, es la forma reducida del modelo:

Bajo la hipótesis nula en el que a0=δ0(1-a1) con el caso de (a1=1)


el término constante sería nulo luego su presencia en el modelo
a estimar es irrelevante y sólo se justificaría para garantizar que,
en el caso que no se rechace la hipótesis alternativa, el proceso
autorregresivo tenga media no nula.

El modelo 3, que contrasta la hipótesis nula de un paseo


aleatorio con deriva frente a la alternativa de un proceso AR(1)
estacionario sobre una tendencia determinista, sería la forma
reducida del modelo:

Con a0=δ0(1-a1)+δ1a1 y a2=δ0(1-a1). Bajo la hipótesis de raíz


unitaria (a1=1) se tiene que a0=δ1 y a2=0 luego, como en el caso
anterior, la presencia en este caso del parámetro a2 es
irrelevante en el caso de raíz unitaria y su presencia intenta sólo
garantizar la consistencia del contraste en una situación de
hipótesis alternativa (proceso estacionario sobre tendencia
determinista).

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 322

CONTRASTE DE RAÍCES UNITARIAS MÚLTIPLES


Debe ahora ponerse de manifiesto una característica del
contraste DF que quizá resulte inadvertida. El contraste DF no
puede dar resultados concluyentes en una sola etapa.

Si se aplica la prueba DF sobre una serie yt y el resultado es no


rechazar la hipótesis nula (no estacionariedad o presencia de
una raíz unitaria) la conclusión debe ser que, o bien yt~I(1) o
bien no es integrada de ningún orden, es decir, que no puede
transformarse en estacionaria por diferenciación.

Para decidir entre una u otra alternativa Charemza y Deadman


(1992) sugieren aplicar nuevamente la prueba DF ahora sobre la
serie en diferencias ∆yt:

Contrastando el parámetro γ para que resultase nulo o menor


que cero por tanto yt fuese integrada de orden 1, entonces ∆yt
deberá ser I(0), es decir γ <0.

Si, en cambio, la aplicación de la prueba DF sobre este nuevo


modelo afirmara que ∆yt tiene una raíz unitaria, entonces el
proceso debería continuar ahora con ∆∆yt a fin de determinar si
yt es I(2) o se está ante una serie no integrable. Podría
proseguirse ahora con ∆∆∆yt y así sucesivamente.

Esquema Charemza-Deadman (1992)

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 323

En cualquier caso, como se muestra al final del esquema, siempre


se debe tener presente la posibilidad que el test DF no sea capaz
de detectar la presencia de una raíz unitaria para un
determinado orden de diferenciación.

Si así fuera, se corre el peligro de sobrediferenciar una serie. En


ese caso, tal y como señalan Charemza y Deadman (1992) la
prueba DF tiende a tomar un valor muy alto y positivo (en lugar
de negativo) acompañado así mismo de un valor muy elevado
del coeficiente de determinación para el ajuste.

Dickey y Pantula (1987) proponen un procedimiento alternativo


al anterior para el contraste de más de una raíz unitaria. La idea
es realizar también una sucesión de contrastes pero empezando
por el número máximo de raíces unitarias que se piensa pueden
encontrarse.

Así, si se piensa que un proceso tiene exactamente, y como


mucho, dos raíces unitarias, se plateará el modelo siguiente:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 324

Si efectivamente yt tiene dos raíces unitarias, ∆2yt debe ser


estacionaria por lo que el parámetro β1 debe ser nulo.

Se efectúa el contraste de la hipótesis nula H0: β1=0, si no se


puede rechazar, se afirma que yt tiene exactamente dos raíces
unitarias, o sea, es I(2).

Si β1 es distinto de cero se debe plantearse entonces el modelo:

Dado que ya se sabe que no hay dos raíces unitarias algunos de


los dos coeficientes, o ambos, no serán nulos (sencillamente esto
sería incongruente con el resultado obtenido en la etapa
anterior).

La hipótesis nula en este caso será que yt tenga una raíz unitaria,
o sea, que ∆yt sea estacionaria.

Para eso será necesario que en la expresión anterior β2=0 y


β1<0. Si no es así debe rechazarse la hipótesis nula (tanto β1
como β2 son no nulos), entonces yt será estacionaria, es decir, no
tendrá ninguna raíz unitaria.

Este procedimiento puede utilizarse para un orden mayor r para


el caso en que se sospechen sólo dos raíces unitarias. El caso
sería bastante excepcional pero, si se diese, el procedimiento es
el mismo que el descrito anteriormente sólo que comenzando el
contraste con el modelo:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 325

CONTRASTES CONJUNTOS DE PARÁMETROS EN EL MODELO


SIMPLE DF
Sobre los modelos propuestos que contienen más de un
parámetro (modelos 2 y 3) puede además también contrastarse
la hipótesis de nulidad simultánea de conjuntos de parámetros.
Dickey y Fuller (1981) plantearon la construcción de
estadísticos F clásicos para contrastar las hipótesis H0:γ=a0=0
(estadístico ϕ1) en el modelo 2 y H0: γ=a0=a2=0 (estadístico ϕ2)
ó H0: γ=a2=0 (estadístico ϕ3) en el modelo 3.

Los estadísticos ϕ1,2,3 se construyen según la expresión conocida


del test F:

Donde SCRmr y SCRmrn son las sumas de cuadrados de los


residuos de los modelos restringido (mr) y no restringido (mnr),
n es el número total de observaciones, k el número de
parámetros del modelo no restringido y r el número de
restricciones.
Como ya sucediera en el caso del contraste t individual, no es
posible utilizar las tablas habituales de la razón F por lo que de
nuevo debe acudirse a las tablas de Dickey-Fuller en las que se
recogen los valores generados empíricamente para ϕi.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 326

Resulta necesario resaltar, que la aplicación de los contrastes de


nulidad conjunta ϕ1, ϕ2 y ϕ3 supone una forma alternativa a los
estadísticos individuales t de contrastar la estacionariedad de yt.

Efectivamente podría, por ejemplo, contrastarse con ϕ2 la


hipótesis nula que yt siga un paseo aleatorio simple (no
estacionariedad) frente a un AR(1) estacionario con término
independiente. Este hecho, no hace sino hacer aún más compleja
la realización e interpretación del contraste DF.

Por último, conviene no olvidar que, aún a pesar del carácter


molesto (nuisance) de algunos de los parámetros, cabe la
posibilidad de contrastar, también, la nulidad individual de los
mismos, supuesta, eso sí, la existencia de una raíz unitaria.

Así, puede contrastarse en el modelo 2 la hipótesis a0=0 dado


γ=0 mediante el denominado contraste ταμ o en el modelo 3 las
hipótesis a0=0 dado γ=0 (estadístico τατ) y a2=0 dado γ=0
(estadístico τβτ).
RESUMEN PRUEBAS DF

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 327

PRUEBA DF Y ELECCIÓN DE COMPONENTES DETERMINISTAS


DEL PROCESO GENERADOR DE DATOS (PGD)
El primer problema que plantea la aplicación de la prueba DF
radica en la estructura teórica del proceso generador de datos
asumida para la serie yt ya que influye decisivamente en los
resultados obtenidos.

Así, no es invariante a los resultados del contraste, suponer para


yt un modelo con o sin término independiente, con o sin
tendencia determinista, con componente autorregresivo de
orden uno u orden superior a uno o con o sin componente de
medias móviles.

El problema radica en que la mayor parte de las ocasiones, el


modelo con las características del proceso se desconoce a priori.

Ya se ha observado cómo, desde el primer momento, se ha


diferenciado claramente el caso de un modelo simple del caso de
un modelo con constante y/o tendencia determinista, dado que
los contrastes de referencia son en uno y otro caso diferentes
(, , ).

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 328

Incluso se ha visto que una misma hipótesis nula puede


contrastarse utilizando las prubas individuales τi o los conjuntos
τi, dependiendo del proceso generador de datos (PGD) supuesto
y de los coeficientes a incluir en el contraste en cada caso.

Las diferencias entre los estadísticos de referencia τ y ϕ para


una misma hipótesis nula en las tablas de Dickey-Fuller de 1976
para τ y 1981 para ϕ son importantes, por lo que parece
fundamental cuidar la elección del modelo y la hipótesis a
contrastar en cada caso, siendo en muchas ocasiones esta etapa,
decisiva de cara a la correcta aplicación del contraste.

¿Qué puede ocurrir entonces si se equivoca en la identificación del


modelo de referencia?
a. Si se toma como modelo de partida un modelo con
tendencia determinista y término constante, se puede estar
sobreparametrizando la estimación lo que supone una
inmediata pérdida de grados de libertad.

Pero además, los valores críticos de referencia para no


rechazar o rechazar la hipótesis nula dependen del modelo
estimado por lo que, parece algo arriesgado tomar
conclusiones de no rechazo o rechazo de la hipótesis en
cada momento con un modelo que, quizá, no sea realmente
válido. Concretamente, para un determinado nivel de
significancia, los intervalos de confianza alrededor del valor
γ=0 se amplían de forma importante si se incluye una
deriva o una tendencia determinista provocando, en caso de
no ser realmente necesarios, frecuentes errores en el
rechazo de la hipótesis nula de raíz unitaria. Dicho de otro

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 329

modo, la potencia del contraste decrece tanto más cuanto


mayor sea el número de parámetros incluidos
incorrectamente. Esto significa que se tiende a concluir la
existencia de una raíz unitaria cuando, en realidad, no la
hay.
b. Una posible alternativa a este esquema podría ser el
comenzar por el modelo más restringido, es decir, más
simple, e ir incluyendo nuevos parámetros de forma
secuencial.

Sin embargo, este procedimiento tampoco soluciona el


problema de potencia del contraste dado que la omisión del
término independiente o la tendencia determinista, cuando
estas son variables relevantes también provoca de nuevo
una estimable pérdida de potencia hasta el punto de poder
incluso anularse por completo.

Campbell y Perron (1990) comprobaron empíricamente que la


omisión de una variable relevante que crezca tan rápido o más
que otra de las incluidas (término de tendencia determinista, por
ejemplo), provoca que la potencia del contraste se reduzca hasta
cero a medida que el tamaño muestral se incrementa.

Si la variable omitida fuese la deriva, el t-estadístico sería


consistente pero, para muestras pequeñas, la potencia se vería
seriamente afectada, tanto más cuanto mayor fuera el coeficiente
de deriva omitido.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 330

Este problema expuesto hasta aquí, admite además ciertos


matices adicionales. En primer lugar, cuando el proceso
generador de datos contiene una tendencia o una deriva, la
varianza muestral de yt queda dominada por ellas.

Así, se ha comprobado empíricamente que, en esos casos, los


estadísticos tμ y tτ convergen a una distribución normal estándar
por lo que, si se conoce la presencia real de esa tendencia o
deriva, la hipótesis nula γ=0 debe contrastarse usando una
distribución normal estandarizada en lugar de las distribuciones
asintóticas tabuladas por Dickey y Fuller.

Hylleberg y Mizón (1989) mostraron que los valores normales


estándar llevan frecuentemente al rechazo de la hipótesis nula,
incluso con muestras grandes, a menos que la constante sea muy
grande. Estos autores propusieron nuevos valores críticos
situados entre los clásicos tabulados por DF y los de la
distribución normal.

A medida el tamaño de la constante se reduce, estos valores se


aproximan más a los valores DF. Por esta razón, en estas
situaciones y para muestras pequeñas, se recomienda como
criterio general utilizar las tablas propuestas por Dickey y Fuller
y no las normales estandarizadas.

En la práctica, el problema de la elección de los regresores


deterministas a incluir en el contraste no tiene una solución
sencilla.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 331

El principio general puede ser el de “elegir aquella especificación


que, a priori, sea más verosímil tanto bajo la hipótesis nula como
bajo la alternativa”. Así, puede realizarse un análisis previo de la
serie que ayude a determinar si cabe la consideración de una
tendencia (determinista o estocástica), y en ese caso incluir una
constante y una tendencia en la regresión.

Si la serie no presenta tendencia pero tiene media no nula, se


incluye la deriva en el modelo y, por último, si presenta media
nula y ausencia de tendencia se aplica el contraste con el modelo
más restringido.

Dolado (1990) y Perron (1990) propusieron, entre otros


autores, seguir un proceso en etapas a fin de garantizar el éxito
en la elección del modelo de referencia en el mayor número de
ocasiones:
1. En primer lugar se estimaría el modelo menos restringido
(con término constante y tendencia determinista).
2. Dado que el principal error de esta táctica inicial consistiría
en la escasa potencia del contraste para el rechazo de la
hipótesis nula por inclusión de variables irrelevantes, si los
valores críticos indican rechazo (ausencia de raíz unitaria),
se termina el procedimiento.
3. En el caso de no rechazarse la hipótesis nula de presencia de
una raíz unitaria, es decir, en el caso en que se admite la
presencia de una raíz unitaria (H0: =0) sigue ahora examinar la
significancia del parámetro de tendencia determinista a2. Dado
que, en este punto, estaríamos bajo la hipótesis ya admitida que
=0, se utiliza el valor de referencia de e incluso, para
mayor seguridad, también el contraste conjunto 3 (a2==0).

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 332

4. Si el término de tendencia resulta significativo (a20) se


contrasta de nuevo la presencia de una raíz unitaria (H0: =0)
pero utilizando entonces las tablas de una normal estandarizada.
Sea cual sea el resultado del test con las nuevas tablas finalizan
el contraste admitiendo o rechazando la presencia de una raíz
unitaria.
5. Si el término de tendencia es no significativo, deberá
replantearse el modelo inicialmente estimado pasándose a
examinar otro con término constante pero sin esta tendencia
determinista. Con este modelo se vuelve a analizar la presencia
de una raíz unitaria (=0).
6. En el caso en que, nuevamente, se sostenga la presencia de una
raíz unitaria, se contrastará entonces la adecuación del término
independiente a0 bien con el contraste , bien con 1. Si el
término independiente resulta significativo se utiliza de nuevo
las tablas de una normal para contrastar la presencia de la raíz
unitaria, concluyendo de nuevo aquí el contraste.
7. Sólo si entonces la constante a0 es no significativa se utiliza el
modelo más simple como modelo de referencia contrastándose,
de nuevo, la presencia de raíz unitaria. En este caso, no tiene
cabida el uso de la distribución normal estandarizada.
8. Por último, parece sensato incluir aquí como consejo la
atención a la teoría del fenómeno que se está analizando. Así,
en ciertas ocasiones la teoría económica nos mostrará que no
cabe considerar una tendencia en una determinada serie o bien,
por el contrario, que no cabe la fluctuación alrededor de un
valor medio.

PRUEBA DF EN MODELOS AUTORREGRESIVOS DE ORDEN


SUPERIOR. CONTRASTE ADF

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 333

Hasta este momento permite contrastar la presencia de una o


más raíces unitarias en una determinada serie temporal para la
que se supone un proceso AR(1). Sin embargo, muchas serie
temporales se ajustan más adecuadamente a procesos
autorregresivos de orden superior AR(2) o AR(3).

No parece, por tanto, adecuado, contrastar la presencia de una o


más raíces unitarias utilizando siempre la estructura de un
modelo AR(1) ya que las raíces unitarias pueden aparecer
también en estructuras más complejas.

Este problema da lugar a lo que se conoce como test de raíces


unitarias de Dickey-Fuller Ampliado (ADF). Si se quiere
contrastar la presencia de una raíz unitaria en una serie que
sigue un proceso AR(p), deberá aplicarse el procedimiento
expuesto para el caso simple AR(1), pero suponiendo ahora del
modelo:

Dónde:

Para entender este modelo y la hipótesis que se contrasta de


cara a detectar la presencia de una raíz unitaria, veamos un caso
sencillo de una serie que presente una raíz unitaria en el marco
de un modelo AR(3). Dado el modelo original:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 334

Sumando y restando para yt-2

Calculando

Sumando y restando para yt-3

Si la serie presenta una raíz unitaria en este modelo bastará con


que γ=0 ya que entonces:

lo que garantiza que, al menos, una raíz característica de la


ecuación sea igual a uno, es decir, yt ~I(1). La nulidad del
parámetro se contrasta siguiendo el mismo procedimiento que
en el modelo simple y, por tanto, se utilizan las mismas tablas
que en el caso del contraste DF.

En este sentido, es importante señalar que el propio Fuller


demostró que la distribución asintótica del estadístico “t” del
parámetro g estimado, es independiente del número de rezagos
de la variable diferenciada que se incluya en la especificación del
modelo estimado.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 335

Debe observarse cómo la aplicación del test ADF no sólo es


conceptualmente útil para el contexto en el que se sospecha un
modelo AR(p), sino que, además, se presenta como una posible
corrección a los problemas de autocorrelación que pudieran
aparecer en el término de error del modelo básico utilizado en el
test simple DF, sobre todo en series de frecuencia superior a la
anual.

Efectivamente, debe tenerse en cuenta que los valores de


referencia de la prueba se han obtenido suponiendo la ausencia
de autocorrelación serial en et, en este sentido, la introducción
de un número suficiente de rezagos de la variable dependiente
podría ser suficiente para transformar et en un ruido blanco. La
elección del número de rezagos a considerar viene determinada
por:
1. El modelo teórico de referencia supuesto para yt, en la
medida en que este sea conocido por el investigador.
2. Criterios clásicos de aceptación de variables en un modelo
como el test “t- Student” de significancia individual, AIC o
SBC.

Esta forma de corrección de posibles problemas de


autocorrelación en et es lo que se denomina Solución
Paramétrica al problema de la autocorrelación y fue sugerida por
los propios autores del contraste, Dickey y Fuller (1981).

De hecho, debe señalarse que numerosos textos introducen


conceptualmente la prueba ADF al comentar el problema de una
posible autocorrelación en los residuos del modelo simple DF.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 336

Esquema de análisis de estacionariedad previo a la identificación y


eventuales transformaciones de la serie original según los
resultados
Serie inicial “Yt”

NO SI
¿Es estacionaria en media ?

Aplicar filtro de tendencia

Continuamos con la serie filtrada Continuamos con la serie


“Yt(ft)” inicial “Yt”

NO ¿Es “Yt(ft)” estacionaria SI NO ¿Es “Yt” estacionaria en


SI
en varianza ? varianza ?

Aplicar Aplicar
diferencias diferencias

(1) Continuamos con la (2) Continuamos con (3) Continuamos con la (4) Continuamos con
serie filtrada en la serie filtrada serie en diferencias la serie original
diferencias “dYt(ft)” “Yt(ft)” “dYt” “Yt”

a. La presencia de componentes estacionales en las series de


tiempo estacionarias obliga a plantearse al menos tres
preguntas previas a la identificación:

i. ¿Conviene preservar el componente estacional en la serie


o eliminarlo antes de identificar sus estructuras ARMA y
utilizar los resultados con fines analíticos?

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 337

ii. En caso que sea de interés eliminar el componente


estacional, ¿Cuándo conviene aplicar el correspondiente
filtro para eliminar la estacionalidad? ¿Antes del
tratamiento de la tendencia determinista y las raíces
unitarias? ¿Después de los filtros de tendencia pero antes
del análisis de Raíces Unitarias?

iii. Suponiendo que está claro cuándo conviene eliminar la


estacionalidad, ¿existe un procedimiento estándar o más
de uno? y, lo que es más importante, ¿es indiferente la
aplicación de los distintos métodos que existen o por el
contrario los distintos procedimientos impactan sobre la
serie filtrada resultante y, por tanto, sobre el resto de las
etapas del análisis?

Algunas de las preguntas previas tienen una respuesta.


Empezando por el final, existen distintos métodos para eliminar
la componente estacional y la aplicación de cada uno de ellos
genera resultados que pueden diferir sustancialmente influyendo
en el resto de las etapas (identificación y análisis de
estacionariedad).

Entender distintos procedimientos pasa por comprender una


distinción muy simple de tres (3) tipos genéricos de
estacionalidad. Puramente determinista, Estacionalidad
estacionaria y Estacionalidad integrada.

Definición. Estacionalidad determinista. Asume que el


componente estacional de una serie transformada Zt puede ser

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 338

pronosticado con exactitud a futuro, permaneciendo invariante


en el tiempo, y puede, por tanto, ser modelado por ejemplo
mediante la inclusión de variables dummies.

Excluida la estacionalidad determinista, el resto de métodos


ideados para modelar la estacionalidad no determinista (X11,
X12) impactan de forma distinta, y a veces significativa, en los
resultados obtenidos para la serie filtrada y, además, generan
resultados potencialmente distintos según el momento elegido
para la aplicación del filtro.

Por último, conviene preguntarse además si la estacionalidad es


siempre “estacionaria” o, por el contrario, del mismo modo que
aparecen raíces unitarias “regulares” es posible encontrar raíces
unitarias estacionales.

Efectivamente, es posible encontrar raíces unitarias estacionales


lo que obliga a pensar en la aplicación de test específicos46 antes
de observar otros componentes estacionales estacionarios en la
identificación.

Con el fin de no complicar en exceso el proceso de identificación y


en términos de la estacionalidad y supondremos bien que
estamos ante una serie sin componentes estacionales o, al menos,
con componentes estacionales estacionarios que, por tanto,
podrán ser filtrados previamente o bien modelados en el propio
proceso de identificación ARMA en su componente estacional
(SARMA).

46 Existen varias propuestas al respecto: DF Estacional (Dickey Fuller) , HEGY (Hyllenerg,Engle,Granger y Loo) , CH (Canovas – Hansen)

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 339

REGRESIONES ESPURIAS
El problema de la aparición de regresiones espurias en los
resultados de un buen número de análisis económicos es
siempre atribuido a Granger y Newbold (1974).

Sin embargo, a finales de la década de los años 20, Yule (1926)


ya había arrojado la primera piedra en el Journal of the Royal
Statistical Society con un artículo con el título: Why do we
sometimes get nonsense correlations between time series?

El problema de las regresiones espurias admite como buenas,


relaciones económicas que en realidad sólo se deben a aspectos
casuales.

Por regresión espuria se entiende aquellas ecuaciones de


regresión que presentan una elevada significancia conjunta,
medida en términos del coeficiente de ajuste R2 o R2 ajustado. Sin
embargo, fuertes problemas de autocorrelación positiva
reflejados en bajos valores del estadístico Durbin Watson.

La presencia de un término de error fuertemente


autocorrelacionado impide efectuar un proceso de inferencia con
mínimas garantías.

La probabilidad de un error en el cálculo y en la aplicación de los


test de significancia individual convencionales es muy
importante, sin contar los problemas de no eficiencia de los
estimadores.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 340

Este tipo de regresiones aparecen cuando se relacionan series de


tiempo no estacionarias y se agudizan cuanto estas estén más
cercanas a la forma de un paseo aleatorio. Es decir, cuanto más
evidente sea la presencia de tendencias estocásticas en las series.

La forma más clara de ilustrar el problema es utilizar los


resultados del ejemplo expuesto por Newbold y Davies (1978) y
Granger y Newbold (1986). Suponga dos variables yt y xt
independientemente generadas por paseos aleatorios:

Donde ε1t y ε2t son procesos ruido blanco normales estándar


independientes entre sí con media cero y varianza unitaria.

Dado que yt y xt están generadas de forma independiente se debe


esperar que no existiera ninguna relación significativa entre
ambas.

Sin embargo, sobre un conjunto de 1000 muestras de yt y xt con


50 observaciones, alrededor de un 65% de las regresiones de yt
sobre xt presentan contrastes t significativos a un nivel de
significancia del 5%.

Tal y como expone Enders (1995) basta con comprender las


propiedades de la perturbación aleatoria de la regresión de yt
sobre xt para apreciar lo inconsistente de estos resultados.

Efectivamente, en la regresión:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 341

Es claro que, prescindiendo de la constante a0:

Por lo que imponiendo las restricciones iniciales y0=x0=0 se


tiene que:

Por tanto, se está ante una sucesión εt no estacionaria en


varianza. Si esto es así, εt presenta una tendencia estocástica, lo
que quiere decir que el error cometido en t no se diluye en t+1,
t+2... t+s.

Es imposible que una regresión en la que los errores se acumulan


de forma permanente pueda tener algún interés.

Nótese que en esta situación se violan un buen número de


hipótesis básicas asumidas en los procesos de inferencia
habituales en el contexto del Modelo Básico de Regresión Lineal:
1. La varianza de εt no es constante. Como se demostró
anteriormente la varianza se incrementa hacia el infinito a
medida que el tamaño de muestra t crece.
2. Existe correlación serial. La misma expresión para εt puede
utilizarse para comprobar como la correlación entre εt y εt+1
tiende a uno a medida que t se incrementa.
3. Si la serie xt no es estacionaria, no satisface la propiedad:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 342

Dada semejante acumulación de errores, ningún test de


significancia puede ser usado con garantías y por ello, ninguna
inferencia será fiable.

Las regresiones espurias, no obstante, no sólo se producen por la


aparición de tendencias estocásticas en las series. Las tendencias
deterministas también pueden ser un problema.

Si se construye una serie yt lineal (1,2,3,4..... 50) y se hace


depender de otra xt con tendencia cuadrática (1,4,.......502) el
resultado en términos de R2 es 0,94 cuando en realidad el patrón
de evolución de la serie cuadrática acabará por divergir de forma
definitiva cuando el número de datos tienda a infinito.

Desde el primer momento, y aún de forma intuitiva, la utilización


de tasas o primeras diferencias se utiliza en las series de cara a
mitigar los efectos negativos en este tipo de situaciones.

Este fenómeno sucede con facilidad cuando son utilizados series


en niveles, dado que los cambios sobre el nivel se producen de
forma mucho más suave generando series con patrones
tendenciales ampliamente comunes y fácilmente predecibles.

El problema, no obstante, no reside en una cuestión de niveles o


tasas, sino en el concepto de estacionariedad de la serie de
tiempo.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 343

EVALUACIÓN DE LA ESPECIFICACIÓN SARMA (ESTACIONALES)


Del mismo modo que se ha identificado la presencia de términos
AR y/o MA en la componente “regular”, observando los
correlogramas o utilizando criterios clásicos de evaluación
econométrica, pueden así mismo identificarse estructuras AR y
MA para retardos estacionales.

Este tipo de estructuras SAR y/o SMA se identifican con los


mismos instrumentos especificados anteriormente.

Con relación al correlograma, en el caso de las componentes


estacionales las estructuras SAR y SMA se identifican
gráficamente con los mismos patrones señalados para la
componente regular.

Sin embargo, para evaluar en este caso un decrecimiento en la


FAP o FAS debemos fijarnos exclusivamente en los valores de los
coeficientes de autocorrelación (simples o parciales)
correspondientes a los rezagos estacionales (por ejemplo para
una serie trimestral, se debe observar gráficamente el valor de los
coeficientes de autocorrelación para t-4, t-8, t-12……etc).

Dado que habrá que observar coeficientes de autocorrelación


para rezagos estacionales, deberán solicitarse correlogramas más
extensos que par la identificación de la componente regular.

En una serie mensual, por ejemplo, una docena de coeficientes


son suficientes para observar cualquier estructura en la
componente regular y, sin embargo, no podría observarse la

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 344

componente estacional dado que el único coeficiente estacional


disponible sería el correspondiente a “t-12”.

Por lo que se refiere a la evaluación econométrica de las


especificaciones SARMA alternativas, todos los consejos citados
para la evaluación econométrica de la componente regular son
igualmente aplicables para evaluar la conveniencia de la inclusión
de términos SAR y/o SMA en una especificación.

INTRODUCCIÓN AL ANÁLISIS DE INTERVENCIÓN


El modelamiento econométrico ARIMA de una serie temporal
rara vez concluye con la identificación de una estructura AR / MA.

La razón es que este tipo de estructuras ARMA regulares y/o


estacionales pueden servir como regla general de
comportamiento para la serie disponible, pero sólo capturarán
aquella porción de la variabilidad sistemática que se observe a lo
largo de la serie completa.

Esto significa que, aún utilizando una estructura ARMA pueden


quedar fuera de análisis:
a. Ciertos componentes de variabilidad sistemática (y por ello
previsible en gran medida) pero de carácter irregular o de
frecuencia anómala. Como componente sistemático de
carácter puntual podemos, por ejemplo, imaginar el efecto de
la semana santa sobre la serie semanal de entrada de
turistas. Dado que la Semana Santa es un fenómeno puntual
dentro del año (no ocurre todos los meses) y además no
siempre “cae” en la misma semana natural, su “efecto” sobre
la serie no se puede recoger con el componente regular

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 345

ARMA previamente identificado. Otros efectos de esta


naturaleza pueden ser el efecto”año bisiesto”, la presencia de
fiestas de distinto carácter (internacional, nacional, regional,
local,…) que afecten a la serie o a parte de ella.

b. Impactos puntuales en la serie debidos a la presencia de


observaciones atipicas, imprevisibles, no sistemáticas,
relacionadas con acontecimientos extraordinarios o errores
en la manipulación de datos (atípicos)

Ejemplos de puntos atípicos con influencia sobre cualquier


serie hay tantos como acontecimientos imprevisibles puedan
ocurrírsele a uno (un atentado, un seísmo, un cambio
legislativo, una fusión empresarial, …..)

La presencia de este tipo de componentes deficientemente


incluidos en la especificación, pueden generar problemas en los
modelos estimados.

En primer lugar, la presencia de puntos o períodos atípicos eleva


el error de estimación, lo que repercute en varios aspectos clave
en materia de evaluación general del modelo (tests de
significatividad, precisión en el contraste de hipótesis, tamaño de
los intervalos para los parámetros y la predicción, etc).

En segundo lugar, la propia presencia no atendida de tramos o


puntos anómalos puede inducir errores en la identificación de las
estructuras ARMA.

En este sentido, algunos puntos atípicos pueden tener una

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 346

elevada influencia en los resultados de las medidas y los test que


se utilizan en la tarea de especificación.

Adicionalmente, la presencia de señales atípicas en las series y su


correcta detección aporta en muchas ocasiones una fuente
auxiliar de conocimiento del fenómeno analizado que no conviene
desperdiciar.

En líneas generales, el análisis de intervención aspira a


complementar la identificación ARMA de la componente de
variabilidad sistemática regular de la serie, añadiendo al modelo
una componente (de tipo determinista) que recoja los efectos de
los anómalos.

Esa componente determinista puede ser, a futuro, previsible o


imprevisible en función, precisamente, del carácter determinista
o no sistemático del acontecimiento incluido.

La forma que adoptará la componente determinista del análisis


de intervención dependerá del tipo y duración fenómeno a
incorporar en el modelo.

En ocasiones se tratará de series completas de tiempo en otras de


meras variables dummy pensadas para capturar algún
acontecimiento puntual.
Así, por ejemplo, en el caso del modelamiento de datos atípicos
(outliers), suelen distinguirse algunos perfiles habituales (se
muestran sólo algunos ejemplos de los diversosperfiles que
podrían imaginarse):

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 347

Impulso: El acontecimiento es puramente Escalón: Se produce un cambio de nivel


puntual afectando a una única (media) en la serie a partir de un
observación. determinado acontecimiento.
20 40

35
10
30
0
25
-10 20

-20 15

10
-30
5
-40
0

-50 -5
1 14 27 40 53 66 79 92 105 118 131 144 157 170 183 196 209 222 235 248 261 274 287 300 313 326 339 352 365 378 391 404 417 430 443 456 469 482 495 1 14 27 40 53 66 79 92 105 118 131 144 157 170 183 196 209 222 235 248 261 274 287 300 313 326 339 352 365 378 391 404 417 430 443 456 469 482 495

Meseta: Una variante del atípico de Tendencia (o rampa): El acontecimiento


escalón pero de duración determinada impacta progresivamente en la serie
40 generando una tendencia determinista.
35 40
30 35
30
25
25
20
20
15
15
10 10
5 5
0
0
-5
-5
1 14 27 40 53 66 79 92 105 118 131 144 157 170 183 196 209 222 235 248 261 274 287 300 313 326 339 352 365 378 391 404 417 430 443 456 469 482 495
-10
1 14 27 40 53 66 79 92 105 118 131 144 157 170 183 196 209 222 235 248 261 274 287 300 313 326 339 352 365 378 391 404 417 430 443 456 469 482 495

Los distintos acontecimientos que requieren análisis de


intervención pueden ser conocidos previamente por el analista
por lo que su detección técnica no es necesaria.

Sin embargo, la exploración puramente técnica de la serie en


busca de datos atípicos puede ser también importante por cuanto
algunos fenómenos que impactan en la serie pueden no ser
conocidos a priori (bien por falta de atención o estudio del
analista, bien por tratarse de cuestiones particularmente raras e
inexplicables incluso a posteriori).

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 348

En este sentido, muchos programas con módulos específicos de


análisis de series temporales (TRAMO-SEATS) ofrecen
mecanismos de detección y caracterización de datos atípicos que
complementan las ideas a priori del analista.

Estimación
Los parámetros del modelo ARMA pueden estimarse por Máxima
Verosimilitud asumiendo una distribución condicional concreta
para la serie de interés. Aunque las observaciones no son
mutuamente independientes, la verosimilitud puede obtenerse
mediante la siguiente función de verosimilitud:

Si esta condicionalmente normal entonces su función de densidad


condicional viene dada por:

Si también asumimos que el proceso es estacionario y Gaussiano,


de forma que la distribución marginal de las observaciones
iniciales sea Gaussiana, entonces la densidad marginal es:

El logaritmo de la función de verosimilitud Gaussiana se define


como:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 349

En los modelos ARMA, la varianza condicional siempre es


constante. Por lo tanto:

La media condicional y la distribución marginal dependen del


modelo particular que se haya ajustado a la serie.

Ejercicio. Suponga el caso de un AR(1). Construya la función de


verosimilitud asociada. Sean los momentos y la forma funcional
del proceso estacionario de la forma:

Por lo tanto, el logaritmo de la función de verosimilitud Gaussiana


se define como:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 350

Si se consideran que los valores iniciales de la serie son fijos en


distintas realizaciones, entonces:

El estimador de máxima verosimiltud condicional es equivalente


a OLS con sus propiedades asintóticas son las mismas que las del
estimador de máxima verosimilitud.

Bajo el supuesto de estacionariedad, la distribución asintótica del


estimador de máxima verosimilitud es la habitual, lo que nos
permite realizar contraste de hipótesis sobre los parámetros del
modelo de forma estándar.

DIAGNÓSTICO DE LOS RESIDUOS


La estructura de diagonostico del modelo, según la metodología
Box-Jenkins, ademas de la significancia de los parametros del
modelo se puede resumir en la siguiente tabla:

Prueba Objetivo

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 351

LM Prueba para determinar


efecto ARCH o varianza no
condicionada.
Q-Ljung-Box Estacionareidad y
autocorrelación de los
residuos.
Prueba de Pormanteau Prueba de autocorrelación
del primer residuo.
Normalidad Shapiro-Wilk / Jarque-Bera
Prueba de estabilidad Test de Chow

PRONOSTICO
Si se ha encontrado un modelo adecuado para el proceso
generador de datos (DGP) de una serie de tiempo puede ser
utilizada para pronosticar el desarrollo futuro de la variable en
estudio.

Los procesos AR son particularmente fáciles de usar para con este


propósito. Tener una componente determinista y asumiendo un
AR(p) de la forma yt = α1yt-1+ ··· + αpyt-p + ut, donde el termino,
ut, son generados por un término independiente no
correlacionado ruido blanco.

Se puede demostrar que el óptimo (mínimo ECM) un periodo


haca adelante tiene la esperanza condicional:

Para pronósticos más amplios, h>1, puede ser obtenido


recursivamente de la forma:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 352

Donde yt+j|T=yt+j para j<0. El correspondiente error de


pronóstico está dado por:

Donde se puede observar por sustitución sucesiva que los


coeficientes Φj pertenecen a una representación MA si el proceso
es estacionario. En consecuencia, los coeficientes ΦJ pueden ser
calculados de forma recursiva como:

Con ϕ0=1 y αi=0 para i>p. Donde ut, es el error de pronostico un


paso hacia adelante y el pronóstico es insesgado, es decir, el error
de pronostico tiene expectativa cero.

Este es el ECM de pronóstico. El ECM de h periodos hacia adelante


es:

Para cualquier otro pronostico h periodos hacia adelante con el


ECM σ̅2y (h), por ejemplo, σ
̅2y (h)- σ2y (h) es no negativa.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 353

Este resultado se basa en el supuesto que ut es ruido blanco


independiente, es decir, ut y us sean independientes para s≠t. Si ut
es ruido blanco no correlacionado y no es independiente en el
tiempo implica que los pronósticos obtenidos de forma recursiva
son:

Con yT(j)=yT+j para j<0 es el mejor pronostico lineal . Es


importante indicar que el pronostico del ECM para variables
estacionarias I(0) esta acotado por la varianza condicional σ2y (h)
de yt.

Si el proceso yt es gaussiano, es decir, ut~vaiid N(0,σ2), el error de


pronostico también se comporta normalmente. Este resultado
puede ser utilizado para construir intervalos de confianza de la
forma:

Donde c1-γ/2 es el porcentaje (1-γ/2)100 de una distribución


normal estándar y σy(h) denota la raíz cuadrada de σ2y (h), es
decir, σy(h) es la desviación estándar del error de pronostico h
periodos hacia delante de la variable yt.

Aunque se ha presentado el pronostico para procesos


estacionarios las mismas formulas aplican si yt es I(d) con d>0.
También los Φj pueden ser calculados como:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 354

En el caso no estacionario, los Φj no son coeficientes en una


representación MA, y no onvergen a cero para j→∞.

Como consecuencia, el ECM del pronóstico no converge para


h→∞.

Para variables no estacionarias de orden d, I(d), existe otra


posibilidad para calcular en pronostico. Suponga yt es I(1) de
modo que ∆yt es estacionaria. Es posible utilizar el hecho que
yt+h=yt+∆yt+1+……+∆yt+h. De este modo, el pronostico yt+h
desde el periodo t, solamente es necesario de la variable
estacionaria ∆yt+j (j=1,…,h) y sumárselo al pronóstico de yt para
obtener el pronóstico de yt+h. Este pronóstico es idéntico al
obtenido directamente de los niveles en una formulación AR(p).

En la práctica, no se conoce el proceso generador de datos (DGP)


pero se ejecuta sobre la aproximación a este. En otras palabras,
las cantidades estimadas se efectúan incluyendo el gorro de
estimación sobre la ecuación de pronóstico, es decir:

El correspondiente error de pronóstico es:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 355

En el origen del pronóstico T, el primer término del lado derecho


implica los residuos futuros solamente, mientras el segundo
término variables presentes y pasadas únicamente,
proporcionando únicamente variables pasadas para su
estimación.

En consecuencia, si ut es ruido blanco visto como una vaiid los


dos términos son independientes. Por otra parte, bajo supuestos
estándar, la diferencia yT+h|t - yT+h|T es pequeño en la probabilidad
en la medida que el tamaño de muestra utilizada para la
estimación se hace grande. Por lo tanto, la varianza del error de
predicción es:

Donde o(1) denota un termino que se aproxima a cero en cuanto


el tamaño de muestra tiende a infinito. De esta forma, para
estimación de muestras grandes la incertidumbre puede ser
ignorada en evaluar la precisión de pronóstico y estableciendo
intervalos de confianza. En muestra pequeña incluye un término
de corrección. En este caso, la precisión del pronóstico dependerá
sobre la precisión de los estimadores.

Incluir un términos determinístico en el proceso utilizado para


pronóstico es utilizado. El valor apropiado del termino
determinístico es adicionado a cada pronostico.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 356

CARACTERÍSTICAS DE LAS PREDICCIONES REALIZADAS CON


MODELOS ARIMA
1. Modelos AR(p): la predicción tiende a m (media del proceso)
a medida que aumenta el
2. horizonte temporal de la predicción.
3. Modelos MA(q): dada la memoria limitada que caracteriza a
estos procesos, la predicción es igual a m (media del
proceso) cuando el horizonte temporal de la predicción es
mayor que el orden del proceso (q).
4. Modelos ARMA(p,q): a partir de "q" períodos futuros la
predicción tiende a m (media del proceso) a medida que
aumenta el horizonte temporal de la predicción.
5. Modelos ARI(p,d) e IMA(d,q): la predicción ya no tiende a m
sino que será una línea recta que parte deY(1) con pendiente
igual a la media del proceso wt (serie resultante de las
transformaciones necesarias para hacerla estacionaria).

PROTOCOLO DE IDENTIFICACIÓN DE MODELOS ARIMA


En términos generales, se conoce como identificación del modelo
la determinación de los ordenes “p” y “q”, de la estructura ARMA
de la transformada la variable transformada Zt de una serie
temporal yt diferenciada o con filtro de tendencia.

Antes de proponer algunas técnicas concretas para la


identificación de la serie Zt, conviene hacer algunas observaciones
preliminares importantes:
b. La observación de la estructura ARMA(p,q) supone la
presencia de componentes regulares en las series, una vez
filtrada la presencia de tendencias deterministas y

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 357

estocasticas.

No todas las series presentan este tipo de componentes


regulares o, dicho de otro modo, no todas las series son
susceptibles de ser analizadas mediante un esquema ARMA.

A este respecto, conviene recordar que los modelos ARMA


implican estructuras de comportamiento muy sencillas que
no siempre se ajustan a la compleja evolución de las series
reales.
c. Aunque técnicas de identificación pueden aplicarse a
cualquier variable transformada Zt de la serie original yt debe
tenerse en cuenta que el resultado del proceso de
identificación no es independiente de las decisiones
adoptadas en el proceso de análisis de estacionariedad
previo.

Todas las decisiones adoptadas en este proceso previo


(aplicación de filtros de tendencia, elección de un filtro
frente a otro, orden de integración y diferenciación de la
tendencia estocastica) implican obtener diferentes
versiones, transformadas de Zt, y por tanto, alteran las
características del proceso a observar mediante la
identificación.

Aplicar una diferencia cuando no existía una raíz unitaria en


una tendencia estocastica (sobrediferenciar), no aplicar una
diferencia necesaria (infradiferenciar), elegir un filtro de
tendencia incorrecto implican errores en el proceso de
identificación.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 358

Así, por ejemplo, en las siguientes figuras se observa como la


aplicación incorrecta de un filtro de tendencia lineal genera
una señal filtrada sobre la variable transformada Zt
absolutamente distinta de la que se genera cuando se aplica
el filtro correcto.

Figura 1: Serie Yt con tendencia Figura 2: Serie Yt, filtro de tendencia


polinómica lineal incorrectamente aplicado y serie
1600000 filtrada Zt=yt(ft) resultante
2000000
1500000
1200000
1000000
500000
400000 0
800000
-500000
200000

400000
0

-200000
0 96 97 98 99 00 01 02 03 04 05
96 97 98 99 00 01 02 03 04 05
Residual Actual Fitted
SERIE1

Figura 3: Serie Yt, filtro de tendencia polinómico correctamente aplicado y serie


filtrada Zt=yt(ft) resultante
2000000

1500000

1000000
40000
500000
20000
0
0
-500000

-20000

-40000
96 97 98 99 00 01 02 03 04 05

Residual Actual Fitted

METODOLOGÍA BOX – JENKINS

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 359

La publicación de Box y Jenkins “Times Series Análisis:


Forecasting and Control” en la década de los 70’s generó un
nuevo conjunto de herramientas de predicción, cuyo
procedimiento se llamó metodología Box- Jenkins. También
técnicamente conocida como metodología ARIMA.

Este método de predicción se basa en el análisis de las


propiedades probabilísticas o estocásticas de las series de
tiempo económicas en sí mismas, pues una variable Yt puede ser
expresada como una función de sus valores pasados, razón por la
que algunas veces se les denomina modelos sin concepción
estructural donde no existe relación causal alguna a diferencia
de los modelos clásicos de regresión.

El objetivo de la metodología Box – Jenkins es identificar y


estimar un modelo estadístico que puede ser interpretado como
generador de la información de la muestra. En este sentido, si el
modelo estimado es usado para la predicción debe suponerse
que las características de la serie es al menos estacionaria en
estido debil. Por lo tanto, la predicción se efectúa sobre una base
válida considerando que el modelo es estacionario o estable.

PROCEDIMIENTO
Las etapas que se deben seguir en la elaboración de un modelo
ARIMA con fines predictivos son las siguientes:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 360

Etapa 1. Identificación.
Esta fase consiste en detectar el tipo de proceso estocástico que
ha generado los datos. Esto significa encontrar los valores
adecuados del la parte autoregresiva (p),el orden de integración
(d) y el componente de mendia móvil (q) del modelo ARIMA. Las
herramientas fundamentales en la identificación son el
correlograma muestral y el correlograma parcial muestral.

Es importante tener en cuenta que antes de usar los criterios de


identificación sobre las funciones de autocorrelación de FAS y
FAP se debe lograr una serie estacionaria. Para ello, se efectúan
las pruebas de estacionariedad a la serie original.

En caso de que esta no sea estacionaria, la variable puede


diferenciarse d veces hasta que ésta sea estacionaria. Mediante
este procedimiento se identifica el orden de integración d del
modelo ARIMA.

A continuación se presentan los patrones teóricos de la FAS y


FAP según el tipo de modelo, los cuales son útiles en la
identificación de p y q del modelo ARIMA:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 361

Puesto que en la práctica no se observan la FAS y la FAP teóricas,


se usan las FAS y FAP estimadas, las cuales presentan error
estadístico. El objetivo es encontrar la mayor exactitud entre la
FAS y FAP teóricas y estimadas, en tanto que la identificación del
modelo ARIMA requiere de habilidad, la cual se obtiene con la
práctica. Cabe anotar, que en el procedimiento de identificación
de p y q.

Cabe anotar, que en el procedimiento de identificación de p y q,


se consideran aquellos rezagos estadísticamente significativos,
por lo cual no es necesario incluir rezagos intermedios hasta p o
q si éstos no son significativos.

Etapa 2. Estimación.
En esta etapa se estiman los coeficientes de los términos
autorregresivos y de media móvil incluidos en el modelo, cuyo
número de rezagos p y q ya han sido identificados en la etapa
anterior.

Algunas veces la estimación se efectúa por OLS, pero en otras se


recurre a la estimación no lineal de los parámetros. Este último

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 362

procedimiento utiliza un algoritmo para minimizar la suma de


los cuadrados de los residuos, comenzando con algún valor
inicial de los parámetros del modelo.

En general el algoritmo busca si otro vector de parámetros


mejora el valor de la función objetivo, produciendo iteraciones
sucesivas hasta alcanzar la convergencia. Los paquetes
estadísticos efectúan este procedimiento a través de rutinas de
computador en las que se tienen definidos los parámetros
iniciales, así como los criterios de convergencia.

Teóricamente el método OLS en la medida que las muestras sean


grandes posee propiedades asintóticas, esto quiere decir que se
generan estimadores asintóticamente consistentes y convergen a
una distribución normal, por lo que las pruebas hipótesis
convencionales sobre los parámetros del modelo serán válidas.

La estimación del modelo ARMA(p,q) se efectúa para la serie que


se ha comprobado es estacionaria. En la práctica los modelos
más comunes son los autorregresivos. Sin embargo, de acuerdo
con el teorema de descomposición de Wold, el modelo ARMA
debería ser la primera opción, teniendo en cuenta que la
inclusión de términos adicionales MA puede mejorar las
propiedades estadísticas de la estimación.

Los modelos MA son poco comunes y en la práctica a todos los


modelos se les incorpora la constante o intercepto. Debido a que
en la práctica es difícil identificar con exactitud el orden p y q del
modelo ARMA, se suelen plantear dos o más modelos plausibles,

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 363

que luego de ser estimados son útiles para la elección del más
apropiado.

Etapa 3. Verificación de Diagnóstico.


En esta etapa ser busca evaluar si el modelo estimado se ajusta a
los datos en forma razonablemente buena, ya que es posible que
exista otro modelo ARMA que también lo haga. A esta etapa
también se le conoce como validación o comprobación de
diagnóstico en la cual se efectúan algunas pruebas antes de hacer
uso del modelo para la predicción.

La validación o verificación incluye el análisis de los coeficientes


o parámetros del modelo, la evaluación de la bondad de ajuste y
análisis de los residuos.
1. Análisis de los coeficientes. Se desea que el modelo
ARMA(p,q) estimado cumpla con las condiciones de
estacionariedad e invertibilidad y que exista significancia
estadística en los rezagos incorporados. Teniendo en cuenta
las propiedades asintóticas de la estimación por OLS, los
estadísticos t-student pueden utilizarse para probar
significancia individual de cada uno delos coeficientes hasta
p y q.
2. Bondad de Ajuste. Debido a que en la fase de identificación
se postula más de un modelo tentativo, en el diagnóstico o
validación es importante identificar cuál de los modelos
presenta una mejor bondad de ajuste. Una herramienta para
ello es el R2 ajustado, el cual es corregido por los grados de
libertad resultantes de introducir parámetros adicionales en
el modelo. Por esta razón es aconsejable el R2 ajustado que
el R2, ya que el primero en cierto modo tiende a evitar o

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 364

castigar la sobreparametrización. Sin embargo, el R2


ajustado tiene validez solamente cuando se comparan
modelos en los que se han tomado el mismo número de
diferencias. Esto se sustenta en que la varianza total
depende del número de diferencias que se haya tomado.
3. Debido a esta limitación del R2 se han propuesto medidas
alternativas ecomo criterios de información como Akaike
Information Criterion (AIC) o el Schwartz Criterion (SBC).
Estas son herramientas estadísticas útiles para elegir el
número adecuado de rezagos p y q del modelo ARMA.
Ambos criterios se basan en la utilización de la suma de los
cuadrados de los errores, buscando minimizarla a partir de
diversas combinaciones de p y q. A esta prueba se le conoce
como la prueba de parsimonia. Al efectuar el diagnóstico se
desea que tanto el AIC y el SC den lo menor posible al
comparar modelos con diversas combinaciones de p y q. En
este proceso es importante considerar que los rezagos
adicionales deben ser significativos, puesto que si éstos no
los son aumenta k sin que la suma de cuadrados de los
errores se reduzca.
4. Análisis de los residuos. El supuesto de errores del modelo
son un proceso puramente aleatorio (media cero, varianza
constante y no correlación serial) debe verificarse. Para ello
es posible efectuar varios análisis:
a. Gráfico de los residuos. Consiste en una gráfica de los
errores en función del tiempo. La gráfica puede revelar
a simple vista si por ejemplo es admisible la hipótesis
de varianza constante o correlación.
b. Correlograma de los residuos y el estadístico Ljung –
Box. Se evalúa con el correlograma que los errores del

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 365

modelo son ruido blanco. En caso de no serlo, es


indicativo de que hay alguna estructura remanente del
modelo que no se logró capturar. La manera de
efectuar la prueba es mediante la inspección del
comportamiento del correlograma muestral a medida
que aumenta el número de rezagos y a través del
estadístico Ljung–Box.
c. Histograma. Generalmente se acostumbra probar que
los errores del modelo siguen distribución normal. Para
ello, se construye el histograma de frecuencias. La
prueba de normalidad se efectúa con el estadístico
Jarque Bera. En caso de que el modelo cuente con
errores autocorrelacionados se volverá a la etapa de
identificación con el objeto de reformular el modelo
hasta que los errores sigan un proceso puramente
aleatorio.

Etapa 4. Pronóstico.
El paso mas importante. Se pronostica un periodo futuro a partir
del modelo seleccionado. Es decir, aquel que es “el mejor”
resultante de las etapas anteriores, es importante considerar si
la variable original fue diferenciada. Se hace necesario ejecutar
pruebas de backtesting e intramuestra para verificar al
asertividad del modelo.
SELECCIÓN DE MODELOS
Existen dos metodologías en la selección de modelos de
pronóstico. La primera parte de los criterios de información. La
segunda utiliza metodologías de minimización del error de
pronóstico.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 366

CRITERIOS DE INFORMACIÓN
La selección de modelos en el análisis econométrico involucra
tanto consideraciones estadísticas como no estadísticas. Esto
dependerá de los objetivos del análisis, de la naturaleza y
extensión de la teoría económica utilizada y de los resultados
estadísticos del modelo bajo consideración comparado con otros
modelos econométricos.

El cálculo de los valores de las funciones de criterio corresponde


a las propuestas por Akaike (1973,1974), Schwarz (1978) y
Hannan-Quinn (1979), tanto para modelos uniecuacionales como
multiecuacionales.

Estos criterios de selección de modelos miden el “ajuste” (“fit”) de


un modelo dado, maximizando el valor de la función de máxima
verosimilitud con el uso de diferentes funciones de costos
(“penalty”) para tomar en cuenta el hecho de que diferentes
números de parámetros desconocidos pudieron haber sido
estimados para diferentes modelos bajo consideración.
Si ln(Θ) es el valor maximizado de la función de máxima
verosimilitud de un modelo econométrico, donde Θ ̂ es el
estimador de máxima verosimilitud de Θ, basado en una muestra
de tamaño n.

Definición. Criterio de información de Akaike (AIC). Para este


modelo proporciona una aproximación para muestras pequeñas.
Se define como:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 367

Definición. Criterio de información Bayes-Schwarz (BIC).


Suministra una aproximación para muestras grandes del
porcentaje de probabilidad del modelo bajo consideración. Este
criterio se define como:

Definición. Criterio de información Hannan–Quinn. Este criterio de


información fue primeramente propuesto para seleccionar el
orden autorregresivo de los modelos de promedios móviles o
vectores autorregresivos (VAR), y es definido por:

MINIMIZACIÓN DEL ERROR DE PRONÓSTICO


Si entendemos que una predicción es mejor que otra cuando
comete menor error, los criterios de selección de modelos serían
el error cuadrático medio (ECM), error absoluto medio (EAM) y
error absoluto porcentual medio (EAPM). Estos indicadores se
calcularían a período histórico, es decir, se calcularían los
valores que el modelo ofrece para las H últimas observaciones y
se compararían con el valor real, del siguiente modo:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 368

Otra medida que permite analizar la bondad de la predicción.


Está basada en la diferencia cuadrática que existe entre las tasas
de crecimiento de la variable real y la estimada conocida como u
de Theil.

El valor de coeficiente está comprendido entre 0 y 1. El valor 0


supone una predicción perfecta ya que coinciden ambas tasas en
todos los puntos.

El valor 1 en cambio supone máxima desigualdad, este hecho se


puede deber a predicciones nulas para valores reales distintos
de cero o viceversa.
n

  yˆ
i 1
i  y i 
2

U  Theil  n
n n

 yˆ i
2
 y i
2

i 1
 i 1
n n

El valor del coeficiente se puede atribuir a tres factores:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 369

1. Error Sistemático: atribuido a la diferencia sistemática entre


el promedio de las tasas reales y estimadas de la variable
dependiente. Toma valores positivos o negativos según la
media de la tasa de crecimiento de la variable estimada sea
mayor o menor que la media de la tasa de la variable real.
2. Error de Dispersión:atribuido a la diferencia entre las
desviaciones típicas de las tasas de crecimiento reales y
estimadas de la variable dependiente. Toma valores entre 0
y 1 ó -1 y 0 según la dispersión de la tasa de crecimiento de
la variable estimada sea mayor o menor que la media de la
tasa de la variable real.
3. Error de Correlación: Supone el que las dos series siguen
trayectorias distintas, queda reflejado en la mayor o menor
correlación existente entre las tasas de crecimiento reales y
estimadas de la variable dependiente.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 370

PROCESOS ESTACIONALES
Durante los últimos años se presenta un aumento pronunciado
del interés por el análisis de la variación estacional de las series
cronológicas.

Este hecho, junto con investigación relacionada con el tema de


raíces unitarias de modelos autoregresivos, llevó al tratamiento
de las raíces unitarias estacionales.

La evidencia proporcionada por estos estudios indica que,


además de ser no estacionarias, muchas series cronológicas
económicas observadas con periodicidad inferior a la anual
muestran también variaciones estacionales que son más grandes
y más irregulares que lo que se creía anteriormente.

De hecho, mientras algunas variables muestran variaciones


estacionales determinísticas, otras despliegan movimientos
estacionales que cambian lentamente a través del tiempo.

En otras palabras, algunas series cronológicas económicas


observadas con periodicidad trimestral o mensualmente parecen
desplegar a menudo variaciones estacionales estocásticas no
estacionarias y, en esos casos, los correspondientes procesos

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 371

generadores de los datos (PGD) son llamados estacionalmente


integrados o procesos con raíces unitarias estacionales.

Cuando se trabaja con datos que presentan estacionalidad, se


puede utilizar algún filtro para obtener datos estacionalmente
ajustados o puede intentar captar la estacionalidad por medio de
variables dummy estacionales lo que es equivalente a suponer
que las variaciones estacionales son puramente determinísticas.
Sin embargo, si los efectos estacionales cambian gradualmente a
través del tiempo, el modelo de variables dummy produce una
especificación dinámica errada.

Por esta razón, siempre que se usen datos estacionales en


econometría es aconsejable hacer la prueba de las propiedades
estacionales de las series cronológicas utilizadas.

PROCESOS ESTACIONALES E INTEGRACIÓN ESTACIONAL


La teoría subyacente al análisis de series cronológicas
estacionales considera tres clases de procesos estacionales:
1. Puramente determinísticos,
2. Estacionarios en covarianza
3. Procesos estacionales integrados.

La primera clase incluye aquellos procesos generados por


componentes puramente determinísticos como un término
constante, variables ‘dummy’ estacionales y tendencias
determinísticas. En el siguiente ejemplo, el proceso yt es
generado solamente por dummies estacionales que afectan la
coordenada al origen:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 372

s
y t   i Dit   t
i 1 (1)
Donde las variables Dit (i = 1,2,..., s) toman el valor 1 cuando t
corresponde a la estación i, y cero en los otros casos, y donde t
es un conjunto de variables aleatorias idéntica e
independientemente distribuídas (IID). Esta ecuación puede ser
reformulada para evitar la confusión entre los niveles de las
diferentes estaciones, de la siguiente manera:
s 1
y      Di   * *

(2)
t i t t
i 1

Donde  es la media del proceso y los coeficientes i* están


sujetos a la restricción de sumar cero. Para hacer operativa esta
restricción las dummies Dit* (i = 1, 2,..., s) se definen de manera
tal que toman valor 1 cuando t corresponde a la estación i, –1
cuando t representa la estación s, y valen cero el resto de las
veces, y donde t es una serie de variables aleatórias IID.
Finalmente, la ecuación anterior también puede incluir
tendencias determinísticas con coeficientes estacionales
constantes o variables, es decir,
s1 s
y     Di    [ Di  g (t )]  
t
i 1
i t
i 1
i
(3)
t t

Donde g(t) es un polinomio determinístico en t. El segundo caso,


proceso estacional estacionario en covarianza, puede ser
ejemplificado por un modelo expresado como
yt = s yt – s + t (4)

donde s < 1 y t es un conjunto de variables aleatorias IID. Si


s = 1 en la ecuación (4), entonces tenemos un paseo aleatorio
estacional, un proceso que exhibe un patrón estacional que varía
a través del tiempo. Ésta es la tercera clase de proceso estacional

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 373

listada anteriormente. En ese caso, la variable  s yt , definida


como,
s yt = yt–yt–s (5)

Es estacionaria. La diferencia principal entre estas formas de


estacionalidad es que en el modelo determinístico, si t es ruido
blanco, los shocks, o innovaciones, tienen sólo un impacto
inmediato; en el caso del modelo estacional estacionario los
‘shocks’ tienen un efecto transitorio (desaparecen en el largo
plazo), mientras que tienen un efecto permanente en el modelo
integrado. Es decir, los procesos estacionalmente integrados
tienen propiedades similares a aquéllas observadas en el caso
ordinario (frecuencia cero). Las series tienen buena memoria de
manera tal que los efectos de un shock permanecen para
siempre y pueden, en consecuencia, modificar el patrón
estacional de manera permanente.

Estos procesos tienen varianzas que aumentan linealmente


desde el comienzo de la serie y no están asintóticamente
correlacionados con procesos que tengan raíces unitarias en
otras frecuencias. La secuencia de los tests depende de la
definición de integración estacional adoptada. De entre las
diferentes definiciones de integración estacional existentes
mencionamos tres de ellas: la propuesta por Osborn (1988), otra
debida a Engle (1989) y finalmente aquélla dada por Hylleberg
(1990). Se dice que una variable es integrada de órdenes (d,D),
denotado I(d,D), si la serie se transforma en estacionaria
después de diferenciarla d veces con diferencias finitas y D veces
con diferencias estacionales, es decir, Xt ~ I(d,D) si

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 374

(1  L)d (1  Ls ) D X t  d Ds X t
es estacionaria. El segundo concepto
establece que una serie cronológica es integrada de orden d0 y ds,
denotado SI(d0,ds), si (1  L) [S ( L)] X   [S ( L)] X es estacionaria,
d0 ds d0 ds
t t

donde la expresión polinómica S(L) se define como


S(L)=1+L+L2+L3+….Ls-1. Cuando las variables no presentan
integración estacional ambas definiciones coinciden, es decir,
I(1,0) = SI(1,0), I(2,0) = SI(2,0), etc. Por el contrario, siempre
que una serie es estacionalmente integrada estas definiciones
difieren. Esto sucede porque Δs=(1-Ls) puede factorizarse como
(1-L)S(L). De esta manera, el equivalente de I(0,1) es SI(1,1);
I(1,1) = SI(2,1), y así sucesivamente. De la misma manera, el
proceso SI(0,1) no tiene equivalente. En este trabajo
utilizaremos la definición SI. Finalmente, una tercera definición
afirma que una serie xt es un proceso estacional integrado si
tiene una raíz unitaria estacional en su representación
autoregresiva. Más generalmente, es integrada de orden d en la
frecuencia  si el espectro de xt toma la forma
f ( )  c(   ) 2d

Para  próxima a . Esto es denotado convenientemente por


xt~I(d). Esta definición resulta conveniente al discutir los
resultados de algunas pruebas.

PRUEBAS DE RAÍCES UNITARIAS ESTACIONALES


Antes de describir las diferentes pruebas es necesario tener la
estrategia propuesta por Dickey-Pantula (1987) que sugieren
que para conservar el tamaño nominal de la prueba en el caso de
más de una raíz unitaria, es conveniente comenzar la sucesión de
pruebas a partir del número máximo de raíces en consideración.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 375

Esto también es válido cuando se trabaja con datos trimestrales


y presenta una sucesión completa de posibles pruebas que
empiezan con el caso SI(2,1), indicando las alternativas que
pueden someterse a cada prueba en cada caso. Siguiendo este
criterio en el caso que nos ocupa, comenzamos haciendo la
prueba de hipótesis de existencia de dos raíces unitarias.

Si una variable tiene que ser filtrada de alguna manera para que
se transforme en estacionaria, esto puede ser causado por una
raíz unitaria, o por raíces unitarias de alguna frecuencia
estacional. Este hecho determina cual será el modelo de
regresión que debe ser estimado para hacer la prueba dada una
hipótesis nula. La idea básica es que cuando la hipótesis nula
establece que existe una raíz unitaria en el rezago de orden 1 o
en los rezagos estacionales, los estadísticos de la prueba de
hipotesis son modificados de manera tal que, al estimarse la
regresión, se usen datos apropiadamente diferenciados (con Δ o
Δs, respectivamente). Cuando la hipótesis mantenida es que
existen raíces unitarias en las frecuencias estacionales, deben
usarse datos estacionalmente corregidos.

PRUEBAS CON HIPÓTESIS NULA DE EXISTENCIA DE RAÍCES


UNITARIAS
La prueba HEGY es una extensión del modelo Dickey-Fuller para
el caso en que la periodicidad de los datos es trimestral. Éste es
el test más comúnmente usado en los trabajos empíricos
recientes. La estrategia propuesta permite detectar la presencia
de raíces unitarias en una (o en todas) las frecuencias
estacionales así como en la frecuencia cero. Para hacer la prueba
la hipótesis nula de que las raíces del polinomio autoregresivo

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 376

(1-L4)=0 están localizadas sobre el círculo unitario, versus la


alternativa de que se encuentran fuera del mencionado círculo,
los autores usan la factorización del polinomio basado en las
cuatro raíces del mismo
(1  L )  (1  L)(1  L)(1  iL)(1  iL) (6)
4

Donde cada factor del lado derecho de la igualdad está asociado


con una raíz en particular. Agrupando los factores del lado
derecho de (6) de tres maneras diferentes, obtenemos:
(1  L)(1  L)(1  iL)(1  iL)  (1  L) S ( L) (7.1)
 (1  L)(1  L  L  L ) (7.2)
2 3

 (1  L2 )(1  L2 ) (7.3)

El segundo factor en el lado derecho de las tres igualdades


anteriores, o sea S(L), (1-L+L2-L3) y (1-L2), son filtros que
transforman adecuadamente los datos originales generando tres
variables auxiliares utilizadas en la regresión de la prueba.
Cuando la hipótesis nula de la prueba establece que existen dos
raíces unitarias en la frecuencia cero esos filtros se aplican sobre
la primera diferencia de la variable en vez de aplicarlos sobre el
nivel de la misma. Este último caso, que corresponde a la prueba
de una raíz unitaria, es el que usamos a continuación para
mostrar el procedimiento HEGY. Si denominamos yt a los precios
e yit (i = 1,2,3) a las variables auxiliares, tenemos:
 Y1t=S(L)yt es la transformación de los datos que filtra toda
la variación estacional de la serie reteniendo la raíz unitaria
asociada a la raíz +1 del polinomio autoregresivo
(frecuencia cero).

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 377

 Y2t=-(1-L+L2-L3)yt es la transformación que retiene la raíz


unitaria –1 del polinomio autoregresivo, la cual está
asociada con la frecuencia . El cambio de signo del filtro
tiene por objeto facilitar la manipulación algebraica mas no
afecta la esencia de la prueba.
 Y3t=-(1-L2)yt es la variable auxiliar asociada con las dos
raíces complejas conjugadas del polinomio autoregresivo y
que corresponde a la frecuencia π/2 .

Cabe resaltar, por lo tanto, que se cumplen las siguientes


igualdades:
 4 yt  (1  L)(1  L  L2  L3 ) yt  (1  L) Y1t
4 yt  (1  L)(1  L  L2  L3 ) yt  (1  L)Y 2t
4 yt  (1  L2 )(1  L2 ) yt   (1  L2 )Y 3t .

Después de hacer uso de algunos resultados del álgebra, se


obtiene una expresión equivalente que facilita la prueba de
hipótesis de hipótesis. El modelo testable resultante, usado para
verificar la presencia de una raíz unitaria47 en la frecuencia cero
y raíces unitarias en las frecuencias estacionales, está dado por
la ecuación (8) que puede ser estimada por mínimos cuadrados
ordinarios (OLS y los estadísticos  usados para realizar
inferencias, mientras que el término μt puede contener una
constante, una tendencia determinística y/o tres dummies
estacionales:
 4 yt  t  1Y1t 1   2Y2t 1   4Y3t 1 

47 En este caso la hipótesis nula de existencia de dos raíces unitarias en la frecuencia cero ya fue rechazada. El modelo usado en aquel test es
semejante a la ecuación (8): la variable dependiente es  12 yt y las auxiliares fueron obtenidas con los filtros anteriores, apenas que
aplicados a  yt en vez de yt .

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 378

k
  3Y3t 2    i  4 yt i   t (8)
i 1

La interpretación de los resultados y los valores críticos


necesarios para realizar las pruebas pueden encontrarse en
Hylleberg (1990). El orden de los rezagos (el valor de k en la
suma) es determinado usando las pruebas de diagnóstico de
manera tal que los errores del modelo estimado sean ruido
blanco. En la estimación de la ecuación (8), si no se rechaza la
nula de π1=0 significa que existe una raíz unitaria en los datos
estacionalmente ajustados. No rechazar π2=0 implica en la
existencia de una raíz unitaria en el ciclo estacional con periodo
semestral (dos ciclos por año). Si π3 y π4 son estadísticamente
iguales a cero existe una raíz unitaria en el ciclo estacional anual.

PRUEBAS CON HIPÓTESIS NULA DE ESTACIONARIEDAD


Puesto que las pruebas HEGY toman como nula la existencia de
raíces unitarias, el rechazo de su hipótesis nula implica el
resultado (fuerte) que la serie tiene un comportamiento
estacional estacionario. Sin embargo, debido a la baja potencia de
las pruebas en muestras de tamaño moderado, la falta de
rechazo de la hipótesis nula no puede tomarse como evidencia a
su favor de la presencia de raíces unitarias. Teniendo en cuenta
este problema de baja potencia de las pruebas HEGY, un
complemento útil de los procedimientos anteriores sería otra
prueba que tomase la estacionalidad estacionaria como hipótesis
nula y la no estacionaria como alternativa. En este contexto, el
rechazo de la hipótesis nula implicaría el resultado (fuerte) de
que los datos son de hecho no estacionarios, una conclusión que
ni las pruebas DHF ni los de HEGY pueden proporcionar. Visto

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 379

conjuntamente con estas pruebas, el procedimiento permitiría


realizar un análisis más completo de sus datos.

El punto de partida es un modelo lineal de series cronológicas


con estacionalidad estacionaria que puede especificarse
matemáticamente de dos maneras diferentes, aunque
equivalentes. La primera es la representación trigonométrica
usada en la literatura de serie cronológicas, y la segunda, es la
formulación con variables dummy. El primer procedimiento da
lugar a dos pruebas de raíces unitarias en las frecuencias
estacionales, y el segundo, resulta en cuatro pruebas para la
variación en el tiempo de los coeficientes de las variables
dummy estacionales (datos trimestrales). Estas diferentes
pruebas son obtenidas mediante la especificación apropiada de
la hipótesis alternativa en cada caso. La regresión auxiliar usada
para realizar estas pruebas es la siguiente:
yt    Zt'   f t '   ut (9)

Donde la variable Zt es un vector de tamaño (kx1) de variables


explicativas, ut es estacionaria, f t  [cos(1 , t ), sin(1 , t ),...,cos(s/2 , t),sin(s / 2, t)] ,
'

donde
2 j
j  s
s ( j  1, 2,.... 2)

El valor de s es el número de observaciones por año. De esta


manera, ft es equivalente a un conjunto de variables ‘dummy’
estacionales representado en el dominio de la frecuencia. Si la
alternativa en consideración es estacionalidad no estacionaria,
entonces debe hacerse una prueba simultánea de la existencia de
raíces unitarias en todas las frecuencias estacionales. Esto

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 380

significa que, para ejecutar la prueba de estabilidad con hipótesis


nula de estacionariedad en todas las frecuencias, el estadístico
que debe calcularse es el siguiente:
T
~ ~ ~
L  T  F ( ) F
f
2
t
f 1
t
t 1
T
~ ~ ~
 T tra[( f ) 1  Ft Ft ]
2

t 1
T
~
Ft   f t u~t ~
Donde es una secesión de sumas parciales, u es el
t 1 t

conjunto de residuos en la estimación de la ecuación (9) por


MCO y donde
m
~ 1
   W ( k , m)  f f  u~ u~
f
t k t t k t
T
k  m t

Es una estimación consistente de la matriz de varianza-


~
covarianza de f u (llevando en cuenta la posible existencia de
t t

heterocedasticidad y autocorrelación), y donde W(∙,∙) es un


alisado o suavizamiento (‘smoothing’). Si lo que interesa es hacer
la prueba de los componentes estacionales en las
correspondientes frecuencias individuales, la matriz pertinente
asume una forma diferente y el estadístico L original se reduce a
Lj (j=1,2,...,s/2) que puede computarse como un subproducto
del cálculo de Lf. Cuando se usan datos trimestrales (s=4)
resultan dos estadísticos de ese tipo. Éstos son dados por la
forma cuadrática
T
~ ~ ~
L  T  F  ( ) F
j
2
jt
f
jj
1
jt
t 1
T
~
Fjt   f jt u~t
f jt'  [cos( j , t ), sin( j , t )] f s/ 2,t  cos( , t )  ( 1) t
donde t 1 , , y
~  f
2 j 1, 2 j 1  f
2 j 1, 2 j

 fj j   
  
f f
2 j , 2 j 1 2 j ,2 j 

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 381

s ~
j  hlf  fj j
Para y donde
2 es un elemento característico de . La
distribución asintótica del estadístico de la prueba es la
distribución generalizada de Von Misses con grados de libertad
según la dimensión del proceso de sumas parciales. Las pruebas
Lj son complementos útiles de la prueba conjunta Lf. Si la prueba
conjunta rechaza la hipótesis nula esto podría deberse a la
existencia de raíces unitarias en cualquiera de las frecuencias
estacionales.

Las pruebas Lj son aptos para descubrir exactamente en cual


frecuencia estacional específica surge la no estacionariedad. Para
realizar el test de patrones estacionales variables se usa el
modelo más tradicional con variables ‘dummy’ estacionales,
determinando si la coordenada al origen estacional cambia a
través del tiempo. Nuevamente, escogiendo apropiadamente la
forma de la matriz pertinente es posible definir s estadísticos La
diferentes (a=1,2,3…,s) que permiten hacer la prueba de la
estabilidad de la a-ésima ordenada al origen estacional. Cuando
el objetivo de la prueba es la estabilidad conjunta de las
constantes estacionales se define un estadístico Lj.

Sin embargo, éste es una prueba para inestabilidad en cualquier


ordenada al origen estacional, de manera que pueden detectarse
hasta movimientos de largo plazo. Como resultado, la hipótesis
nula puede rechazarse en consecuencia de la existencia de
inestabilidad de largo plazo en esa frecuencia, lo cual es un rasgo
indeseable de la prueba. Las modificaciones propuestas por
Canova y Hansen para resolver este problema llevaron de vuelta
al estadístico de prueba conjunta definida en el primer caso.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 382

EJEMPLO. DESCRIPCIÓN DE LOS DATOS Y RESULTADOS DE LOS


TESTS
Los datos son el precio medio de exportación, por trimestre, de
la tonelada de carne bovina argentina que cubren el periodo
1960–1970, están expresados en pesos de 1960. La segunda
fuente es una publicación donde se publica la serie mensual del
índice del precio real del kilogramo vivo del novillo en el
Mercado de Liniers. Esta serie cubre el periodo enero de 1970–
octubre de 1994.

GRÁFICO I. PRECIO TRIMESTRAL DEL NOVILHO EN EL


MERCADO DE LINIERS
(Índice de los precios reales; base de comparación: 1970-I)
Periodo: 1960–1994
180

160

140

120

100

80

60

40
60 65 70 75 80 85 90

IND70NOR IND70SEC

La observación del gráfico revela una acentuada disminución del


índice entre 1973 y 1975. Con efecto, el índice cae de un valor de
160 en el primer trimestre de 1973 para 55 en el tercer

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 383

trimestre de 1975. Cabe resaltar que esa disminución ocurre en


la serie de la SAGyP, lo cual elimina la posibilidad de que el
problema se origine en el encadenamiento de las series. En
consecuencia, es evidente que los datos correspondientes al
periodo 1960–1974 tienen un nivel medio superior al resto de la
serie. Usando la prueba de Chow en un modelo de regresión con
una dummy para la ordenada al origen y otra para la pendiente,
se detecta una ruptura estructural en la serie al final de 1974.
Por lo tanto, el último trimestre de 1974 y el primero de 1975
pertenecen a dos ‘conjuntos de datos’ diferentes. La primera
mitad tiene 60 observaciones y valor medio de 125,56 mientras
que la segunda, con 80 observaciones, tiene media igual a 89,96.

En el Cuadro I se presentan los estadísticos estimados y los


valores críticos necesarios para realizar las distintas pruebas
HEGY. En los tres periodos fue ajustado el modelo dado por la
ecuación (8), con las diferencias indicadas en el cuadro, es decir,
en todos los casos se incluye una constante mientras que
solamente en el periodo completo se incluye una tendencia
determinística. Como los coeficientes de las variables dummy
estacionales no fueron significativos tales variables fueron
eliminadas de los modelos. En ninguno de los tres casos fue
necesario incluir la variable dependiente rezagada para obtener
residuos sin autocorrelación.

CUADRO I. Resultados de las pruebas con Hipótesis Nula de


Existencia de Raíces Unitarias
Prueba Parám Estad Valor
etro ístico crítico

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 384

(5%)
Periodo: 1960–1974 1 – 2,91 – 2,96
Ecuación con constante, sin 2 – 5,63 – 1,95
tendencia y sin ‘dummies’ 3 – 5,92 – 1,90
estacionales. N = 60 4 –3,70 – 1,72
3  33,48 3,04
4
Periodo: 1975–1994 1 – 4,89 – 2,88
Ecuación con constante, sin 2 – 6,90 – 1,95
tendencia y sin ‘dummies’ 3 – 6,90 – 1,90
estacionales. N = 80 4 –3,35 – 1,68
3  40,80 3,08
4
Periodo: 1960–1994 1 – 4,34 – 3,46
Ecuación con constante, con 2 – 8,67 – 1,96
tendencia y sin ‘dummies’ 3 – 8,44 – 1,90
estacionales. N = 140 4 – 5,20 – 1,64
3  68,25 3,04
4

Exceptuando el caso del coeficiente 1 en el periodo 1960–1974,


en todos los otros casos se rechaza la hipótesis nula de existencia
de raíces unitarias al 5% de significancia. Antes de concluir que
existe una raíz unitaria en la frecuencia cero de la serie del
primer periodo, recordemos las advertencias de Canova y
Hansen (1995) sobre la baja potencia de las pruebas HEGY. Si
esa raíz unitaria realmente existiera eso implicaría la presencia
de una tendencia en la serie. Sin embargo, cuando se incluye la

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 385

variable tendencia en el modelo el coeficiente de la misma no es


significativo pero transforma en significativo el coeficiente 1
(estadístico – 3,21), rechazando la hipótesis de existencia de raíz
unitaria.

CUADRO II. RESULTADOS DE LOS TESTS CON HIPÓTESIS NULA


DE ESTACIONARIEDAD
Características de los Valor Estadísticos
Tests es 196 1975 1960
(Tamaño de la Crític 0–74 –94 –94
muestra) os
(5%)
Y incluído como –
t1 No No Sí
regressor N – 60 80 140
Raíces en todas las 1,01 0,46 0,28 0,82
frecuencias 0,75 0,37 0,24 0,49
Raíz unitaria en la 0,47 0,13 0,04 0,35
frecuencia 
Raíz unitaria en la
frecuencia /2 0,47 0,20 0,04 0,28
0,47 0,13 0,13 0,15
Inestabilidad por 0,47 0,10 0,10 0,44
trimestre: 0,47 0,28 0,12 0,23
Trimestre 1
Trimestre 2 1,24 0,71 0,38 1,23
Trimestre 3
Trimestre 4

Inestabilidad en todos

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 386

los trimestres

Acerca de los resultados obtenidos con la aplicación de la


metodología de CH (ver Cuadro II), los tests fueron ejecutados
con la serie de los precios sin ninguna transformación. En los dos
subperiodos no se incluyó la variable dependiente retrasada
entre los regresores, pero sí se lo hizo en el caso de la serie
completa debido a la presencia de la tendencia decreciente ya
comentada. Los datos del Cuadro II informan los valores de los
estadísticos necesarios para realizar el test conjunto de
existencia de raíces unitarias en todas las frecuencias y en cada
una de las frecuencias estacionales. También se presentan
aquellos estadísticos con los cuales se hacen los tests de
estabilidad de los coeficientes de las variables ‘dummy’
estacionales trimestre por trimestre y en conjunto. Como puede
observarse, en ninguno de todos los casos se rechaza la hipótesis
nula de estacionariedad al nivel de 5% de significación. Esto
indica que la serie es estacionaria tanto en la frecuencia cero
cuanto en las frecuencias estacionales. Estos resultados son
coherentes con aquellos obtenidos al usar el test de HEGY.

Comparando nuevamente con los resultados obtenidos en el


caso de la aplicación de la metodologia de CH a la serie de
precios de São Paulo, Aguirre y Sansó (1999) encuentran
evidencias de existencia de una raíz unitaria estacional en la
frecuencia  de la serie brasileña. Tales resultados contradicen
aquellos producidos —para la misma serie— por los tests de
HEGY. Como em ambas metodologías la hipótesis nula es
rechazada, Aguirre y Sansó eliminan la posibilidad de que la

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 387

causa de esta incoherencia sea la baja potencia de los tests,


concluyendo que debe tratarse de una especificación incorrecta
del modelo utilizado para efectuarlos. El verdadero modelo
podría ser, por ejemplo, no lineal.

BIBLIOGRAFÍA
1 Wooldridge, Jeffrey M. (2003).Econometric Analysis of
Cross Section and Panel Data. MIT Press.
2 Kalman, R.E., A New Approach to Linear Filtering and
Prediction Problems, Trans. ASME,J. Basic Engineering,
vol 82, March 1960, pp 94-35.
3 Hamilton, J.D. (1994) “Time Series Analysis”, Princeton
University Press.
4 Amemiya T.(1985), Advanced Econometrics. Harvard
University Press.
5 Greene W. (1997), Econometric Analysis. Prentice Hall,
tercera edición.
6 White, H. (1984), Asymptotic Theory for
Econometricians. Academic Press
7 Kydland, Finn y Prescott, Edward. (1990). "Business
Cycles: Real Facts and a Monetary Myth". En: Quarterly
Review. Federal Reserve Bank of Minneapolis.
Primavera. P.3-18.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 388

VECTORES AUTOREGRESIVOS (VAR)


La aplicación de vectores autoregresivos (VAR) modela las
interacciones simultáneas entre un grupo de variables. Un VAR
es un modelo de ecuaciones simultáneas formado por un sistema
de ecuaciones de forma reducida sin restringir48. En un modelo
vectorial autoregresivo de primer orden, VAR(1), las variables
explicativas de cada ecuación son una constante, más un rezago
de cada una de las variables del modelo. Si el modelo pretende
explicar el comportamiento temporal de 3 variables, por
ejemplo, habría 3 variables explicativas, más una constante en
cada ecuación, para un total de 12 coeficientes a estimar,
siguiendo la formula n+np. Como puede verse, todas las
variables son tratadas simétricamente, siendo explicadas por su
pasado. Pueden incluirse también, como variables explicativas,
algunas de naturaleza determinista, como tendencias
temporales, variables dummy estacionales, que sirve para llevar
a cabo una análisis de intervención en el sistema. Por último,
podría incluirse como explicativa una variable, incluso en valor
contemporáneo, que pueda considerarse exógena respecto a las
variables que integran el modelo VAR.

El modelo VAR es útil cuando existe evidencia de simultaneidad


entre un grupo de variables y la posibilidad de que sus
relaciones se transmitan a lo largo de un determinado número
de períodos. Al no imponer ninguna restricción sobre la versión
estructural del modelo este incurre en errores de especificación
que son solucionados imponiendo restricciones. De hecho, la
principal motivación detrás de los modelos VAR es la dificultad
48Ecuaciones de forma reducida indica que los valores contemporáneos de las variables del modelo no aparecen como variables explicativas en
ninguna de las ecuaciones. El conjunto de variables explicativas de cada ecuación está constituido por un bloque de rezagos de cada una de las
variables del modelo. Las ecuaciones no restringidas implica que en cada una de ellas exsite el mismo grupo de variables explicativas.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 389

en identificar variables como exógenas49 como se hace necesario


en el proceso de identificacion y estimación en un modelo de
ecuaciones simultáneas. En un modelo VAR todas las variables se
tratan de igual modo, el modelo tienen tantas ecuaciones como
variables, y los valores rezagados de todas las ecuaciones son
variables explicativas en todas las ecuaciones.

Una vez estimado el modelo, puede procederse a excluir algunas


variables explicativas, en función de su significancia estadística.
Si se mantiene el mismo conjunto de variables explicativas en
todas las ecuaciones, la estimación por mínimos cuadrados
ordinarios (OLS) ecuación por ecuación es eficiente. Sin
embargo, la presencia de bloques de rezagos como variables
explicativas hace que la colinealidad entre variables explicativas
sea relevante, lo que hace perder precisión en la estimación del
modelo y reduce los valores numéricos de los estadísticos tipo t
de Student. En un modelo VAR estimado no tiene sentido tratar
de interpretar los signos y las magnitudes de los coeficientes
individuales. Por el contrario, hay que utlizar estadísticos
globales, que traten de resumir con carácter agregado la
influencia de unas variables sobre otras que incluye estadísticos
tipo F para el contraste de significancia de un bloque de rezagos
de una determinada variable, contrastes de causalidad, funciones
de impulso respuesta y descomposiciones de la varianza del
error.

EL MODELO VAR

49 La defincion de exogeneidad estadística se expondrá con mas detalle en el documento siguiendo a Sims (1980)

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 390

En el caso más simple, con sólo dos variables y un rezago, el


modelo VAR(1) puede ser expresado como:

o, en forma matricial,

Donde los términos de error satisfacen las siguientes


propiedades:

En el modelo VAR anterior, valores negativos de β12 y β21 tienden


a inducir correlación negativa entre y1t e y2t si bien no la
garantizan. Una innovacion inesperada en y2t, en la forma de un
valor no nulo de la innovación u2t, además de afectar a y2t, influye
sobre y1t, a través de de la correlación entre las innovaciones de
ambas variables. En general, una sorpresa en y2t vendrá
acompañada de un valor no nulo de la innovación u1t, salvo en el
caso excepcional en que σu1u2=0. Estos efectos se propagan en el
tiempo debido a la presencia de los valores rezagados como
variables explicativas. En general, un modelo VAR en términos
de sus rezagos anteriores puede ser expresado como:

Donde Yt es un vector columna nx1, K es el orden del modelo


VAR, o número de rezagos en cada ecuación, y ut es un vector
nx1 de innovaciones sin autocorrelación, con la propiedad que
var(ut)=Σ constante. El elemento (i,j) en la matriz As, 1≤s≤K

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 391

mide el efecto directo de un cambio en Yi en el instante t sobre


las variables explicativas al cabo de s períodos, Yj,t+s. El elemento
i-ésimo en ut es el componente de Yit que no puede ser previsto
utilizando el pasado de las variables que integran el vector Yt.

UN MODELO ESTRUCTURAL
Es útil interpretar el modelo VAR como una forma reducida de
un modelo estructural,

Donde y1t, y2t son variables estacionarias, y ε1t, ε2t son


innovaciones, procesos ruido blanco con valor esperado cero y
varianzas σ2ε1, σ2ε2. Este es un modelo de ecuaciones simultáneas
con sus dos variables endógenas. Una innovación en y2t, en la
forma de un valor no nulo de la innovación estructural ε2t, afecta
directamente a y2t, pero también influye sobre y1t a través de la
presencia de y2t como variable explicativa en la primera
ecuación. Este efecto se propaga en el tiempo debido a la
presencia de los valores rezagados. Es natural pensar que los
términos de error del modelo estructural estan no
correlacionados, puesto que la correlación contemporánea entre
y1t e y2t ya está capturada por la presencia de sus valores
contemporáneos como variables explicativas en ambas
ecuaciones. Por tanto, suponemos que Cov(ε1t,ε2t)=σε1,ε2=0. De
forma resumida, la representación matricial del modelo
estructural puede escribirse,

Con

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 392

Y si suponemos que la matriz B tiene inversa, lo cual requiere


que α11α21≠ 1, tenemos,

Donde

Con lo que supone la forma reducida del modelo VAR. Si los


términos de error del modelo estructural eran ruido blanco,
también los términos de error del modelo VAR tendrán
estructura ruido blanco. Sin embargo, las innovaciones del VAR
estarán correlacionadas entre sí, puesto que,

De modo que, si los términos de error del modelo estructural


están no correlacionados, σε1ε2=0, las perturbaciones del modelo
VAR tendrán correlación no nula. Es importante examinar las
relaciones entre los parámetros de ambos modelos, que son, en
el caso del modelo VAR(1), las 6 relaciones entre los parámetros
β y los parámetros α que aparecen en (3.3), más las 3 relaciones
entre los elementos de las respectivas matrices de covarianzas,

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 393

IDENTIFICACIÓN EN UN MODELO VAR


La estimación de un modelo VAR(1) en forma reducida
proporciona valores numéricos para 10 parámetros, las dos
constantes más los cuatro coeficientes en las variables rezagadas
y las varianzas y covarianza del vector ut. El modelo estructural
consta de 11 parámetros, las dos constantes, los 6 coeficientes, y
los 3 parámetros de la matriz de covarianzas del vector εt, por lo
que no es posible recuperar los parámetros del modelo
estructural. En modelo 1 se prueba que el modelo estructural
recursivo bivariante de orden 1, de la forma:

Modelo 1. Suponga un modelo VAR con las siguientes


caracterisiticas:

El modelo anterior está exactamente identificado, es decir, sus


parámetros pueden recuperarse de forma única a partir de las
estimaciones del modelo VAR en forma reducida. Este es un
modelo que identifica todos los parámetros del modelo
estructural a partir de las estimaciones de la forma reducida,
introduciendo la hipótesis de que la variable y1t afecta a la
variable y2t únicamente con un rezago, mientras que la dirección
de influencia de y2t hacia y1t se presenta dentro del mismo
período. No sólo se pueden recuperar estimaciones de todos los
parámetros que aparecen en el modelo estructural, también las
series de tiempo de los residuos del modelo estructural pueden
recuperarse a partir de los residuos obtenidos en la estimación
del modelo VAR, mediante, el hecho que:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 394

Modelo 2. Supongamos un modelo con dos restricciones con un


modelo VAR(1) de la forma:

Implicaría que la variable y1t no afecta ni de forma


contemporánea, ni rezagada a la variable y2t, por lo que ésta
puede considerarse exógena respecto de y1t. Examinando los
modelos anteriores, se puede observar que las dos restricciones
impuestas, α21=α22=0 implica que en el modelo VAR, β21=0,
restricción que puede contrastarse utilizando el estadístico t-
student sobre dicho coeficiente. Al incluirse una restricción más,
el modelo estructural está ahora sobreidentificado, es decir, hay
más de una manera de recuperar valores numéricos para los
parámetros de dicho modelo, a partir de las estimaciones
numéricas del modelo VAR.

Modelo 3. Ahora se analizara el caso con en modelo 3, Más


dificultades plantean el modelo,

Este modelo también se encuentra sobreidentificado, con varias


maneras de recuperar las estimaciones de los parámetros del
modelo estructural. Sin embargo, en este caso no hay ninguna
restricción sencilla contrastable que permita evaluar esta
representación ya que las que pertenecen al modelo estructural
introducen tipos no lineales para verificar los parámetros del
modelo VAR en forma reducida. Una posible estrategia consiste
en estimar el modelo VAR sujeto a restricciones no lineales

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 395

generadas por las condiciones de sobreidentificación. Al obtener


innovaciones estructurales a partir de las del modelo VAR en
forma reducida equivale a la posibilidad de disponer de valores
numéricos para los elementos de la matriz B, puesto que εt=But.
Esta matriz tiene unos en la diagonal principal, pero no es
simétrica, por lo que tiene k(k−1) parámetros por determinar.

Además, se debe contar con las k varianzas de las innovaciones


estructurales que sus covarianzas son nulas. Así, tenemos k2
parámetros del modelo estructural, que se necesitan recuperar a
partir de los (k2+k)/2 elementos de Var(ut). es necesario por
tanto, (k2−k)/2 restricciones adicionales, si se desea tener
alguna posibilidad de identificar el modelo. En el caso de un
modelo VAR(1) con 2 variables, se debe imponer (22−2)/2=1
restricción para identificar el sistema exactamente. En un
modelo con 3 variables se necesita imponer (32−3)/2=3
restricciones. El número de restricciones necesarias para
identificar el modelo es independiente del orden del modelo
VAR. Si se imponen condiciones de recursividad en un modelo
con 3 variables, tenemos,

Que implica imponer 3 restricciones sobre los elementos de la


matriz B−1, por lo que el modelo estaría, en principio,
exactamente identificado. La recursividad del sistema equivale a
suponer que la matriz B es triangular inferior o superior, lo que
genera exactamente k2−k restricciones, precisamente el número
que se precisa para lograr la identificación exacta del modelo.
Hay conjuntos alternativos de restricciones, como,

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 396

Que también lograría la identificación exacta del modelo. La


representación inversa es,

Otro tipo de restricciones consistiría en imponer un


determinado valor numérico para una respuesta. Por ejemplo,
podemos pensar que la innovación ε2t tiene un efecto unitario
sobre y1t, es decir, como

Esto equivale a suponer que α11= −1. Una posibilidad diferente


consistiría en identificar el modelo estructural imponiendo
restricciones sobre la matriz de covarianzas, ya sea imputando
un valor numérico para la varianza de ε1t, la varianza de ε2t, o la
covarianza entre ambos. Este tipo de restricciones conduce a
soluciones múltiples, por lo que el modelo estructural está en tal
caso, sobreidentificado. Por último, puede conseguirse la
identificación imponiendo restricciones razonables entre los
valores numéricos de los parámetros estructurales. Por ejemplo,
puede imponerse una condición de simetría, α11=α21, o cualquier
otra que resulte adecuada en la aplicación que se analiza. En el
caso del modelo de 2 variables está condición de simetría de
efectos conduce asimismo a una condición de igualdad de
varianzas para las innovaciones estructurales, lo que no ocurre
en modelos con más de 2 variables.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 397

IDENTIFICACIÓN Y RESPUESTAS DEL SISTEMA


Otra manera de entender los problemas de identificación es la
siguiente suponga que, sin considerar el posible modelo
estructural, hemos estimado un modelo VAR(1) , en el que es
necesario calcular cómo reacciona cada variable ante una
innovación en una de ellas, lo que luego denominaremos como
funciones impulso respuesta. Sería poco adecuado, sin embargo,
calcular las respuestas a un impulso en una de las innovaciones,
u1, por ejemplo, sin que u2 experimente ningún impulso, pues
ambas innovaciones están correlacionadas entre sí. Por tanto,
hemos de transformar primero el modelo estimado en otro
modelo en que los términos de error, siendo innovaciones, estén
no correlacionados entre sí. Para ello, podríamos seguir una
estrategia similar a la discutida más arriba, proyectando por
mínimos cuadrados una de las dos innovaciones, u1t, por
ejemplo, sobre u2t,

Cuyo residuo ât, definido por ât=u1t−ρ̂tu2t, estaría no


correlacionado, por construcción, con u2t. Premultiplicando el
modelo (2.1) por la matriz

Tendríamos,

Un modelo en el que la variable y2 tiene efectos contemporáneos


sobre y1. En este modelo, tiene sentido preguntarse por las
respuestas de ambas variables a una perturbación en ât o en u2t,
puesto que ambos están no correlacionados, por construcción.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 398

En respuesta a un impulso en u2t, ambas variables reaccionarán


en el mismo instante, y también en períodos siguientes, hasta
que dichas respuestas decaigan a cero. En cambio, en respuesta a
una perturbación en ât, y1 responderá en el mismo período y
períodos siguientes, mientras que y2 sólo responderá en
períodos siguientes al de la perturbación. Este es el modelo
estructural exactamente identificado (4.1) que antes
consideramos. Una extensión a este procedimiento se basa en el
hecho conocido de que dada una matriz simétrica, definida
positiva, como es la matriz de covarianzas Σ, existe una única
matriz triangular inferior A, con unos en su diagonal principal, y
una única matriz diagonal D, con elementos positivos a lo largo
de su diagonal principal, tal que Σ admite una descomposición,

Si consideramos la transformación lineal del vector de error


precisamente con esta matriz, εt=A-1ut, tenemos,

Por lo que, a diferencia de los componentes del vector u, los


elementos del vector ε están no correlacionados entre sí.
Deshaciendo la transformación, tenemos,

Por lo que,

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 399

Si los coeficientes a1k, a2k, ..., ak−1,k se obtienen mediante una


estimación de mínimos cuadrados ordinarios de la ecuación
(4.2), que tiene a ukt como variable dependiente, y a ε1t, ε2t, ...,
εk−1,t como variables explicativas,

Entonces tendremos, por construcción,


E(εkt.ε1t)=E(εkt.ε2t)=...=E(εkt.εk−1,t)=0. Dicho de otra manera, si
estimamos regresiones de cada innovación uit sobre todas las
que le preceden dentro del vector u y nos quedamos con el
residuo de dicha regresión, llamémosle εit, tendremos un
componente de uit que, por construcción, estará no
correlacionado con u1t,u2t,...,ui−1,t. Nótese que los espacios
generados por las variables u1t, u2t, ..., ui−1,t y por las variables ε1t,
ε2t, ..., εi−1,t son los mismos, es decir, que ambos conjuntos de
variables contienen la misma información. La única diferencia
entre ambos es que las variables u1t, u2t,...,ui−1,t tiene
correlaciones no nulas, mientras que las variables ε1t, ε2t,...,εi−1,t
están no correlacionadas entre sí.

CONDICIONES DE ESTABILIDAD
Si resolvemos recursivamente el modelo VAR(1) tenemos,

Como puede verse, para la estabilidad del sistema es preciso que


las sucesivas potencias de la matriz A1 decaigan hacia cero, pues
de lo contrario, el futuro lejano tendría efectos sobre el presente,
en contra de la convergencia temporal de efectos inherente a
todo proceso estacionario. Esto requiere que las raíces del

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 400

polinomio característico de dicha matriz | Ik−A1λ |=0, decrezcan


fuera del círculo unitario, condición análoga a la que se tiene
para un proceso autoregresivo univariante. Cuando se cumplen
las condiciones de estabilidad, tomando límites, tenemos,

Donde µ=E(Y) es el vector de valores esperados, que viene dado


por,

Además,

En el caso bivariante, µ1=E(u1t), µ2=E(u2t), con

Siendo Δ=(1−β11)(1−β22) − β12β21, y

VAR Y MODELOS UNIVARIANTES


Si se parte de un VAR(1), como (2.1), escrito en función del
operador de rezagos de la forma:

Se tiene que

Reemplazandolo en la ecuación anterior se tiene que:

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 401

Finalmente,

Que es un proceso ARMA(2,1).

ESTIMACIÓN DE UN MODELO VAR


En ausencia de restricciones, la estimación por mínimos
cuadrados, ecuación por ecuación, de un modelo VAR produce
estimadores eficientes a pesar de que ignora la información
contenida en la matriz de covarianzas de las innovaciones. Junto
con el hecho de que colinealidad entre las variables explicativas
no permite ser estricto en la interpretación de los estadísticos t,
sugiere que es preferible mantener todas las variables
explicativas iniciales en el modelo.

El estimador es consistente siempre que los términos de error


sean innovaciones, es decir, procesos ruido blanco, pues en tal
caso, estarán no correlacionados con las variables explicativas.
Por tanto, la ausencia de autocorrelación en los términos de
error de todas las ecuaciones es muy importante. Tomando
ambos hechos conjuntamente, es fácil concluir que debe
incluirse en cada ecuación como variable explicativa, el menor
número de rezagos que permita eliminar la autocorrelación
residual en todas las ecuaciones. Existen contrastes del tipo de
razón de verosimilitud sobre el número de rezagos a incluir en el
modelo.

Un modelo VAR no se estima para hacer inferencia acerca de


coeficientes de variables individuales. Precisamente la baja
precisión en su estimación no aconseja cualquier análisis de

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 402

coeficientes individuales. Tiene mucho sentido, por el contrario,


el análisis conjunto de los coeficientes asociados a un bloque de
rezagos en una determinada ecuación. Bajo hipótesis de
normalidad del vector de innovaciones, el logaritmo de la
función de verosimilitud es,

Siendo 𝛴̂ la matriz de covarianzas estimada del vector de


innovaciones u,

Una matriz simétrica, definida positiva, por construcción.

CONTRASTACIÓN DE HIPÓTESIS Y CONTRASTES DE


ESPECIFICACIÓN
Uno de los contrates más habituales en un modelo VAR es el
relativo al número de rezagos que deben incluirse como
variables explicativas. Es importante dentro de este análisis
tener en cuenta que en cada ecuación entra un bloque de rezagos
de todas las variables del vector y. Si, por ejemplo, trabajamos
con 4 variables y establecemos un orden 3 para el VAR,
tendremos 12 variables explicativas, más el término constante,
en cada ecuación, con un total de 52 coeficientes en el sistema de
ecuaciones, más parámetros en la matriz de varianzas-
covarianzas de las innovaciones. El número de parámetros a
estimar crece rápidamente con el número de rezagos. Si pasamos
de 3 a 4 rezagos, tendríamos 68 coeficientes más los 10
parámetros de la matriz de covarianzas. Por eso ya comentamos
con anterioridad que debe incluirse en cada ecuación el menor

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 403

número de rezagos que permita eliminar la autocorrelación del


término de error de todas ellas. Existe un contraste formal de
significancia de un conjunto de rezagos, que utiliza un estadístico
de razón de verosimilitudes,

Donde |ΣR|,|ΣSR| denotan los determinantes de las matrices de


covarianzas de los modelos restringido y sin restringir,
respectivamente. Si queremos contrastar si un cuarto retardo es
significativo, deberíamos estimar el modelo con 3 y con 4
rezagos, y construir el estadístico anterior, que tiene una
distribución chi-cuadrado con un número de grados de libertad
igual al número de restricciones que se contrastan. Al pasar del
modelo con 3 rezagos al modelo con 4 rezagos, hay que añadir
un rezago más de cada variable en cada ecuación, por lo que el
número de restricciones es igual al incremento en el número de
rezagos, por el número de variables al cuadrado.

Sin embargo, no puede olvidarse que la elección del número de


rezagos debe tener en cuenta la eliminación de autocorrelación
residual. Los estadísticos anteriores no examinan este
importante aspecto y, por tanto, no deben utilizarse por sí sólos.
En consecuencia, una buena estrategia es comenzar de un
número reducido de rezagos, y examinar las funciones de
autocorrelación de los residuos, junto con estadísticos del tipo
Ljung-Box o Box-Pierce para contrastar la posible existencia de
autocorrelación, lo que requeriría aumentar el número de
rezagos y con ello, el número de parámetros a estimar.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 404

Lamentablemente, sin embargo, es muy poco probable que


pueda eliminarse la autocorrelación residual con menos de 4
rezagos cuando se trabaja con datos trimestrales, o con menos
de 12 rezagos, cuando se trabaja con datos mensuales. Una
estrategia distinta para encontrar el orden del modelo VAR
consiste en examinar los denominados criterios de Información,
que son determinadas correcciones sobre el valor muestral de la
función logaritmo de Verosimilitud. Los más conocidos son los
de Akaike y Schwartz,

Siendo n= k(d+pk) el número de parámetros estimados en el


modelo VAR. El parametro d es el número de variables exógenas,
p el orden del VAR, y k el número de variables. En ocasiones, se
ignora el término constante, y los criterios anteriores se
aproximan por,

Siendo N el número de parámetros que se estima, y Σ la matriz


de covarianzas de los residuos. Estos estadísticos se calculan
para una sucesión de modelos con distinto número de rezagos y
se comparan, seleccionando aquél modelo que produce un
menor valor del estadístico. Un estadístico de razón de
verosimilitudes como el antes descrito puede utilizarse para
contrastar cualquier tipo de hipótesis, y no sólo la significancia
de grupos de variables, siempre que el modelo restringido esté
anidado dentro del modelo sin restringir.

CONTRASTES DE CAUSALIDAD

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 405

Un contraste especialmente interesante se conoce como de


causalidad en el sentido de Granger. Supongamos que estamos
explicando el comportamiento de una variable y utilizando su
propio pasado. Se dice que una variable z no causa a la variable y
si al añadir el pasado de z a la ecuación anterior no añade
capacidad explicativa. El contraste consiste en analizar la
significancia estadística del bloque de rezagos de z en la ecuación
mencionada, y la hipótesis nula es que la variable z no causa, en
el sentido de Granger, a la variable y.

La propuesta inicial de Granger hacía referencia a que la


predicción de y basada en el pasado de las dos variables y y z, sea
estrictamente mejor (es decir, con menos error) que la
predicción de y basada exclusivamente en su propio pasado. Así,
se diría que la variable z no causa a la variable y si se tiene,

Sin embargo, esta propiedad no suele analizarse; se contrasta


exclusivamente la significancia del bloque de rezagos de z en la
ecuación de y, si dicho bloque de variables es significativo,
contribuirá a mejorar la predicción de la variable y. Esta manera
de proceder se basa en que, analíticamente, es evidente que la
presencia del bloque de rezagos de z en la ecuación de y hace
que el valor esperado condicionado de y en el pasado de las dos
variables, y y z, sea distinta del valor esperado condicionado de y
en su propio pasado exclusivamente. Si bien esta propiedad
teórica no siempre se manifiesta en resultados prácticos, y es
bien sabido que un buen ajuste no necesariamente conduce a
una buena predicción.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 406

El contraste puede llevarse a cabo utilizando el estadístico F


habitual en el contraste de significancia de un bloque de
variables, o mediante el estadístico de razón de verosimilitudes.
Con más de dos variables, existen posibles contrastes de
causalidad y en algunos casos, el estadístico de razón de
verosimilitudes puede resultar más útil que el estadístico F, al
permitir contrastar la exclusión de algún bloque de rezagos en
varias ecuaciones simultáneamente. Asimismo, el contraste de
causalidad o, lo que es lo mismo, el contraste de significancia de
un bloque de rezagos puede llevarse a cabo mediante un
estadístico de razón de verosimilitudes, en el que el modelo
restringido excluye un grupo de rezagos de una ecuación.

REPRESENTACIÓN MA DE UN MODELO VAR


Todo modelo VAR admite una representación de medias móviles
(VMA),

La recursividad de Yt−s en (2.2). La representación VMA puede


obtenerse asimismo en función de las innovaciones
estructurales. Esta representación permite resumir las
propiedades de las relaciones cruzadas entre las variables que
componen el vector yt, que queda representado como una
combinación lineal de valores actuales y pasados del vector de
innovaciones. La simultaneidad vuelve a quedar palpable en
sentido que cualquier innovación uit afecta a todas las variables
Yj,t+s. Si volvemos al modelo de dos variables de orden 1,
tenemos,

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 407

Que, como vimos, puede escribirse,

y, en términos de las innovaciones del modelo estructural,

Donde,

Existe un procedimiento recursivo para obtener las matrices de


coeficientes de la representación de medias móviles,que utiliza
la relación,

De modo que tenemos,

Que conduce a,

Que pueden utilizarse para calcular recursivamente las matrices


de coeficientes de la representación de medias móviles.

FUNCIONES DE IMPULSO RESPUESTA


La ecuación (9.1) es la representación de medias móviles del
modelo VAR(1) bivariante. Los coeficientes de la sucesión de
matrices Φ(s) representan el impacto que, a lo largo del tiempo,

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 408

tienen sobre las dos variables del modelo y1t e y2t una
perturbación en las innovaciones ε1t, ε2t. Por ejemplo, los
coeficientes φ12(s) reflejan el impacto que en los distintos
períodos s, s≥1, tiene sobre y1 una perturbación del tipo impulso
en ε2. Es decir, consideramos que ε2 está en su valor de
equilibrio, cero, excepto en un período, en que toma un valor
igual a 1; como reaccionan, y dicha respuesta se extiende a
varios períodos, hasta que las sucesión φ12(s) se hace cero. La
sucesión de valores numéricos {φ12(s)} se conoce como la
respuesta de y1 a un impulso en ε2. El efecto, multiplicador o
respuesta a largo plazo es la suma ∑∞ 𝑠=0 𝜙12 (𝑠). Esta suma existe
si las variables son estacionarias, pues en tal caso ha de
cumplirse |∑∞ 𝑠=0 𝜙12 (𝑠)|<∞. El problema al que nos enfrentamos
al tratar de calcular las funciones de impulso respuesta es que, si
bien contamos con estimaciones numéricas de los parámetros βij
con i,j=1,2, desconocemos los parámetros α11 y α21 que aparecen
en (9.2). En el modelo recursivo que antes vimos, se tiene α21=0.
Además, se prueba en el ejercicio 1 que en este modelo el
parámetro α11 puede recuperarse mediante 𝛼̂1=σu1u2/σ2u2. En
ese caso, u2t=ε2t y u1t = ε1t+α11ε2t=ε1t+α11u2t.

Las funciones de impulso respuesta sólo puden obtenerse bajo


restricciones de este tipo. La que hemos descrito es la más
habitual, y equivale a admitir que una de las dos variables afecta
a la otra sólo con rezago, si bien permitimos que en la otra
dirección haya respuesta contemporánea. Estaremos
caracterizando las respuestas del sistema a un impulso en cada
una de las innovaciones del modelo estructural o, lo que es lo
mismo, en la innovación u2t y en u1t−α11u2t. Esta última es la
componente de u1t que no está explicada por u2t o, si se prefiere,

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 409

la componente de u1t que no está correlacionada con u2t. En


efecto, consecuencia, tanto y1 como y2

Que está incorrelacionado con ε2t. De hecho, si α21=0, entonces


u1t−α11u2t es, precisamente, igual a la perturbación estructural
ε1t. Como hemos visto, las funciones de impulso respuesta sólo
pueden obtenerse después de haber incluido restricciones
acerca del rezago con que unas variables inciden sobre otras.
Esta elección condiciona bastante, en general, el aspecto de las
funciones de respuesta, excepto si las innovaciones del modelo
VAR, u1t y u2t están no correlacionadas, en cuyo caso, coinciden
con las innovaciones del modelo estructural.

Las funciones impulso respuesta calcula el impacto que, en cada


instante futuro tendría, sobre cada variable del modelo, un
impulso en una determinada innovación, y ello puede repetirse
para las innovaciones en cada una de las ecuaciones. Por eso,
suele representarse en varios gráficos, cada uno de los cuales
incluye las respuestas a través del tiempo, de una determinada
variable a un impulso en cada una de las innovaciones. De este
modo, se tiene tantos gráficos como variables en el modelo, cada
uno de ellos conteniendo tantas curvas como variables.
Alternativamente, pueden construirse gráficos, cada uno de los
cuales representa la respuesta temporal de todas las variables
del modelo a un impulso en una de las innovaciones.
Nuevamente hay tantos gráficos como variables, cada uno de
ellos conteniendo tantas curvas como variables. El inconveniente
del segundo tipo de representación es que las respuestas de las
distintas variables dependen de sus respectivas volatilidades,

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 410

por lo que la comparación de las respuestas de dos variables


diferentes a un determinado impulso no permite decir cuál de
las variables responde más.

Recordando que la desviación típica es una medida adecuada del


tamaño de toda variable aleatoria de esperanza nula, debemos
dividir las respuestas de cada variable por su desviación típica
antes de representarlas en un mismo gráfico. Tampoco un
impulso de tamaño unidad tiene el mismo significado en cada
variable, por lo que conviene calcular las respuestas
normalizadas a un impulso de tamaño igual a una desviación
típica en cada innovación. Consideremos un VAR(1) sin
constante (es decir, las variables tiene esperanza igual a cero),

Supongamos que antes del instante t0 las innovaciones toman un


valor cero en todos los períodos, las variables están en sus
niveles de equilibrio, y=y∗=0. En dicho instante, la innovación
u1t0 toma un valor unitario, u1t0=1, y vuelve a ser cero en los
períodos siguientes. ¿Cuál es la respuesta del sistema? En el
instante t0,

Por lo que y2t0 e y3t0 estarán en sus niveles de equilibrio,


y2=y∗2=0, y3=y∗3=0, mientras que y1t0=y∗1+1= 1.
Posteriormente,

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 411

Que van proporcionando la primera columna de las matrices que


obtenemos calculando las sucesivas potencias de la matriz de
coeficientes A1. De este modo, tendríamos las respuestas del
sistema a sorpresas en las innovaciones del modelo VAR. Si
queremos calcular las respuestas a innovaciones estructurales,
debemos utilizar la representación,

y examinar la sucesión definida en (9.2).

DESCOMPOSICIÓN DE LA VARIANZA
Si utilizamos la representación MA para obtener predicciones de
las variables y1, y2, tenemos,

Por lo que el error de predicción es,

Cuya varianza es,

Que, inevitablemente, aumentan con el horizonte de predicción.


La expresión anterior nos permite descomponer la varianza del

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 412

error de predicción en dos fuentes, según tenga a ε1 o a ε2 como


causa. Con ello, estamos examinando el inevitable error de
predicción en cada variable a un determinado horizonte, y
atribuyéndolo a la incertidumbre acerca de la evolución futura
en cada una de las variables. Es, por tanto, una manera de hacer
inferencia acerca de las relaciones intertemporales entre la
variables que componen el vector y. Para ello, se expresan los
componentes de cada varianza en términos porcentuales,

Si una variable es prácticamente exógena respecto a las demás,


entonces explicará casi el 100% de la varianza de su error de
predicción a todos los horizontes posibles. Esto es lo más
habitual a horizontes cortos, mientras que a horizontes largos,
otras variables pueden ir explicando un cierto porcentaje de la
varianza del error de predicción. La descomposición de la
varianza está sujeta al mismo problema de identificación que
vimos antes para las funciones de impulso respuesta, siendo
necesario introducir alguna restricción como las consideradas en
la sección anterior.

Si la correlación entre las innovaciones del VAR es muy pequeña,


el ordenamiento que se haga de las variables del vector y o, lo
que es lo mismo, las restricciones de exclusión de valores
contemporáneos que se introduzcan serán irrelevantes. Sin
embargo, tales restricciones condicionan de manera significativa
la descomposición de la varianza resultante. De hecho, con las
restricciones de la sección anterior, ε2 explica el 100% de la
varianza del error de predicción un período hacia adelante en la
variable y2. Si, en vez de dicha restricción, excluyéramos y2t de la

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 413

primera ecuación, entonces ε1 explicaría el 100% de la varianza


del error de predicción un período hacia adelante en la variable
y1.

IDENTIFICACIÓN RECURSIVA: LA DESCOMPOSICIÓN DE


CHOLESKY
Para eliminar la correlación contemporánea existente entre las
innovaciones ut de distintas ecuaciones, podemos transformar el
vector ut en un vector et mediante la descomposición de
Cholesky de la matriz de covarianzas Σ, Σ=Var(ut). Esta
descomposición nos proporciona una matriz triangular inferior
G tal que GGt=Σ. Como consecuencia, G−1ΣG−1t = I, y el sistema
VAR puede escribirse,

Entonces

El efecto de eit sobre Yj,t+s viene medido por el elemento (j,i) de la


matriz 𝐴̃s. La sucesión de dichos elementos, para 1≤s≤∞
proporciona la respuesta dinámica de la variable Yj a una
innovación en la variable Yi. Esto se conoce como función de
respuesta de Yj a un impulso no esperado en Yi. Como eit es el
error de pronostico un período hacia adelante en Yit, la
representación VMA ortogonalizada, por la descomposición de
cholesky, nos permite calcular el error de proostico de Yit, m-
períodos hacia adelante, en el instante t−m+1, a través del
elemento i-ésimo en le vector Pm−1 s=0 Aeset−s. Su varianza, el
elemento i-ésimo en la diagonal de ∑𝑚− ̃ ̃𝑡
𝑠 𝐴𝑠 𝐴𝑠 , puede escribirse,
∑𝑘𝑗=1 ∑𝑚−1
𝑠=0 𝑎̃ 𝑠 (𝑖, 𝑗)𝑎̃𝑠 (𝑗, 𝑖), siendo 𝑎̃𝑠 (𝑖, 𝑗)𝑎̃𝑠 el elemento (i,j) de la

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 414

matriz element 𝐴̃𝑠 . Al aumentar m, a partir de m=1, esta


descomposición de la varianza del error de predicción de Yit+m
entre las k variables del vector Yt se conoce como
descomposición de la varianza de Yit. Proporciona una
estimación de la relevancia de cada variable del sistema para
explicar los errores de predicción de las fluctuaciones futuras en
Yit.

BIBLIOGRAFÍA
1 Wooldridge, Jeffrey M. (2003).Econometric Analysis of
Cross Section and Panel Data. MIT Press.
2 Kalman, R.E., A New Approach to Linear Filtering and
Prediction Problems, Trans. ASME,J. Basic Engineering,
vol 82, March 1960, pp 94-35.
3 Hamilton, J.D. (1994) “Time Series Analysis”, Princeton
University Press.
4 Amemiya T.(1985), Advanced Econometrics. Harvard
University Press.
5 Greene W. (1997), Econometric Analysis. Prentice Hall,
tercera edición.
6 White, H. (1984), Asymptotic Theory for
Econometricians. Academic Press
7 Kydland, Finn y Prescott, Edward. (1990). "Business
Cycles: Real Facts and a Monetary Myth". En: Quarterly
Review. Federal Reserve Bank of Minneapolis.
Primavera. P.3-18.

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Вам также может понравиться