Curso Econometria PDF

NOTAS DE CLASE:
ELEMENTOS DE
ECONOMETRÍA Y
ESTADÍSTICA
FINANCIERA
Carlos Mendoza Astroz
Universidad Nacional de Colombia
Facultad de Economía
Este documento es un borrador

sujeto a correcciones y su única
finalidad es servir como
complemento a una actividad
docente
NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 1
Tabla de contenido
Parte I CONCEPTOS BÁSICOS ................................................................................................................................. 3
1. TEORÍA ASINTÓTICA ..................................................................................................................................... 4
3. VALORES Y VECTORES PROPIOS ................................................................................................................ 14
4. DISTRIBUCION NORMAL MULTIVARIANTE .............................................................................................. 20
PARTE II MODELOS MULTIVARIANTES .............................................................................................................. 30
1. ANÁLISIS DE COMPONENTES PRINCIPALES (ACP) ................................................................................... 31
1.1. INTRODUCCIÓN .................................................................................................................................... 31
1.2 INTERPRETACIÓN GEOMETRICA ............................................................................................................. 32
1.3. RESULTADOS MATEMATICOS Y GRAFICOS DEL ACP ....................................................................... 35
1.4. CÁLCULO DE LOS COMPONENTES PRINCIPALES ............................................................................. 38
1.5. PROCESO DE EXTRACCIÓN ................................................................................................................. 41
1.6. TEOREMAS ............................................................................................................................................ 45
1.7. COMPONENTES PRINCIPALES NORMADO O POR CORRELACIONES .............................................. 52
1.8. COMPONENTES PRINCIPALES PARA MATRICES DE COVARIANZAS CON ESTRUCTURAS
ESPECIALES ...................................................................................................................................................... 61
1.9. COMPONENTES PRINCIPALES A PARTIR DE UNA MUESTRA ......................................................... 65
1.10 IDENTIFICACIÓN DE LOS COMPONENTES PRINCIPALES.................................................................... 73
1.11. PRUEBAS ESTADÍSTICAS ................................................................................................................. 75
1.12. CONCLUSIONES ................................................................................................................................ 78
MODELOS DE DATOS PANEL LINEALES ............................................................................................................. 79
I. INTRODUCCIÓN ........................................................................................................................................ 80
II. ESPECIFICACIÓN GENERAL DE UN MODELO DE DATOS DE PANEL ................................................... 88
OVERVIEW DE METODOS DE PANELES DE DATOS ...................................................................................... 91
CARACTERISTICAS DE DATOS PANEL ......................................................................................................... 113
VARIACION BETWEEN-WITHIN ................................................................................................................... 100
VARIABLES OMITIDAS Y EFECTOS NO OBSERVADOS ................................................................................ 103
III. METODOLOGIAS DE ESTIMACION DE MODELOS DE DATOS PANEL ............................................ 119
3. MODELOS DE EFECTOS FIJOS Y ALEATORIOS..................................................................................... 169
ELECCIÓN DEL MÉTODO: ¿EFECTOS FIJOS O EFECTOS ALEATORIOS? .................................................... 211
IV. ESTRUCTURA DE PRUEBAS DE HIPOTESIS: ANALISIS DE VARIANZA.......................................... 187
V. CONTRASTES DE HIPÓTESIS EN DATOS DE PANEL ........................................................................... 207
PRUEBA DE HAUSMAN .................................................................................................................................. 214
CONTRASTES DE AGRUPACIÓN DE DATOS ................................................................................................. 217
VIII. VENTAJAS Y DESVENAJAS DEL MODELO DE DATOS PANELES ..................................................... 251
PARTE VI. ANALISIS DE SERIES DE TIEMPO..................................................................................................... 258
PROCESOS ESTACIONALES ................................................................................................................................ 356
VECTORES AUTOREGRESIVOS (VAR) .............................................................................................................. 388
|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |


Parte I CONCEPTOS BÁSICOS

1. TEORÍA ASINTÓTICA
El análisis asintótico esta interesado en varias clases de
convergencia de sucesiones de estimadores a medida que los
tamaños de muestra crecen.
Se comienza con algunas de las definiciones respecto a

sucesiones no estocásticas de números. Cuando se aplican estos
resultados en econometría, N es el tamaño de muestra, y esto se
efectúa para todos los números enteros positivos.
Definición 1. Una sucesión de números no aleatorios

{an|n=1,2,3,….,N} converge a un valor a (tiene limite en a) si para
todo ε>0, existe un Nε tal que si N>Nε entonces, |an-a|<ε. Se nota
como an→a como N→∞.
Definición 2. Una sucesión {an|n=1,2,3,….,n} es acotada, si y solo,

si existe algún b<∞ tal que |an|≤b para todo n=1,2,3,….,N. de
otro modo, se dice que {an} es no acotada. Estas definiciones
aplican a vectores y matrices elemento a elemento.
Ejercicio. Suponga las siguientes series:

1. an=2+1/n entonces an converge a 2, an→2.
2. an=(-1)n entonces no es convergente pero es acotada.
3. an=n1/4 entonces an no es convergente ni es acotada.
Serie 1 Serie 2 Serie 3

Convergencia en Probabilidad
Definición 3. La variable aleatoria xn converge en probabilidad a
una constante c si
limn Prob( xn c > )=0 para cualquier >0.
La definición anterior indica que se hace cada vez más

improbable que xn tome valores distintos a c, a medida que n, el
tamaño de la muestra, aumenta. La convergencia en
probabilidad se denomina convergencia débil.
Ejemplo. Supongamos que tenemos una variable aleatoria xn

cuya distribución de probabilidad es la siguiente:
 1
1  si xn  0
f ( xn )  n
1
 si xn  n
 n
En este caso,
limn Prob( xn 0 > )=0
Es decir, xn converge en probabilidad a cero. A medida que n

aumenta, xn, toma el valor de n con una probabilidad cada vez
menor (1/n converge a cero a medida que n→∞). Esto es, toda la
masa de la distribución se concentra en aquellos puntos en la
vecindad de cero. En general, si, xn, converge en probabilidad a c,
es posible escribir
plim xn=c o x  c
P
n
Definición 4. Convergencia “casi segura” (almost surely o “a.s”) o

con probabilidad 1 se denomina convergencia fuerte. Esta se
define como:

Prob{ limn xn( )=x( )} = 1
Esto es, la sucesión {xn} converge a x con probabilidad 1. Esto se

simboliza como:
a .s .
x n 1
Ejemplo 2. La convergencia fuerte, se observa en los siguientes

casos:
a. Si {xn} es una sucesión de variables aleatorias
independientes e idénticamente distribuidas con
E(xn)=μ<, entonces:
_ a.s.
xn  
Por la ley fuerte de los grandes números.

b. Prob{lim n xn=0} = 1 0 x 0
a .s .
n
Es común encontrar notaciones O(1/n) y o(1/n). Se dice

que cn es O(1/n) ocurre que si plim(ncn) es una constante
finita distinta de cero. En tanto, se dice que c es o(1/n) si
ocurre que plim(ncn)=0. Por ejemplo,
1 3 es O(1/n) dado que plim(nc )=1
c   n n
n n2
1
cn  2 es o(1/n) dado que plim(ncn)=0
n
Si xn es una sucesión de variables aleatorias con media μn y
varianza  , tal que: 2
n
limn n = y limn  =0 2
n
Entonces se dice que xn converge en media cuadrática (quadratic

mean o“q.m”). Esto se representa como:
q .m.
xn  

Además, se tiene que plim xn=μ. Este último resultado se basa en

la desigualdad de Chebychev, la cual establece que si xn es una
variable aleatoria con c y como constantes, entonces:
Prob( xn c > ) E(xn c)2/ 2
Si hacemos c=mn, tenemos que
Prob( xn n ) E(xn n)2/ 2=  /  . Si tomamos límites en
2
n
2
ambos lados de la desigualdad cuando n tenemos:

limn Prob( xn n ) limn  /  2
n
2
Lo cual implica que plim xn= , dado que limn n= y lim n  2

n
=0. La Convergencia en media cuadrática implica convergencia

en probabilidad, pero no viceversa.
Estimador Consistente
Se dice que un estimador  de un parámetro θ es consistente si y

sólo
plim  =θ

La media muestral x de cualquier población con media finita y

varianza finita σ2 es un estimador consistente de . La media
muestral esta dada por x   x donde x1,...,xn es una muestra de
__ n
i
i 1
una población cuya distribución tiene media y varianza finitas

y σ2, respectivamente. Entonces:
 ___ 1 n
  1
E  x    E xi  (n )  
n n
  i 1
2
 ___ 1 n
 1
Var  x   2 Var xi  2 (n ) 
2
n
  n i 1 n
Asumiendo que las variables aleatorias x son independientes e

idénticamente distribuidas. De lo anterior, limn E(x)= y

limn Var(x)=0. Por lo tanto, x converge en media cuadrática a

. Ello implica que plim x =
__
Teorema 1. Con muestreo aleatorio, para cualquier función g(x),

si E(g(x)) y Var(g(x)) son constantes finitas, se tiene que:
1 n
p lim  g ( xi )  Eg ( xi )
n i 1
Teorema de Slutsky. Para una función continua g(xn) que no es

una función de n se tiene:
plim g(xn)=g(plim xn).
Reglas de la Probabilidad Límite

Escalares. Si xn e yn son variables aleatorias con plim xn=c y plim
yn=d, entonces:
1. plim(xn+yn)=c + d (regla de la suma)
2. plim(xn yn)=c d (regla del producto)
3. p lim x   c (regla de la división (con d≠0).
n
 yn  d
Ejemplo. Supongamos que la media y varianza muestral del

conjunto de variables aleatorias i.i.d de x1,..,xn tienen una
esperanza y varianza poblacional μ y σ2 respectivamente, que
son estimadores consistentes. Esto es,
plim x =plim 1  x   y plim s2 = 1  ( x  x)  
__ n n __
2 2
i i
n i 1 n  1 i 1
Entonces,
Matrices. Sea Wn una matriz cuyos elementos son variables

aleatorias, tal que plimWn=𝛀, con 𝛀 matriz invertible. Entonces:
plim Wn-1= 𝛀 -1

Si Xn e Yn son matrices de variables aleatorias, tal que plim Xn=A

y plim Yn=B, entonces,
plim(XnYn)=AB (regla de la matriz producto)
Convergencia en Distribución
xn converge en distribución a una variable aleatoria x con
función distribución acumulada (f.d.a) F(x) si:
limn ( F(xn) F(x) )=0
En todos aquellos puntos de continuidad de F(x). Esto se
simboliza como:
d
xn  x
Reglas para la Distribución Límite. Si y plim yn=c, entonces:

d
xn  x
d
1. Si xn  y n  c  x
d
2. Si xn yn  cx
3. Si x  x y g(xn) es una función continua, entonces g ( x )  g ( x)

d d
n n
4. Si plim(xn-yn)=0, entonces xn e yn tienen la misma

distribución límite.
Ejemplo. Supongamos una muestra de n observaciones i.i.d.

extraídas de la distribución x~N(0, σ2). Sabemos que la
distribución se comporta bajo una distribución de la forma:
Donde,
Bajo ciertas condiciones de regularidad, se tiene que plim s2=σ2

y n x  N (0, ) . Entonces,
__ d
2

1 __ d
n x  N (0,1)
s
La convergencia en probabilidad implica convergencia en
distribución, pero no viceversa. Es decir, el concepto de
convergencia en probabilidad es más fuerte. En primer término,
si plim(  ), entonces   . Ello, porque:
  d
n n
 
lim n  f ( n )  1 si  n 
0 e.o. p..
Gráficamente,
Por otra parte, convergencia en distribución no implica

convergencia en probabilidad a una constante. Para probar tal
aseveración, basta con dar un contraejemplo. Supongamos que:
Se tiene que , donde

d
xn  x
Es decir, xn converge a una variable aleatoria pero no a una

constante.

Distribución Asintótica de una Función de una Variable Aleatoria

Supongamos que n ( z   )  N (0, ) entonces si g(zn) es una función
d
2
n
continua que no depende de n, se tiene que:

d
n ( g ( z n )  g ( ))  N (0, ( g (  )) 2  2 )
Para analizar el caso multivariado, consideremos un vector zn de

variables aleatorias, μ un vector de medias, ambos de tamaño
kx1 y Σ la matriz de covarianzas de tamaño kxk, tal que,
n ( z   )  N (0, ) . g(zn) es un vector de J funciones continuas de zn
d
n
que no dependen de n, entonces:

d
n ( g ( z n )  g ( ))  N (0, CC T )
Donde C es una matriz jx k cuya j-ésima fila es el vector de

derivadas parciales de la j-ésima función con respecto a zn,
evaluado en μ:
Consistencia y Normalidad Asintótica de Mínimos Cuadrados

Ordinarios (MCO)
Consideremos el modelo clásico de regeresión lineal expresado
en términos matriciales:
y=Xβ +ε donde E(ε|X)=0, E(εεT)=σ2I, con σ2 constante finita.
Asumamos que = limn (1/n)XTX=Q, matriz positiva definida e

invertible, donde, por simplicidad, se asume que X es una matriz
de variables no estocásticas. El estimador MCO viene dado por:

 1 1
  ( X T X )1 X T Y    ( X T X )1 ( X T  )
n n

  ( X T X )1 X T Y  ( X T X )1 X T ( X   )
 1 1
  ( X T X )1 X T Y    ( X T X )1 ( X T  )
n n
Entonces,
plim  = β +limn limn

1 T 1 1 T
(X X ) (X  )
n n
Por las propiedades de probabilidad límite descritas en
secciones anteriores se tiene que:
n n
1 T __
( X  )   xi i   wi  w
n i 1 i 1
Donde xi es el vector 1xk correspondiente a la i-esima fila de la

matriz X y wi≡xiεi. Se tiene que:
De ello, se puede observar que:
Esto implica que w converge en media cuadrática a cero y, por lo

__
tanto, plim w =0. Es decir, plim (1/n)XTε=0. En consecuencia, el

estimador MICO es consistente.
 =Q-10=β

Distribución Asintótica del Test de Restricciones Lineales

Supongamos que queremos contrastar un conjunto de J
restricciones lineales. Se realiza la prueba sobre la hipótesis
nula, H0, contra la hipótesis alternativa H1.
H0: Rβ=q
H1: Rβ ≠q,

Donde R es una matriz J x k, β es un vector k x 1 y q es un vector J

x 1. Por ejemplo, se dea comprobar si un subconjunto de los
coeficientes es igual a cero, de la forma:
H0: β1=0, β2=0, β3=0
H1: βi≠0 ∀ i
Con las siguientes matrices
Dicho conjunto de J restricciones puede ser contrastado con el

siguiente estadístico:
Donde  es el estimador MCO no restringido. Este se distribuye


F(J, n-k) bajo normalidad de los errores poblacionales del

modelo lineal. No obstante, aun cuando el supuesto de
normalidad no se satisfaga, es posible obtener la distribución
asintótica del estadistico. Específicamente, en muestras grandes
se tiene que:

3. VALORES Y VECTORES PROPIOS

I. Conceptos.
Los vectores propios, valor característico o eigenvectores de un
operador lineal son los vectores no nulos que cuando son
transformados por el operador dan lugar a un múltiplo escalar
de sí mismos, con lo que no cambian su dirección.
Suponga la transformación del espacio para la siguente pintura:
En esta transformación de la MONALISA, la imagen se ha

deformado. El vector azul, representado por la flecha azul que va
desde el pecho hasta el hombro, ha cambiado de dirección,
mientras que el rojo, representado por la flecha roja, no ha
cambiado. El vector rojo es entonces un vector propio de la
transformación, mientras que el azul no lo es.

Dado que el vector rojo no ha cambiado de longitud, su valor

propio es uno (1). Todos los vectores de esta misma dirección
son vectores propios, con el mismo valor propio.
El escalar λ recibe el nombre valor propio, valor característico o
eigenvalor. A menudo, una transformación del espacio queda
completamente determinada por sus vectores propios y valores
propios.
Las transformaciones lineales del espacio como rotación,
reflexión, ensanchamiento, o cualquier combinación de las
anteriores pueden interpretarse mediante el efecto que
producen en los vectores.
Los vectores pueden visualizarse como flechas de una cierta

longitud apuntando en una dirección y sentido determinados.
Dado lo anterior se puede inferir que:
1. Los vectores propios de las transformaciones lineales son
vectores que, o no se ven afectados por la transformación o
se ven multiplicados por un escalar, y por tanto, no varían
su dirección.
2. El valor propio de un vector propio es el factor de escala por
el que ha sido multiplicado para que no se vean afectados
por la transformación.
Por ejemplo, un vector propio de una rotación en tres

dimensiones es un vector situado en el eje de rotación sobre el
cual se realiza la rotación. El valor propio correspondiente es 1 y
el espacio propio es el eje de giro. Como es un espacio de una

dimensión, su multiplicidad geométrica es uno. Es el único valor

propio del espectro (de esta rotación) que es un número real.
Otro ejemplo sería una lámina de metal que se expandiera

uniformemente a partir de un punto de tal manera que las
distancias desde cualquier punto al punto fijo se duplicasen. Esta
expansión es una transformación con valor propio 2. Cada vector
desde el punto fijo a cualquier otro es un vector propio, y el
espacio propio es el conjunto de todos esos vectores.
II. Definiciones.
Sea una matriz simétrica Σ con de orden PxP con las siguientes
características:
 12  12  1p 
 
  21  22  2p 

     
 
 p1  p 2   pp 
Definición 1. La traza de Σ denotada por tr(Σ) se define como:
P
 11   11     pp   ii
i 1
Por lo tanto, la traza es la suma de todos los elementos de la

diagonal.

Definición 2. Los valores propios (llamados raíces

características) de Σ son las raíces de la ecuación polinomica.
|Σ-𝛌I|=0 (1)
Cuando es desarrollada la expresión del determinante la
ecuación resultante es:
c1 p  c2  p 1    c p   c p 1  0 (2)
La ecuación (2) es una ecuación polinominal de λ con grado p.
Los valores propios son la solución a la ecuación anterior.
Definición 3. Cada valor propio tiene asociado un vector no cero

correspondiente, e, llamado vector propio que satisface la
condición:
Σe =𝛌e (1)
Debido a que Σ tiene P valores propios (ya que la matriz es de
orden PxP), tendrá P vectores propios. Denotemos, por e1,e2,…ep
los vectores propios de Σ correspondientes a los valores propios
λ1, λ2,… λp respectivamente.
Ejemplo. Suponga la siguiente matriz de covarianzas, encuentre

sus valores y vectores propios.
6 2
Σ=[ ]
2 3
a. Valores propios
6 2
Σ=[ ]
2 3
6 2 1 0
Σ − λI = [ ] − λ[ ]
2 3 0 1
6−λ 2
Σ − λI = [ ]
2 3−λ

El determinante de la matriz Σ-𝛌I, |Σ-𝛌I|, es igual a la siguiente

ecuación cuadrática o ecuación característica:
𝛌2-9𝛌+14=(𝛌-7)(𝛌-2)=0.
La solución son dos valores propios reales, diferentes y positivos
𝛌1=7 y 𝛌2=2.
b. Vectores propios
Es necesario calcular el vector propio asociado para la matriz Σ,
que para este caso corresponde al valor propio más grande
(λ1=7) por lo tanto se construye el siguiente sistema de
ecuaciones:
Σe=λe
6 2 e1 e1
[ ] [ ]=7[e ]
2 3 e2 2
Construyendo un sistema de ecuaciones se llega a que:
6e1+2e2=7e1
2e1+3e2=7e2
Resolviendo y dejándolo en términos de vectores se tiene que:
2e2 7e − 6e1 2e e1
[ ]=[ 1 ] [ 2 ]=[2e ]
3e2 − 7e2 −2e1 4e2 1
Existen infinitas soluciones. De manera que cualquier vector
propio de tamaño 2X1 que tenga su primer elemento igual al
doble del segundo será el vector propio de Σ asociado con el
primer valor propio λ1.
Si se asume, para eliminar infinitas soluciones, que la variación

de la primera componente del vector propio e es igual a uno
(e2=1) se tiene que:
e2=1: 2e2= e1 e1=2 y por tanto
e1=2: 4e2=2e1 e2=1

Entonces el vector propio asociado para el primer valor propio

(λ=7) es:
2
x=[ ]
1
Es usual en la práctica determinar un valor propio de modo que
su tamaño sea la unidad. Es decir, si existe el sistema 𝚺x=𝛌x, es
posible tener e=x/√x t x , entonces:
√x t x =√[2 1] [2]=√5
1
El vector propio normalizado de Σ correspondiente al primer
valor propio 𝛌1=7, corresponde a:
2/√5 0.8944
e1= [ ]=[ ]
1/√5 0.4472
Programación en STATA
matrix input A = (6,2\2,3)
matrix symeigen Vectores Valores = A
matrix list Valores
matrix list Vectores
Ejercicio. Encuentre los valores y vectores propios de la

siguiente matriz de covarianzas:
7 4
𝚺=[ ]
4 9

4. DISTRIBUCION NORMAL MULTIVARIANTE

Cuando se trabaja en la vida real, un supuesto habitual asume
que la variable en estudio, X, se distribuye con un
comportamiento normal. Por ejemplo, la altura, riqueza o
inteligencia de las personas, entre otras. La distribución normal
univariada es una expresión de este hecho partiendo de un
promedio muestral µ y varianza muestral σ2, que tiene la función
de densidad de probabilidad:
1 1 / 2( x   ) /  2
f ( x)  e
2 2 -∞<x<∞
Un gráfico de esta función es una forma de campana que agrupa
en el intervalo de una desviación estándar alrededor de la media
el 68.0% de la población, es decir, P(µ-σ≤X≤ µ+σ)=68% y
agrupa en el intervalo con dos desviaciones estándar alrededor
de la media el 95.0% de la población P(µ-2σ≤X≤ µ+2σ)=95%.
La función de densidad normal univariada usualmente se nota
como N~(µ,σ2). Esta formulación puede ser extendida al caso
cuando p>1. El tratamiento generalizado sobre variables como
una distribución normal se encuentra fundamentado en el
Teorema del Límite Central, que demuestra como la suma de
variables independientes se distribuye en el límite, o cuando la
muestra tiende al infinito, bajo esta función de distribución.
Teorema 1. Teorema de límite central. Sea X1,…..,Xn

observaciones independientes de cualquier población con media
µ y covarianza σij, entonces:
n ( X   ) se aproxima a NP(0, σ)
____

Para tamaños de muestra grande donde n debe ser más grande

que p. De una manera simplificada, indica que si existen X1,...,Xp
variables aleatorias (v.a.) independientes con media µ y varianza
común σ2<∞, la función de densidad se aproxima a la
distribución normal Z∼N(0,1) cuando el tamaño de muestra, n,
es grande. Esto es, para n grande
X 1  X 2  X 3 ......  X n __
 X  N ( , )
n
Para observar la aplicación en un ejemplo práctico sobre una
muestra aleatoria, es posible verificar el cumplimiento del
teorema del límite central bajo el supuesto de diferentes tamaños
de muestra.
n=30 n=1000 n=5000

Distribución normal bivariante
Es una generalización para vectores continuos del modelo
normal univariado. En el caso bivariante, la distribución normal
no se basa en un número, sino en un vector de variables
aleatorias (X1,X2) con vector medias muestrales µ = (µ1, µ2) y
matriz de covarianzas Σ, definida por:
Basado en el caso univariado tiene como función de densidad
Una distribución normal bivariada con media µ y matriz de

covarianzas Σ se nota como N(µ, Σ), y se puede representar
gráficamente como:

Propiedades
1. La distribución marginal de X es N(µ1,σ1)
2. La distribución marginal de Y es N(µ2,σ2)
3. La distribución de Y condicionada por X = x0 se puede
representar como:
Donde ρ es el coeficiente de correlación para el caso bivariado.

ρ= cov(X1,X2)
σ1σ2
4. Si un vector aleatorio (X1,X2) tiene distribución N(µ,Σ) y
Cov(X1,X2)=0, entonces se puede representar su matriz de
covarianzas, Σ, de la forma:
Sustituyendo esta expresión en la función de densidad de

probabilidad para una distribución normal bivariada se obtiene
que f(x,y)=f(x)·f(y), en este caso se denominan factores los
vectores aleatorios estadísticamente independientes.

Distribución Normal Multivariada

Se dice que un vector de variables aleatorias XT=[X1,X2…..Xp]
tiene una distribución normal multivariada si existe un vector
a=[a1,a2,…..,ap], tal que:
p
a X   ai xi
T
i 1
Donde cada uno de sus elementos del vector tiene una

distribución univariada para todos los conjuntos posibles de
valores seleccionados. La media de un vector de variables
aleatorias X se denota por μ1xp y la matriz de covarianzas de X se
denota por 𝚺pxp. Definidas por:
 E ( X 1 )   1 ) 
   
 E ( X 2 )   2 )
  E( X )  
   
 E ( X )   )
 p   p 
La matriz de covarianzas 𝚺 =Cov(X)=E[(X- μ)( X- μ)], de orden

pXp puede ser calculada como:
 12  12  1p 
 
  22  2p 
   21
     
 
 p1  p 2   pp 
Donde σii=Var(Xi)=E[(Xi-μi)2] y σij=cov(Xi)=E[(Xi-μi)(Xj-μj)]
Función de densidad de probabilidad normal multivariada

Suponga p variables estandarizadas aleatorias independientes e
idénticamente distribuidas (v.a.i.i.d.), Zi, i=1,…n por el Teorema
del Limite Central poseen una función de distribución de
probabilidad Zi~N(0,Σ) si n es grande. Puesto que Zi es

independiente y con la matriz Σ es posible obtener una función

de distribución de probabilidad de la forma:
n
f ( Z1 ,.....Z n )  f ( z )   f ( zi ) si se supone una distribución
i 1
normal multivariada
 
n
f ( Z1 ,.....Z n )  f ( z )   (2 ) 1 / 2 |  |-1e  2zi
2
i 1
 n 2
f ( Z1 ,.....Z n )  f ( z )  2 n / 2
||
-n
e   zi 
1
2
 i 1 
f (Z1 ,.....Z n )  f ( z )  2  n / 2 |  |- n e 12 Z T Z  
Donde ZT=(Z1,...,Zt) es un vector transpuesto de v.a.i.i.d.
normales. Ahora suponga la transformación X=AZ+B donde A es
una matriz no singular de tamaño nxn y B es un vector es un
vector nX1 de constantes. Es posible realizar la siguiente
transformación:
g ( z )  2  n / 2 | A |1 e12 Z T Z  pero Z=A-1(X-B)
g ( z )  2  n / 2 | A |1 e 12 A1 ( X  B)    A
T 1
( X  B) 
 
g ( z )  2  n / 2 | A |1 e 12 ( X  B)T At )( A1 ( X  B) ) 
Puesto que E[Z]=0, entonces E[X]=B y la propiedad de
independencia que implica sobre la matriz de covarianzas
cov[Z]=In, por tanto cov(X)=AAT. Estableciendo que μ=B y Σ=
AAT es posible reescribir g(x) de la forma estándar:
 
g ( z )  2  n / 2 |  |1 / 2 e 12 ( x   )T 1 ( x   ) ) 
La cual se conoce como distribución normal multivariada con
media μ y matriz de covarianza Σ.

Teoremas
Teorema 2. Si Σ es positiva de modo que Σ-1 existe, entonces
Σe=𝛌e implica que Σ-1 e=  1  e
 
Así el par de valores propios y vectores propios de Σ

correspnden al par (1/𝛌,e) para Σ-1. También Σ-1 es definida
positiva.
Teorema 3. Si X es distribuido como una NP(μ,Σ) las q

combinaciones lineales
 a11 X 1  a11 X 2    a1 p X p 
 a X  a X  a X 
AX  
11 1 11 2 1p p 
  
 
a X  a
 q1 1 q 2 2 X    a qp X p
Son distribuidos Nq(Aμ,AΣAT) . También, X+d donde d es un
vector de constantes es distribuida Nq(A+b,Σ).
Teorema 4. Si X es distribuido N(μ,Σ), entonces cualquier

combinación lineal de variables aTX=a1X1+a2x2+…..+apXp es
distribuido N(aTμ,aTΣa). También, si la combinación lineal aTX es
distribuida como N(aTμ, aTΣa) para cada a, entonces X debe ser
N(μ,Σ).
Teorema 5. Todos los subconjuntos de X están normalmente

distribuidos. Si se particiona X, su vector de medias μ y matriz de
covariazas Σ será de la forma,

 X1    1    11 | 12 
        
X           
X2       21 |  22 
   2  
Teorema 6. Si X1 y X2 son dos vectores aleatorios independientes
de orden qX1 y qX2 respectivamente, entonces
a. Las covarianzas entre dichos vectores son iguales a cero,
Cov(X1,X2)=0. La matriz de ceros es de orden q1Xq2.
b. Si es      |    entonces X1 y X2 son independientes si y
 X1 
 
1 11 12
   N q1q 2   ,     
X2     2   21 
|  22  
   
solo si Σ12=0.
c. Si X1 y X2 son independientes y distribuidas Nq1(μ1,Σ11) y
Nq2(μ,Σ) respectivamente, entonces [X1 X2] es normal
multivariante distribuido como:
  1  11 | 0 
  
N q1q 2   ,      
   
  2   0
 | 11  
Teorema 7. Sea X una variable distribuida Np(𝛍,𝚺) con |𝚺|>0.

Entonces,
a. La matriz (x-μ)TΣ-1(x-μ) es distribuida como una chi-
cuadrado con p grados de libertad, χ2(0.5,2).
b. La distribución Np(𝛍,𝚺) asigna una probabilidad 1-𝛂 a la
elipse solida tal que {x|(x-μ)TΣ-1(x-μ) χ2(0.5,2)}, donde χ2(𝛂,p)
denota el contorno superior del 𝛂 y se describe como el
percentil de la distribución χ2.
Ejemplo. Suponga las diez empresas más grandes de Colombia

con los datos de ventas, utilidades y activos expresados en
millones de dólares.

No ventas utilidades activos

Ecopetrol 126.97 4.22 173.29
Avianca 96.93 3.83 160.89
Suramerica 86.65 3.51 83.21
Tablemac 63.43 3.75 77.73
Coltejer 55.26 3.93 128.34
Coltabaco 50.97 1.8 39.08
Éxito 39.06 2.94 38.52
ETB 36.15 0.35 51.038
ISA 35.2 2.48 34.71
Argos 32.41 2.41 25.63
Determine si las ventas y utilidades registradas por estas
empresas hacen parte de una distribución normal bivariada. El
resultado puede ser comparado utilizando el resultado
establecido como:
(x-μ)TΣ-1(x-μ) ≤ χ2(0.5,2)
Si no se conoce la varianza poblacional, Σ, es necesario utilizar la

varianza muestral, S, de la forma:
(x-μ)TS-1(x-μ) ≤ χ2(0.5,2)
Donde se prueba si se encuentra sobre un distribución normal
bivariada con una distribución chi cuadrado con dos grados de
libertad que toma un valor de 1.39 χ2(0.5,2)=1.39. Valores
superiores afirma que no se encuentra sobre una distribución
normal.
POBLACIONAL MUESTRAL Variables centradas
9005.32 230.38 1000.59 25.60 No ventas utilidades χ2(0.5,2)
varianza
230.38 12.89 25.60 1.43 Ecopetrol 64.667 1.298 4.343
Avianca 34.627 0.908 1.199
0.0002 -0.00366 0.0018 -0.032915 Suramerica 24.347 0.588 0.594
inversa
-0.00366 0.14296 -0.0329 1.2866317 Tablemac 1.127 0.828 0.823
Coltejer -7.043 1.008 1.866
Coltabaco -11.333 -1.122 1.019
Éxito -23.243 0.018 1.023
ETB -26.153 -2.572 5.343
ISA -27.103 -0.442 0.815
Argos -29.893 -0.512 0.975
El resultado indica que siete de esas distancias (70%) son

inferiores a 1.39. Si fuera una distribución normalmente

distribuida es de esperarse que cerca de la mitad, cinco

observaciones, se encuentren dentro del contorno, razón por la
cual se rechaza la hipótesis que esta sea una distribución normal
bivariada.
Constrastes de multinormalidad
Para contrastar la normalidad univariada,como primer pasose
han desarrollado estrategias graficas que alertan sobre la
normalidad de un conjunto de datos. Al estrategia mas usada
consiste en graficar cuantilas de datos frente a cuantilas de
distribución univariada, estos graficos se conocen como QxQ
plot. Las cuantilas son similares a los percentiles, un grafico QxQ
plot se obtiene:
1. Se ordenan las observaciones de mayor a menor. Así la
cuartila muestral xi es la cuartila i/n.
2. Se ubican los pares y se examina la linealidad resultante.
Ejemplo. Suponga que se generaron números aleatorios

distribuidos bajo una distribución normal estándar con 500
observaciones. SeQ-Q
Normal gráfico genera el siguiente QxQ plot.
de VAR00001
4
1
Valor Normal esperado
-1
-2
-3
-4
-4 -3 -2 -1 0 1 2 3 4
Valor observado
El contraste estadístico de mayor significancia y utilización de

para corroborar la normalidad univariada es el Kolmogorov-

Smirnov. Este estadístico calcula la distancia entre la función de

distribución empírica de la muestra, Fn(X) y la teórica, F(X), en
este caso la normal. El estadístico de prueba consiste en:
Dn=max{|Fn(X)-F(X)|}
Donde max es la función máximo. Lo que intenta la prueba es

determinar la distancia máxima entre la distribución teórica y la
muestral, con ello realizar el estadístico. La prueba de hipótesis
asociada
H0: no es normal la muestra
H1: es normal la muestra
Ejemplo. Suponga que se generaron números aleatorios

distribuidos bajo una distribución normal estándar con 500
observaciones. Se demostrara el uso del estadístico Kolmogorov-
Smirnov (KS).
La prueba parte de un estadístico KS con un valor de 0.555 lo

que indica que la significaciona tiene un valor de 0.917 lo cual
rechaza la hipótesis nula de no normalidad de la muestra. Con
este resultado se puede asegurar con un 95.0% de confianza que
la muestra parte de una distribución normal.

PARTE II MODELOS MULTIVARIANTES

1. ANÁLISIS DE COMPONENTES PRINCIPALES (ACP)

1.1. INTRODUCCIÓN
Un análisis de componentes principales (ACP) está interesado en
explicar la estructura de varianzas y covarianzas (información)
de un conjunto de variables a través de combinaciones lineales
de estas.
Dicha representación debe ser tal que al desechar dimensiones

superiores (generalmente de la tercera o cuarta en adelante) la
pérdida de información sea mínima.
El objetivo principal que persigue el ACP es la representación de

las medidas numéricas de varias variables en un espacio de
pocas dimensiones donde puedan percibir relaciones que de otra
manera permanecerían ocultas en dimensiones superiores y
permitir, en primer lugar, reducir los datos, y en segundo lugar,
efectuar interpretación de resultados.
Aunque p componentes son necesarias para reproducir la

variabilidad completa del sistema, muchas veces esta puede ser
resumida por un pequeño número k de componentes principales
(k<p).
Si es así (casi siempre) mucha información en los k componentes

se refleja como si existiera en las p variables originales.

1.2 INTERPRETACIÓN GEOMETRICA

La representación gráfica implica la creación de un plano r-
dimensional y ubicarlo de tal manera que se encuentre lo más
aproximado al gráfico de dispersión de los datos originales.
Suponga un plano inicial que cruza a través del origen

determinado por la combinación lineal u1, u2,…,ur consistente de
todos los puntos con las siguientes caracteristicas:
x=b1u1+b2u2+………..+brur=UB para algun B
Este plano, puede ser trasladado a cualquier ubicación a través

de un punto a lo cual se convierte en a+UB para algún b.
El objetivo de los componentes principales (ACP) es seleccionar

un plano r-dimensional a+UB que minimice la suma de las
distancias al cuadrado, ∑nj=1 d2j , entre las observaciones xj y el
plano r-dimensional a+UB.
Grafico 1. Visión grafica del análisis de componentes principales

Las k componentes principales pueden reemplazar las p

variables iniciales del conjunto de datos originales, consistente
de p variables reducidas a un conjunto de datos de k
componentes principales.
Un análisis de componentes principales muchas veces revela

relaciones que no fueron previamente sospechadas, por lo tanto,
permite efectuar interpretaciones que ordinariamente no
tendrían algún tipo de sustento.
El análisis de componentes principales es un paso intermedio,

más que un fin en si mismo, debido a que es un intermediario
para procesos más largos de investigación. Por ejemplo, puede
ser insumo para regresiones múltiples, análisis de cluster,
construcción de indicadores, entre otros.
Se quiere construir un nuevo sistema de coordenadas

ortogonales (perpendiculares) en el cual los puntos puedan ser
representados de una manera tal que sus proyecciones sobre el
nuevo primer eje recojan la mayor cantidad posible de variación
(varianza). Las proyecciones sobre el segundo eje recoja el resto,
y asi sucesivamente.
Intuitivamente, para un grafico con dos variables, encontramos

que tales ejes corresponden a las rectas F1 y F2, representadas
en la gráfica 2 cuyo origen se encuentra en la intersección de los
promedios de las variables X y Y, que desde ahora será
denominado centro de gravedad G de la nube de puntos.

Grafica 2. ACP para dos componentes
Con mucha frecuencia se maneja simultáneamente un número p

de variables numéricas. Si cada variable se representa sobre un
eje, se necesitaría un sistema de coordenadas con p ejes
perpendiculares entre sí para ubicar las coordenadas de los
puntos y poderlos representar.
Este grafico es imposible incorporarlo cuando p≥4, pero la idea

esbozada en el ejemplo anterior sigue siendo válida, buscar un
nuevo sistema de coordenadas con origen en el centro de
gravedad, G, de tal manera que el primer eje del nuevo sistema
(F1) refleje la mayor cantidad posible de variación a través de la
minimización de las distancias entre el plano y los datos. El
segundo eje (F2), refleje la mayor cantidad posible entre la
variación restante, el tercer eje (F3) la mayor variación posible
remanente después de las dos anteriores, y así sucesivamente.
Observando la figura anterior se puede deducir que el nuevo

sistema de coordenadas se logra después de dos movimientos en
la nube de puntos. Un primer movimiento es una traslación que
permite situar el nuevo origen en el centro de gravedad de la
nube, G.

La nueva nube, obtenida después de esta traslación se llama

nube centrada. Un segundo movimiento que se hace sobre la
nube centrada es una rotación, usando el centro de gravedad
como punto pivotal. Existe una visión alternativa de rotación a
través de senos y cosenos
Esta rotación ha de hacerse de tal manera que el nuevo primer

eje del sistema de coordenadas apunte en la dirección de
máxima dispersión de la nube centrada. El segundo eje apunte
en la dirección con la segunda mayor dispersión y perpendicular
al anterior. El tercer eje en la dirección de tercera mayor
dispersión perpendicular a las dos anteriores y así
sucesivamente.
Es evidente que el nuevo sistema de coordenadas tiene entonces

tantos ejes perpendiculares entre sí como tenía el antiguo, es
decir, tantos ejes como variables se hayan considerado
inicialmente.
1.3. RESULTADOS MATEMATICOS Y GRAFICOS DEL ACP

Suponga considerar los componentes principales derivados de
variables aleatorias con una distribución normal multivariante.
Suponga X es distribuido como N(μ,Σ), aunque este supuesto no

es necesario. Se puede demostrar que la densidad de X es
constante sobre elipsoides centrados μ con la formula:
(X-μ)Σ-1(X-μ)=c2

La cual tiene ejes ±c√λi ei i=1,2,….p donde (λi,ei) es la

combinación de valor propio y vector propio de Σ. Es decir,
Gráfico 3. Representación grafica por elipsoides
Un punto sobre el eje i-esimo de la elipsoide tendrá coordenadas

a 𝐞ti =[ei1,ei2,……,eip] en el sistema de coordenadas que tiene
origen en μ y los ejes son paralelos a los ejes originales x1,x2,….,xp.
Será conveniente, en principio, establecer el punto en el origen,

es decir, μ=0 de manera que con A=Σ-1 es posible reescribir:
1 1 1
c2=xtΣ-1x=λ (𝐞𝐭𝟏 𝐱)2+λ (𝐞𝐭𝟐 𝐱)2+……..+λ (𝐞𝐭𝐩 𝐱)2
1 2 p
Esta ecuación define una elipsoide (puesto que λ1,λ2,…..,λp son
positivas) en un sistema de coordenadas con ejes y1,y2,….yn en
las direcciones e1,e2,….,ep, respectivamente.
Si λ1 es el valor propio más grande, entonces el eje principal tiene

que ir a en la dirección e1. Los restantes ejes serán definidos por
las direcciones de e2,…,ep.

Para resumir, los componentes principales y1=𝐞1t x, y2=𝐞t2 x,…..

yp=𝐞tp x se encuentran en las direcciones de los ejes de una
elipsoide con densidad constante. Por lo tanto, cualquier punto
sobre el eje de la elipsoide i-esima tiene coordenadas x
proporcionales a 𝐞ti =[ei1,ei2,……, eip] y necesariamente la
coordenada de la primera componente principal tiene la forma
[0,0,….,yi,0,……0].
Cuando μ≠0, es la componente principal centrada en la medida

que yi=𝐞ti (x-μ) tiene media cero y dirección del vector propio ei.
Una elipse de densidad constante y componentes principales
para un vector aleatorio normal bivariante con μ=0 y 𝛒=0.75 se
demuestran en la siguiente figura.
Grafico 4. Elipse de densidada constante de tamaño xtΣx=c2 y las

componentes principales y1,y2 para un vector aleatorio normal
bivaraido X teniendo una media de cero.
Se puede observar que las componentes son obtenidas rotando

las coordenadas de los ejes originales en un angulo θ hasta que
coincida con los ejes de un plano r-esimo con densidad

constante. Este resultado aplica para p>2 dimensiones de igual

forma.
En conclusión, los resultados algebraicos y graficos indican que

los componentes principales son combinaciones de P variables
aleatorias x1,…,xp. Geometricamente estas combinaciones
representan una selección de un nuevo sistema de coordenadas
obtenido de rotar el sistema original con x1,…,xp como eje de
coordenadas. Los nuevos ejes representan las direcciones con
máxima variablilidad y proporciona una descripción más simple y
parsimoniosa de la estructura de covarianza de los datos.
1.4. CÁLCULO DE LOS COMPONENTES PRINCIPALES

Consideremos p variables aleatorias de tipo numérico X1,X2,….,Xp
las cuales posiblemente estén correlacionadas entre sí. Podemos
pensar que las p variables anteriores, consideradas
conjuntamente, forman una variable aleatoria multivariada,
denotada por un vector X=(X1,X2,….,Xp).
La matriz de covarianzas asociada al vector X está definida como

Σ donde la entrada en la fila i columna j es el valor de la
covarianza entre Xi y Xj , Cov(Xi,Xj). Esto hace que la diagonal de Σ
esté conformada por las varianzas Var(X1),Var(X2),….,Var(Xp) y
que sea simétrica1. Estas características también implican que
sean semidefinida positiva.
1 Se puede probar que es una matriz definida positiva, es decir, la forma cuadrática asociada a ella tiene todas sus raíces positivas.

La idea que se persigue es determinar un nuevo conjunto de

variables y1,y2,...,yp, no correlacionadas entre sí (ortogonales o
perpendiculares), cuyas varianzas decrezcan desde la primera
nueva variable hasta la última, llamadas componentes
principales.
Cada componente principal yj (donde j=1,...,p) es una

combinación lineal de las x1,x2, ...,xp variables originales, es decir:
Suponga para el conjunto de variables iniciales representados

por un vector de variables X la j-esima componente principal:
yj = aj1x1+aj2x2+...+ajpxp (1)
O de forma matricial:
yj = aTx (2)
Donde aT=(aj1,…..,ajp) es un vector de constantes y xT=[x1,x2,...

,xp] es un vector de p variables aleatorias que componene la j-
esima variable ortogonal, yj. El objetivo es recoger la mayor
cantidad posible de variación (maximizar la varianza explicada)
por cada combinación lineal yj.
La forma para maximizar la varianza explicada es modificar los

coeficientes aij por cada combinación lineal yj incorporando las
condiciones de ortogonalidad definidas anteriormente.

Por ello, para mantener la ortogonalidad de la transformación, y

evitar esta solución trivial de crecimiento infinito, se impone que
la suma de cuadrados de los coeficientes sea igual a uno y este
sea el módulo del vector aT=(a1j, a2j,..., apj), es decir, expresado de
manera formal:
p
a a j   akj2  1
T
j
k 1
(3)
El primer componente se calcula eligiendo el vector de
parámetros que maximice la información expresada, o minimice
la distancia entre el plano y los datos a través del valor del vector
a1.
La primera componente (y1) tiene la mayor varianza posible y se

calcula obteniendo los parámetros que minimizan la distancia
entre los datos y el plano r-dimensional a través de las
ponderaciones a1 del vector y1=𝐚1t x, sujeta a la restricción que los
parámetros no aumenten infinitamente, expresado como que la
suma de los cuadrados de las ponderaciones sobre las variables
originales, X, sea igual a la unidad, es decir, 𝐚1t 𝐚1 =1.
El segundo componente principal, y2, se calcula obteniendo los

parámetros que minimizan la distancia entre los datos y el plano
r-dimensional a través de las ponderaciones a2 del vector y2=𝐚t2 x.
Además, sujeta a la restricción que los parámetros no aumenten
infinitamente y la variable obtenida esté no correlacionada con
la primera componente principal (y1). Es decir, exprese la mayor
varianza posible no explicada por el primer componente.

Del mismo modo, se eligen y3,y4,···,yp componentes no

correlacionadas entre sí, de manera que las nuevas variables
obtenidas tengan cada vez menor varianza.
1.5. PROCESO DE EXTRACCIÓN

El objetivo del proceso para encontrar las componentes
principales (yi) es elegir un vector de constantes a1 de modo que
se maximice la varianza de y1 sujeta a la restricción de que
𝐚1t 𝐚1 =1, como ya fue justificado.
El método habitual para maximizar una función de varias

variables sujeta a restricciones de igualdad es el método de
multiplicadores de Lagrange, usualmente aplicado en economía.
El problema consiste en maximizar la varianza explicada

ponderada por un vector de coeficientes a que determinan los
pesos de cada variable, at1 Σa1 , sujeta a la restricción 𝐚1t 𝐚1 =1.
La incógnita que se busca es un vector a1 desconocido de

parámetros sobre el vector de variables originales X que balance
las p variables existentes y determine una combinación lineal
óptima que maximiza la varianza explicada o que minimice las
distancias entre un plano y cada uno de los puntos originales.

De esta forma, se puede representar un problema de

optimización matemática y su representación en una función
lagrangiana, ℓ(•), de la forma:
Max 𝐚𝐭𝟏 𝚺𝐚𝟏 (4)
a1
S.A. a1T a1  1
La función lagrangiana esta representada por:

(a1 )  a1T a1   (a1T a1  I )
Las condiciones de primer orden (CPO) del problema de

optimización respecto a los parámetros a están dadas por:
()
 2a1  2Ia1  0
a1
(  I )  0 (5)
Desarrollando la expresión anterior se tiene que:
(Σ−λI) = 0
Σ = λI premultiplicando por 𝐚𝐓𝟏
𝐚𝐓𝟏 Σa1 = 𝐚𝐓𝟏 λIa1
Var(y1) = 𝐚𝐓𝟏 λIa1 pero 𝐚𝐓𝟏 Σa1=Var(y1)
Var(y1) = 𝐚𝐓𝟏 λIa1
Var(y1) = λ𝐚𝐓𝟏 a1 pero 𝐚𝐓𝟏 a1=1
Var(y1) = λ (6)
De este modo, λ, es conocido como el primer valor propio de la

matriz de covarianzas, Σ, que es solución de la ecuación
característica (5) expresado en la ecuación (6).

Este resultado puede ser interpretado como la varianza de la

primera componente principal (y1) esta representada por el
primer valor propio de la matriz, Σ, Var(y1)=λ1.
El segundo componente principal se calcula como y2=𝐚𝐓𝟐 x y se

obtiene mediante un argumento parecido.
Además, se requiere que y2 esté no correlacionado con el

anterior componente y1, es decir, para asegurar la ortogonalidad
o independencia, se tiene que imponer que la covarianza entre
las variables (y2,y1) sea igual a cero, Cov(y2,y1)=0.
Por lo tanto, suponga la covarianza entre la primera (y1) y

segunda (y2) componente principal de la forma:
Cov(y2, y1) = Cov(𝐚𝐓𝟐 x, 𝐚𝐓𝟏 x)
= E[𝐚𝐓𝟐 (x−µ)·(x−µ)T𝐚𝟏 ]
= 𝐚𝐓𝟐 Σ𝐚𝟏
Cov(y2, y1) = 𝐚𝐓𝟐 Σ𝐚𝟏
Por los resultados de la primera componente que:

Σ = λI
Σa1 = λI𝐚𝟏
Cov(y2, y1) = 𝐚𝐓𝟐 Σa1 = 𝐚𝐓𝟐 λ𝐚𝟏
= λ𝐚𝐓𝟐 a1 pero λ> 0 entonces
𝐚𝐓𝟐 Σa1 = 0.
Es decir, se demuestra que los vectores de las ponderaciones de

la primera y segunda componente principal son ortogonales.

De este modo, se tiene que maximizar la varianza de la segunda

componente principal, y2, es decir, a2Σa2, sujeta a dos
restricciones.
La primera, sobre el tamaño restringido de la suma de cuadrados

del vector de ponderaciones de la segunda componente
principal, 𝐚𝐓𝟐 a2=1.
La segunda, la independencia entre las ponderaciones de la

primera (y1) y segunda (y2) componente principal descrita como
𝐚𝐓𝟐 a1=0.
De esta forma, es posible construir un problema de optimización

lagrangiana, ℓ(•), de la forma:
Max 𝐚𝐓𝟐 𝚺𝐚𝟐
a2
a2T a2  1
Sujeto a a T a  0
2 1
La función lagrangiana, ℓ(•), es representada entonces por

(a2 )  a2T a2  1 (a2T a2  1)   2 (a2T a1 )
Las condiciones de primer orden (CPO) del problema están
dadas por:
()
 2a2  21 Ia2   2 a1  0
a2

Si se premultiplica por 𝐚1T la CPO en la ecuación entonces:

= 2𝐚1T Σ𝐚2 -2𝐚1T δ1Ia2-𝐚1T δ2𝐚1 =0
= 2𝐚1T Σ𝐚2 -2δ1I𝐚1T a2-δ2𝐚1T 𝐚1 =0
Si se conoce que 𝐚1T 𝐚1 =1 y 𝐚1T 𝐚2 =0. Entonces:
0=2𝐚1T Σ𝐚2 -δ2
O lo que es lo mismo:
δ2=2𝐚1T Σ𝐚2
Pero se demostró anteriormente que 𝐚1T Σ𝐚2 =𝐚𝐓𝟐 Σa1=0. De este
modo, queda finalmente la CPO como:
()
 2a2  2 2 Ia2  0
a2
Usando el mismo procedimiento que antes, elegimos λ2 como el

segundo valor propio mayor de la matriz de covarianzas, Σ, con
su vector propio asociado a2.
1.6. TEOREMAS
Los resultados anteriores se pueden expresar de una manera
sintética y con el formalismo necesario en los siguientes
teoremas.
Teorema 1. Sea Σ una matriz de covarianza asociada con vectores

aleatorios xT=x1, x2,……,xp. Suponga que la matriz Σ tiene pares
de valores y vectores propios (λ1,e1), (λ2,e2),…..,(λp,ep) donde
λ1≥λ2≥……≥λp≥0, la i-esima componente principal esta dada
por:
yi  eiT x  e1i x1  e2i x2  ....e pi x p i  1,2,...., p
De esta forma,

Var ( yi )  eiT ei  i

cov( yi , yk )  eiT ek  0 ik
Si algunos λi son iguales la elección del coeficiente ei asi como yi
no son únicos.
La solución a los problemas de optimización planteados

anteriormente por un método lagrangiano son resueltos
paralelamente a través de hallar los valores y vectores propios de
la matriz de covarianzas, Σ.
Teorema 2. Suponga que xT=x1, x2,……,xp tienen una matriz de

covarianzas con pares de valores y vectores propios (λ1,e1),
(λ2,e2),…..,(λp,ep) donde λ1≥λ2≥……≥λp≥0. Por otra parte, sea la
siguiente combinación y1=𝐞1t x, y2=𝐞t2 x,……., yp=𝐞tp x. Entonces:
p p
σ11+σ22+…..+σpp = Var ( X i )  1  2  ....   p   var( yi )

i 1 i 1
El resultado indica que la varianza poblacional (VP) es la suma

de los valores propios o el valor de la traza de la matriz Λ. La
proporción total de la varianza explicada (PVE) por la k-esima
componente es:

PVE= k=1,2,….p
k
1  2  ....  k
Muchas veces este porcentaje es bastante alto con un pequeño
valor de k<p lo que se traduce en una alta representatividad en
un espacio de pocas dimensiones.
Como puede deducirse de lo anterior, la varianza total se

descompone en un número finito de partes disjuntas λj de
tamaños cada vez menores, lo que en la práctica proporciona un

mecanismo para reducir la dimensionalidad de representación

de las variables.
En efecto, si se olvidan las últimas p-k componentes principales,

las primeras p tendrán una tasa de representatividad igual a
1  2     p k
100% de la varianza total de las variables
VT
originales.
Si por ejemplo, 80% o 90%, de la varianza poblacional total

puede ser atribuida a la primera y segunda componente
entonces estos pueden sustituir las p variables originales por las
componentes sin perdida de demasiada información.
Teorema 3. Si y1=𝐞𝐓𝟏 x, y2=𝐞𝐓𝟐 x,….. yp=𝐞𝐓𝐩 x son componentes

principales obtenidos de la matriz de covarianzas, Σ, entonces:
eki i
Y , X 
1 k
 kk i=1,2….p
Son los coeficientes de correlación entre la componente principal
i-esima (Yi) y la variable k-esima (xk). Lo que indica el teorema
anterior es que cada componente del vector 𝐞ti =[ei1,e12,…,eip]
también debe ser inspeccionado.
La magnitud de eik mide la importanica de la k-esima variable

sobre i esima componente principal, sin tener en cuenta otras
variables que se denominara “driver”.

En particular eik es proporcional al coeficiente de correlación

entre la componente (Yi) y la variable (xk). Aunque las
correlaciones de las variables (X) con la componente principal
(Yi) muchas veces ayuda a interpretar los componentes, ellas
miden únicamente la contribución univariada de un individuo X
frente a la componente Y.
Es decir, ellas no indican la importancia de la variable X a la

componente principal Y, solo su grado de correlación en la
presencia de otras variables X.
Aunque coeficientes del vector propio y correlaciones calculadas
pueden conducir a distintas clasificaciones como medidas de
importancia, no se aprecian diferencias sustanciales en sus
valores.
En la práctica financiera, variables con relativamente altos

coeficientes de los componentes del vector (en valor absoluto)
tienden a tener alternativamente más correlacion entre la
componente y la variable.
De este modo las dos medidas, la primera multivariada

(coeficiente eik) y la segunda univariada (correlacion)
frecuentemente arrojan resultados similares.
Siempre es recomendado examinar los coeficientes y las

correlaciones en búsqueda de interpretar los componentes, por
esta razón, se recomienda en primera instancia verificar los
coeficientes eik, posteriormente las correlaciones aunque en la
mayoría de los casos arrojen resultados similares.

Ejemplo. Suponga la siguiente de matriz de varianzas y

covarianzas, Σ, con variables aleatorias X1, X2, X3:
1 −2 0
Σ = [−2 5 0]
0 0 2
Despues de incluir la matriz en STATA se utiliza el comando

pcamat abc, n(0) names(x1 x2 x3) components(3) covariance que
arroja los siguientes resultados:
Tabla 1
La conclusión arroja los valores y vectores propios determinados

como:
λ1=5.83 𝐞1t =[-0.383, 0.924,0]
λ2=2.00 𝐞𝐭𝟐 =[0, 0, 1]
λ3=0.17 𝐞t3 =[0.924, 0.383, 0]
Por lo tanto, las componentes principales se convierten en:

Y1=e1t 𝐗=-0.383X1+0.924X2
Y2=et2 𝐗=X3
Y3=et3 𝐗=0.924X1+0.383X2

La suma de los componentes principales λ1+λ2+λ3 extraidos de

la matriz de covarianzas Σ es igual a la traza de esta matriz.
Ambos son iguales a ocho (8).
Utilizando los resultados del TEOREMA 1, se desea determinar la

varianza de la primera componente (Y1), es decir:
Var(y1)=e1t Σe1
O mejor
Var(y1)=Var(-0.383X1+0.924X2)
Var(y1)=(0.383)2Var(X1)+(0.924)2Var(X2)-2(0.383)(0.924)
Recurriendo a la matriz de covarianzas, Σ, implica que

Var(X1)=1, Var(X2)=5 y cov(X1, X2)=-2. Entonces:
Var(y1) = 0.147(1)+0.854(5)-0.708(-2)
Var(y1) = 5.83
Var(y1) = λ1
La varianza de la primera componente principal corresponde al
primer valor propio.
La varianza total utiliza el TEOREMA 2 a partir de la matriz de

covarianzas, Σ, la calcula de la siguiente forma:
p p
Var ( X )         var( y ) = σ11+ σ22+ σ33=1+5+2

i 1
i 1 2 3
i 1
i
La proporcion de la varianza explicada por la primera

componente principal (VEC1) es:
λ1 5.83 5.83
VEC1= λ =λ = 8.00 =0.7286
1 +λ2 +λ3 1 +λ2 +λ3

Es decir, la primera componente explica el 72.86% de la varianza

total.
Este mismo procedimiento se efectua para las demás

componentes. En este caso, los componentes Y1 y Y2 podrían
reemplazar las tres variables originales (X1, X2, X3) sin mayor
perdida de información ya que entre los dos explican el 97.86%
de la varianza total.
Es decir, la proporcion de la varianza explicada por la primera y

segunda componente principal (VEC1|2) es:
λ1 +λ2 5.83+2 7.83
VEC1|2= λ +λ = = =0.9786
+λ
1 λ +λ +λ
2 3 8.00
1 2 3
Por otra parte, utilizando el TEOREMA 3 es posible encontrar el

coeficiente de correlacion entre la primera componente (Y1) y la
variable X1 de la forma:
e11 √λ1 −0.383√5.83
ρY1,X1= = = -0.925
√σ11 √1
Para la componente (Y1) y la variable X2 se calcula de la siguiente
forma:
e12 √λ1 0.924√5.83
ρY1,X2= = = 0.998
√σ22 √5
Observese la variable x2 con el coeficientea asociado del valor

propio de -0.925 que recibe en la primera componente Y1.
Tambien tiene la más alta correlacion con 0.998 (en valor
absoluto).

La correlación de x1 con Y1 (-0.925), por otra parte, es casi tan

grande como la de x2 (.0.998) son casi igualmente importantes
para la primera componente principal (Y1).
Los pesos relativos (en valor absoluto) de los coeficientes de X1 y

X2 suguiere que X2 contribuye mas en la determinación de Y1 de
lo que hace X2. Puesto que ambos coeficientes son
razonablemente grandes y de signos opuestos, se puede afirmar
que ambas variables colaboran en la interpretación de Y1.
1.7. COMPONENTES PRINCIPALES NORMADO O POR

CORRELACIONES
Todo lo mencionado anteriormente tiene un sentido geométrico
y matemático muy claro pero en la práctica tiene un problema de
interpretación.
¿Qué significado tiene una variable artificial Fj que ha sido

construída, como una combinación de otras variables cuyas
naturalezas pueden ser muy diferentes?
¿Qué nombre puede recibir por ejemplo, una variable

conformada por una combinación de edad, peso, ingresos, etc?
Por otra parte, el peso de cada variable original, traducido

fundamentalmente en volatilidad, puede ser muy diferente para
cada variable.
Una variable muy dispersa puede contribuir enormemente a la

varianza total mientras que una variable más homogénea
contribuye menos. Esto finalmente determina la participación de

cada variable en la conformación de un factor generando ruido

en el cálculo.
El cálculo de los componentes principales de una serie de

variables x1,x2...,xp depende habitualmente de las unidades de
medida empleadas. Si transformamos las unidades de medida, lo
más probable es que cambien a su vez los componentes
obtenidos.
Una solución frecuente es usar variables x1,...,xp normalizadas.

Con ello, se eliminan las diferentes unidades de medida y se
consideran todas las variables implícitamente equivalentes en
cuanto a la información recogida.
Realizar ACP con variables originales estandarizadas resuelve

los dos problemas. El primero, con las variables estandarizadas
no tiene nombre, son simplemente números sin unidades en las
cuales se expresen las mediciones.
De otra parte, la estandarización lleva todas las escalas de

medida a una forma común de media 0 y varianza 1, con lo cual
se elimina el problema de medición y variabilidad diferente de
las variables originales.
El ACP realizado con variables originales estandarizadas se llama

ACP normado. El ACP normado equivale al ACP corriente pero
partiendo de la matriz de correlaciones ρ en vez de la matriz de
covarianzas Σ.

El ACP normado debe ser la técnica a seguir en cualquier caso, a

menos que se quieran explorar algunas otras posibilidades de tipo
teórico o que se tengan variables muy similares tanto en su
naturaleza como en su escala de medida.
Los componentes principales de la matriz de correlaciones, le da

igual importancia a todas las variables originales, a diferencia del
ACP por matriz de covarianzas. En la matriz de correlaciones
todos los elementos de la diagonal son iguales a 1.
Si las variables originales están normalizadas, esto implica que

su matriz de covarianzas es igual a la de correlaciones, con lo que
la variabilidad total (la traza) es igual al número total de
variables.
La suma total de todos los valores propios será p y la proporción

de varianza recogida por el valor propio j-ésimo (componente)
será de λj/p. Los componentes principales pueden ser obtendos
de variables estandarizadas de la forma:
(X1 −μ1 )
Z1= ;
√σ11
(X2 −μ2 )
Z2= ;
√σ22
:
:
(Xp −μp )
Zp=
√σpp
En notación matricial:
Z=(V1/2)-1(X-μ)

Donde la matriz V1/2 es diagonal constituida por desviaciones

estándar. Donde E(Z)=0 y su matriz de covariazas es igua a:
Cov(Z)=(V1/2)-1Σ(V1/2)-1=ρ
Los componentes principales de Z pueden ser obtenidos de los

vectores propios de la matriz de correlaciones ρ de X. Todos los
resultados previos aplican exactamente igual con algunas
simplificaciones, puesto que la varianza de Zi es la unidad.
En el caso de variables estandarizadas se utilizará la misma

notación Yi para referirse a la i-esima componente principal y
(λi,ei) al par de valores y vectores propios de la matriz de
correlaciones, ρ, o matriz de covarianzas Σ.
Sin embargo, (𝛌i,ei) derivado de la matriz de covarianzas Σ en

general no son las mismas que las derivadas a través de la matriz
de correlaciones.
Teorema 4. La i-esima componente principal de variables

estandarizadas Z=[Z1,Z2,….,Zp] con una matriz de covarianzas
cov(Z)=ρ esta dada por:
Yi=𝐞ti Z=𝐞ti [(V1/2)-1](X-μ) i=1,…..,p
De forma matricial, (V1/2)-1 es una matriz diagonal con cada uno

de los componentes de la diagonal igual a la desviación estándar
de la j-esima variable, 1/√σjj . Ademas:
p p
∑ Var(Yi ) = ∑ Var(Zi ) = p
i=1 i=1

Las covarianzas entre las variables estandarizadas y las

componentes principales esta definida como:
ρYi,Zk=eik√λi i,k=1,2,…..,p
En este caso (λ1,e1), (λ2,e2),….., (λp,ep) son los pares de valores y

vectores propios de la matriz de correlaciones ρ dada la
característica de λ1≥λ2,….. ≥λp≥0.
La varianza total poblacional (variables estandarizadas) es

simplemente p, la suma de los elementos de la diagonal de la
matriz de correlaciones ρ.
Con variables estandarizadas Z en vez de variables sin

estandarizar (X) es posible encontrar la proporción de varianza
total explicada (VTE) por la k-esima componente principal de Z
como:
λ
VTE = pk k=1,2,……,p
Ejemplo. Suponga la siguiente de matriz de covarianzas, Σ, con
variables aleatorias X1, X2:
𝟏 𝟒
Σ=[ ]
𝟒 𝟏𝟎𝟎
Y una matriz de correlaciones, ρ, asociada:
𝟏 𝟎. 𝟒
𝛒=[ ]
𝟎. 𝟒 𝟏
Se calularon los pares de valores y vectores propios en STATA

con la siguiente sintaxis:
pcamat covarianza, n(0) names(x1 x2) components(2) covariance

Para la matriz de covarianzas, ρ, y para la matriz de

correlaciones, Σ, se utilizó:
pcamat correlaciones, n(0) names(x1 x2) forcepsd
components(2).
Grafico. Comparación resultados de PCA con matriz de

covarianzas y correlaciones
CORRELACIONES COVARIANZAS
a. Matriz de covarianzas
Los valores y vectores propios de la matriz de covarianzas, Σ, se
tienen que:
λ1=100.16 𝐞1t =[0.04, 0.99]
λ2= 0.84 𝐞𝐭𝟐 =[0.99,-0.04]
Las componentes principales se convierten en:

Y1=e1t 𝐗=0.04X1+0.99X2
Y2=et2 𝐗=0.99X1 - 0.04X2

b. Matriz de correlaciones
Los valores y vectores propios de la matriz de correlaciones, ρ, se
tiene que:
λ1=1+ρ=1.4 𝐞1t =[0.707, 0.707]
λ2=1-ρ= 0.6 𝐞𝐭𝟐 =[0.707,-0.707]
Las componentes principales se convierten en:

Y1=e1t 𝐗=0.707X1+0.707X2
Y2=et2 𝐗=0.707X1 - 0.707X2
Por ejemplo, para la primera componente, Y1, se tiene que:

X −μ X −μ
Y1=0.707Z1+0.707Z2=0.707[ 1 1 1 ]+0.707[ 21002 ]
√
Para la segunda componente Y2, se tiene que:

X −μ X −μ
Y2=0.707Z1+0.707Z2=0.707[ 1 1 1 ]-0.707[ 21002 ]
√
Dada la diferencia de las varianzas observadas por los valores

propios (λ1=100.16 y λ2=0.84), la variable X2 domina
completamente la primera componente principal (Y1)
determinada por la matriz Σ.
Ademas, La primera componente principal explica una

proporción de la varianza poblacional de 99.2%, es decir:
λ1 100.16
= = 0.992
λ1 + λ2 100.16 + 0.84
Cuando las variables están estandarizadas, sin embargo, el

resultado de las variables contribuye de igual manera a las

componentes principales determinadas por la matriz de

correlaciones ρ.
Utilizando el TEOREMA 4 se puede obtener que la correlación

entre la variable estandarizada Z1 respecto a la primera
componente principal se calcula como:
ρY1,Z1=e11√λ1 =0.707√1.4=0.837
La correlacion entre la variable estandarizada Z2 respecto a la

segunda componente principal se calcula como:
ρY1,Z1=e21√λ1 =0.707√1.4=0.837
En el caso de la primera componente principal explica una

proporción de 70% dela varianza total estandarizada, es decir:
λ1 1.4
= = 0.7
p 2
La importancia relativa de las variables, por ejemplo, la primera
componente principal se ve significativamente afectada por la
estandarización.
Cuando la primera componente principal se obtiene de la matriz

de correlaciones ρ esta expresada en términos de X1 y X2, las
magnitudes relativas calculadas de las ponderaciones son 0.707
y 0.707, valores equilibrados, que están en oposición directa a
aquellas ponderaciones 0.04 y 0.99 obtenidas de la componente
principal calculada por la matriz de covarianzas Σ.

El ejemplo precedente demuestra que los componentes

derivados de la matriz de covarianzas Σ son diferentes a los
derivados de la matriz de correlaciones 𝛒.
Ademas, se puede establecer que los componentes principales no

es una función simple de otra. Es decir, efecutar el proceso de
estandarización tiene consecuencias en el cálculo y conclusiones.
Las variables deberían estar estandarizadas si ellas están

medidas en escalas con amplios rangos de diferencia o unidades
de medida que no son fácilmente comparables.
Por ejemplo, Si X1 representa ventas anuales en un rango de

$10.000 y $350.000 y X2 es la razón de rentabilidad sobre el
activo (ingreso brutos/total de activos) que se encuentra en un
rango de 1.0% y 6.0%.
Si se calcula utilizando la matriz de covarianzas, Σ, la variación

total será exclusivamente correspondiente a las ventas anuales.
En este caso se debe esperar una sola primera componente muy
importante (recoge la mayor cantidad de varianza explicada)
con una alta ponderación para X1.
Alternativamente, si ambas variables están estandarizadas, sus

magnitudes pueden ser del mismo orden, y X2 o (Z2) juega un rol
importante en la construcción de los componentes principales.

1.8. COMPONENTES PRINCIPALES PARA MATRICES DE

COVARIANZAS CON ESTRUCTURAS ESPECIALES
Existen ciertos patrones sobre la matriz de covarianzas o
correlaciones donde los componentes principales pueden ser
expresados en formas simples.
Suponga la matriz diagonal de covarianzas, Σ, es decir:
Si se tiene un vector propio de la forma 𝐞ti =[0,0,….,1,….,0,0] con

un uno (1) en la posición i-esima se observa que:
O visto de otra manera Σei=𝛔iiei. Se puede concluir de lo anterior

que (𝛔ii,ei) es el par valor propio vector propio.
Puesto que la combinación lineal 𝐞ti X=Xi, por tanto, se establece

que el conjunto de componentes principales corresponde al total
de variables original aleatorias no correlacionadas.
Con una matriz diagonal de covarianzas, Σ, no se gana nada

extrayendo componentes principales.

Desde otro punto de vista, si X esta distribuido Np(μ,Σ), el

contorno de la densidad constante son elipsiodes donde los ejes
cartesianos se encuentran en la dirección de la maxima varianza.
Consecuentemente no es necesario rotar las coordenadas del
sistema.
Si se desea efecuar estandarización de las variables, este

procediento substancialmente no altera la situación para una
matriz diagonal de covarianzas, Σ. En este caso se llega a que la
matriz de correlaciones, ρ, es iguala a la matriz identidad de
orden pxp, o mejor ρ=I.
De este modo, si ρei=1ei, el valor propio de uno (1) que

pertenence al vector de valores propios e es multiplicado por el
correspondiente coeficiente de correlacion ρ, asi las cosas,
𝐞ti =[0,0,…..,1,…..,0,0] con i=1,2,…,p son elecciones convenientes
para los valores propios. Consecuentemente, las componentes de
la matriz de correlaciones ρ son también las variables originales
Z1,…Zp.
Otro patrón de matriz de varianzas y covarianzas, Σ, el cual

describe algún tipo de correlación entre variables, tiene la
siguiente forma general:
La matriz de correlaciones, ρ, resultante es:

Es también la matriz de covarianzas de variables estandarizadas.

La matriz de correlaciones anterior implica que las variables
X1,X2,….,Xp estan igualmente correlacionadas. Para este caso, los
p valores propios de la matriz de correlaciones correspondiente
pueden ser divididos en dos grupos.
Cuando el coeficiente de correlacion ρ es positivo, el más grande

es:
λ1=1+(p-1)ρ
Con vectores propios asociados:
Los restantes (p-1) valores propios son:

λ2= λ3=……….=λp=1-ρ
Los restantes vectores propios son:
La primera componente principal sobre variables estandarizadas

corresponde a:

Es proporcional a la suma de p variables estandarizadas y puede

ser juzgada como un índice con igual ponderación.
Esta componente principal explica una proporción del total de la

varianza de la población como:
Si λ1/p=ρ para la correlacion cercana a uno (1) o p muy grande.
Por ejemplo, si la correlacion es ρ=0.8 y el numero de variables

p=5, la primera componente explica el 84% del la varianza total.
Cuando la correlación es cercana a uno, ρ=0.8, las ultimas p-1
componentes colectivamente contribuyen muy poco a la
varianza total y muchas veces pueden ser ignoradas.
En este caso especial, retener únicamente al primera

componente principal Y1=(1/√p)[1,1,….,1]X, una medida de
tamaño total, explica la misma proporción de la varianza de la
forma:
Si las variables están estandarizadas Z1,Z2,…,Zp tienen una

distribución normal multivariante con matriz de covarianzas
dada por:

Las elipsoides de densidad son constantes, con el eje principal

proporcional a la primera componente principal
Y1=(1/√p)[1,1,….,1]Z,. Esta componente principal es la
proyección de Z sobre el plano 1t =[1,1,….,1] .
El eje secundario (y restantes componentes principales) ocurren

de forma simétrica y esférica en dirección perpendicular al eje
principal (y la primera componente principal).
1.9. COMPONENTES PRINCIPALES A PARTIR DE UNA MUESTRA

La matriz de covarianzas, Σ, por ser desconocida, no puede ser
usualmente utilizada directamente en los cálculos. En la práctica,
se usa la matriz de covarianzas estimada, S, a partir de una
muestra observada de n individuos.
Esta matriz constituye una estimación de Σ, por tanto, los

resultados obtenidos con ella constituyen estimaciones de los
valores poblacionales. Sin embargo, es necesaria una muestra
aleatoria cuyo tamaño n sea mayor que el número p de variables
consideradas.
El hecho de usar la matriz de covarianzas muestrales, S, en vez

de la matriz de covarianzas poblacionales, Σ, puede
eventualmente acarrear complicaciones de tipo computacional.

Suponga x1,x2,…,xn representan n variables independientes de

alguna población p-dimensional con vector de media μ y matriz
de covarianzas, Σ. Estos datos arrojan una media muestral, 𝐱̅, la
matriz de covarianza muestral S y la matriz de correlaciones
muestrales R.
El objetivo es construir combinaciones lineales no

correlacionadas entre si de las medidas características que
cuentan en mayor medida con la variación en la muestra.
La combinación no correlacionada de variables que explican la

varianza serán llamadas componentes principales muestrales. La
combinación se encuentra descrita como:
𝐚𝐭𝟏 x=a11,xj1+a12xj2+………+a1pxjp para j=1,2,….,n
Tiene una media muestral at1 𝐱̅ y varianza muestral at1 𝐒a1 .

Tambien, los pares (at1 𝐱̅, at2 𝐱̅), para dos combinaciones lineales
tienen la covarianza muestral at1 𝐒a2 .
Los componentes principales muestrales están definidos como

aquellas combinaciones lineales las cuales tienen máxima
varianza muestral.
Como para las cantidades poblacionales, se tiene que reescribir

los coeficientes de los vectores para satisfacer 𝐚𝐭𝐢 𝐚𝐢 =1.
Especificamente:

Primera componente = Combinacion lineal at1 xj que

principal muestral maximiza la varianza muestral de
at1 xj sujeto a 𝐚𝐭𝟏 𝐚𝟏 =1.
Segunda componente = Combinacion lineal at2 xj que

at2 xj sujeto a 𝐚𝐭𝟐 𝐚𝟐 =1 y la covarianza
muestral de los pares
COV(at1 xj, at2 xj)=0.
:::::: ::::::
:::::: ::::::
i-esima componente = Combinacion lineal ati xj que

ati xj sujeto a 𝐚𝐭𝐢 𝐚𝐢 =1 y la covarianza
muestral de todos los pares
COV(ati xk, ati xj)=0 ∀k.
La primera componente principal plantea el siguiente problema

de maximización:
MAXIMIZAR at at1 𝐒a1
1
S.A. 𝐚𝐭𝟏 𝐚𝟏
=1
La varianza corresponde al máximo valor propio, λ̂1, tal como se
demostró para los resultados poblacionales. Lograda por la
elección del vector propio 𝐞̂1 de la matriz de covarianzas
muestrales S.

La eleccion sucesiva de maximizar las ponderaciones ai sujeto la

función objetivo ati 𝐒êk =ati λ̂1 êk =0, o mejor perpendicular al
vector propio 𝐞̂𝐤 .De este modo, se tiene el siguiente teorema.
Teorema 5. Si S={sik} es una matriz de covarianza muestral de

orden pxp con pares de valores y vectores propios
(λ̂1 ê1 ),( λ̂2 ê2 ),….,( λ̂p êp ), la i-esima componente principal esta
dada por:
ŷi = êti 𝐱 = êi1 x1+ êi2 x1+…….+êip xp
Donde λ̂1 ≥λ̂2 ≥…….≥λ̂p ≥0 y x es cualquier observación de las
variables X1, X2,….,Xp.
Tambien, se puede observar que:

Varianza muestral (ŷk )= λ̂k para k=1,2,…..,p
Covarianza poblacional (ŷi , ŷk )=0 i≠k
Adicionalmente:
p
Varianza total muestral =∑i=1 Sii = λ̂1 +λ̂2 +…….+λ̂p
El coeficiente de correlación entre la componente i-esima y la

variable k-esima se calcula como:
êik √λ̂i
rŷi ,xk =
√skk
Existe una notación diferenciada entre la visión poblacional y
muestral. Se denotan los componentes principales muestrales

como ŷ1 , ŷ2 ,….,ŷp independiente si son obtenidas por la matriz

de covarianzas muestrales S o de correlaciones muestrales R.
El proceso de extracción de los componentes construidos de la

matriz de covarianzas muestrales, S, o de la matriz de
correlaciones muestrales, R, no son los mismos, en general y
como se demostró para el caso poblacional, pero debe ser claro
del contexto la cual esta siendo utilizado, y la notación ŷi se
mantiene.
También es conveniente nombrar de manera adecuada los

vectores de coeficientes muestrales y el vector propio 𝐞̂i y la
varianza de los valores propios λ̂i para ambas situaciones.
Los componentes principales muestrales pueden ser obtenidos

̂=S como estimaciones por máxima verosimilitud de valores
de 𝚺
poblacionales de la matriz de covarianzas Σ, si Xj esta
normalmente distribuido.
En este caso los valores propios de Σ son distintos y en estos

casos los componentes principales muestrales como
estimaciones máximo verosímiles de sus correspondientes
contrapartes poblacionales.
La matriz de covarianzas muestrales 𝚺 ̂ tiene valores propios [(n-

1)/n] λ̂i y sus correspondientes vectores propios, 𝐞̂i , donde
(λ̂i , 𝐞̂i ) son los pares de valores propios y vectores propios
para la matriz de covarianza muestrales S.

De este modo, tanto la matriz de covarianzas muestrales S y la

matriz de covarianzas estimada por máxima verosimilitud 𝚺 ̂
tienen la misma primera componente principal 𝐞̂ti x y la misma
̂ 1 +λ̂2 + λ̂p ).
proporción de la varianza explicada λ̂1 /(λ
Finalmente, ambas S y 𝚺 ̂ arrojan la misma matriz de

correlaciones R asintoticamente, si las variables son
̂ es irrelavante.
estandarizadas la elección entre S o 𝚺
Las observaciones xj son muchas veces centradas sustrayendo la

media muestral, x̅. Esto no afecta la matriz de covarianzas
muestrales y arroja la i-esima componente principal.
ŷi = 𝐞̂𝐭𝐢 (𝐱 − 𝐱̅) i=1,2,….,p
Los componentes principales muestrales también puede ser

obtenida de 𝚺̂=S, la estimación por máxima verosimilitud de la
matriz de covarianzas, Σ, si Xj esta normalente distribuida.
Ejemplo 3. En el cálculo de un score de crédito se proporciona

información sobre 5 variables sociodemográficas en el área de
Bogotá y sus alrededores. Los datos corresponden a 6100
potenciales clientes.
Los datos de la muestra seleccionada tienen las siguientes

estadísticas:

X1 X2 X3 X4 X5
𝐱̅t = 4.47 3.96 71.42 26.91 1.64
Variable Total Grado Edad por Empleado del Valor medio
poblacional profesional empleado gobierno de vivienda
Medida Cientos (porcentaje) (porcentaje) (porcentaje) Cientos
La matriz de covarianzas muestrales de la forma:
Se puede resumir la información anterior en uno o dos

componentes principales?
La operatividad de STATA parte de una matriz creada en Excel la

importa a STATA, posteriomente los datos son convertidos en
una matriz a través del comando
mkmat var1 var2 var3 var4 var5, matrix(ejercicio)
rowprefix(Matriz)
Donde genera una matriz llamada ejercicio. Posteriomente,

ejecuta en análisis de componentes principales utilizando la
sentencia
pcamat ejercicio, n(0) names(x1 x2 x3 x4 x5).

Tabla 2
La primera componente explica el 67.7% de la varianza

muestral. Las primeras dos componentes, colectivamente
explican el 92.8% del total de la varianza.
Consecuentemente, la variacion muestral es resumida muy bien

por las dos componentes principales sin mayor pérdida de
información.
La primera componente aparece esencialmente como una

diferencia ponderada para esta base de variables
sociodemográficas entre el porcentaje del empleo del gobierno
(x4) y edad por empleado (x3). La segunda componente aparece
como una suma ponderada de las dos.
Las componentes poblacionales, los coeficientes 𝐞̂tik y las

correlaciones rŷ x deben ser examinados en cada uno de los
i k
componentes principales para efectuar una adecuada
interpretación.

Cada componente de los vectores propios ei=[e1i, e2i,… epi] debe

ser analizada en la medida que corresponden a la magnitud de la
componentes del vector propio i-esimo, eki, que mide la
importancia de la k-esima variable en la i-esima componente
principal sin relacionar las demás variables.
En particular, eki es proporcional al coeficiente de correlación

entre yi y xk. Este análisis debe hacerse obligatoriamente con la
primera componente, es decir, ek1 que mide la importancia de la
k-esima variable en primera componente principal, además
especifica eki el coeficiente de correlación entre yi y x1.
1.10 IDENTIFICACIÓN DE LOS COMPONENTES PRINCIPALES

Cuántos factores son suficientes para una buena representación
de un problema? Tal vez los dos más extendidos son:
a. El criterio de Kaiser, según el cual se deben retener tantos
factores como valores propios de la matriz de covarianzas Σ
estén por encima del promedio de varianza total sobre
componentes existentes (VT/P).
b. Otro criterio, quizás más natural y lógico, consiste en
retener tantos factores como sean necesarios para lograr un
alto porcentaje de explicación de la varianza total. Para ello
se usan los porcentajes acumulados de los valores propios
con base en la varianza total del problema, junto con un
criterio personal acerca de qué se considera un buen
porcentaje de explicación.

Habitualmente, se conservan sólo aquellos componentes que

recogen la mayor parte de la variabilidad, hecho que permite
representar los datos en dos o tres dimensiones si se conservan
dos o tres ejes principales, pudiéndose identificar entonces
grupos naturales entre las observaciones.
Si la varianza poblacional se encuentra concentrada en un 80%

en las dos o tres componentes es posible trabajar con estas
variables sin mayor perdida de información.
La herramienta grafica de verificación utiliza el gráfico de

sedimentación (scree plot) para determinar el peso de los
componentes principales dentro de la varianza explicada.
Grafico. Scree plot

valor
Valor propio

1.11. PRUEBAS ESTADÍSTICAS

PRUEBA DE ESFECICIDAD DE BARLETT
Antes de aplicar el análisis de componentes principales debe
comprobarse si es necesario, es decir, si la correlación entre las
variables analizadas es lo suficientemente grande como para
justificar la factorización de la matriz de coeficientes de
correlación.
Esta comprobación puede hacerse mediante la prueba de

Bartlett (1950), que parte de la hipótesis nula que la matriz de
coeficientes de correlación muestral, R, no es significativamente
distinta de la matriz identidad.
Ho: R=I
H1: R≠I
Bartlett calcula un estadístico basado en el valor del

determinante de la matriz de coeficientes de correlación, R, del
siguiente modo:
Donde k es el rango de la matriz que corresponde al número de

variables, n es el tamaño de la muestra y |R| es el determinante
de la matriz de correlaciones donde el estadístico de contraste es
una distribuida χ2.
El test de Bartlett tiene un gran inconveniente. Tiende a ser

estadísticamente significativo cuando el tamaño muestral n crece
(n→∞) o asintóticamente significativo. Algunos autores advierten
que únicamente se utilice cuando la razón n=k sea menor que 5.

PRUEBA KMO
Definicion. Coeficiente de correlacion parcial. Permite conocer el
valor de la correlación entre dos variables A y B, si la variable C
permance constante para la serie de observaciones
consideradas.
El índice de Kaiser-Meyer-Olkin o medida de adecuación

muestral KMO tiene el mismo objetivo que la prueba de Bartlett,
trata de saber si es posible factorizar las variables originales de
forma eficiente.
El punto de partida, al igual que con al prueba de esfericidad de

Barlett, es la matriz de correlaciones muestrales, R, entre las
variables observadas. Las variables pueden estar relativamente
correlacionadas, pero la correlación entre dos de ellas puede
estar influenciada por las otras.
El índice KMO compara los valores de las correlaciones lineales

simples y parciales. Al comparar la magnitud de los coeficientes
de correlación simple y parcial determina el impacto entre
variables.
El estadístico KMO varía entre 0 y 1. Si el índice KMO está

próximo a 1, el ACP tiene sentido. Si el índice es bajo (próximo a
0), el ACP no será irrelevante. El estadístico tiene la siguiente
forma:

Donde rij es el coeficiente de correlación lineal simple entre las

variables i-esima y j-esima y sij es el coeficiente de correlación
parcial entre las variables i-esima y j-esima. Existen dos
escenarios:
a. Si el coeficiente de correlación parcial es cercano a cero,
sij≅0, muestra que no existe relación entre las variables i-
esima y j-esima de forma directa. Sin embargo, si existe un
factor común a explicar entre todas las variables visto en la
correlacion lineal simple. Su resultado es el estadistico de
ajuste igual a uno, KMO≅1.
b. Si el coeficiente de correlación parcial es cercano a uno,
sij≅1, indica que las variables NO están midiendo un factor
común, únicamente la relación directa entr las variables i-
esima y j-esima, por tanto, el estadistico de ajuste es igual a
cero, KMO≅0.
Algunos autores han definido una escala para interpretar el

índice KMO de un conjunto de datos.
KMO CRITERIO
0.00 to 0.49 inaceptable
0.50 to 0.59 Bajo
0.60 to 0.69 Mediocre
0.70 to 0.79 Medio
0.80 to 0.89 Meritorio
0.90 to 1.00 Excelente

1.12. CONCLUSIONES
Los resultados encontrados por el método de análisis de
componentes principales pueden resumirse en las siguientes
conclusiones:
1. La varianza total es igual a la suma de los valores propios de
Σ. Es decir, la varianza total es la misma con las variables
originales que con las variables transformadas, Fi.
2. Las componentes principales son variables aleatorias no
correlacionadas entre sí obtenidas mediante
transformaciones lineales ortogonales de las variables
originales centradas. Esto es: Fj=ajX=aj1X1+ aj2X2+….+ aj2X2
para j=1,2,….p
3. Si todas las variables originales Xi son normalmente
distribuidas entonces todas las componentes principales
son normales.

MODELOS DE DATOS PANEL LINEALES

I. INTRODUCCIÓN
En el análisis de información (financiera, económica,
empresarial, comercial, etc.) pueden existir diferentes
dimensiones sobre las cuales se podría estar interesado en la
estimación de modelos que traten de extraer relaciones de
causalidad o comportamiento.
Una de estas dimensiones la constituye el análisis de series de

tiempo, la cual incorpora información de variables individuales
durante un período determinado (ventana temporal).
Por otra parte, existe otra dimensión, independiente a la

anterior, que no incorpora el aspecto temporal sino que
representa el análisis de información para unidades individuales
de estudio en un momento determinado del tiempo (dimensión
estructural). En este tipo de análisis, o corte transversal, cada
elemento no lo constituye el tiempo sino las unidades de análisis.
Desde un punto de vista de corte transversal o dimensión

estructural, se podría, por ejemplo, modelar de forma estructural
los ingresos de las firmas del sector asegurador (I).
Un análisis de regresión basado en datos de corte transversal

para un año en particular podría incluir una serie de variables
explicativas tales como calidad de la gestión de la administración
(G), monto monetario del capital liquido (K), costos asociados a
mano de obra en número de horas (L), nivel de apalancamiento
financiero (A) y un término de error estocástico (uit). Con la

información incluida, el modelo de corte transversal se podría

expresar como2:
I=β0+ β1G+β2K+β3L+β4A+uit
Sin embargo, este modelo no podría identificar, o tomar en

cuenta, como la variable explicativa del ingreso (I) puede
identificar cualquier incremento en la productividad que pueda
ocurrir en el transcurso del tiempo como consecuencia de
mejoras tecnológicas, aprendizaje o procesos que hayan sido
incorporados.
De otro lado, desde una dimensión temporal o una visión de

series de tiempo, o modelo ARIMA, para este mismo ejemplo, se
podría determinar una estructura dinámica del comportamiento
de los ingresos (It) sobre una ventana temporal que depende del
comportamiento anterior de la variable k periodos atrás, así
como de los errores o innovaciones pasadas (uit). La estructura
del modelo es la siguiente:
It=ϕ1It-1+ϕ2It-2+……….+ ϕkIt-k+θ1uit-1+ θ2uit-2……….+ θkuit-k
Este modelo no tendría en cuenta la relación con otras variables

que pueden determinar su comportamiento, es decir, excluye del
análisis la gestión de la administración (G), monto monetario del
capital liquido (K), costos asociados a mano de obra en número
2Si se deseara utilizar variables rezagadas sobre una variable endógena, por ejemplo, considere el siguiente modelo de rezagos distribuidos de
Almon:
Donde xt es una variable exógena y ut es un término de perturbación estocástica. En general, las variables rezagadas x t y xt-1 son cercanas.
Adicionalmente, si se desea observar el cambio de la variable x en el tiempo entonces se tiene que x t-1+∆xt-1= xt-1+(xt-1- xt-2)=2xt-1-xt-2. Esta
estructura expone un alto componente de colinealidad entre variables. En general, no existe suficiente información para efectuar una estimación
precisa sin supuestos a priori.

de horas (L), nivel apalancamiento financiero (A) como variables

de estudio.
Ambos tipos de análisis de información independientemente

permiten extraer conclusiones, sin embargo, los modelos de
corte transversal (análisis de regresión) y series de tiempo
(serie temporal) tienen ciertas limitaciones inherentes a su
estructura.
Para el primero, no arrojan luces sobre dependencia

intertemporal de eventos, tampoco resuelven satisfactoriamente
problemas fundamentales acerca de los orígenes de la
persistencia en el comportamiento, es decir, del verdadero
estado de dependencia entre variables o individuos o si su causa
es de origen espurio, siendo una metodología que no permite
controlar comportamientos heterogéneos de la población.
Para el segundo, su metodología no asume una forma

estructural, únicamente temporal, su principal utilidad radica en
la potencia frente de pronóstico de corto plazo.
Un modelo de datos panel incluye una muestra repetida de

entidades (individuos, empresas, bancos, ciudades, países, etc)
para un período determinado de tiempo, esto es, combina ambos
tipos de datos (dimensión temporal y estructural).
Las estructuras panel son mas informativas que una serie de

tiempo agregada, en la medida narra una historia individual. Por
ejemplo, una serie de tiempo analiza el comportamiento
histórico de la tasa de desempleo del 10% al año. Sin embargo, es

menos informativa que un panel de individuos, en la medida que

con una tasa del 10% desempleado puede ser que exista del total
de la población un total del 10% desempleado aleatoreamente
distribuido o que siempre exista el mismo tipo de personas que
corresponde al 10% de la población desempleada. Las políticas
son distintas.
Para obtener, por ejemplo, un panel sobre desempleo se cuenta

con variables exógenas como salarios, sector, horas trabajadas,
etc. Se selecciona aleatoriamente a un conjunto de individuos de
la población en un momento del tiempo y se recoge esa
información.
En otro momento (próximo mes, trimestre, año) se debe realizar

la misma entrevista a los mismos individuos. Este es el típico
procedimiento para construir bases de datos panel, por ejemplo,
encuestas de hogares que permiten obtener información de
interés para el mismo grupo de individuos en diferentes
periodos.
Una definición, un poco más formal, de datos panel, o datos

longitudinales (longitudinal data), representa medidas repetidas
en diferentes puntos del tiempo sobre la misma unidad individual,
como por ejemplo, personas, firmas, estados, países.
Con esta información se cuenta con un gran potencial en resolver

problemas más allá del corte transversal o series temporales que
no puede manejarse de manera satisfactoriamente
indivudualmente.

Las regresiones panel pueden capturar variaciones sobre

unidades desde dos puntos de vista distintos, el primero, similar
a la regresión de corte transversal, el segundo, variación sobre el
tiempo o estructuras dinámicas.
La diferencia entre corte transversal y datos de panel radica en

que en el segundo sigue a las mismas unidades registradas en el
primero (individuos, familias, etc.), en distintos periodos de
tiempo. Un panel entonces requiere observar al mismo conjunto
de unidades en al menos dos momentos del tiempo diferentes.
ESTRUCTURA DE DATOS PANEL

T
E Y X t-1 t-2 t-3 t-n
y1 x1
y2 x2
E1 y3 x3
: :
yn xn
y1 x1
y2 x2
E2 y3 x3
: :
yn xn
: : : : : : : :
y1 x1
y2 x2
Ek y3 x3
: :
yn xn
Por ejemplo, pueden construirse paneles de hogares, firmas o

países. Un ejemplo tradicional radica en las encuestas sobre
hogares (en Colombia la Encuesta Nacional de Hogares -ENH).
Suponga que se comienza en el año 1968 con 4802 familias,

incluyendo hogares pobres. Se efectúan entrevistas anuales
donde se observan conductas y características socioeconómicas
de cada familia y de aproximadamente 31.000 individuos

quienes han sido registrados sobre la encuesta o derivados de las

familias encuestadas.
La lista de variables almacenada supera las 5.000. El objetivo es

tener cinco (5) segmentos distintos de la fuerza de trabajo. La
muestra original incluye 5.000 adultos 5.225 hombres jóvenes,
5.083 mujeres adultas, 5.159 mujeres jóvenes y 12.686 niños. Se
analizan por negros, indígenas, desplazados, militares y menores
de 18 años.
Combinando estos datos proporciona una rica y valiosa fuente

de variación la cual permite estimaciones más eficientes de los
parámetros.
Adicionalmente, más información muestral, implica estimaciones

más confiables y pruebas más sofisticadas de modelos de
comportamiento. Con menos supuestos restrictivos.
Otra ventaja, de las bases de datos panel es su habilidad para

controlar la heterogeneidad individual. No controlar estos
efectos individuales no observados específicos conduce a sesgo e
inconsistencia en los resultados estimados.
Las bases de datos panel son también mejores para identificar y

estimar efectos que no son detectables en series de tiempo o
cortes trasversales puros. En particular, los conjuntos de paneles
de datos permiten de mejor manera estudiar problemas
complejos de comportamiento dinámico.

Por ejemplo, un modelo de corte transversal puede estimar la

tasa de desempleo en un punto en particular en el tiempo. Cortes
transversales repetidos en el tiempo pueden demostrar cómo
esta proporción cambia sobre el tiempo.
Únicamente bases de datos panel pueden estimar que

proporción de aquellos que están desempleados en un periodo
permanezcan desempleados en otro periodo y determinar sus
causas.
El principal objetivo de aplicar y estudiar datos panel, es capturar

la heterogeneidad no observable, ya sea entre individuos o
entidades, así como también en el tiempo, dado que esta
heterogeneidad no se puede detectar ni con estudios de series
temporales ni con estructuras de corte transversal.
En términos más formales. Suponga una estructura básica del

modelo de regresión de la forma:
yit=Xitβ+Ziα+uit
Los K regresores de Xit no incluyen el termino constante. La

heterogeneidad o efecto individual es Ziα donde Zi contiene un
termino constante y un conjunto de variables especificas
individuales las cuales pueden ser observadas (sexo, raza,
religión) o no observadas (habilidades, preferencias, etc).
Esta técnica permite realizar un análisis dinámico, al incorporar

la dimensión temporal de los datos estructurales, lo que
enriquece el estudio, particularmente en períodos de grandes
cambios.

La principal ventaja de los paneles de datos es el incremento de

la precisión en el proceso de estimación. Este es el resultado de
aumentos en el número de observaciones al combinar o agregar
diferentes periodos de tiempo para cada individuo vistos desde
una regresión de corte transversal.
La aplicación de esta metodología permite analizar dos aspectos

de suma importancia y forman parte de la heterogeneidad no
observable.
1. Los efectos individuales específicos. Son aquellos que afectan
de manera desigual a cada uno de los individuos de estudio
contenidos en la muestra (consumidores, empresas, bancos,
etc), los cuales son invariantes en el tiempo e impactan de
manera directa las decisiones que tomen las unidades
individualmente. Usualmente se identifica este tipo de
efectos asociados a sexo, raza, capacidad empresarial,
eficiencia operativa, capitalización de la experiencia, acceso
a la tecnología, productividad, management, etc.
2. Efectos temporales. Son aquellos que impactan por igual a

todas las unidades individuales pero que varían en el
tiempo. Este tipo de efectos pueden asociarse, por ejemplo,
a impactos regulatorios, innovaciones tecnológicas o en
variables macroeconómicas, cambios en tasas de interés o
aranceles que pueden afectar por igual a todas las empresas
o entidades que tienen una evolución o trayectoria
dinámica.

II. ESPECIFICACIÓN GENERAL DE UN MODELO DE DATOS DE

PANEL
La especificación de un modelo de datos panel parte de las
siguientes características:
yit = αit + Xitβ + uit con i = 1,......,N y t = 1,...,T.
Donde el subíndice i se refiere al individuo o a la entidad de

estudio (corte transversal), t a la dimensión en el tiempo (serie
temporal).
El parametro, α es un vector de interceptos correspondiente al

total de individuos (i) con variación en el tiempo (t), es decir,
existen NxT parámetros, Xkit es la i-ésima observación al
momento t-esimo para la K-esima variable explicativa x que
pertenece al vector de variables explicativas X, β es un vector de
tamaño Kx1 con K parámetros correspondiente a cada una de las
variables explicativas, por ultimo, yit es la i-ésima observación al
momento t-esimo para la variable respuesta o dependiente y.
La muestra total de las observaciones en el modelo vendría dado

por el número de individuos multiplicado por el número de
periodos de análisis (NxT)3.
Por otra parte, es usual interpretar modelos de datos panel a

través de sus componentes en el término de error. Al término de
error de la ecuación anterior, uit, se le suele llamar error
compuesto dado que tiene un componente fijo no observado
entre individuos y otro que cambia en el tiempo.
3A partir de este modelo general, y con base en ciertos supuestos y restricciones acerca del valor de algunos de los parámetros, se pueden derivar
otras variantes de modelos datos panel.

Es decir, el término uit incluido en la ecuación de regresión panel,

puede descomponerse de la siguiente manera:
uit = μi + δt + εit
El primer término, conocido como heterogeneidad no observada
de la muestra, μi, representa efectos no observables que difieren
entre individuos o entidades de estudio pero no en el tiempo.
Corresponde a un efecto por individuo invariante periodo a

periodo, y corresponde a un vector conformado por las variables
constantes en el tiempo capturadas por el término de error. Por
ejemplo, la variable sexo es un componente de heterogeneidad
individual que puede ser no observada en un análisis.
El segundo término, δt, se le identifica con efectos no observables

que varían en el tiempo pero no entre las unidades de estudio.
Por ejemplo, cambios regulatorios que afectan a todos los
individuos desde su periodo de expedición.
Por último, εit se refiere al término de error puramente aleatorio

que tiene componentes por individuo y tiempo. Tiene las
caracteresiticas similares al componente del error de corte
transversal.
La mayoría de las aplicaciones con datos panel modelan el

componente de error, uit, para efectos no observables entre
individuos que no varían en el tiempo (μi≠0), pero no efectos de

cambio en el tiempo (δt=0), este modelo conocido como de un

factor o one way.
Las diferentes variantes para el modelo one way de componentes

de errores surgen de distintos supuestos que se hacen acerca de
efectos no observables que difieren entre las unidades de
estudio (μi). Pueden presentarse tres (3) posibilidades:
1. Considera a μi=0, es decir, no existe heterogeneidad no
observable entre los individuos, entidades o firmas. Dado lo
anterior, el término de error, uit, satisface todos los
supuestos del modelo lineal general, por lo cual, el método
de estimación de mínimos cuadrados (OLS) produce los
mejores estimadores lineales insesgados (BLUE).
2. Considera a μi≠0, es decir, existe heterogeneidad no
observable entre individuos, entidades o firmas. Considera a
μi con un efecto fijo sobre los regresores y distinto para cada
firma. En este caso, la heterogeneidad no observable se
incorpora a la constante del modelo.
3. Considera a μi≠0, es decir, existe heterogeneidad no
observable entre los individuos, entidades o firmas.
Considera a μi como una variable aleatoria no observable
que varía entre individuos pero no en el tiempo.
En los casos dos y tres se utilizaran metodologías especiales de

estimación para datos panel que serán expuestas más adelante.
Existe, además de la estructura de un factor o one way, el modelo

de dos factores o two-way en el cual el componente de error
ademas de la estructura de modelamiento individual no
observado (μi≠0) incorpora el efecto no observable que varían

en el tiempo pero no entre las unidades de estudio es distinto de

cero (δt≠0).
El modelo de dos factores o two way pretende capturar efectos

temporales específicos (innovaciones) sumándolos a la medición
de efectos no observables que difieren entre las entidades de
estudio pero no en el tiempo que no están incluidos en la
regresión (δt≠0 y μi≠0), Balgati (2001).
ESTRUCTURA DATA PANEL SEGÚN TÉRMINO DE ERROR
Método de estimación
Efecto no observado
OVERVIEW DE METODOS DE PANELES DE DATOS

Distintas caracteristicas en la construcción de modelos de datos
panel se pueden configurar según la disponibilidad de las
observaciones individuales, asi como de sus intervalos de tiempo
y estructura de los errores o innovaciones. Por ejemplo, se
pueden observar los siguientes casos:
1. Modelo A. Las pendientes de los coeficientes, β, y el

intercepto, α son constantes en el tiempo (t) e iguales para
todos los individuos (i), conocido como modelo restringido:

2. Modelo B. Las pendientes de los coeficientes, β, son

constantes en el tiempo (t) y los individuos (i). El
intercepto, α, varia sobre los individuos (i):
3. Modelo C. Las pendientes de los coeficientes, β, son

constantes para los individuos (i) y el tiempo (t). El
intercepto, α, varia sobre los individuos (i) y el tiempo (t):
4. Modelo D. Las pendientes de los coeficientes, β, varían sobre

los individuos (i) pero no sobre el tiempo. El intercepto, α,
varia sobre los individuos (i).
5. Modelo E. Las pendientes de los coeficientes, β, varían sobre

el tiempo (t) e individuos (i). El intercepto, α, varia sobre el
tiempo (t) y individuos (i). Se conoce como modelo no
restringido:

Existen dos procedimientos para estimar el modelo en un

sistema de datos panel. Cada uno de ellos parte del supuesto de
endogeneidad, es decir, la dependencia entre términos de error y
regresores (E[XU]=0).
El primero, asume algún tipo de correlación entre regresores y

términos de error (endogeneidad) e implica el reconocimiento
que variables omitidas pueden generar cambios en los
interceptos ya sea a través del tiempo o entre unidades de corte
transversal. En este caso, el modelo es conocido como efectos fijos
(Fixed Effects o FE).
El otro modelo es efectos aleatorios, asume independencia entre

regresores y términos de error al tratar de capturar estas
diferencias a través del componente aleatorio (Random effects o
RE) por medio de la estructura de covarianzas.
La selección de Efectos Fijos (FE) o Efectos aleatorios (RE) tiene

un impacto significativo en las metodologias de estimación y
consistencia de los estimadores.
Además, la variabilidad del intercepto, α, y las pendientes de los

parametros, β, sobre los individuos (i) y el tiempo (t) tiene
impacto en la estructura de covarianzas, y por tanto, impacto en
los intervalos de confianza y pruebas de hipótesis.

Una revisión de los modelos para datos paneles lineales no

dinámicos, y recopilar los puntos anteriores, se puede encontrar
en el siguiente gráfico:
MODELOS DE DATOS PANEL O CORTE LONGITUDINAL
La primera especificación (A) se refiere al caso en que no existe

heterogeneidad no observable en la estructura de datos de panel,
μi=0, por tanto, se emplea el método de Mínimos Cuadrados
Ordinarios (OLS) con la ventaja de ganar grados de libertad.

En los casos en que se rechaza la hipótesis de homogeneidad

entre individuos en un sistema de datos de panel, μi≠0, es decir,
existe heterogeneidad no observable ya sea a través del tiempo,
entre unidades de estudio (individuos) o en ambos sentidos,
debe buscarse una especificación que la capture en forma
apropiada con el fin de evitar el problema de sesgo e
inconsistencia sobre los estimadores de los parámetros de las
variables explicativas, Xit, que se cometería si se emplea la
especificación A, o modelo restringido, cuando existe un efecto
no observado (sesgo por variables omitidas).
Una forma simple, y de hecho la más utilizada, es incorporar esta

heterogeneidad no observada empleando los modelos de
intercepto variable, identificados en las especificaciones con
intercerto variable entre los individuos (modelo B) o con el
intercepto variable en el tiempo y los individuos (modelo C).
Estos modelos son ampliamente utilizados cuando se analizan

datos panel lineales debido a que son estimables, a diferencia de
los modelos D y E, proporcionan alternativas simples y generales
sobre el supuesto de los parámetros y toman valores comunes
para todos los individuos (i) en el tiempo.
Los modelos B y C, donde varia el intercepto, parte de un modelo

lineal para todos individuos (i) y tiempo (t). A partir del modelo
general se pueden representar los modelos B y C mediante las
siguientes ecuaciones:

Modelo B
Modelo C
El primer paso después de comprender los modelos panel de

trabajo radica en identificar las variables explicativas
observadas (Xk) en la base de datos panel de tres formas
posibles:
1. Una variable que cambia en el tiempo y por individuo (Zit). Se
trata de variables que cambian entre individuos en un
momento del tiempo, y que además cambian a lo largo del
tiempo. Como ejemplo se pueden mencionar ingresos
totales, nivel de beneficios, nivel de capital, razones
financieras, entre otras.
2. Una variable por cada individuo, sin cambios en el tiempo
(Zit=Zi). Este es el caso de variables que son las mismas para
cada unidad de corte transversal a través del tiempo.
Ejemplos de ellas se tienen características como sexo,
religión y otras características sociodemográficas.
3. Una variable por periodo pero no cambia entre individuos
(Zit=Zt). Son las mismas variables para todos los individuos
en un momento del tiempo pero varían a lo largo del
periodo de estudio. Como ejemplo, cambios en la actividad
regulatoria, nivel de precios, tasas de interés, etc.
En conclusión, en una base de datos panel pueden existir

distintos tipos de variables que son capaces de representar
diferentes efectos.

Se pueden tener variables invariantes en el tiempo (xit=xi), que

no varían con los individuos (xit=xt) o que varían tanto con el
tiempo como con los individuos (xit) que tienen un impacto
directo y significativo en los procesos de estimación por paneles
de datos.
REGRESIÓNES AGRUPADAS, EFECTOS FIJOS Y ALEATORIOS

Ya definidos los modelos de trabajo B y C en las especificaciones
panel e identificadas las variables disponibles es necesario
revisar la estructura de composición del término de error con el
objetivo de implementar estrategias de estimación. Las más
utilizadas son las siguientes:
a. Regresión agrupada (pooled). Estima el siguiente modelo:
Es un modelo de estimación donde no existe diferenciación

entre individuos y no intenta capturar efectos no
observados. Utiliza técnicas tradicionales por OLS. Es
posible por las características de la base de datos panel que
E(xit,ui)≠0. Entonces, la regresión agrupada (pooled) estará
sesgada. Muchas veces dicha correlación es debida a un
error de especificación por la ausencia de alguna variable
relevante (variables omitidas) o la existencia de cualidades
no observables (heterogeneidad no observable) de cada
individuo.
b. Regresión panel por Efectos fijos (Fixed effect o FE). Los

modelos de regresión de datos panel realizan distintas
hipótesis sobre el comportamiento de los residuos, como ya

se notó anteriormente. Esto tiene un impacto en las

metodologías y supuestos sobre el modelo de regresión a
implementar en un modelo one way. El modelo a estimar es:
Donde αi =α+vi, luego reemplazando en (2) queda:
Es decir, supone que el error (uit) puede descomponerse en

dos partes, una parte fija, constante para cada uno de los
individuos representando el efecto individual no observado
(vi) y otra aleatoria que cumple requisitos OLS (uit).
El elemento representando el efecto individual no

observado (vi) se incorpora al intercepto para ser estimado
posteriormente. Esta metodología permite modelar algún
tipo de endogeneidad en los términos de error, a diferencia
del modelo de regresión lineal general, es decir, E[XU]≠0 y
efectuar estimaciones consistentes.
c. Regresión panel por aleatorios (random effects o RE). Tiene

la misma especificación que el modelo efectos fijos con la
salvedad que el efecto individual no observado vi, en lugar
de ser un valor fijo a ser estimado para cada individuo es
una variable aleatoria con un valor medio vi y una varianza
Var(vi)≠0. Es decir, la especificación del modelo es igual a:
Salvo que ahora el efecto individual no observado, vi , es una

variable aleatoria. Su estructura parte del supuesto de

exógeneidad fuerte E[XU]=0. Por tal motivo, además, con la

existencia de n individuos distintos la estructura de
covarianzas debe ser contemplada con el supuesto de
heterocedasticidad a través de una estructura de
̂.
covarianzas más general, 𝚺
El modelo de efectos ale atorios (RE) es más eficiente pero

menos consistente que el de efectos fijos (FE). Es decir, es
más exacto en el cálculo del valor del parámetro pero puede
contener sesgo a diferencia del modelo de efectos fijos.
Adicionalmente, Al ser el efecto individual no observado vi

una variable aleatoria no se está seguro del valor exacto en
el origen que pueda tener cada individuo sino que este
término probablemente gravitará en torno a un valor
central. Eso implica que el modelo parte del supuesto que la
base de datos panel proviene de una muestra de un gran
universo de individuos.
En conclusión, La principal diferencia entre los modelos de

efectos fijos (Fixed effect o FE) y efectos aleatorios (random
effects RE) parte de como cada uno de ellos efectua un
tratamiento distinto del supuesto de exogeneidad fuerte,
E[XU]=0. Ademas de estas diferencias se suma otra importante, el
modelo de efectos fijos (Fixed effect o FE) en su construccion
parte de una poblacion, mientras el modelo de efectos aleatorios
(random effects RE) inicia desde una muestra aleatoria.

VARIACION BETWEEN-WITHIN
La variable dependiente y regresores del modelo de datos panel
pueden variar sobre el tiempo (t) e individuos (i), como ya se ha
definido. La variación en el tiempo de una variable x para un
individuo es conocida como variación within y la variación de
una variable x a través de individuos se conoce como variación
between4.
Variación Between Vs Within
Individuo 2
Variacion Between
Individuo 1
Variación Within
ithinetween
Esta distinción tiene una significancia importante dentro del

modelo de datos panel debido a que estimadores y variables
difieren en su uso según la ponderación que se efectuá entre el
efecto de variabilidad between o within.
La variación total alrededor de la media se define como

x̅ = 1/NT ∑N T
i=1 ∑t=1 x it la cual se divide en variación within
(suma respecto a los T periodos) y between (suma respecto a los
N individuos).
4 Esta metodología es conocida como estimación de dinámicas entre grupos. En análisis de corte transversal tradicional, cada observación captura
información de su nivel de largo plazo y su componente cíclico. El estimador de efectos entre grupos (between) en términos generales reduce el
problema de un panel longitudinal a uno de corte transversal, empleando el cálculo promedio de las variables al interior de cada individuo. El
procedimiento general para obtener este estimador necesita calcular el promedio de la variable dependiente y de los regresores a lo largo del
tiempo. Posteriormente, realiza una estimación OLS donde se usan como regresores y variable dependiente los promedios calculados en el paso 1.

La variación within, para cada regresor, xit, se calcula como el

promedio en el tiempo de cada uno de los individuos de la
variable x (media de la variable x para el individuo i-esimo a
través del tiempo, x̅i = 1/T ∑Tt=1 xit )
La variación between mide las diferencias a través de los

individuos para la variable x de la forma (x̅i − x̅). Explota sólo la
variación de corte transversal.
A partir de la descomposición de promedios (x̅) y la varianza

muestral (S) para la variable x es posible encontrar las
variaciones between y within calculadas como:
PROMEDIOS:
Total: N T
1
x̅ = ∑ ∑ xit
NT
i=1 t=1
En el grupo (WITHIN): T
1
x̅i = ∑ xit
T
t=1
Entre grupos (BETWEEN): x̅iB
=(x̅ i − x̅)
DESVIACIÓN ESTÁNDAR MUESTRAL
En el grupo (WITHIN) o 1
s =√ ∑N ∑T (x − x̅i )2
entorno a la media individual: within= NT−1 i=1 t=1 it
Entre grupos (BETWEEN) o 1
s =√ ∑N (x̅ − x̅ )2
entorno al promedio de between N−1 i=1 i
individuos respecto al total:
Total o entorno a la media total: N T
1
stotal = √ ∑ ∑(xit − x̅)2
NT − 1
i=1 t=1

En la mayoría de aplicativos es posible generar tablas donde se

expone estadisticos descriptivos como máximo, mínimo,
percentiles, varianza, etc. En STATA, por ejemplo, xtsum.
CALCULO WITHIN BETWEEN STATA
EJERCICIO. Calcule la variación between, within y overall para la

siguiente base de datos panel.
PERIODO INDIVIDUO Y X1 X2 X3
1 1 23 16 31 42
2 1 45 6.5 87 78
3 1 76 8 32 65
1 2 21 43 4 38
2 2 98 5 55 75
3 2 5 78 24 29
Es importante resaltar que variables para las cuales no existe

cambio en el tiempo pero si entre individuos (zit=zi) como sexo,
raza o religión existe variación between pero no cuentan con
variación within.

Dentro del analisis de bases de datos panel es posible medir

variaciones totales que corresponden al componente between y
cero o muy pequeña variacion within.
Para variables discretas, una tabulación de valores (histograma)

puede ofrecer una visión completa de observaciones que toman
ese valor (overall), individuos para los que alguna vez toma ese
valor (between) y el porcentaje de individuos que nunca cambia
de valor (within).
A si mismo para variables dummy, se puede calcular una matriz

de transición (ofrecen idea de persistencia dinámica de efectos
observados) donde se exponga la evolución de la variable entre
el periodo actual (xit) y el siguiente (xit+1) bajo la existencia (1) o
no (0) del evento registrado.
MATRIZ DE TRANSICION EFECTOS PANEL WITHIN BETWEEN
ALGUNOS SUPUESTOS DE TRABAJO EN METODOLOGIAS DE

DATOS PANEL
Dentro de la construcción del modelo de datos panel, visto como
una generalización de modelos de corte transversal, surgen
comparaciones obligadas entre ellos. En especial sobre aquellos
supuestos que por su naturaleza son solucionados por la
metodología panel. Entre ellos:

1. Sesgo de heterogeneidad
2. Variables omitidas y efectos no observados
3. Correlación serial resultante de efectos constantes en el
término de error
4. Problema de parametros incidentales
SESGO DE HETEROGENEIDAD
Al incluir efectos between y within dentro del análisis y observar
la significancia de la interacción entre individuosy tiempo entre
variables e individuos surge la pregunta ¿que ocurre si este
efecto se omite?
El no contar con el efecto individual no observado, αi, y aplicar

OLS a una base de datos panel se suele llamar sesgo de
heterogeneidad. Surge de omitir una variable que difiere entre
individuos pero no cambia en el tiempo.
ANALISIS BETWEEN-WITHIN-OVERALL
OLS/FGLS
Within
Between
Overall

El grafico anterior ayuda a comprender el sesgo por

heterogeneidad. Suponga una muestra con 4 individuos (N=4) y
20 periodos de tiempo (T=20). Para el individuo i-esimo existe
una pendiente idéntica y positivamente relacionada en una
forma lineal entre Y y X.
Para la muestra completa la relación es ligeramente descendente

y lineal. Si el interés se centra en el modelo anterior, la
estimación sobre todos los eventos de la muestra (overall) es un
sesgo de heterogeneidad.
Es decir, el sesgo en el proceso de estimación causado por omitir

αi y aplicar OLS a datos agrupados (pooled).
VARIABLES OMITIDAS Y EFECTOS NO OBSERVADOS

Si la heterogeneidad no observada no es controlada conduce al
sesgo por variables omitidas que puede ser corregido por
variables instrumentales (2LS) en el caso de corte transversal5.
Para el caso de datos panel existen diferentes metodologías

alternativas de tratamiento.
La ventaja de los modelos de datos panel para construir y probar

modelos de comportamiento más amplio que el puramente de
corte transversal o series de tiempo.
5En la práctica es difícil encontrar buen un instrumento para le calulo del estimador de variables instrumentales ya que debe tener caracterisitcas
a veces incompatibles como que revele información similar a la variable a reemplazar dentro del modelo de regresion y adicionalmente sea
exógena frente a los regresores.

Estos proporcionan medios para resolver o reducir la magnitud

de problemas econométricos que se observan en estudios
empiricos relacionados con la presencia de variables omitidas
(no medidas o no observadas) que estan correlacionadas con
variables explicativas.
Utilizando información de la dinámica intertemporal, y de las

entidades individuales, de una manera natural, se pueden
incorporar efectos de variables omitidas o no observadas.
Por ejemplo, suponga el siguiente modelo de regresion:
Donde xit y zit son vectores de tamaño k1X1 y K2X2 de variables

exogenas, α*, β y ρ son vectores de parámetros de tamaño 1X1,
k1X1 y k2X1, respectivamente.
El término de error uit es una variable aleatoria, independiente e

identicamente distribuida (vaiid) sobre individuos (i) y tiempo
(t) con media cero y varianza σ2it .
La regresión por mínimos cuadrados de yit sobre xit y zit arroja

estimadores consistentes e insesgados de α*, β y ρ.
Ahora suponga que valores de los regresores zit son no

observables y la covarianza entre regresores xit y zit es no cero.
Entonces, los coeficientes de regresión por minimos cuadrados

de yit sobre xit son sesgados e inconsistentes.

Sin embargo, si se encuentran disponibles observaciones

repetidas para un grupo de individuos, ellas pueden permitir
deshacerse de los efectos no observados de z.
Por ejemplo, si los regresores zit=zi para todo t (es decir, los
valores de la variable no observada, z, permanecen constantes a
traves del tiempo pero cambia a traves de los individuos), es
posible tomar la primera diferencia de las observaciones
individuales sobre el tiempo y se obtiene:
Donde la diferencia de la variable respuesta para el individuo i-

esimo entre el periodo actual (yit) y el anterior (yit-1), o mejor,
(yit-yit-1), debe ser igual a la diferencia entre los regresores para
el individuo i-esimo en los periodos t y t-1.
Si se efectua la diferencia sobre los regresores zit se eliminan

variables no observadas que no cambian en el tiempo, por
ejemplo raza o sexo.
De forma similar, si zit=zt para todo i (es decir, los valores de z

permanecen constantes a traves de los individuos pero varian a
traves del tiempo), se puede tomar la desviacion respecto a la
media a traves de los individuos en un periodo dado y obtener:

Donde el promedio aritmético de la variable respuesta para

todos los individuos, y̅, en cada periodo de tiempo se define
como y̅t=(1/N)∑Ni=1 yit .
Por tanto, (yit-y̅t) es la diferencia entre la respuesta de cada uno

de los individuos (yi) respecto al promedio de todos los
individuos (y̅) evaluados en cada periodo de tiempo (t).
Para los regresores aplica una fórmula similar. Es el promedio

aritmético de cada una de las observaciones de los individuos en
cada periodo de tiempo.
Se define como 𝐱̅t=(1/N)∑Ni=1 𝐱 it , donde (xit-x

̅t) será la diferencia
o desviación entre cada observación para cada individuo (i)
respecto a su promedio en cada periodo de tiempo (t).
Si se efectua la diferencia sobre los regresores zit se eliminan

variables no observadas que cambian en el tiempo, pero si entre
los individuos por ejemplo políticas o legislaciones.
Es decir, esta metodología permite minimizar el número de

variables no observadas que se encuentran ubicadas en la media
temporal a través de la estructura panel.
Por último, u̅t=(1/N)∑N i=1 uit es el promedio de las innovaciones

de todos los individuos en cada periodo, su diferencia (uit-u̅t)
revela la distancia entre las innovaciones ocurridas en cada uno
de los individuos (i) respecto al promedio de las innovaciones de
los individuos calculadas en cada periodo de tiempo.

La regresión por OLS de las ecuaciones anteriores proporcionan

estimadores consistentes e insesgados de β como una alternativa
de solución a efectos no observados y variables omitidas.
Sin embargo, si se tiene un conjunto de datos de corte

transversal con un unico individuo (i=1) y se cuenta con
variables que no cambian en el tiempo pero si entre individuos
(zit=zi), o una base de datos con un periodo de tiempo (t=1) con
variables que no cambian entre individuos pero si en el tiempo
(zit=zt), tal transformación no puede ser ejecutada, por tanto, no
se puede asegurar la consistencia de β, a menos que existan
variables instrumento (IV) que estén correlacionados con x pero
no correlacionados con z y u.
Es importante observar que a pesar de los cambios temporales,

el valor de los parámetros β permanecen constantes. La
diferencia también aplica a los términos de error.
CORRELACIÓN SERIAL RESULTANTE DE EFECTOS CONSTANTES

EN EL TÉRMINO DE ERROR
Suponga el modelo de regresión panel con un efecto permanente
no observado a través de los individuos (μi).
Un problema de las estimaciones de datos panel radica en la

posible correlación serial entre los errores de diferentes
periodos causados por la existencia de este efecto no observado
(μi).

Sea el modelo E, o modelo no restringido, donde varían

intercepto (α) y pendientes (β) a través de los individuos (i) y
tiempo (t):
Donde uit está compuesto por un término de heterogeneidad no

observada, μi, y un término aleatorio puro para individuos y
tiempo ϵit.
Suponga un análisis para dos periodos (t=2) para el individuo

i-esimo:
En t=1: yi1= α∗i1 +𝛃´i1 xi1+ui1 con ui1 = μi+ϵi1
En t=2: yi2= α∗i2 +𝛃´i2 xi2+ui2 con ui2 = μi+ϵi2
Las ecuaciones anteriores demuestran como los errores, uit, del

modelo usualmente estaran correlacionados serialmente dada la
existencia del término de heterogeneidad no observada
invariante en el tiempo para el individuo i-esimo, μi. Es decir,
COV[uit,uis]≠0 para todo t≠s.
Con datos de panel no es posible suponer que las observaciones

son independientes ya que factores no observados que afectan a
los regresores en un periodo también afectarán a esas mismas
variables en el periodo siguiente.
Para validez del modelo Panel, y su metodología de estimación,

es necesario controlar la probable correlación de los errores del
modelo de regresión sobre el tiempo para individuos objetos de
estudio.

En particular, la formula usual de OLS para los errores

estandarizados en una regresión OLS agrupada (pooled),
típicamente exagera el volumen de información independiente lo
cual implica ganancias en precisión, varianza y grados de
libertad, conduciendo a subestimar los errores estándar, y por
tanto, t-estadísticos pueden ser demasiado grandes.
Esto causa estimadores OLS menos eficientes (o de mayor

varianza) en comparación a los que se obtendrían sin
autocorrelación de los residuos y tiene implicaciones en la
construcción de pruebas t utilizadas para contrastar la
significancia de regresores, xit.
Entre mayor varianza, aumenta la posibilidad de encontrar la

verdadera significancia y mayor la probabilidad de cometer error
tipo I y error tipo II6.
INFERENCIA ROBUSTA A LA HETEROCEDASTICIDAD Y

CORRELACIÓN SERIAL DESPUÉS DE OLS
Suponga un nuevo modelo más general donde las observaciones
de Ti para el individuo i en la ecuación panel son las siguientes:
Donde X es un vector de variables explicativas, β es un vector

Kx1 de parametros a estimar y w es el termino de error o
perturbación estocastica. El estimador OLS es:
̂ols=(XtX)-1XtY
𝛃
6 Declarar un coeficiente estadísticamente no significativo, cuando en realidad lo es.

Si los errores muestrales tienen igual varianza a σ2 y son no

correlacionados, entonces OLS de 𝛃 ̂ols es BLUE y su varianza
puede ser estimada como:
̂ols]=S2(XtX)-1
VAR[𝛃
Si el supuesto de homocedasticidad es violado, es decir,

E[UtU]≠σ2In el estimador de la varianza pierde propiedades
deseadas de eficienciay consistencia. La varianza en este caso es:
VAR[𝛃 ̂ols]= (XtX)-1XtΣX(XtX)-1
Donde β ahora incluye el término constante. En esta

configuración, puede asumirse heterocedasticidad entre los
individuos.
Sin embargo, en un conjunto de datos panel, el principal

problema, y de mayor significancia, es la correlación cruzada
entre individuos o autocorrelación de los términos de error o
perturbación estocastica.
En una base de datos panel o longitudinales un conjunto de

observaciones pueden pertenecer al mismo individuo pero en su
componente del error se encuentran efectos no observados que
se llevará a través de todos los T períodos.
Suponga el modelo anterior con un vector de perturbación o

término de error, wit, además de los componentes omitidos.
Entonces, la estructura de covarianzas puede ser definida como:

Con el fin de concentrar la corrección exclusivamente en la

varianza de los parámetros (y no en el valor de los parámetros)
existe una propuesta de corrección similar a la estimación
ideada para el contexto en el que exista un problema de
autocorrelación.
Esta corrección, se denomina estimación de Newey–West o

estimacion robusta y produce resultados adecuados en muestras
grandes. Para este caso la matriz de covarianza asintótica a ser
estimada siguiendo el tipo White es:
̂ i es un vector de Ti residuos para el individuo i-esimo.

Donde 𝐰
Por ejemplo, en paneles largos, se pueden estimar fácilmente los
parámetros (αi,βi).
En paneles cortos, se necesita suponer una distribución para

(αi,βi) o condiciones en los regresores como en el modelo de
efectos aleatorios (RE), se suele suponer que son independientes
de los regresores E[XU]=0.

PROBLEMA DE PARAMETROS INCIDENTALES

Bajo un contexto de paneles cortos no es posible encontrar los
parámetros para efectos fijos (FE) tanto para el proceso de
estimación como para efectuar contrastes de hipótesis.
La causa se debe al problema de parámetros incidentales. Es

decir, la incapacidad de calcular nuevos parámetros a medida
que crece con el tamaño muestral.
Si se considera que N tiende a infinito entonces conceptualmente

el número de efectos fijos (FE) calculados crecería también
infinitamente, lo que genera un modelo inestimable (N→∞
entonces αi→∞).
En otras palabras, asintóticamente a la hora de utilizar

contrastes de multiplicadores de Lagrange (LM), así como
estimación máximo verosímil (MV), por ejemplo, cuando el
número de individuos (N) tienda al infinito implicaría la
estimación de un número infinito de variables dummy.
Existen potenciales soluciones para continuar con técnicas

tradicionales de estimación y contraste.
En primer lugar, modelos de efectos aleatorios (RE) en el caso

que los efectos no observables no se encuentren correlacionados
con los regresores del modelo.
En segundo lugar, incluir diferencias temporales pero no
individuales (zit=zt). Por último, variables instrumentales (IV) o

variables que reflejen de una manera aproximada las diferencias

no observadas.
De por si, para minimizar el impacto del problema de

parámetros incidentales en el caso de estimaciones FE los
efectos individuales no observados (αi) son eliminados a través
de diferencias temporales (yit-yit-1) o por diferencias respecto a
sus promedios (yit-y̅).
CARACTERISTICAS ADICIONALES DE DATOS PANEL
A partir de lo anterior es posible identificar algunas otras
caracteristicas sobre modelos de datos panel, entre ellas:
1. Un término más preciso para el modelo one way es definido
como el modelo de efectos aleatorios específicos de un solo
factor (one-way individual specific random effects model) o
simplemente modelo de intercepto aleatorio (random
intercept model).
2. Los datos panel son usualmente observados en intervalos

regulares de tiempo (meses, trimestres, años) con las
mismas caracteristicas de los datos de series de tiempo.
3. Los paneles de datos pueden ser balanceados, significando

que todas las unidades individuales son observadas en
todos los periodos (Ti=T ∀i), aunque pueden existir paneles
desbalanceados (Ti≠T para algún i). En cualquier caso, la
consistencia del estimador requiere que el proceso de
selección de la muestra no conduzca a errores de
correlación con regresores.

En la descripción de los datos se hace indispensable para

paneles balanceados, exponer el número de observaciones,
determinar el número de individuos distintos (N) y total de
periodos cubiertos por el panel (T).
Para paneles NO balanceados, además de lo anterior, se

debe considerar periodos concretos en que se observa cada
individuo (Ti) y el número total de observaciones existentes,
∑Ni=1 Ti .
Adicionalmente, es importante tener en cuenta que no tiene

porque haber individuos observados todos los periodos y
que individuos con el mismo numero de observaciones (Ti)
pueden ser observados en periodos diferentes.
4. Las bases de datos pueden ser de diferentes tipos. Entre

ellos, paneles cortos (pocos periodos y muchos individuos)
o paneles largos (muchos periodos y pocos individuos) o
ambos, conocido como campo aleatorio (muchas periodos y
muchos individuos).
Esta distincion tiene consecuencias para las metodologias de

estimacion e inferencia sobre el modelo. El foco inicial de
trabajo radica en paneles cortos, lo que implica, datos de
muchas unidades individuales y pocos periodos.
PANEL CORTO BALANCEADO PANEL LARGO BALANCEADO

T
E Y X t-1 t-2 t-3
y1 x1
E1 : :
yn xn T
y1 x1 E Y X t-1 t-2 t-3 ………… t-n+1 t-n
E2 : : y1 x1
yn xn E1 : :
y1 x1 yn xn
E3 : : y1 x1
yn xn E2 : :
y1 x1 yn xn
E4 : :
yn xn
: : : : :
y1 x1
Ek : :
yn xn
PANEL CORTO DESBALANCEADO PANEL LARGO DESBALANCEADO

T
E Y X t-1 t-2 t-3
y1 x1
E1 : :
yn xn T
y1 x1 E Y X t-1 t-2 t-3 ………… t-n+1 t-n
E2 : : y1 x1
yn xn E1 : :
y1 x1 yn xn
E3 : : y1 x1
yn xn E2 : :
y1 x1 yn xn
E4 : :
yn xn
: : : : :
y1 x1
Ek : :
yn xn
5. Los errores del modelo están altamente correlacionados. Se

enfatiza como la correlación o agrupamiento sobre el
tiempo para un individuo dado, con interdependencia sobre
otras unidades individuales puede existir.
Para algunos modelos de datos panel, tales como

información de países, pueden adicionalmente existir
correlaciones entre individuos.
A pesar del supuesto hecho, es necesario realizar
correcciones sobre los términos de error para efectuar el
proceso de estimación por mínimos cuadrados ordinarios
(OLS), y en algún caso, es necesario corregirlas, teniendo

ganancias en eficiencia utilizando mínimos cuadrados

generalizados factibles (FGLS) o métodos generalizados de
momentos (GMM).
6. Los coeficientes de regresión, β, están en función del tipo de

regresor y son capaces de modificar la metodología de
estimación aplicada. Por ejemplo, algunos regresores como
género, pueden ser invariantes en el tiempo, es decir, xit=xi
para todo t, y en algunos casos, como es para efectos fijos,
no puede ser calculada.
Desde otro punto de vista, algunos regresores, tales como

una tendencia temporal, pueden ser invariantes entre los
individuos afectándolos a todos por igual en el tiempo, es
decir, xit=xt para todo i, y algunos pueden variar sobre el
tiempo y sobre los individuos de manera simultánea, es
decir, xit.
7. Algunos o todos los coeficientes estimados dentro del

modelo pueden variar a través de los individuos o sobre el
tiempo, es decir, xit.
8. La literatura enfatiza en el modelo de efectos fijos. Este

modelo permite a los regresores, xit, tener algún grado de
endógeneidad (determinados dentro del modelo) lo que
indica que los regresores, x, están correlacionados con un
componente del error invariante en el tiempo. Otras ramas
enfatizan el modelo de efectos aleatorios que asume
regresores completamente aleatorios y exógenos o efectos
aleatorios.

9. Los paneles de datos permiten estimación de modelos

dinámicos donde la variable dependiente rezagada pueden
convertirse en regresor tal como lo expone Arellano (2002).
III. METODOLOGIAS DE ESTIMACION DE MODELOS DE DATOS

PANEL
Las metodologías de estimación en paneles de datos lineales
pueden ser resumidas de la siguiente manera:
Modelo Estimador
Agrupado (Pooled) 1. OLS
Between 1. OLS
1. FGLS
Efectos Aleatorios (RE) 2. OLS para un estimador GLS
3. Máximo verosímil.
1. LSDV.
2. Condicional de maxima verosimilitud.
Efectos Fijos (FE) 3. Primeras Diferencias
4. Within o de efectos fijos
5. Within o de efectos fijos con GLS
Suponga el modelo lineal general o no restringido (Modelo E) de

la forma:
Donde yit es la variable dependiente en terminos escalares, xit, es

un vector de Kx1 variables independientes y β es un vector Kx1
de parámetros estimados que varian a través de los individuos y
el tiempo, uit es el término de perturbaciones con el índice
individual (i=firma, país, etc) de forma transversal e indexado
en el tiempo (t).

Este modelo es demasiado general y no es calculable dado que

existen más parámetros a ser estimados que observaciones en la
base de datos panel.
Por tal motivo, deben imponerse restricciones sobre la

variablidad del intercepto, αit y las pendientes, βit, con especto a
los individuos (i), el tiempo (t) y el comportamiento del término
de error (uit) en el proceso de estimación.
1. MODELO AGRUPADO
El modelo más restrictivo es el modelo agrupado (pooled model)
especifica coeficientes constantes, el supuesto usual para
estimaciones de corte trasversal (cross section) es el siguiente:
yit=α+Xitβ+εit
Si este modelo se encuentra correctamente especificado y los
regresores no están correlacionados con el término de error
(exogeneidad fuerte).
Por tanto, no existen efectos individuales no observados,

entonces es consistente y eficientemente estimado por OLS y la
inferencia pueden proceder de forma fiable.
En el contexto de datos de panel también se le llama promedio

poblacional o population average, con los siguientes supuestos:

La inferencia debe usar errores estándar robustos por la

probable correlación entre individuos y en el tiempo para evitar
sesgos en el cálculo de la varianza estimada y el cálculo de
estadísticas t y F sea apropiado.
Dada la correlación de los errores donde se incorpore efectos no

observados se pueden obtener estimaciones consistentes si los
factores no observados, que a su vez están correlacionados con
las variables exógenas, si se mantienen constantes en el periodo
analizado.
2. ESTIMADOR ENTRE GRUPOS (BETWEEN ESTIMATOR)

El estimador entre grupos (between estimator o BE) en paneles
cortos, al igual que el modelo pooled calcula una variación de
corte transversal. Es decir, utiliza los datos between para el
individuo i-esimo sobre k regresores, o mejor, y̅i, x̅i1, x̅i2,…..,x̅ik.
Suponga el modelo de media individual de la forma:
yit=α+Xitβ+εit
Ajustando los promedios aritméticos de la variable dependiente,

yit, regresores, xit y el término de error, εit, sobre el tiempo,
resulta en:

El cual puede ser reescrito como el modelo between de la forma:
Donde los promedios aritméticos en el tiempo de la variable

endógena, regresores y término de error son y̅i = 1/T ∑Tt=1 yit ,
𝐱̅ 𝐢 = 1/T ∑Tt=1 xit y ε̅i = 1/T ∑Tt=1 εit ), respectivamente.
El estimador entre grupos (BE) es un estimador OLS de la

regresión de y̅i sobre un intercepto (α) y los regresores
promediados a través del tiempo, 𝐱̅ i .
Este utiliza la variación entre diferentes individuos, análogo a

una regresión de corte transversal. Tambien interpretable a un
modelo panel en el caso especial donde t=1.
Este estimador es consistente si los regresores, 𝐱̅ i , son

independientes del termino de error compuesto (αi-α+ε̅i ), o lo
que es lo mismo, bajo el supuesto de exogeneidad estricta o
fuerte de los regresores, xit, respecto al término de error
compuesto, εit, utilizándose errores estándar robustos.
Puede ser utilizado en el caso de coeficientes constantes

(pooled) y de efectos aleatorios.
En contraste, para un modelo de efectos fijos (FE) el estimador

entre grupos (BE) es inconsistente en la medida que el
intercepto αi se asume no correlacionado con xit, en este caso con
el promedio de las observaciones para el individuo i-esimo, 𝐱̅ i .

En la práctica apenas se utiliza debido a que el estimador

agrupado (pooled) y el de efectos aleatorios (RE) son superiores,
es decir, son consistentes bajo las mismas condiciones y más
eficientes asintóticamente.
3. MODELO EQUICORRELACIONADO O EFECTOS ALEATORIOS

El estimador OLS agrupado (pooled) o BE se obtiene apilando o
promediando los datos sobre los individuos (i) y tiempo (t) con
una regresión estimada por OLS para NT observaciones de la
forma:
El estimador OLS es consistente si el modelo anterior tiene

regresores no correlacionados con los términos de error, es
decir, si la relación entre el termino de error (uit) y regresores
(xit) es cero, Cov[uit, xit]=0, a pesar que el numero de individuos
crezca (N→∞) o el tiempo aumenta (T→∞) lo cual conduce a
estimadores consistentes y eficientes.
La matriz de covarianzas, por otra parte, usualmente utilizada

para un modelo pooled o BE se fundamenta en errores que se
asumen como vaiid con matriz de covarianzas Σ=σ2I.
Sin embargo, si existen efectos individuales no observados

(μi≠0), caracteristicos de la visión panel, los términos de error
para un individuo i-esimo estarán probablemente positivamente
correlacionados (en el tiempo para un individuo y/o entre
individuos), por lo que la matriz de covarianzas Σ divergerá de la

metodología utilizada por OLS. Los OLS aplicables a pooled o BE

no es apropiada.
El estimador OLS no es conveniente si se asume la existencia de

un efecto individual no observado sin correlación con las
variables explicativas, COV[XiU] ≠0.
La metodología de efectos aleatorios (RE) asume que la matriz

de covarianzas generada (Σ) es diferente a la esperada en OLS
donde existe homocedasticidad (Σ=σ2I). Es necesario modificar
este supuesto y trabajar metodologías más generales de
estimación como GLS o FGLS.
Un modelo de efectos aleatorios (RE) puede ser estimado por OLS

con los parámetros 𝛃 consistentes aunque es un modelo
ineficiente por su estructura de covarianzas.
En un modelo de efectos aleatorios (RE) en la medida que asume

independencia entre regresores y términos de error para los
i-esimos individuos en t periodos no es posible construir una
matriz agregada, Σ, si cada individuo tiene su estructura de
covarianzas, que se denominará Ω.
Este análisis de correlacion de los términos de error también se

puede observar desde un punto de vista de la información
utilizada para la construcción de pruebas de hipótesis e
intervalos de confianza.
Los supuestos usuales de estimación OLS tratan cada T años

como piezas independientes de información.

Si existe correlación positiva de los términos de error el

contenido de la información es menor. Las NT observaciones
correlacionadas tiene menos información que NT observaciones
independientes. Esto tiene implicaciones en el calculo al
sobreestimar la precisión del estimador de la varianza ya que
mayor varianza hace menores los t-estadisticos.
El modelo de efectos aleatorios (RE) es la especialización de un

modelo agrupado (pooled) para los i-esimos individuos.
En la medida que el componente individual no observado, αi,

pueda ser incluido en el término de error a través del tiempo.
Suponga el modelo B:
t
yit= αi+𝐱 it β+uit
Puede ser visto como la regresión de la variable dependiente, yit,
sobre los regresores, xit, con un término compuesto de error tipo
one way, uit=αi+εit.
Los supuestos sobre el efecto individual no observable (αi) y el

término de error (εit) son variables aleatorias que tienen la
distribución de probabilidad la forma αi~[0,σ2α ] y εit~[0,σ2ε ]
respectivamente.
Esto implica que cada elemento de la matriz de covarianzas,

Cov[uit,uis], será calculado como la relación (covarianza) entre el
efecto individual no observado (αi) y el componente del término

de error (εi) para los periodos t y s sean o no contemporaneos.

Es decir:
Bajo un término de error compuesto (uit) suponiendo la

existencia de efectos individuales no observados vistos como
una variable aleatoria (αi) e incluidos en el termino de error,
cuando es calculada la matriz de covarianzas para el individuo
i-esimo, 𝛀, impone restricciones de estar igualmente
correlacionado (equicorrelacionado) en el mismo periodo.
Cuando los periodos t y s coincidan (t=s), correlacion

contemporánea, la diagonal de la matriz de covarianzas (𝛀)
asocia la volatilidad del término de error de ese periodo
corresponde a la suma de la varianza del efecto individual no
observado (σ2α ) más la varianza del término de error (σ2ε ), es
decir, para el caso COV[uit,uit]= (σ2α + σ2ε ).
El modelo de efectos aleatorios (RE) es conocido como modelo

equicorrelacionado por esta razón.
Para periodos cuando t y s son distintos (t≠s), correlacion no

contemporánea, con elementos fuera de la diagonal de la matriz
de covarianzas para el individuo i-esimo (𝚺), la volatilidad del
modelo corresponderá únicamente a la varianza del componente
individual no observado (σ2α ).

Se construirá una matriz de covarianzas 𝚺 de tamaño TxT que

corresponden a los T periodos de observaciones para el
individuo i-esimo.
De forma matricial, suponga E[𝐮𝐢𝐭 𝐮𝐭𝐢𝐭 |x]=𝚺 para ser estimada por
FGLS de forma que para el i-esimo individuo:
̂=σ
𝚺 ̂2u 𝟏T 𝟏tT =
̂2ε 𝐈t + σ
Se espera para un individuo i-esimo exista una correlación

considerable en el tiempo, de modo que COR[yit,yis]>0 ∀ i≠s, sea
alta. Después de la inclusión de regresores la correlacion de los
terminos de error, COR[uit,uis], puede permanecer no cero y
muchas veces puede ser bastante significativa.
Por ejemplo, si un modelo pronóstica ganancias individuales en

un año, dada la correlación positiva existente entre periodos, la
varianza calculada puede ser mucho mayor de la esperada y
puede sobrepronosticar ganancias para el mismo individuo en
otros años.
En un modelo de efectos aleatorios (RE) el coeficiente de

correlación no depende del tiempo, es decir, COR[uit,uis] para
t≠s, se calcula como:

Los coeficiente de correlación tienen muchas correcciones

posibles, dependiendo de la estructura de correlación y
heterocedasticidad para el individuo y entre individuos asumida
para los regresores y si son paneles cortos o largos.
Puesto que las observaciones del individuo i-esimo y j-esmo se

suponen independientes, es decir, no existe relación entre los N
individuos, la matriz de covarianzas, Ω, del modelo RE será
diagonal.
En estos modelos siempre es útil el análisis por bloques de T

observaciones para cada uno de los individuos (i).
Cada elemento de la diagonal esta constituida por bloques de

matrices de covarianzas, 𝚺, de tamaño TxT que corresponden a la
estructura de covarianzas para cada individuo.
La matriz de covarianzas del modelo RE para todos los

individuos, 𝚺, será de tamaño NTxNT. De forma matricial:
𝚺 𝟎 … 𝟎
Ω =[ 𝚺 … 𝟎]=I ⊗𝚺
⋮ ⋮ ⋱ 𝟎 n
𝟎 𝟎 … 𝚺
ESTIMADORES PARA EL MODELO DE EFECTOS ALEATORIOS

Cuando los grupos considerados son extracciones muestrales de
una población más grande, puede resultar apropiado considerar
que los efectos individuales no observados están aleatoriamente

distribuidos entre los grupos. En este caso se considera un

modelo de estimación de efectos aleatorios (RE).
El estimador de efectos aleatorios (RE) explota rasgos y

supuestos especiales de los datos panel. El estimador RE es
inconsistente si el modelo de efectos fijos (FE) es el adecuado.
Sea el modelo de efectos aleatorios (RE) especificado en la

siguiente forma funcional:
El cual puede ser reescrito como:
Donde además las pendientes (β) y los regresores (xit) existe un

intercepto no estocástico (μ) y un efecto individual no observado
(αi). Puede ser nuevamente reescrito como:
Donde wit=[1 xit] y δ=[μ β]t. Los efectos específicos individuales

αi se asumen como una realización de vaiid con una distribución
[α,𝜎𝛼2 ], de la misma manera, el termino de error εit es una vaiid
[0,𝜎𝜀2 ].
El intercepto escalar μ, a diferencia del modelo de efectos fijos,

se convierte en una variable no aleatoria y se adiciona al modelo
para posteriormente ser estimada.

De este modo, se asume en el modelo αi y εit como vaiid con las

siguientes propiedades:
Sin embargo, bajo algunos supuestos, y trabajando sobre

promedios los efectos individuales no observados y los términos
de error pueden ser normalizados a tener media cero, es decir:
αi~N[0,σ2α ] εit~N[0,σ2ε ]
t
El modelo puede ser reexpresado como yit=μ+𝐱 it β+uit, donde el
termino de error compuesto, uit, tiene dos componentes
uit=αi+εit.
Por esta razón el modelo de efectos aleatorios (RE) es también

conocido como modelo de componentes del error (error
components model). Una terminología más explícita puede ser
conocido como modelo de intercepto aleatorio (random
intercept model).
Existen una multiplicidad de estimadores consistentes del

modelo de efectos aleatorios (RE) entre otros:
1. Estimador por GLS. Este reconoce el hecho que mínimos
cuadrados generalizados (GLS), es más eficiente (mínima
varianza) que estimaciones por OLS.
2. Estimación OLS para un estimador GLS. Supone efectuar
transformaciones adecuadas para realizar estimaciones OLS
con consistencia de los estimadores encontrados.
3. Estimador máximo verosímil. Asume que tanto el efecto no
observado (αi) como el término de error (εit) son

normalmente distribuidos y construye una función de

verosimilitud.
Los dos primeros estimadores son asintóticamente equivalentes

aunque en algunos casos pueden variar en muestras finitas
dependiendo de estimaciones específicas y características
utilizadas para el valor de las varianzas del efecto no observado
(σ2α ) y el termino estocástico (σ2ε ). El estimador MV es
consistente aunque ineficiente si σ2α y σ2ε son vaiid.
ESTIMADOR POR GLS

Puesto que la matriz de covarianzas para un individuo Ω es una
matriz semidefinida positiva puede ser factorizada a través de la
descomposición espectral de la siguiente forma:
Ω=Ct𝚲Ct
Donde C son los vectores propios de Ω y las raíces características

de la matriz Ω están organizadas en una matriz diagonal 𝚲. Sea
𝚲1/2 la matriz diagonal con el i-esimo elemento de la diagonal
igual a √λi y sea T=Ct𝚲1/2, entonces TtT=𝚺. Tambien sea la
matriz Pt=Ct𝚲-1/2 entonces PtP=𝚺-1. Suponga un modelo lineal
general:
Y=Xβ+ε
Premultiplicando por la matriz P definida anteriormente:
Y = Xβ+ε
PY = PXβ+Pε
Y* = X*β+ε*

Al derivar los estimadores, β, el estimador GLS tiene la siguiente

formula funcional:
Para calcular este estimador transformando se require encontrar

Ω-1/2=[I⨂Σ]-1/2. Ya que la matriz calculada es necesario encontrar
Ω-1/2.
El valor de Ω-1/2 corresponderá a la estimación de efectos

aleatorios (RE) por Mínimos Cuadrados Generalizados (GLS)
consistente en una regresión de desviaciones parciales entre la
variable dependiente, yit, y su media. Esta misma operación se
efectua para las variables exógenas, xit.
Para demostrar lo anterior, se construirá un estimador de

efectos aleatorios (RE) para el intercepto no estocástico (μ) y las
pendientes (β). Suponga el modelo:
Se puede demostrar, por medio de metodologías de estimación

por mínimos cuadrados generalizados (GLS), que al multiplicar
por un factor adecuado es equivalente a encontrar un estimador
GLS a través de regresiones de desviaciones parciales estimadas
por OLS sobre la ecuación transformada.
Para comprender un poco mejor esta idea suponga el estimador

de mínimos cuadrados generalizados (GLS) de la forma

̂GLS=(XtΩ-1X)-1XtΩ-1Y, utilizando la descomposición espectral

𝛃
sobre la matriz de covarianzas Ω se puede encontrar que:
̂GLS=(XtΩ-1/2Ω-1/2X)-1XtΩ-1/2Ω-1/2Y.
𝛃
Utilizando el hecho que Ω es simétrica, semidefinida positiva y
con algunas propiedades de las matrices transpuestas se llega a
̂GLS=([Ω-1/2X][ Ω-1/2X])-1[Ω-1/2X][YΩ-1/2].
que el estimador es 𝛃
El es timador por GLS en este caso se puede interpretar de forma

individual cuando se efectua la multiplicación para cada
elemento de Ω-1/2X, que de aqui en adelante se asociará con un
parámetro de corrección λ̂.
Para calcular Ω-1/2 se puede demostrar que Ω-1/2=IT-(λ/T) 𝟏T 𝟏tT .

Donde el parámetro estimado de corrección, λ, es:
La transformación de desviaciones parciales entre la variable

dependiente, yit, y su media sobre resulta ser:
yi1 − λy̅i
−1/2
𝚺i yi=[ ⋮ ]
yit − λy̅i
−1/2
De la misma forma, aplica la multiplicación de 𝚺i X para los
regresores Xi. Los datos en su conjunto transformados por GLS se
calcula regresando las desviaciones parciales de yit sobre la
transformación de xit.

Un procedimiento de estimación parte del modelo inicial

yit=μ+xit+(αi+εit) para posteriormente restar el modelo
transformado calculado previamente el factor de corrección λ, es
decir, λ̂yit=λ̂μ+λ̂xit+(λ̂αi+λ̂εit). El resultado es:
El parámetro estimado de corrección, λ̂, es consistente y es

sinónimo de FGLS.
El valor de λ̂ está en función de estimaciones de la varianza de

los efectos individuales no observados (σ2α ) y los términos de
error (σ2ε ).
El término de error es una combinación del efecto no observado

(αi) y el termino estocástico (εit) de forma lineal, vit=(1-
λ̂)αi+(εit-λ̂ε̅).
Sin embargo, para el calculo del factor de corrección (λ̂) es

necesario estimaciones de la varianza del efecto individual no
observado (αi) y el componente del error (εit).
La metodología de cálculo parte de encontrar la varianza del

componente del error de la forma:

̂2ε ) se
Pa ra el cálculo de la estimación de la varianza del error (σ
necesitan de los parámetros de la regresión between (𝛃 ̂W ), y de
los promedios entre individuos de los los regresores (𝐱̅i) y la
variable dependiente (y̅i).
Posteriomente, se determina el componente del error al

̂B)2 que puede
cuadrado de la regresión Between, û2B =(y̅i-μ̂B-x̅it 𝛃
ser reescrito como un término de error de la covarianza
û2B =σ2α +σ2ε /T.
Utilizando esta última ecuación se puede obtener la varianza del

componente individual no observado:
De este modo, se estima la varianza del componente individual

no observado (σ2α ) en función del termino de error estocástico
estimado (σ2ε ).
La varianza del estimador 𝛔 ̂2α en algunos casos puede ser

negativa lo cual en algunos programas estadísticos asume que la
varianza del componente individual no observado es cero
̂2α =0) de modo que λ̂=0 y la estimación se convierte en un
(𝛔
modelo pooled.
Estimadores más eficientes de los componentes de la varianza

del termino de error compuesto, σ2u , se integra por la varianza
del componente individual no observdo (σ2α ) y el componente

del error (σ2ε ) que son posibles bajo esta técnica que es una entre
varias. Por ejemplo Amemiya7 calcula otros estimadores pero no
necesariamente incrementa la eficiencia del estimador 𝛃 ̂RE.
Para resumir, es necesario encontrar un parámetro de

corrección λ̂, para efectuar una estimación consistente y eficiente
por FGLS. Para ello se estima, en primer lugar, la varianza del
término de error (σ ̂2ε ). Posteriormente, la varianza del
componente individual no observado (σ ̂2α ).
σ
̂ε
λ̂ = 1 −
̂2ε + Tσ
√σ ̂2α
En la medida que el parámetro estimado de corrección, λ̂ difiere

de cero, se presenta ineficiencia de OLS. El estimador OLS
comparado con GLS otorga demasiada ponderación a las
variaciones en unidades (within). OLS incluye todas las
variaciones en los regresores X, en vez de distribuir una parte a
la variación aleatoria entre grupos (Between) atribuible a una
variación entre individuos.
A partir del parámetro estimado de corrección, λ̂, se puede

derivar lo siguiente:
1. Si el parámetro de corrección es igual a cero, λ̂=0, en este
camos FGLS coincide con OLS, es decir, corresponde a una
regresión pooled por OLS. Este escenario ocurre cuando la
varianza del componente individual no observado (σα) es
igual a cero.
7 Amemiya, T. (1985), Advanced Econometrics, Cambridge, MA, Harvard University Press.

2. Si el parámetro de corrección converge a uno, λ̂→1, existen

dos posibilidades para alcanzar este valor estimado de λ̂.
La primera, si la varianza del error es cero (σε=0) entonces

el total de las variaciones entre individuos serian causados
por los efectos individuales no observados (σα≠0) que son
constantes en el tiempo y serían equivalentes variables
dummy o identificadoras (similar al modelo FE). Es la única
fuente de variación en la regresión y si se estiman se recoge
este efecto completamente.
La segunda, ocurre cuando el número de periodos está

creciendo (T→∞). En la medida que el tiempo pase el efecto
no observado se vuelve observado (asintoticamente) se
convierte nievamente en una variable identificadora (no
necesariamente una dummy).
3. Si el parámetro de corrección es igual a uno, λ̂=1,

corresponde a un estimador within. Se puede interpretar
como el efecto si la varianza de los términos de error (σε)
fuese cero, es decir, el único efecto existente sería el
componente individual no observado (σμ). En este caso, los
modelos de efectos fijos (FE) y efectos aleatorios (RE) son
indistinguibles.
Suponga, de nuevo, el modelo de regresión RE de pendientes (β)

y regresores (xit) existe un intercepto no estocástico (μ) y un
efecto individual no observado (αi) que son agrupados como:

Ya calculado el factor de corrección, λ̂, el cálculo de los

parámetros del modelo de efectos aleatorios (δ̂RE) para las
pendientes (β̂RE) y el intercepto (μ̂RE) es el siguiente:
Donde wit=[1 xit] y 𝐰̅=[1 x̅i]. Las pruebas de consistencia del

estimador requieren que toda la muestra crezca NT→∞, es decir,
tanto el número de individuos (N→∞) o el tiempo (T→∞)
crezcan infinitamente.
Tambien, con las estimaciones de los términos de error (εit) y los

efectos individuales no observados (αi) que se presentaron
anteriormente sobre la regresión OLS del modelo corregido se
tiene que:
Se puede calcular la matriz de covarianzas estimada de la

siguiente forma:
Que corresponde a la varianza por OLS (σ2XtX) incluyendo el

componente del factor de corrección, λ̂, en un modelo
transformado.

Para paneles cortos, ya que existen pocos periodos pero muchos

individuos, se debe tener en cuenta que el supuesto de los
términos de error en principio se asumen independientes sobre
los individuos.
Esta esta propiedad se pierde de modo que Cov[uit,ujs]=0 con i≠j

necesita un estimador robusto de la varianza que minimice los
efectos de autocorrelación y heterocedasticidad y permitan un
comportamiento general para calcular el error compuesto
(αi+εit) el cual puede ser determinado de la forma tipo White:
Lo cual arroja una forma modificada de la varianza de los

estimadores incluyendo el tiempo:
Donde 𝐰 ̅ y 𝛆̃it=𝛆̂it-λ̂𝛆̅̂ donde 𝛆̂it son los residuos

̃ it=wit-λ̂𝐰
calculados del modelo RE. Esta estimación permite
autocorrelaciones para εit, así como heterocedasticidad de forma
arbitraria.
ESTIMACIÓN OLS PARA UN ESTIMADOR GLS

Para verificar como el estimador FGLS en el modelo de efectos
aleatorios (RE) se puede simplificar para convertirse en un
estimador OLS, y de esta forma, sea más fácilmente calculado

computacionalmente se parte del modelo agrupado, como se

mostró anteriormente:
En primer lugar, se agrupan observaciones de todos los T

periodos para el individuo i-esimo. Posteriormente, se efectúa al
igual que para el modelo de efectos fijos la agregación por
individiuos (se pasa de yit a yi, por ejemplo). Entonces:
Donde yi, 1T, εi y Xi fueron definidas anteriormente y 𝐖it =[1 𝐗 ti ].
Para efectuar el proceso de estimación por GLS, como se observó

anteriormente, es necesario obtener la matriz de covarianzas
individuales, Ω, a partir del vector de términos de error (1αi+εi).
Dada la independencia de los efectos individuales no observados

(αi) y el componente estocástico (εit) se puede calcular el
siguiente valor esperado:
E[(1αi+εi)(1αi+εi)t]=E[εiεit]+E[α2i ]𝟏𝐓 𝟏𝐭𝐓 .
Puesto que el termino de error,εit , es una vaiid distribuida [0, σ2ε ]

y αi es una vaiid distribuida [0, σ2α ] se puede obtener la matriz de
covarianzas, Ω, del modelo de la forma:
Σ=σ2ε IT+σ2α 𝟏𝐓 𝟏𝐭𝐓 =

Donde la matriz Q=IT-(1/T) 𝟏𝐓 𝟏𝐭𝐓 fue introducida anteriormente

y ψ2=σ2ε /[σ2ε +Tσ2α ] o el factor de correción elevado al cuadrado.
Utilizando el hecho que QQt=Q puede ser demostrado que la

inversa de la matriz de efectos individuales corresponde a:
𝚺-1=(1/σ2ε )[Q+ψ2(IT-Q)]
Efectuando la descomposición espectral sobre Ω-1/2 se puede
llegar a que:
El estimador GLS se obtiene premultiplicando la ecuación:
Aplicando este procedimiento y efectuando el reemplazo

correspondiente se tiene que:
Donde el factor de correción equivale a λ=(1-ψ). Ejecutando

algebra para Wi,1αi y εi se puede encontrar el siguiente modelo:
El modelo anterior tiene una varianza de σ2ε IT. Lo anterior

demuestra como el estimador GLS es un estimador OLS con una
versión agrupada del modelo:

Con el escalar λ que es estimador consistente y comunica las

estimaciones OLS y GLS.
En conclusión, las dos metodologías anteriores son muy similares,

tanto para la estimación por FGLS como para OLS. Necesitan de un
factor de corrección que para el primero corrige la matriz de
covarianzas. Para el segundo, deriva la misma matriz con los
supuestos de minimos cuadrados ordinarios.
ESTIMADOR MÁXIMO VEROSÍMIL

En la derivación de las dos metodologías anteriores, los errores
no se asumen normales. Si ellos son normales puede
maximizarse una función de verosimilitud con respecto a las
pendientes (β), intercepto (μ) y varianzas del componente
aleatorio (σ2ε ) y del componente individual no observado (σ2α ).
Dadas las varianzas del componente aleatorio (σ2ε ) y del efecto

individual no observado (σ2α ) el estimador de máxima
verosimilitud (MLE) para las pendientes (β) y el intercepto (μ)
es el mismo estimador GLS.
Pero si no se toma este supuesto y se procede a efectuar el

proceso de optimización del estimador de máxima verosimilitud
(MLE) el cual arroja nuevos estimadores del componente
̃2 ) y del componente no observado (σ̃2 ) que difieren
aleatorio (σ ε α
de los estimadores observados anteriormente, como son:

El estimador de máxima verosimilitud (MLE) para las

pendientes (β) y el intercepto (μ) están dadas por el modelo:
Con parámetro estimado de corrección, λ reemplazado por un

estimador alternativo, λ̃ , que también tiene características de
ser consistente y definido como λ̃ =1-σ
̃ε /(Tσ
̃α + σ̃ε )1/2 .
Asintóticamente, los estimador MLE y GLS de efectos aleatorios

son equivalentes, pero pueden diferir en muestra finita.
Para el MLE, dadas las características del modelo, pueden existir

dos máximos locales mejor que uno con 0<ψ2≤1, así que cuando
se analicen los resultados por esta metodología es necesario
asegurarse de la existencia de un máximo global.
ESTIMADORES PARA EL MODELO DE EFECTOS FIJOS

El modelo de efectos fijos (FE) se puede especificar a través del
modelo B de la siguiente manera:
Donde los efectos específicos individuales α1,α2,…,αn miden la

heterogeneidad no observada que esta posiblemente
correlacionada con los regresores, X.

Es decir, admiten algún tipo de endogeneidad (E[Xε]≠0). Los

estimadores de las pendientes, 𝛃, son vectores de tamaño Kx1 y
los términos de error, εit, distribuidos como vaiid [0,σ2].
Algunas características importantes del modelo de efectos fijos

(FE):
1. El modelo de efectos fijos (FE) tiene sentido cuando se esta
interesado en el impacto de variables que varíen en el
tiempo y entre individuos (Zit).
2. El modelo de efectos fijos (FE) explora las relaciones entre
el regresor y las características de un individuo (agente,
empresa, etc.) aprovechando la endogeneidad implícita
dentro del modelo E[Xαi]≠0, o mejor, los E[XU]≠0.
3. Al observar una correlación entre los efectos individuales
no observados (αi) y regresores (X) se asume
implícitamente que cada entidad tiene caracteristicas que
pueden tener influencia en la variable dependiente (por
ejemplo, si es hombre o mujer, como efecto no observado,
implica una distinta remuneración salarial).
4. Cuando se utilizan el modelo de efectos fijos (FE) se asume
que algunos efectos en el tiempo (WITHIN) en cada uno de
los individuos pueden impactar o sesgar el predictor o
variable dependiente y es necesario controlarla. Este es la
racionalidad del supuesto de correlación entre los efectos
individuales no observados y los regresores.
El reto en el proceso de estimación en la presencia de N efectos

individuales específicos (αi) incrementa el número de individuos
infinitamente (N→∞), es decir, el problema de parámetros
incidentales.

Para propósitos prácticos usualmente el principal interés,

reconociendo la significancia de los efectos individuales
específicos (αi), se encuentra en las K pendientes, 𝛃, las cuales
representan el impacto marginal de un regresor (xit) con
respecto a la variable respuesta, ∂E[yit]/∂xit, mientras los demás
permanecen constantes.
En este caso, con un panel corto, los N parámetros de efectos

individuales no observados, α1,α2,…,αn, generan el problema de
parámetros incidentales. Su presencia, por tal motivo, impide la
estimación de los parámetros, 𝛃, que sí son de interés.
Es de observar que existen, para modelos lineales, distintos

caminos a ser estimados los parámetros de las pendientes y
encontrar los efectos marginales por efectos fijos (FE) a pesar
del problema de parámetros incidentales. Estos incluyen:
1. Estimador within o de efectos fijos. Estimaciones OLS a
través de un modelo within.
2. Estimador within o de efectos fijos con GLS. Estimar por GLS

en el siguiente modelo within:
3. Estimador de Primeras Diferencias. Estimar por OLS el

modelo de primeras diferencias:

4. Estimador condicional de maxima verosimilitud. Estimar por

el método de máxima verosimilitud condicionada sobre las
medias de los individuos y̅it con i=1,2,….,n.
5. Estimador LSDV. Estimación directa por OLS a través de
variables dummy para cada uno de los N efectos fijos o
estimación LSDV:
Las dos primeras metodologías de estimación within siempre

conducen al mismo estimador de los parámetros β.
El estimador de primeras diferencias, o tercer metodología de

estimación, difiere de los otros para T>2, estas diferencias
generalmente no son tenidas en cuenta en modelos no lineales.
Para la cuarta metodologías de estimación, dada la condición de

máxima verosimilitud, es necesario adicionar al supuesto sobre
normalidad de los términos de error, es decir, εit~N[0,σ2].
El modelo LSDV, o quinta metodologías de estimación, se puede

demostrar que tiene los mismos resultados que un estimador
within.
ESTIMADOR WITHIN O DE EFECTOS FIJOS

Específicamente, suponga un modelo de media individual, o
modelo B, de la forma:

Tomando promedios aritméticos sobre el tiempo resulta en el

siguiente modelo:
Sustrayendo de yit el promedio en el tiempo y̅i resulta en el

modelo within:
En un panel corto, por ejemplo, este estimador mide la

desviación del individuo i-esimo respecto a los regresores, xit,
sobre sus valores promedio en el tiempo, 𝐱̅i, es decir, (xit-𝐱̅i). Este
proceso también se efectúa para la variable dependiente yit y el
termino de error, εit.
Con esta metodología el término de efectos individuales no

observados (αi) se cancela.
Este estimador within es calculado por OLS. Un rasgo especial

resulta en estimadores consistes de β en el modelo de efectos
fijos (FE), mientras para el modelo OLS agrupado (pooled) o el
estimador entre grupos (BE) no son consistentes.
Es un estimador consistente y eficiente de β, si el intercepto que

representa el efecto individual no observado, 𝛂i , se calcula como
efectos fijos (FE) y el término de error estocástico del error
compuesto 𝛆it son vaiid.
Utilizando un estimador OLS resulta en el estimador within

̂w de la forma:
(WE) o estimador de efectos fijos 𝛃

Los efectos individuales, 𝛂i, pueden ser estimados como un

residuo de la regresión de la forma:
La estimación de los efectos individuales no observados (α

̂i ) es
insesgada y consistente cuando T→∞ puesto que α ̂i promedia T
observaciones como mejor estimador muestral.
En paneles cortos la estimación de los efectos individuales no

observados (α ̂i ) es inconsistente, sin embargo, es consistente
̂w .
para las estimaciones de las pendientes, 𝛃
En la mayoría de investigaciones se juzga a los parámetros

individuales no observados estimados (α̂i ), como parámetros
auxiliares o problemáticos8 (ancillary parameters o nuisance
parameters) ya que en algunos casos no son necesarios en
estudios, y por lo tanto, no necesitan ser consistentemente
estimados.
Además, esta eliminación no afecta el proceso de estimaciones

consistentes de las pendientes, 𝛃̂w , que determinan los efectos
marginales de las variables de interés.
8Sin embargo, estos parametros muchas veces resultan utiles en informacion industrial, laboral, ambiental,entre otros por ejemplo véase
McClellan, M. and Staiger, D. Comparing Hospital Quality at For-Profit and Not-for-Profit Hospitals in The Changing Hospital Industry: Comparing
Not-for-Profit and For-Profit Institutions, (eds.). Cutler, David M. pp.93-112, The University of Chicago Press, 2000. Tambien, Murdock, J. 2006.
Handling unobserved site characteristics in random utility models of recreation demand. Journal of Environmental Economics and
Management,51, 1-25.

̂𝐰 debe demostrar
Para la consistencia del estimador within de 𝛃
la condición de exógeneidad fuerte:
Esto debe ocurrir si N→∞ o T→∞ y adicionalmente que:
Debido a la presencia de promedios, como mejor estimador

máximo verosímil (MV), sobre los regresores 𝐱̅ 𝐢 = 1/T ∑Tt=1 xit
y en el término de error 𝛆̅𝐢 hace que no exista correlación entre
los términos de error y regresores de manera contemporánea,
E[εit|xit]=0.
Una condición suficiente, adicional a la anterior, para el

cumplimiento de la exógeneidad fuerte radica en incluir no solo
los términos de error contemporáneos y regresores actuales
sino también los rezagados, es decir, E[εit|xi1,xi2,….,x1T,]=0. Esto
excluye en el estimador within variables rezagas endógenas como
regresores.
Por otra parte, la estimacion de la varianza debe contemplar

como los términos del error compuesto están correlacionados en
el tiempo (t) para un individuo dado (i).
Se puede demostrar que los métodos OLS usuales son aplicables

cuando existe homocedasticidad. Por ejemplo, bajo el supuesto
del término estocástico, εit, distribuido como una vaiid se tiene
que:

Donde ẍ it = xit-x̅i . Un estimador consistente e insesgado de la

varianza del término de error, σ2ε , y calculada como
̂2ε =[N(T-1)-K]-1∑N
σ T
i=1 ∑t=1 ε
̂it . Donde los grados de libertad son
iguales al tamaño de muestra (NT) menos el número de
parámetros en el modelo (K) y el número de efectos individuales
(N).
Es de observar que si la regresión within de la forma:
Es estimada utilizando OLS a través de un paquete estadístico

normal o comandos no panel es necesario incrementar el valor
de las varianzas reportadas en un valor [N(T-1)-K]-1[NT-K] para
ajustar la varianza a la autocorrelación de los errores.
La matriz de covarianza asintótica de un panel robusto

(estimado con errores robustos tipo White), es decir, controla
correlación y heterocedasticidad, está dado por:
Para paneles cortos con efectos fijos (FE) resulta en una varianza
donde se incluye efectos en el tiempo para periodos
contemporáneos (t=s) y no contemporáneos (t≠s) de la forma:

Donde el término de error estocástico es ε̈ it = εit-ε̅i .
La derivación matricial es útil en términos de cálculo dado el

tamaño de las matrices.
Se comenzará con un modelo para los i-esimos individuos de la

forma:
Donde xit y β son vectores kx1. Los i-esimos individuos,

agrupando todas las T observaciones tienen la siguiente
estructura matricial:
También pueden ser escritos de la forma:

yi=αi1+Xiβ+εi
Donde 1t=[1,1,….,1] es un vector de tamaño Tx1 de unos. Xi es

una matriz TxK de T observaciones y K regresores, los vectores
de la variable respuesta, yi, y los términos de error, εi, son de
tamaño Tx1.

Es posible transformar el modelo para sustraer la media

individual a través de las matrices P y Q de tamaño TxT. Es decir,
P=(T-1)𝟏𝐓 𝟏𝐭𝐓 de manera que Q=IT - P
Premultiplicando la matriz Q crea desviaciones respecto a la

media. También tiene propiedades de ser ortogonal e
idempotente. Ahora premultiplicando el modelo de efectos fijos
por Q se obtiene:
Utilizando el hecho que Q1=0 se elimina el componente de los

interceptos (αi1). Este modelo, es equivalente a:
yi-1y̅it =(Xi-1x̅it )β+(εi-1ε̅i ).
A partir de esta premultiplicación por la matriz Q resulta en el
modelo within.
Una estimación por OLS del modelo de efectos fijos (FE) ajustado
̂w con una matriz de
por la matriz Q resulta en el estimador 𝛃
covarianzas, asumiendo independencia de los individuos, igual a:
Si se asume el supuesto que los términos de error, εit, son vaiid,

eliminando la posibilidad de heterocedasticidad y

autocorrelación, se puede escribir que [0,σ2ε ], de modo que su

resultado asume exógeneidad fuerte, es decir, [0,σ2ε I].
El vector Qε es entonces independiente sobre los individuos (i) y

el tiempo (t) con media cero y las siguientes propiedades sobre
la varianza:
Entonces:
De modo que el cálculo con la varianza asumiendo exógeneidad

fuerte resulta en:
Utilizando el hecho que:
Estimadores alternativos, más allá de la exógeneidad fuerte,

pueden ser utilizados con una visión más general. En particular,
el supuesto de no correlación serial sobre los términos de error,
εit, utilizado anteriormente, puede ser relajado.

Si el termino de error, εi, es vaiid [0,Ω] se utiliza una forma más

general para la matriz de covarianzas con la corrección por la
matriz Q, o de desviaciones respecto a la media, asumiendo que
no existe correlaciones entre individuos, es decir, [Qεi, Qεj] para
i≠j.
La varianza V[Qεj] se reemplaza por los (Qε̂i )(Qε̂i )t donde

̂w . Esto resulta en la estimación dada por:
𝛆̂i =yi-Xi𝛃
El WE tiene varias interpretaciones y características a ser

trabajadas, entre ellas:
1. Este procedimiento se focaliza en la literatura que trata los
efectos individuales no observados como parámetros
incomodos que pueden ser ignorados dado que el principal
interés se encuentra en las pendientes (β) y sus efectos
marginales.
2. El estimador Within utiliza una estructura de covarianzas
que toman desviaciones respecto a los promedios de media
individual, lo que es equivalente a tomar residuos de la
regresión de yit y xit sobre dummies individuales y trabajar
con los residuos.
3. La principal limitación del estimador WE radica en los
coeficientes de los regresores invariantes en el tiempo
(xit=xi) que no pueden ser identificados, entonces son
omitidos, es decir, (xit-𝐱̅i)=0. Varios estudio, por ejemplo,
buscan estimar el efecto de regresores invariantes en el

tiempo, xi. Regresiones sobre paneles de salarios se puede

estar interesados en efectos de género o raza, por esta razón
se prefiere no utilizar el estimador WE.
4. Estimaciones agrupadas (pooled) o efectos aleatorios (RE)
tienen, en algunos casos, mejores resultados estadisticos,
pero estos estimadores son inconsistentes si el modelo de
efectos fijos (FE) es el adecuado.
ESTIMADOR WITHIN O DE EFECTOS FIJOS POR GLS

Suponga el modelo within transformado respecto a su
desviación a la media (premultiplicado por la matriz Q), de la
forma:
Puede ser estimado por FGLS. Si los términos de error, εit, son
vaiid [0,σ2ε ] no existen muchas ganancias estadísticas utilizando
GLS, lo recomendable es trabajar por OLS.
Pueden existir ganancias si otros modelos son asumidos para la

distribución de los términos de error, εit. Existen situaciones
donde puede limitarse OLS para su utilización, como datos
multinivel.
Por ejemplo, en investigación en educación se podría requerir

medir el rendimiento de colegios que utilizan un método de
aprendizaje contra colegios que usan uno diferente.

Sería un error analizar estos datos pensando que los estudiantes

son muestras aleatorias simples de la población de estudiantes
que aprenden bajo un método particular y que no están
correlacionadas a través del tiempo. Los alumnos son agrupados
en clases (cursos), los cuales a su vez son agrupados en colegios.
El desempeño de los estudiantes dentro de una clase está

correlacionado, como el desempeño de los estudiantes dentro de
la misma escuela y el tiempo con el programa implementado.
Para observar el ejemplo anterior a través de un modelo panel

de efectos fijos (FE) utilizando OLS no es posible, es necesaria
una nueva estructura de correlaciones, y por tanto, una matriz
de covarianzas, entre periodos e individuos como metodología
para incorporar correlaciones temporales y datos anidados, es
decir, implementar GLS o FGLS.
La aproximación es esencialmente la misma para GLS pooled sin

efectos fijos (FE) donde se pone de manifiesto su relación con el
estimador RE.
Observese que Qεi es independiente de Qεj con i≠j y

V[Q𝜎𝜀2 ]= 𝜎𝜀2 Q, así que el estimador de efectos fijos con GLS, visto
como una generalización del OLS, se puede escribir en forma:

Para efectuar este procedimiento, en los FE los efectos

individuales no observados fueron eliminados. Esto último
conduce a que el término de error Qεi sea de rango menor al
completo.
Si no se cuenta con rango completo y se necesita calcularla la

metodología de trabajo se orienta a la utilización de la inversa
generalizada o inversa de Penrose9, Q-, que es utilizada como Q
ya que no es de rango completo10.
ESTIMADOR EN PRIMERAS DIFERENCIAS

El estimador en primeras diferencias (FDE), al igual que el
estimador within explota rasgos especiales de los datos panel.
En un panel corto mide la asociación entre cambios dentro de los
individuos durante un periodo en los regresores, xit, y la variable
dependiente, yit.
Especificamente, suponga el modelo:
Rezangando un periodo se tiene que:
Sustrayendo una de la otra, se tiene el modelo de primeras

diferencias:
9 Sea A una matriz cuadrada o rectangular, se dice que una matriz G es una g-inversa (o inversa generalizada) de A cuando AGA=A . Naturalmente
que G ha de ser de tipo n×m en el caso de ser A del tipo m×n . Si A es cuadrada e invertible, entonces es fácil comprobar que la inversa A−1 es (la
única) g-inversa de A , de manera que el concepto de g-inversa es una generalización del concepto de inversa
10 Sin embargo, QtQ-Q=QtQ puesto que QtQ-Q=Q, para una inversa generalizada, y Q=QQt dado que Q es idempotente. Reemplazando QtQ-Q=Q por
QtQ en la fórmula anterior de estimación 𝛃̂w,GLS .

El intercepto del modelo, αi, se cancela, al igual que en el modelo

within.
El estimador en primeras diferencias (FDE) utiliza en su proceso

de estimación una metodología OLS. Al igual que el estimador
within (WE), es consistente en un modelo de efectos fijos (FE),
aunque los coeficientes invariantes en el tiempo de los
regresores, xi, no son identificados.
El estimador FDE es menos eficiente que un estimador WE para

T>2 si los términos de error, εit son considerados como una
vaiid.
Una estimación OLS efectuá el estimador de primeras diferencias

de la forma:
Obsérvese que existen N(T-1) observaciones en esta regresión

ya que se perdió una en el proceso de diferenciación11.
La consistencia del estimador de primeras diferencias requiere,

nuevamente el supuesto de exógeneidad fuerte o estricta visto
como E[εit-εi,t-1|xit-xi,t-1].
Esta condición es fuerte e implica que los términos de error y de

los regresores de forma contemporánea son iguales a cero, es
decir, E[εit|xit]=0, pero es una condición más débil que la
11. Un error común en esta implementación radica en agrupar las NT observaciones, posteriormente substraer el primer rezago. Entonces la
observación (1,1) es borrada mientras todas las T primeras observaciones (i,1), i=1,2,…,N deben ser borradas después de diferenciar. Deben ser
borradas todas las primeras observaciones de la muestra.

condición de exogeneidad fuerte impuesta para la consistencia

del estimador within ya que para este último impone
exógeneidad fuerte para efectos contemporáneos y no
contemporáneos, es decir E[εit|xi1,xi2,….,x1T,]=0.
La inferencia asintótica del estimador de primeras diferencias

requiere ajustar los errores estándar calculados por OLS para
tener en cuenta las correlaciones en el tiempo de los términos de
error ∆ε̂i = (εit-εi,t-1).
Como primer paso de inferencia asintótica es necesario obtener

̂FD . Para lo anterior, se
la varianza asintótica del estimador 𝛃
agrupan las observaciones de los individuos de la siguiente
manera:
Donde para cada individuo i-esimo el modelo tiene ∆yi como un

vector (T-1)x1 de variables dependientes y variables
explicativas (∆𝐗 ̂ ti ) como una matriz (T-1)xK y calculados los
regresores como la diferencia entre los periodos
(xi2-xi1)t……(xiT-xiT-1)t.
Tiene una matriz de covarianzas, asumiendo independencia

entre los individuos como:

El supuesto básico radica en asumir que los términos de error

estocastico, εit, son vaiid [0,σ2ε ] o asume exógeneidad fuerte. Con
lo anterior, se calcula la diferencia rezagada del término de
error, es decir ∆ε̂i =(εit-εi,t-1) y se identifica como un proceso de
media móvil con un rezago, MA(1), con varianza 2σ2ε y un
periodo separado por autocovarianzas σ2ε para los individuos.
De lo anterior se concluye que V[∆σ2ε ] es igual a σ2ε multiplicado

por una matriz (T-1)x(T-1) con un valor de dos en la diagonal y
uno fuera de la diagonal.
Un supuesto más realista radica en asumir los términos de error,

εit, están correlacionados en el tiempo para un individuo i-esimo,
de modo que COV[εit,εit]≠0 para t≠s, pero independiente entre
individuos.
Para calcular esta premisa en necesario hallar un estimador que

sea más robusto y permita formas más generales de
autocorrelación y heterocedasticidad como:
En esta forma general se reemplaza la varianza estimada, V[∆σ2ε ],

por (∆ε̂i )t(∆ε̂i ).
Es importante resaltar que no se puede utilizar OLS para estimar

los términos de error estándar del modelo de primeras
diferencias ya que estos sólo son correctos en el improbable caso

que los términos de error, εit, sean un paseo aleatorio de modo

que (εit-εit-1) son vaiid.
Para el caso de dos periodos (T=2) las primeras diferencias y el

estimador within son iguales. Para demostrarlo suponga el caso
de un modelo de primeras diferencias de la forma:
Analizando únicamente la variable dependiente con dos

periodos (T=2) se tiene que la diferencia (yi1-yi2) es el valor en
primeras diferencias de la variable.
Ahora suponga un modelo within de la forma:
Al igual que el modelo anterior con dos periodos (T=2) se tiene

que:
(y +y ) (y −y ) (y −y )
y̅i= i1 2 i2 así que (yi1-y̅i)= i1 2 i2 y (yi2-y̅i)=− i1 2 i2
Pero (yi1-yi2)=(yi1-y̅i)-(yi2-y̅i) lo cual coincide con el estimador de

primeras diferencias. De forma similar aplica para los regresores
x.
Para valores superiores a dos periodos (T>2) los dos

estimadores difieren. Bajo el supuesto que εit son vaiid se puede
demostrar que el estimador GLS de primeras diferencias es igual
al estimador within.

̂FD calcula los parámetros del modelo por OLS. Sin

El estimador 𝛃
embargo, es menos eficiente que 𝛃̂W . Por esta razón el estimador
en primeras diferencias no es mencionado o trabajado en
modelos lineales. Es utilizado extensivamente cuando variables
rezagadas son incluidas en modelos panel, por ejemplo, paneles
dinámicos o no lineales.
En estos casos el estimador within (𝛃 ̂W ) se convierte en

inconsistente, aunque el estimador de primeras diferencias es
inconsistente permite a través de supuestos de exógeneidad
débil realizar estimación por variables instrumentales (IV).
ESTIMADOR CONDICIONAL DE MAXIMA VEROSIMILITUD

La estimación de máxima verosimilitud condicionada maximiza
la función de verosimilitud conjunta de y11,….,yNT condicionada
sobre los promedios individuales y̅1, y̅2,….., y̅NT. Este método tiene
el atractivo que para modelos paneles lineales, y bajo
normalidad, los efectos fijos, αi, son eliminados de modo que el
proceso de maximización es únicamente con respecto a los
parámetros de las pendientes, β.
Suponga que yit está condicionada sobre los regresores xit y los
parámetros αi, β y 𝛔2 son vaiid con distribución normal
t
N[αi+𝐱 it β,𝛔2]. Entonces la función de verosimilitud condicionada
es:

La primera igualdad define la verosimilitud condicionada

asumiendo independencia sobre los individuos (i). La segunda
igualdad demuestra que es una distribución de probabilidad
condicionada sobre los promedios de la variable dependiente, y̅.
La tercera desigualdad plantea la función de verosimilitud bajo
normalidad a ser maximizada.
El resultado clave radica en que para efectos fijos el parámetro

de intercepto, α, no aparece en la ecuación final de modo que
LCOND(β ,𝛔2, αi) es de hecho, LCOND(β,𝛔2) y puede ser maximizada
el logaritmo de la función de verosimilitud condicional con
respecto a β,𝛔2 únicamente.
El resultado del estimador de máxima verosimilitud

condicionada 𝛃 ̂CML resuelve las condiciones de primer orden
(CPO) de la forma:
O de forma equivalente:

Sin embargo, estas son las mismas condiciones para una

regresión OLS de (yit-y̅i) sobre (xit-x̅i). El estimador condicional
por máxima verosimilitud condicional 𝛃 ̂CML , por lo tanto, es un
equivalente de un estimador within, 𝛃 ̂w .
Intuitivamente, este método arroja estimadores consistentes

porque la función condicionada sobre el promedio de la variable
dependiente a través del tiempo elimina los efectos individuales
no observados (αi).
Más formalmente, y̅i es un estadístico suficiente para αi y

condicionado sobre un estadístico suficiente que permite
estimaciones consistentes de β.
ESTIMADOR DE MÍNIMOS CUADRADOS DE VARIABLES FICTICIAS

(LSDV)
Una variación de los modelos B o C permiten estructurar
variaciones a través de los individuos y en el tiempo por medio
del intercepto mientras las pendientes permanecen constantes.
Entonces, suponiendo dummies para cada individuo
t
representada yit=αi+γtds,it+𝐱 it +uit o el modelo a estimar de otra
manera es:

Donde las N dummies individuales dj,it son iguales a uno si el

individuo (i) es igual al intercepto (j), o mejor (i=j), e igual a
cero si son diferentes, (i≠j).
En otro escenario, las (T-1) dummies temporales ds,it son iguales

a uno si el periodo (t) es igual al rezago (s), o mejor (t=s), e igual
t
a cero si son diferentes, (t≠s). Se asume que 𝐱 it no incluyen
intercepto.
Este modelo tiene N+(T-1)+dim[x] parámetros que pueden ser

estimados consistentemente si N→∞ y T→∞
Si se utilizan en paneles cortos (N→∞ y T ̅) el análisis se puede

dividir en dos partes. La primera, los parámetros de efectos no
observados para los individuos (αi) implica un desafío dentro de
este proceso de estimación, ya que es necesario calcular los β
para N interceptos individuales (αi), debido a que al ser un panel
corto se busca identificar diferencias para una gran cantidad de
individuos (N→∞).
En algunos casos resolver este problema implica tener dummies

individuales para grupos de observaciones, por ejemplo, región,
ciudad, etc.
La segunda, si se desea efectuar un análisis two way, los

parámetros de rezago (δt) pueden ser consistente estimados de
modo que las (T-1) dummies son incorporadas dentro de los
t
regresores 𝐱 it .

Considere el modelo original de efectos fijos de la forma:
Antes de cualquier diferenciación. Un análisis por OLS puede ser

aplicado directamente al modelo, simultáneamente estimando α
y β. En principio no es necesaria una metodología especial.
Simplemente se estima yit sobre xit y un conjunto de N variables

indicadoras d1,it,….,dN,it donde dj,it es igual a uno si i=j e igual a
cero en otra parte.
Sin embargo, como N crece existen demasiados regresores para

permitir la inversión de la matriz X de tamaño (N+K)(N+K),esta
es otra característica del problema de parámetros incidentales.
Con algún tratamiento matricial el problema se reduce a la

inversa de una matriz KxK.
El estimador resultante de β por LSDV es igual al estimador

within. Este es un caso que aplica el teorema Frish Waugh12 para
un subconjuto de una regresión y derivar los parametros.
12 Supongamos que se particiona una matriz X, cuyo rango es k, en dos matrices X1 y X2, cuyos rangos son respectivamente r y k−r, de manera que:
Para obtener la fórmula del estimador OLS resulta útil dividir las ecuaciones normales XtXβ̂= Xty
Este sistema puede resolverse en dos etapas. Primero obteniendo una expresión para β̂2 de la forma Sustituyendo en la
primera ecuación permite obtener Agrupando términos se puede obtener que
Cuya solución es Que resulta ser es el estimador:
La matriz M2 es idempotente y simétrica por lo que: Y Es una matriz de
residuos de la regresión de X1 en las variables X2. De igual manera Por lo tanto, β̂1 es el conjunto de coeficientes que se
obtienen cuando los residuos de una regresión de y en las variables de X 2 se regresan a su vez en el conjunto de residuos obtenidos cuando cada
variable de X1 se regresa en las variables de X2.

Si las variables dummy están particionadas en la regresión y si

los residuos de esta regresión son utilizados en un segundo
estado de la regresión, entonces es posible estimar la regresión
completa. Pero los residuos generados son desviaciones de sus
respectivas medias, es decir, una regresión within.
Para observarlo algeraicamente, agrupe un vector TxQ sobre los

N individuos para resultar en el modelo de efectos fijos por
variables dummy de la forma:
También pueden ser escritos de la forma:
Donde y es un vector de tamaño NTx1, el producto Kroneker

(IN⊗1T) es una matriz NTxN de bloques diagonales y X es una
matriz de tamaño NTxK de regresores.
La estimación OLS de este modelo resulta en el estimador de

mínimos cuadrados de variables ficticias (LSDV). Desde un
punto de vista algebraico de la forma:

Donde la matriz de medias muestrales X ̅=[x̅1……, x̅N]t, x̅i=

̅=[y̅1,……, y̅N]t y̅i= (1/T) ∑Tt=1 yi . Utilizando la
(1/T) ∑Tt=1 xi , Y
fórmula de inversas particionadas y ejecutando el algebra
conduce a que:
Reexpresando la forma anterior en términos de sumatoria

implica que el estimador por variables dummy es igual al
estimador within, es decir, 𝛃 ̂LSDV = 𝛃
̂W . En ambos modelos
converge al siguiente estimador:
Este mismo análisis puede ejecutarse para las estimaciones de

efectos observados entre los estimadores de mínimos cuadrados
por variables dummy (LSDV) y el estimador within, es decir,
̂ LSDV = 𝛂
𝛂 ̂ W . En ambos modelos converge al siguiente estimador:
Para paneles cortos un problema radica, al igual que para el

estimador within, en como las estimaciones consistentes de β y α
no garantizan que existan N+K parámetros a estimar en la

medida que N→∞, es decir, el problema de parámetros

incidentales.
Es de observar que las estimaciones consistentes de β es posible

aunque α sea inconsistentemente estimados, a menos que T→∞.
Este estimador es eficientemente en su segundo momento si εit

son vaiid [0,σ2]. Resulta en el estimador within de β es más
eficiente que estimadores alternativos que eliminan αi, tales que
substraen la primera observación o periodo previsto de
observaciones.
Si adicionalmente los errores son normalmente distribuidos, el

estimador LSDV es igual al estimador por maxima verosimilitud
por la equivalencia usual de OLS y MLE en modelos lineales con
errores normales.
MODELOS DE EFECTOS FIJOS Y ALEATORIOS

Sea el modelo one way, de un factor o de media individual
(individual specific effects model) para una variable dependiente
escalar, yit, la cual permite a cada unidad de corte transversal
tener interceptos diferentes (αi), aunque todas las pendientes
(β) sean las mismas el cual se representa como:
Donde xit son los regresores, αi es el intercepto individual (i), εit

es el termino de error estocástico definidos como vaiid sobre
individuos (i) y tiempo (t).

Una atracción de los datos panel radica en la posibilidad de

ejecutar estimaciones consistentes de los parámetros al permitir
heterogeneidad individual no observada que puede estar
correlacionada con los regresores conocida como modelo de
efectos fijos (Fixed Effects o FE).
Con esta propiedad los términos de error pueden estar

correlacionados con los regresores xit y permite una forma
limitada de endogeneidad.
La forma de expresar el modelo B o C en términos de una

metodologia de estimación de efectos fijos (FE) parte de utilizar
dummies y consideradas como parte del intercepto para
individuos (i) y tiempo (t) e incluirlas en los regresores xit a ser
estimados por el método de LSDV o eliminar los interceptos para
cada individuo, αi, de este modo, asegura la consistencia del
estimador β en un panel corto (within).
Bajos otros supuestos y escenarios de trabajo el tratamiento de

la heterogeneidad individual no observada asume una
distribución independiente de los regresores y términos de error
(exogeneidad fuerte) vistos en los Efectos Aleatorios (Random
Effects).
En este caso, si los interceptos para cada individuo, o efectos

individuales no observados (αi), son variables aleatorias que
están distribuidos independientemente de los regresores (xit) y
pueden capturar la heterogeneidad no observada13,
13La heterogeneidad observada se refiere a diferencias entre individuos que son medidas a través de los regresores, y no observada se refiere a
otras diferencias no capturadas. En presencia de heterogeneidad no observada incluso individuos con los mismos valores de todas las variables
independientes pueden tener peligro de encontrarse en un estado determinado.

explícitamente asume que no existe correlación entre

observaciones y términos de error (supuesto de exógeneidad
fuerte o exógeneidad estricta14) en el proceso de estimación de
un modelo de efectos aleatorios (RE) las dummies hacen parte
del término de error afectando la estructura de la matriz de
covarianzas, y por tanto, el método de estimación que utilizará
metodologías FGLS .
En el modelo de efectos aleatorios (RE) los términos de error, εit,

se asumen vaiid sobre el modelo:
Es decir, en RE:
De este modo, el término de error asume media cero

condicionada sobre valores presentes, pasados y futuros de los
regresores, xit.
El modelo de efectos aleatorios (RE) usualmente hace el

supuesto adicional que:
Obsérvese que no existe una distribución de probabilidad

específica para los interceptos (αi) y términos de error (εit).
En el caso que los efectos fijos (FE) están presentes y

correlacionados con los regresores, xit, entonces los estimadores
minimo cuadráticos asociados, es decir, estimaciones OLS para
14 Bajo condiciones más flexibles, como exogeneidad débil permite incluir variales rezagadas en un modelo panel.

los modelos agrupados (pooled) y de efectos aleatorios (RE) son

inconsistentes.
Comparando el modelo de efectos fijos (FE) con el supuesto de

endogeneidad entre regresores y términos de error tiene la
ventaja de permitir estimaciones consistentes de parámetros,
incluyendo coeficientes que no varían en el tiempo pero
excluyendo aquellos que varian entre individuos.
TABLA EFECTOS FIJOS Y EFECTOS ALEATORIOS
TABLA. ESTRATEGIAS DE ESTIMACIÓN DE DATOS PANEL

MODELO
Estimacion de β Agrupado o Pooled Efectos aleatorios Efectos fijos
Agrupado/pooled Consistente Consistente/ineficiente Inconsistente
Between Consistente/ineficiente Consistente/ineficiente Inconsistente
Within Consistente Consistente Consistente
Primeras diferencias Consistente Consistente/ineficiente Consistente
Efectos aleatorios Consistente Consistente/ineficiente Inconsistente

Con lo anterior se pueden identificar varias características y

diferencias entre efectos fijos (FE) y efectos aleatorios (RE):
1. Las propiedades estadísticas de los paneles de datos varían
con el tratamiento de los efectos no observados. Por ejemplo,
si el supuesto de efectos aleatorios, o independencia entre
regresores y términos de error (exógeneidad fuerte o
estricta), no puede ser soportado por los datos a través de
las pruebas de hipótesis correspondientes, esta es la
principal razón para la elección del modelo de Efectos Fijos
(FE) como punto de partida.
2. El modelo de efectos fijos (FE) tiene el atractivo al permitir

establecer relaciones de causalidad bajo supuestos más
débiles que las que se necesitan para establecer la relación
de exogeneidad con datos de corte transversal o con
modelos de datos panel sin efectos fijos, como los modelos
agrupados (pooled) y modelos de efectos aleatorios.
3. Los supuestos de exógeneidad fuerte en efectos aleatorios

(RE) excluyen modelos con variables dependientes
rezagadas o variables endógenas como regresores15.
4. Los nombres efectos fijos (FE) y efectos aleatorios (RE) son

potencialmente engañosos ya que su principal diferencia
radica desde el punto de vista de la exógeneidad entre los
regresores, xit, y el termino error, 𝛆it. El efecto individual
visto como regresor (αi) o por medio de la modificación de
15 Chamberlain (1980) ofrece una discusión detallada de los supuestos y pruebas de exogeneidad para datos panel.

los términos de error (μi) es una variable aleatoria con

características iguales para los modelos FE y RE.
5. Para el calculo de los parámetros, β, en FE o RE parten del

principio de una forma lineal16:
E[yit|αi,xit]= αi+xitβ
El efecto específico individual αi es una variable aleatoria,
como se afirmó en el punto anterior, para ambos modelos.
En paneles cortos, los mas utilizados, no puede ser

consistentemente calculados, por las limitaciones en el
número de observaciones.
De este modo, no es posible estimar E[yit|αi,xit]

directamente. Para solucionar esta dificultad es posible
transformar αi tomando expectativas con respecto a xit, es
decir, condicionando sobre los regresores a la ecuación, de
la forma:
E[yit|αi,xit]= αi+xitβ
Para el modelo de efectos aleatorios (RE), la exógeneidad
entre regresores y términos de error permite afirmar que
E[αi|xit]=α, de este modo, E[yit|xit]=α+xitβ y es posible
identificar E[yit|xit].
En el modelo de efectos fijos (FE) E[αi|xit] varia con respecto

a xit, dado el supuesto de endogeneidad entre regresores y
16 Se acoge por este caso la notación de Wooldridge (2002).

términos de error, por tanto, no es conocido su valor y su

variación.
Así las cosas, en FE no es posible identificar E[yit|xit], sin

embargo, es posible consistentemente estimar β en paneles
cortos y calcular los efectos marginales:
El pronóstico, relacionado con el valor marginal de los

parametros, de la media condicional no es posible. En lugar
de ello, sólo cambios en la media condicional causados por
regresores variables en el tiempo se pueden pronosticar.
6. En paneles cortos el modelo FE permite únicamente la

identificación de efectos marginales ∂E[yit|ci,xit]/∂xit para
regresores que varían en el tiempo, de modo que regresores
que varian sobre los individuos como raza o género, por
ejemplo, no son identificados. En el modelo RE permite la
identificación de todos los componentes de β y E[yit|xit],
pero el supuesto de E[ci|xit] como una variable constante y
exógena es débil frente a aplicaciones realistas.
7. En el modelo de efectos aleatorios (RE) las estimaciones de

los componentes de la varianza por individuos (i) o
periodos (t) asumen el mismo intercepto y pendiente para
todos. La heterogeneidad no observada se representa en el
término de error y no debería estar correlacionada con los
regresores. La diferencia entre individuos (i) y periodos (t)
se presenta en la varianza de los términos de error, no en
los interceptos. Un modelo RE es estimado por GLS cuando

la matriz de covarianzas Ω entre grupos es conocida. El

FGLS se utiliza cuando Ω es desconocida, en la mayoría de
los casos.
8. Los coeficientes de efectos fijos de los regresores variables

en el tiempo (xt) son estimables pero pueden ser muy
imprecisos si la mayor parte de la variación en un regresor
corresponde a la sección transversal en lugar del tiempo. Es
decir, la variación between es mayor a la variacion within.
9. Incluso coeficientes de los regresores variables en el tiempo

pueden ser difíciles o teóricamente imposibles de identificar
en modelos no lineales con efectos fijos. Por estas razones,
también se utilizan modelos de efectos aleatorios, aunque la
interpretación causal puede ser entonces injustificada.
10. La estimación de efectos fijos es un análisis condicional, ya

que mide el efecto de xit sobre yit controlados en algun
sentido por el efecto individual no observado (αi). La
estimación de efectos aleatorios es en cambio un ejemplo de
análisis marginal ya que los efectos individuales se integran
como vaiid.
11. Si el verdadero modelo es efectos aleatorios (RE) y se desea

realizar un análisis condicional o análisis marginal variará
con la aplicación. Si el análisis es para una muestra aleatoria
de países entonces se utilizará efectos aleatorios. Si
intrínsecamente se está interesado en países en particular
en la muestra parte de efectos fijos y será la elección.

Aunque esto puede implicar una pérdida de eficiencia en la

estimación.
12. Si el modelo verdadero tiene efectos individuales

específicos (αi) correlacionados con regresores (xi) un
análisis de efectos aleatorios no es significativo ya que el
estimador es inconsistente. En cambio, estimadores
alternativos de efectos fijos (within-LSDV) y primeras
diferencias son necesarios. Debido al deseo de determinar la
relación de causalidad aplicaciones se enfatizan estos
últimos estimadores.
13. El enfoque de efectos fijos (FE) puede ser interpretado

como aplicable a grupos considerados en el estudio, pero no
a incluidos en la muestra. Cuando grupos son extracciones
muestrales de una población más grande, puede resultar
apropiado considerar que los efectos individuales no
observados están aleatoriamente distribuidos y es aplicable
un modelo de estimación de efectos aleatorios (RE).
ESTRATEGIA DE ANÁLISIS PANELES DE DATOS.

INFERENCIA ESTADÍSTICA DE PANELES CON ESTIMADOR DE

ERRORES ROBUSTOS
Varios modelos de datos panel incluyen términos de error. En
algunos escenarios es razonable asumir la independencia sobre
los individuos (i) dentro de la estructura panel.
Sin embargo, los términos de error potencialmente pueden estar

serialmente no correlacionados (correlacionados sobre el
tiempo, t y entrevindividuos) y/o ser heterocedasticos. Para
encontrar una inferencia estadística valida requiere controlar
ambos de estos factores.

Los estimadores consistentes por heterocedasticidad de White17

son fácilmente extensibles a paneles cortos puesto que para la
i-esima observación de la matriz de varianza del error es de
dimensión finita TxT mientras N→∞.
De esta forma, errores estándar robustos para datos panel

pueden ser obtenidos sin asumir formas funcionales específicas
dentro del error individual (within individual) o
heterocedasticidad.
El estimador más eficiente utiliza el método generalizado de

momentos (GMM)18
Es importante observar frecuentemente y con cuidado los

comandos de datos panel en programas econométricos donde
calcula por defecto el término de error asumiéndolos como una
vaiid conduciendo a inferencias erróneas.
En particular, la regresión OLS agrupada (pooled) de yit sobre xit

sin control de los efectos individuales es muy probable contenga
alguna correlación entre los términos de error en el tiempo,
COV[uit,uis]>0 para t≠s o entre individuos.
17Este estimador propuesto por White (1980) reconoce que en los errores de los modelos de regresión lineal pueden ser heterocedasticos, y
propone efectuar una corrección que calcula los residuos del modelo de la siguiente forma:
Son conocidos como heteroskedasticity-robust standard error.

18 El método generalizado de los momentos (GMM) es un instrumento de estimación de parámetros estadísticos la cual bajo supuestos no muy
restrictivos, son consistentes y con funciones de distribución fácilmente calculables. Los mínimos cuadrados ordinarios, mínimos cuadrados
generalizados, estimación en dos etapas e incluso (bajo algunos supuestos adicionales) máxima verosimilitud, pueden ser considerados casos
particulares de GMM. Otra de las características del método es que no requiere la especificación de una forma particular de distribución de las
variables aleatorias involucradas en el modelo que se estudia. A pesar de estas cualidades, las propiedades de los estimadores obtenidos por el
método generalizado de los momentos no son siempre buenas en muestra pequeñas.

Ignorar esta correlación serial puede conducir a varianzas más

pequeñas, y por tanto, sobreestimar los t estadísticos.
ERRORES ESTÁNDAR EN PANELES ROBUSTOS TIPO SÁNDWICH19

En algunos casos es posible efectuar transformaciones sobre los
modelos de datos panel estimados para encontrar una forma
común de tratamiento.
Los modelos pueden ser estimados por OLS. Sin embargo,

efectuadas las transformaciones correspondientes, pueden
incluir correlación serial y contemporánea.
El estimador por OLS del vector de parámetros del modelo

transformado, 𝛉̂, para efectos within por ejemplo, tiene la
siguiente expresión:
Para el caso del estimador de primeras diferencias (FDE) la

suma de periodos será desde t=2 a T. En este caso también es
necesario considerar la consistencia del estimador. Si el modelo
19Un estimador tipo sándwich hace referencia al relajamiento de supuestos a través de las observaciones para ser independientes a través de los
clusters de las observaciones. Su nombre se debe a que los términos de error estimado, e j, se encuentra entre las matrices (XtX)-1, las cuales a
medida que el tamaño de muestra crece comprimen el tamaño de los termos de error estimado, e j,.

está correctamente especificado entonces el álgebra OLS resulta

en:
Dada la independencia sobre los individuos (i) la condición

esencial para la consistencia radica en la independencia de los
̃ i, 𝐮
regresores y el término de error, E[𝐖 ̃ i]=0.
Este requiere el supuesto de exogeneidad fuerte entre los

̃ i|𝐰
regresores y el termino de error de la forma, E[𝐮 ̃ i]=0 . La
̂OLS es de la forma:
varianza asintótica de 𝛉
Dada la independencia de los errores sobre los individuos la

estimación es consistente para V[𝛉̂OLS]. Este modelo de datos
panel transformado es análogo al problema de corte transversal
̂OLS].
de obtener estimadores consistentes de V[𝛉
Sin embargo, si existen algún supuesto violado en los términos

de error deben implementarse estimadores panel robustos de la
matriz de varianza asintótica del estimador OLS agrupado
(pooled) del modelo transformado que puede controlar tanto la
correlación serial y la heterocedasticidad de la forma:

̂ i =𝐮
Donde 𝐮 ̃ i=𝐲̃i-Wiθ.
El estimador V ̂[𝛉̂OLS] asume independencia sobre los individuos.

Un caso representativo de paneles cortos encuentra creciendo el
numero de individuos, N→∞, y permite que la varianza de los
errores, V[uit], y su covarianza, Cov[uit,uis] varíe en los individuos
(i) pero no entre ellos.
Si dentro de la estructura de covarianzas, ademas se incluyen

dos periodos de tiempo t y s una reexpresión del estimador
̂[𝛉
V ̂OLS] es la siguiente20:
Donde 𝐮̂ it =𝐲̃it-𝐖 ̂. Este estimador también fue propuesto por

̃ it𝛉
Arellano (1987) para el estimador de efectos fijos (FE).
ERRORES ESTÁNDAR POR EL MÉTODO DE BOOTSTRAP21

El método de bootstrap proporciona un camino alternativo para
obtener errores estándar panel. El supuesto clave parte de
20 En STATA los errores estándar de panel robustos calculados por V ̂OLS] pueden utilizar estimaciones por OLS y ajustarles una metodología de
̂[𝛉
términos de error con cluster robusto seleccionando individuos como variable de cluster.
21 Es un método de simulación por remuestreo (resampling) que esencialmente es un experimento de simulación de Montecarlo donde la muestra
observada es tratada como la población. En otras palabras, cada iteración, de tamaño N, efectua una muestra con remplazamiento para
posteriormente obtener el cálculo de los estimadores. Este proceso se efectua K veces. Calculando el promedi de los estimadores permite calcular
el sesgo de cualquier estimador. Puede ser utilizado para obtener errores estándar, intervalos de confianza y p-values ara pruebas estadísticas.

asumir las observaciones independientes sobre los i-esimos

individuos.
Este método efectúa un procedimiento de remuestreo con

remplazamiento sobre los individuos (i) y utiliza todos los
periodos de tiempo observados para un individuo (i) dado.
Los datos {(yi,Xi)|i=1,…,N} resultan en muestras pseudo-

aleatorias y para cada muestra ejecuta una regresión OLS de 𝐲̃it
sobre 𝐰̃ it B veces, por tanto al final del proceso cuenta con B
estimadores 𝛉 ̂b , b=1,2…B.
El estimador de datos panel por bootsrtap calcula la matriz de

varianzas y covarianzas
Donde 𝛉̅
̂ =B-1∑Bb=1 𝛉
̂. Este método no proporciona refinamiento.
Dada la independencia sobre los individuos (i) el estimador es
consistente en la medida que los individuos crezcan, N→∞.
Es asintóticamente equivalente a estimar V ̂[𝛉̂OLS] y exactamente

igual al caso de corte transversal y asintóticamente equivalente
al estimador de heterocedasticidad consistente de White.
Este método puede ser aplicado a cualquier estimador panel que

cuenta con independencia sobre los individuos (i)22 y N→∞,
22 Se debe efectuar un remuestreo por bootstrap únicamente sobre los individuos (i) no sobre los individuos (i) y el tiempo (t).

incluyendo el estimador GLS para regresiones agrupadas

(pooled) de paneles cortos.
ERRORES ESTÁNDAR CORREGIDOS PARA PANEL (PANEL

CORRECTED STANDARD ERRORS - PCSE).23
Las bases de datos panel asumen una estructura diagonal en el
proceso de estimación en los términos de error a través de su
estructura de covarianzas.
En particular, y por lo general, se supone que para cualquier

individuo la varianza del error es constante, de modo que la
única fuente de heterocedasticidad es la varianza del error a
través de diferentes individuos.
Sin embargo, las bases de datos panel muestran a menudo

errores no esféricos debido a la correlación contemporánea y
heterocedasticidad a través de los individuos.
Dada esta condición de errores no esféricos en modelos para

datos panel lineales es común el uso de una metodología de
estimación por FGLS para mejorar la inferencia y estimación.
Sin embargo, Beck y Katz (1995) mostraron que estimaciones

FGLS tenían pocas propiedades de muestra finita.
En particular, en un estudio de simulación mostraron que los

errores estándar estimados para este modelo generan intervalos
de confianza significativamente pequeños y a menudo
23Para una introducción técnica pero fácil de entender sobre las propiedades de FGLS y PCSE, ver: Nathaniel Beck, “Time-Series-Cross-Section
Data: What Have We Learned in the Past Few Years?”, Annual Review of Political Science, 4: 271-93 (2001).

subestiman la variabilidad en un 50% o más, con aumentos en la

eficiencia pero que ignoran errores no esféricos.
Por lo tanto, Beck y Katz (1995) sugirieron la estimación de

modelos lineales de datos panel por mínimos cuadrados
ordinarios (OLS) y propusieron un estimador tipo sándwich de
la matriz de covarianza de los parámetros estimados, que
llamaron errores estándar del panel con corrección (PCSE), esta
es robusta a la posibilidad de errores no esféricos. Sea el modelo
panel de la forma:
Donde i=1,…,N son el numero de individuos y t=1,…,T son los

periodos. Para Ti es el número de periodos en el panel para el i-
esimo individuo y ϵit es la perturbación estocastica que puede
estar autocorrelacionada a lo largo del tiempo (t) o
contemporaneamente correlacionada a traves de los individuos.
Este modelo puede ser escrito de forma panel como:
Para un modelo con perturbaciones heterocedasticas y

correlación contemporanea pero sin autocorrelación, la matriz
de covarianza se asume como:

Donde σii es la varianza de las perturbaciones para el individuo i-

esimo, σij es la covarianza de las perturbaciones entre el
individuo i-esimo y el individuo j-esimo. Una forma más general
si el panel es o no balanceados puede ser escrito como:
Si no existe autocorrelación especificada los parámetros, β, son

estimados por OLS. Si se especifica autocorrelación los
parámetros, β, son estimados por regresiones Prais-Wisten.
Cuando existe autocorrelación con coeficientes de correlación

especificados cada nivel panel ρi es calculado con un coeficiente
común de correlación calculado como:
Donde ρi es el coeficiente de correlación estimada para el

individuo i-esimo y m número de paneles. La covarianza de OLS
o coeficientes Prais-Winsten es:
Donde Ω es la matriz de covarianza de las perturbaciones. Donde

los paneles son balanceados se puede escribir Ω como:

Donde Σ es una matriz de covarianzas NxN de perturbaciones.

Cada elemento de Σ se calcula como:
Donde ϵi y ϵi son los residuos para las estimaciones de las

matrices de covarianzas de los individuos i-esimo y j-esimo,
respectivamente, que puede ser ajustada periodo a periodo y
donde Tij es el número de residuos entre los individuos i y j.
IV. ESTRUCTURA DE PRUEBAS DE HIPOTESIS: ANALISIS DE

VARIANZA
Los datos panel proporcionan información sobre
comportamiento individual a través del tiempo (t) y los
individuos (i)24.
Para cada regresión lineal, el análisis de datos panel estándar

utiliza un rango mucho más amplio de modelos y estimadores
que en el caso de datos de corte transversal, por ejemplo.
24 Suponga se tiene observaciones muestrales de características de N individuos sobre T periodos con K variables explicativas denotados por y it,
xkit i=1,…,N, t=1,…..,T, k=1,…,K. Convencionalmente, las observaciones de la variable, y, son asumidas como resultados aleatorios de algún
experimento con una distribución de probabilidad condicionada sobre vectores de características x y un número fijo de parámetros Θ, f(y|x,Θ).
Cuando los datos panel son utilizados, una de sus principales objetivos es utilizar toda la información para efectuar inferencia sobre el vector de
parámetro Θ. Por ejemplo, un modelo puede postular a la variable, y, es una función lineal de x. Sin embargo, para ejecutar una regresión por
mínimos cuadrados con NxT observaciones se necesita asumir que los parámetros de la regresión toman valores iguales a todas las unidades
individuales para todos los periodos. Si este supuesto no es válido, las estimaciones agrupadas (pooled) pueden conducir a una falsa inferencia ya
que sus resultados no son consistentes.

Un modelo muy general para datos panel permite que varíen los
coeficientes asociados con el intercepto (α) y las pendientes (β)
sobre el individuo (i) y el tiempo (t), es decir:
Donde yit es una variable dependiente escalar, xit, es un vector de

Kx1 variables independientes, uit es un término de perturbación
estocástica, uit.
Sea el siguiente modelo para individuos (i) y tiempo (t), con las
siguientes características:
Este modelo es demasiado general en la medida que existen más

parámetros, NT(K+1) más el número caracterizando el término
de error, uit, que la disponibilidad de grados de libertad, NxT.
Además, deben incluirse restricciones adicionales en la medida

que parámetros de intercepto (αit) y pendiente (βit) varían
respecto a los individuos (i), el tiempo (t). Por tal motivo, es
necesaria una estructura de restricciones que debe ser impuesta
sobre la ecuación anterior, antes de efectuar cualquier
inferencia.
El primer paso de la exploración de datos parte de probar si los

parámetros que caracterizan el comportamiento aleatorio de la
variable endógena, yit, permanecen constante a través de los
individuos (i) y el tiempo (t).

Un procedimiento utilizado para identificar el origen de la

variación muestral es el análisis de varianza. El nombre “análisis
de varianza” o ANOVA posee categorías particulares para
contrastar pruebas de hipótesis lineales, además, se pueden
estipular valores esperados de una variable aleatoria, yit, y su
interacción en la estructura de dependencia (definiendo uno o
más factores) a la cual los individuos pertenecen25.
Por otra parte, modelos de análisis de varianza, en algunos casos,

son de carácter mixto involucrando variables exógenas, como lo
ejecutan los modelos de regresión, y al mismo tiempo, permiten
la relación de cada individuo yi como depende al factor al cual
pertenece.
Basado en el principio de análisis de varianza Walpole (2003),

suponga el siguiente modelo de la forma más general o no
restringido:
Donde α∗it y βit son vectores de parámetros de tamaño 1X1 y 1XK,

xit son regresores independientes y uit es el termino de error.
Dada las características del modelo anterior, y la necesidad de

incluir restricciones, dos aspectos de los coeficientes estimados
pueden ser contrastados a través de pruebas de hipótesis.
25En el procedimiento de análisis de varianza supone que cualquier variación que exista entre parámetros se atribuye a dos posibles causas. La
primera, variación en la absorción de un factor entre observaciones (within). La segunda, la variación entre (between) los factores.

El primero, la homogeneidad de todos coeficientes o las

̂, y la potencial combinación con la
pendientes de regresión, 𝛃
̂.
homogeneidad de todos los interceptos de regresión 𝛂
El procedimiento de prueba tiene tres (3) pasos a seguir y

probar por medio de contrastes de hipótesis de manera
conjunta:
1. Paso 1. Las pendientes los regresores, 𝛃 ̂, son las mismas.
2. Paso 2. Los interceptos, 𝛂̂ , son los mismos.
3. Paso 3. Las pendientes e interceptos son homogéneos entre
diferentes individuos (i) a través del tiempo (t).
Si la hipótesis de homogeneidad global no se rechaza (paso 1)

terminara en este punto.
Si la hipótesis es rechazada, es decir, no existe homogeneidad

entre pendientes (𝛂 ̂ ) e interceptos (𝛃̂), el segundo paso de
análisis es decidir si las pendientes de regresión (𝛃̂) son las
mismas (paso 2).
̂) no se
Si la hipótesis de homogeneidad de las pendientes (𝛃
rechaza entonces no es necesario el tercer paso.
Por último, si se rechaza la hipótesis del paso 2, se efectuá el

paso 3.

Es decir, se parte de un inicio de homogeneidad en el paso 1

hasta llegar a comprobar heterogeneidad en pendiente e
intercepto.
ESTRUCTURA DE CONTRASTE DE HIPÓTESIS EN UN MODELO DE

DATOS PANEL
Aunque este tipo de análisis puede ser ejecutado en varias

dimensiones, por ejemplo, individuos (i) y tiempo (t) o de dos
factores (two way), el análisis de varianza de un solo factor (one
way) es el más utilizado (individuos, suponiendo el factor
temporal igual a cero).

CONTRASTES DE PARAMETROS ESTIMADOS Y SUMA DE

CUADRADOS DE LOS RESIDUOS RESPECTO A LOS INDIVIDUOS
Basado en la estructura anterior de contrastes de hipótesis del
grafico anterior para encontrar heterogeneidad en un modelo de
regresión, se asumen los parámetros del intercepto constantes
sobre el tiempo (t) pero varían a través de los individuos.
De esta forma, se definirá el CASO 0, como un modelo de

regresión para cada individuo (i) en cada periodo de tiempo (t),
o modelo no restringido, de la forma:
Tres (3) tipos de restricciones pueden ser impuestas sobre el

modelo anterior asociados a los pasos iniciales:
CASO 1. H01 : Asociado al paso 1. Los coeficientes de pendiente de
la regresión, 𝛃̂, son los mismos y los interceptos no lo son
̂ i, es decir:
𝛂
CASO 2. H02 : Asociado al paso 2. Los coeficientes de interceptos

de la regresión, 𝛂 ̂ , son los mismos y las pendientes no lo
son 𝛃̂i, es decir:
CASO 3. H03 : Asociado al paso 3 de homogeneidad del modelo. Los

coeficientes de interceptos y pendientes son los mismos,
es decir:

El CASO 0 es el modelo no restringido. El CASO 1 es el modelo de

media individual.
Dado que tiene poco significado preguntar si los interceptos son

los mismos cuando las pendientes cambian se ignorara el CASO
2.
El CASO 3 es la regresión agrupada (pooled). Sean los promedios

aritméticos de los individuos (i) a través del tiempo (t) para los
regresores x, y la variable dependiente, y, respectivamente, se
tiene que:
Estimación del modelo no restringido. Las estimaciones de

mínimos cuadrados de 𝜷 y 𝛼𝑖∗ en el modelo no restringido, CASO
0, están dadas por:
En la terminología del análisis de varianza, la ecuación anterior,

se conoce como estimación entre grupos (within group
estimates). Dónde:
La suma de cuadrado de los residuos (RSSi) se define como:
La suma de cuadrados del modelo no restringido, o CASO 0, es:

Estimación de caso 1. La regresión del modelo de media

individual, es decir, los coeficientes de las pendientes de la
̂ , son las mismos y los interceptos no lo son 𝜶
regresión, 𝜷 ̂ i, tiene
los siguientes parámetros estimados:
Dónde:
Sea Wyy= ∑𝑁 𝑖=1 𝑊𝑦𝑦,𝑖 la suma de cuadrados de los residuos del

CASO 1, o el modelo de media individual, se define como:
Estimación de CASO 3. El modelo más restrictivo es un modelo

agrupado (pooled) donde se especifican coeficientes de
pendiente e intercepto constantes. El supuesto usual para
análisis de corte transversal, indica que:
La regresión por mínimos cuadrados agrupada (pooled

estimation) para el CASO 3, o los coeficientes de interceptos y
pendiente son los mismos y tienen los siguientes parámetros
estimados:
Dónde:

La suma de cuadrados de los residuos para este modelo son:
Si este modelo es correctamente especificado, y los regresores

están no correlacionados con el término de error (que determina
la utilización de efectos fijos o aleatorios), entonces puede ser
estimado consistentemente utilizando OLS agrupados (pooled).
Sin embargo, el término de error, en la mayoría de los casos, se

encuentra correlacionado a través del tiempo para un individuo
(i).
Además, el proceso de estimación por OLS no es recomendable

en la medida que pueden generar sesgos importantes26.
CONSTRUCCIÓN DE LAS PRUEBAS DE HIPÓTESIS

Bajo el principio de análisis de varianza, y utilizando la suma de
cuadrados de residuos de la regresión calculados en cada uno de
los casos anteriores, definidos como:
26 El estimador OLS agrupado (pooled) es inconsistente si el modelo de efectos fijos es apropiado.

S1: suma de cuadrados del residuo (SSR) del modelo no

restringido, o CASO 0
S2: suma de cuadrados del residuo (SSR) del modelo de
media individual, o CASO 1
S3: suma de cuadrados del residuo (SSR) del modelo
agrupado (pooled), o CASO 3
Bajo el supuesto adicional que el termino de error, uit, es una

vaiid y normal distribuida sobre los individuos (i) y en tiempo
(t) con media cero y varianza 𝜎𝑢2 , es posible efectuar una prueba
F que puede ser utilizada para contrastar las restricciones sobre
los modelos para el CASO 1, los coeficientes de pendiente de la
̂ , son los mismos y los interceptos no lo son 𝜶
regresión, 𝜷 ̂ i y el
CASO 3 los coeficientes de interceptos y pendiente son los
mismos.
El CASO 1 y CASO 3 pueden ser observados como el CASO 0, o

modelo no restringido, sujeto a restricciones lineales. Por
ejemplo, la hipótesis de interceptos heterogéneos pero
pendientes homogéneas (CASO 1) puede ser reformulado en una
prueba de hipótesis sobre el modelo no restringido, CASO 0,
sujeto a (N-1)K restricciones lineales donde se plantea la
siguiente prueba de hipótesis sobre los β dejando libres a los
interceptos:
La hipótesis de interceptos (α) y pendientes (β) homogéneas,

CASO 3, también puede ser estructurada en un modelo no
restringido, CASO 0, con (K+1)(N-1) restricciones lineales, es

decir, restringiendo en una prueba de hipótesis interceptos (α) y

pendientes (β) de la forma:
De este modo, las pruebas utilizadas en el analisis de varianza

(ANOVA) es equivalente a pruebas de hipotesis ordinarias, H0,
fundamentada en la estimación de modelos no restringidos y el
cálculo de la suma de cuadrados de los residuos (SSR) que
pueden incorporar restricciones lineales y efectuar las pruebas
de hipotesis correspondientes.
El calculo del estadistico para determinar la prueba de hipótesis,

H03 , o que los coeficientes de interceptos y pendientes son los
mismos, se divide en dos partes.
La primera, define la suma de cuadrados de los residuos (SSR)

del modelo no restringido, CASO 0 o S1, dividido entre la varianza
de los terminos de error del modelo agrupado (pooled), S1/𝜎𝑢2 ,
que se distribuye χ2 con NT-N(K+1) grados de libertad.
La segunda, mide el efecto de los individuos en el modelo y se

calcula como la diferencia entre la suma de cuadrados de los
residuos del modelo agrupado (S3) menos la suma de cuadrados
de los residuos del modelo no restringido (S1) o (S3-S1).
Es decir, lo que no explica el modelo agrupado (pooled) menos el

no restringido corresponde a la suma de cuadrados debido al
efecto de los individuos (i).

La razón (S3-S1)/𝜎𝑢2 se distribuye χ2 con (N-1)(K+1) grados de

libertad. Se asume que (S3-S1)/𝜎𝑢2 es independiente de S1/𝜎𝑢2 . La
división de las dos distribuciones χ2 es una distribución F de la
forma:
El estadístico para efectuar la prueba de contraste de interceptos

y pendientes comunes es F con (N-1)(K+1) y N(T-K-1) grados de
libertad.
El contraste se realiza sobre una distribucion F con (N-1)(K+1)

y N(T-K-1) grados de libertad y un nivel de confianza de (1-α),
(F(N-1)(K+1) y N(T-K-1)).
Si no es significativo, se agrupan los datos y estima una sola

ecuación, o el CASO 3, o mejor, no se puede rechazar la hipótesis
nula de interceptos y pendientes comunes, 𝐻03 , bajo el estadístico
de prueba F3.
Si el estadístico F3 es significativo se encontró no homogeneidad,

o se rechaza la hipótesis nula de homogeneidad (𝐻03 ), que puede
ser atribuida a dos causas. La primera, pendientes heterogéneas.
La segunda, interceptos heterogéneos.
El calculo del estadistico para determinar la prueba de hipótesis

H01 , o que los interceptos (α) son heterogéneos pero las
pendientes (β) son homogéneas, de divide en dos partes.

La primera, define la suma de cuadrados de los residuos del

modelo de media individual, S2, dividido por la varianza del
termino del error del modelo agrupado (pooled), S2/𝜎𝑢2 , que se
distribuye χ2 con N(T-1)-K grados de libertad.
La segunda, mide el efecto del intercepto en el modelo y se

calcula como la diferencia entre la suma de cuadrados de los
residuos del modelo de media individual, CASO 1, (S2) menos la
suma de cuadrados de los residuos del modelo no restringido
(S1) o (S2-S1).
Es decir, los residuos del modelo, S2, hacen explícito el

componente de intercepto individual, αi∗ , si se le resta el efecto
del modelo no restringido el resultado es el efecto del intercepto.
Por lo tanto, la razón (S2-S1)/σ2u se distribuye χ2 con (N-1)K
grados de libertad27. Se asume que (S2-S1)/σ2u es independiente
de S1/σ2u .
El estadístico F, como combinación de distribuciones

independientes χ2, para contrastar H01 , o los coeficientes de
pendiente de la regresión son los mismos y los interceptos no lo
son, está dado por:
El contraste se realiza sobre una distribucion F con (N-1)K y NT-

N(K+1) grados de libertad y un nivel de confianza de (1-α), (F(N-
1)K y NT-N(K+1)).
27La diferencia de la diferencia de (S2-S1) pueden ser deducidos sus grados de libertad dado que S1 tiene [NT-N(K+1)] y para S2 tiene [ N(T-1)-K].
La resta es (N-1)K grados de libertad

Si es significativo, es decir, no se puede rechazar la hipotesis nula

donde las pendientes de la regresión son las mismas y los
interceptos no lo son.
Si el estadistico F1 no es significativo, se puede rechazar la

hipotesis nula donde las pendientes de la regresión son las
mismas y los interceptos no lo son.
Por otra parte, se puede determinar el grado de no

homogeneidad en los interceptos. Si la hipótesis de interceptos
heterogéneos no se rechaza, conociendo de antemano que
existen pendientes homogéneas, H01 , CASO 1, se pueden aplicar
pruebas condicionadas para interceptos homogéneos, es decir:
dado
En este caso, dada la restricción sobre los parámetros de
pendiente (β), la suma de cuadrados del modelo de media
individual (coeficientes de pendiente de la regresión, 𝛃̂, son los
̂ i) se convierte en el modelo
mismos y los interceptos no lo son 𝛂
no restringido, S2, y como su versión restringida la suma de
cuadrados del modelo agrupado (pooled), S3.
La diferencia entre la suma de cuadrados de los residuos entre el

modelo agrupado (pooled) y el modelo de interceptos
heterogéneos pero pendientes homogéneas, revela su semejanza
estadística, es decir, (S3-S2).

Si la diferencia tiende a cero los dos modelos son equivalentes, si

la diferencia se incrementa existe un efecto significativo de los
individuos (i) en el modelo de media individual respecto al
modelo agrupado (pooled).
Bajo la hipótesis nula H4, la suma de cuadrados del residuo del

modelo agrupado o restringido, S3, dividido por el termino del
error del modelo no restringido, S3/σ2u , tiene una distribución χ2
con NT-(K+1) grados de libertad y la suma de cuadrados del
residuo del modelo de modelo de interceptos heterogéneos pero
pendientes homogéneas, S2/σ2u , tiene una distribución χ2 con
N(T-1)-K grados de libertad. La resta de los grados de libertad de
(S3-S2)/σ2u , tiene una distribución χ2 con N-1 grados de libertad28.
Dado que S2/σ2u es independiente de (S3-S2)/σ2u , la cual se

distribuye χ2 con N-1 grados de libertad su puede construir una
prueba F para H4 de la siguiente forma:
El contraste se realiza sobre una distribucion F con (N-1) y T(N-

1)-K grados de libertad y un nivel de confianza de (1-α), (F(N-1) y
T(N-1)-K;(1-α)).
CONTRASTES DE PARAMETROS ESTIMADOS Y SUMA DE

CUADRADOS DE LOS RESIDUOS RESPECTO AL TIEMPO
Alternativamente, es posible asumir que los coeficientes son
constantes a traves de los individuos en un periodo dado, pero
28 La diferencia de grados de libertad se puede calcular como: [NT-(K+1)]-[N(T-1)+K]=N-1

pueden variar sobre el tiempo tanto el intercepto (α∗t ) como las

pendientes (βt).
Es posibe efectuar una regresion separada para cada corte

trasnversal durante cada periodo de tiempo, de la forma:
Donde, de nuevo, se asume que uit es una vaiid con media cero y
varianza constante, σ2u .
De forma analoga al analisis de varianza (ANOVA), puede ser

ejecutado un metodo para contrastar la heterogeneidad de los
parametros de corte transversal sobre el tiempo.
De este modo, se puede probar la homogeneidad del intercepto y

las pendientes a traves del tiempo sobre la siguiente prueba de
hipotesis:
Efecutando la diferencia entre la suma de cuadrados del residuo

del modelo agrupado (S3) menos la suma de cuadrados del
residuo del modelo de coeficientes constantes a traves de los
individuos pero pueden variar sobre el tiempo tanto en el
intercepto (α∗t ) como en las pendientes (βt), S1´ , se tiene el
siguiente estadistico distribuido F:

El contraste se realiza sobre una distribucion F con (T-1)(K+1) y

NT-T(K+1) grados de libertad y un nivel de confianza de (1-α),
(F(T-1)(K+1) y NT-T(K+1);(1-α)), donde se define el calculo de la suma de
cuadrados del residuo del modelo con coeficientes constantes a
traves de los individuos pero pueden variar sobre el tiempo
tanto en el intercepto (α∗t ) como en las pendientes (βt), S1´ , de la
siguiente forma:
De manera similar, se puede contrastar la hipotesis de

interceptos heterogeneos en el tiempo (α∗t ), pero pendientes
homogeneas (βt) en el tiempo, bajo la siguiente prueba de
hipotesis:
Se calcula la diferencia entre la suma de cuadrados del residuo

del modelo con coeficientes constantes a traves de los individuos
pero pueden variar sobre el tiempo, S1´ , menos la suma de
cuadrados del residuo del modelo de media individual
modificado, en vez del promedio de los individuos el promedio
del tiempo para cada individuo, S2´ , donde:

Utilizando el siguiente estadistico F, una modificacion a F1 o la

prueba que contrastaba si los interceptos (α) son heterogéneos
pero las pendientes (β) son homogéneas entre individuos.
Ahora realiza la misma prueba sobre el tiempo en vez de los

individuos. El estadístico F es:
El contraste se realiza sobre una distribucion F con (T-1)K y NT-

T(K+1) grados de libertad y un nivel de confianza de (1-α), (F(T-
1)K y NT-T(K+1);(1-α)).
Tambien, dentro de estos contrastes temporales, es posible

contrastar la hipotesis de homogeneidad de los interceptos (α∗t )
condicionada sobre pendientes homogeneas (βt), es decir:
Se realiza la difencia entre la suma de cuadrados del residuo del

modelo agrupado menos la suma de cuadrados del residuo del
modelo de media individual modificado, en vez del promedio de
los individuos, el promedio del tiempo para cada individuo, S2´ .
Con estos resultados se tiene el estadístico de contraste

distribuido F de la forma:

El estadistico efectua un contraste con una distribucion F con (T-

1) y T(N-1)-K grados de libertad y un nivel de confianza de (1-
α), (F(T-1),T(N-1)-K;(1-α)).
En general, a menos que se efectuen las pruebas en ambas

secciones, es decir, corte trasnversal y serie de tiempo, e
indiquen el no rechazo de la homogeneidad de los coeficientes
de regresion de pendientes e intercepto, el agrupamiento no
condicionado (es decir, el modelo pooled o una sola regresion
por OLS utilizando todas las observaciones de corte transversal a
traves del tiempo) puede conducir a un serio sesgo dentro del
proceso de estimacion.
RESUMEN DE PRUEBAS DE HIPOTESIS Y CONTRASTES DE

HIPOTESIS

Pueden existir sutuaciones incomodas en los proceso de

contrastes de hipotesis.
Una posibilidad existe en el contraste de parametros e intercepto

comunes con variacion de los individuos y constante el tiempo
(F3) o contraste de parametros e intercepto comunes con
variacion del tiempo y constantes los indivuduos (F3´ ) se pueden
encontrar resultados opuestos con pruebas de hipotesis donde
no se rechaze la hipotesis de pendientes e interceptos
heterogeneos donde varian los individuos y es constante el
tiempo (F1) o varian el tiempo y estan constantes los individuos
(F1´ ).

Dada las hipotesis nula y alternativa que son de algun modo

diferente en los dos casos.
Peor aun, se puede rechazar la hipotesis sobre el supuesto de

homogeneidad utilizanto la razon F3 (F3´ ), pero entonces
encontrar a F1 (F1´ ) y F4 (F4´ ) que no pueden ser rechazadas en
sus hipotesis nulas, de modo que la existencia de heterogeneidad
indicada por F3 (F3´ ) no se puede salvar.
Este resultado es bastante apropiado en un nivel estadistico

formal, aunque en el menos formal pero nivel importante de
interpretacion de las pruebas estadisticas puede ser molesto.
V. CONTRASTES DE HIPÓTESIS EN DATOS DE PANEL

Los modelos de datos panel se clasifican en dinámicos o estáticos
según incluyan o no en sus ecuaciones variables pertenecientes a
diferentes periodos temporales. En la especificación estática, el
modelo de regresión de un solo factor (one way) supone que el
error aleatorio se descompone en uit=μi+ϵit. Donde cada μi es el
efecto individual (no observado) de cada individuo de corte
transversal, invariante en el tiempo29. El modelo a estimar es el
siguiente:
Yit=αi+xitβ+uit
La presencia del efecto fijo (FE) en esta ecuación hace que una
estimación de β por OLS no sea consistente y sea sesgada. Los
29Los interceptos para cada uno de los individuos, αi~(0,σ2α ), son variables aleatorias independiente e idénticamente distribuidas (vaiid) sobre los
individuos (i). El termino estocástico puro, ϵit~(0,σ2ϵ ), son variables aleatorias independiente e idénticamente distribuidas (vaiid) sobre los
individuos (i) y el tiempo (t), donde existe una condición de exogeneidad entre ellos, es decir, E[ϵit|αi]=0 ∀ i,j,t.

métodos que se utilizan para solventar ese problema son la

estimación de efectos fijos (FE) o entre grupos (within groups) y
la estimación de efectos aleatorios (RE) por Mínimos Cuadrados
Generalizados factibles (FGLS). La estimación de efectos fijos
(FE) puede llevarse a cabo transformando el modelo anterior en
otro en términos de las medias de grupo, es decir:
Y estimando por OLS, o también, mediante una estimación por

mínimos cuadrados de variables ficticias (LSDV), αi. En este
contexto, pueden plantearse los siguientes contrastes.
CONTRASTE DE EFECTOS INDIVIDUALES EN MODELOS DE

COMPONENTES DE ERROR DE UN SOLO FACTOR (ONE WAY)
La significancia conjunta de las variables dummys en un modelo
one way de efectos fijos (FE) debe demostrar que todos los
coeficientes asociados con el intercepto, α, son iguales a cero.
O mejor, no existe diferencia entre los N individuos visto a través

de sus valores en el intercepto de forma que puede ser
contrastada mediante la hipótesis nula y alternativa construida
de la siguiente manera:
H0: α1=α2=α3=…=αN=0
H1: αi ≠0
El estadístico de contraste es el siguiente:

Donde el RSSR es la suma de cuadrados de residuos (Residual

Sum of Squares) de la regresión que se obtiene de la estimación
OLS en el modelo agrupado (within) y el RSSU es la suma de
cuadrados de los residuos de la estimación por LSDV.
La distribución, con sus grados de libertad, para efectuar el

contraste de la hipótesis nula, H0, converge a una FN-1,N(T-1)-K.
MULTIPLICADORES DE LAGRANGE (LM) PARA CONTRASTAR

PRUEBAS DE EFECTOS ALEATORIOS
La prueba de Breusch y Pagan sobre un modelo de efectos
aleatorios (RE) consiste en identificar la existencia de
autocorrelación residual entre los términos de error de un
modelo estimado en distintos momentos del tiempo equivalente
a probar la existencia de efectos constantes en el término de
error.
La hipótesis nula en la prueba LM propuesta por Breusch y

Pagan (1980)30 para efectos aleatorios trata de demostrar como
las varianzas, a través de los individuos, o su heterogeneidad es
cero.
Es decir, no existe diferencia significativa a través de los

individuos (o no existe efecto panel). Puede ser escrito en
términos de pruebas de hipótesis como:
H0: σ2α =0
H0: σ2α ≠0
30 Paquetes estadísticos como STATA trabajan con las modificaciones efectuadas sobre esta prueba por Baltagi and Li (1990).

Trabajando a partir de estimaciones por máxima verosimilitud a

partir de la ecuación, yit=αi+xitβ+ϵit, se construye el estadístico
LM=LM1+LM2. Dónde se pueden construir los siguientes
estadísticos:
Siendo ϵ̂ los residuos de la estimación OLS de la ecuación

yit=αi+xitβ+ϵit, IN e IT son matrices identidad de tamaño N y T, las
matrices JT y JN son de tamaños T y N respectivamente.
El objetivo de la prueba es decidir entre una regresión con

efectos aleatorios (αi) y una regresión por mínimos cuadrados
(OLS) o regresión pooled.
La distribución, con sus correspondientes grados de libertad,

para efectuar el contraste de la hipótesis nula, H0, converge a una
χ12 .
De manera análoga, es posible decidir a través de un contraste

entre la regresión con efectos temporales (δt) o una regresión
por mínimos cuadrados (OLS) o regresión agrupada (pooled
regression). El estadístico de contraste es LM2, bajo la prueba de
hipótesis:
H0: σ2δ =0
H1: σ2δ ≠0


χ12 .
Cuando el valor del estimador sea mayor a aquel reportado en la

tabla de valores críticos de la distribución χ2 con un (1) grado de
libertad, bajo el nivel de significancia deseado, se rechaza la
hipótesis nula.
En ese caso se confirma la existencia de un componente fijo en el

error, y es necesario aplicar efectos aleatorios (RE) o alguna
metodología de efectos fijos (FE). Si por el contrario no es
posible rechazar la hipótesis nula, se asume que no existe un
término fijo en el error y se utiliza OLS.
ELECCIÓN DEL MÉTODO: ¿EFECTOS FIJOS O EFECTOS

ALEATORIOS?
El modelo de efectos fijos (FE) tiene la atracción de permitir
utilizar datos panel para establecer causación bajos supuestos
débiles de exógeneidad en comparación con aquellos donde se
utilizan supuestos fuertes como corte transversal, modelos
agrupados (pooled) y efectos aleatorios (RE).
En algunos estudios la causalidad es clara, de este modo los

efectos aleatorios (RE) es apropiada. En otros casos, determinar
esta causalidad puede ser insuficiente para utilizar un modelo de
efectos aleatorios (RE), y por tanto, para medir la correlación y
determinar una relación de causalidad, de este modo, permite
utilizar otras aproximaciones.

El modelo de efectos fijos (FE) tiene varias debilidades prácticas.

La estimación de los coeficientes de cualquier regresor que no
varia en el tiempo, xi, tales como la variable género, raza, etc., no
es posible absorbela dentro de algún efecto especifico en
particular.
Los coeficientes de regresión que varían en el tiempo son

estimables, pero las estimaciones pueden ser imprecisas si la
variación en el modelo panel en su mayoría corresponde al
componente de corte transversal (efecto between) sobre las
variables de tiempo.
La predicción de la media condicional no es posible. Únicamente

cambios en la media condicional causados por cambios en
regresores que cambien en el tiempo, xit, pueden ser
pronosticados.
Regresores de coeficientes que varían en el tiempo pueden ser

difícil o teóricamente imposible de identificar en modelos no
lineales con efectos fijos, por esta razón se utilizan efectos
aleatorios (RE).
La decisión acerca de la estructura apropiada reconociendo el

hecho de incorporar efectos individuales no observados para el
análisis sobre una base de datos panel, es decir, efectos fijos (FE)
o efectos aleatorios (RE) depende en parte de los siguientes
aspectos:
1. Objetivos del estudio. Si se desea hacer inferencia con
respecto a la población, es decir, trabaja con una muestra
aleatoria, lo mejor es utilizar una especificación del tipo

aleatorio. En caso, si el interés es limitado a una muestra

que se ha seleccionado a conveniencia, o bien, que se está
trabajando con la población, la estimación de efectos fijos
(FE) será la correcta.
Adicionalmente, si el interés particular está puesto en los

coeficientes de las pendientes (β) de los parámetros, y no
tanto en las diferencias individuales, se debería elegir un
método que relegue estas diferencias y tratar la
heterogeneidad no observable como efectos aleatorios.
El modelo de efectos fijos se ve como un caso en que hace

inferencia condicionada a los efectos que ve en la muestra.
El modelo de efectos aleatorios hace inferencia condicional
o marginal respecto a una población. Se deja al investigador
que decida si hace inferencia con respecto a las
características de una población o solo respecto a los efectos
que están en la muestra.
2. El contexto de los datos, es decir, cómo fueron obtenidos y
el entorno de donde provienen. Con el método de efectos
fijos (FE) la heterogeneidad no observable se incorpora en
el intercepto del modelo, mientras con el modelo de efectos
aleatorios (RE) se incorporan en el término de error, por lo
cual, modifica la matriz de covarianza del modelo.
3. Emplear un modelo de efectos fijos (FE) o aleatorios (RE)
genera diferencias en las estimaciones de los parámetros en
los casos en que se cuenta con ventanas de tiempo acotadas
o T pequeño y un número de entidades o individuos cada
vez mayor o paneles cortos (N→∞ y T ̅).

En estos casos, debe hacerse uso más eficiente de la información

para estimar esa parte de la relación de comportamiento
contenida en las variables que difieren sustancialmente de un
individuo a otro.
PRUEBA DE HAUSMAN
Esta prueba permite determinar qué modelo es el más adecuado
para una estructura de datos panel, si efectos fijos (FE) o efectos
aleatorios (FE).
Utiliza para ello una prueba χ2 con la hipótesis nula (H0)

afirmando que el modelo de efectos aleatorios (RE) es el que
mejor explica la relación de la variable dependiente (yit) con las
explicativas (xit), por tanto, tiene la hipótesis alternativa (H1)
que el mejor método que se ajusta es el de efectos fijos (FE).
Para efectuar la prueba es necesario elegir el método de

estimación de un modelo one way, el cual juega un papel
importante ya que puede incorporar la existencia de correlación
entre regresores (xit) y los términos de error (endogeneidad).
Por tanto, resulta arriesgado suponer que tal correlación no

existe, es decir, que E[uit|xit]=0, puesto que uit=μi+ϵit contiene
un individual no observado, que puede estar correlacionado con
los regresores xit, por tanto, conducir a estimadores
inconsistentes.
Cuando E[μi|xit]≠0 el estimador OLS para efectos fijos (FE) es

consistente. Si se desea efectuar hipótesis nula para demostrar lo
anterior se tiene que:

H0: [μi|xit]=0
H1: [μi|xit]≠0
Para este caso, tanto OLS como y FGLS son consistentes, siendo
FGLS el estimador lineal insesgado de varianza mínima.
El contraste de Hausman se utiliza para analizar la posible

correlación entre los efectos no observados que difieren entre los
individuos (μi) y los regresores, xit, de este modo, poder decidir
entre una estimación por efectos fijos (FE) o efectos aleatorios
(RE).
La prueba de hipótesis planteada es la siguiente:

H0: E[μi|xit]=0 El modelo de efectos aleatorios (RE) es el que
mejor explica la relación de la variable
dependiente con las explicativas.
H1: E[μi|xit]≠0 El modelo de efectos (FE) fijos es el que
mejor explica la relación de la variable
dependiente con las explicativas.
El estadístico de Hausman tiene la siguiente forma:
Como se puede observar, QFE,RE es el cociente del cuadrado de la

diferencia entre los dos estimadores de los parámetros 𝛃̂ de los
efectos fijos (FE) y aleatorios (RE) multiplicados por la
diferencia entre las varianzas de éstos.

Así, bajo la hipótesis nula H0, donde existe independencia del

efecto individual no observado (μi) y los regresores, tanto en el
modelo de efectos fijos (FE) como para efectos aleatorios (RE)
por estimación FGLS son consistentes.
Por tanto, deben tender al mismo valor cuando NT→∞, de modo

que la diferencia entre los estimadores debe ser pequeña.
Puesto que el estimador 𝛃̂RE es más eficiente que 𝛃

̂FE, implica que
la varianza del primer estimador es pequeña en comparación del
segundo estimador, por tanto, la diferencia entre las varianzas
debe ser grande.
La combinación de ambas características dará como resultado un

valor del estadístico QFE,RE cercano a cero (0), por tanto, sea
necesario rechazar la hipótesis nula.
Si, por el contrario, H0 no es cierta, es decir, no existe

independencia del efecto individual no observado (μi) y los
regresores, entonces el estimador por efectos fijos, 𝛃 ̂FE, es
̂RE, lo es.
inconsistente pero el estimador de efectos aleatorios, 𝛃
De este modo, debe existir una diferencia positiva y significativa

̂FE-𝛃
entre los valores de estos estimadores (𝛃 ̂RE). Esto implicará
que el valor del estadístico QFE,RE será alto rechazando la
hipótesis nula (Greene 2005).
Hausman y Taylor (1981) demostraron como la misma hipótesis

puede ser contrastada utilizando cualquier par de diferencias

̂FGLS-𝛃
𝛃 ̂FE o 𝛃
̂FGLS-𝛃
̂BE donde 𝛃
̂BE es el estimador de 𝛃
̂ mediante
estimación entre grupos o between.
La distribución de la prueba, con sus correspondientes grados de

libertad, para efectuar el contraste de la hipótesis nula, H0,
converge a una χ2NT .
Para el modelo de dos factores (two way), la prueba de Hausman

se basa igualmente en la diferencia entre el estimador de efectos
aleatorios por FGLS, 𝛃̂RE, y el estimador de efectos fijos, 𝛃
̂FE, con
variables dummy individuales (αi) y de tiempo (δt), sólo que la
equivalencia de los contrastes intercambiando los estimadores
̂FGLS, 𝛃
𝛃 ̂FE, 𝛃
̂BE no se mantiene en este caso, aunque otro tipo de
equivalencias han sido establecidas (Baltagi 2001).
CONTRASTES DE PENDIENTES IGUALES

Otra pregunta que se plantea en el análisis de datos panel es si
en necesario plantear un modelo donde las respuestas para
todos los individuos son iguales como, yit=αi+xitβ+uit, donde
todos los coeficientes de pendiente, β, son similares para todos
los individuos y para todos los periodos (modelo restringido)
O por el contrario, incluir una pendiente diferente para cada

individuo, μi, o para cada periodo de tiempo, δt, (modelo no
restringido), de modo que se tendría una ecuación de regresión
para cada individuo i-esimo de la siguiente forma:
yit=xitβi+uit

En este caso, la prueba de hipótesis radica en la decisión de

agrupar las respuestas de regresores, xit, vistos a través de los
parámetros de pendiente, β, para todos los individuos i-esimos.
O mejor, probar si las respuestas difieren entre individuos o no,

de modo que:
H0: βi=β ∀i=1,2,…..,N
H1: βi≠βj ∀i≠j
Si el término de error uit se distribuye N(0,σ2I), de forma

homocedastica, se puede construir el siguiente estadístico:
Donde e=(INT-X(XtX)-1Xt)y y ei=(IT-Xi(𝐗 ti 𝐗 i )-1𝐗 ti )yi, que es

precisamente una prueba F o test de Chow extendido al caso de
N regresiones lineales.

converge a una F(N-1)(K+1),N(T-K-1).
Para el caso con distribución de los errores uit heterocedastica, es

decir, cuando uit se distribuye N(0,Ω) , el estadístico F extendido
o de Chow no sigue una distribución F, y no es correcto utilizar
este test.

En este caso, si se puede escribir Ω=σ2Σ, basta con

−1/2
premultiplicar por 𝚺 las variables en el modelo yit=xitβi+uit y
aplicar al modelo transformado el test de Chow anterior.
El estadístico F para la prueba de Chow en el modelo

transformado contiene en su expresión la matriz de covarianzas
Σ, de modo que cuando ésta no es observable se deberá utilizar
un estimador consistente de Σ.

también converge a una F(N-1)(K+1),N(T-K-1).
CONTRASTE DE EFECTOS INDIVIDUALES Y DE TIEMPO EN

MODELOS DE COMPONENTES DE ERROR DE DOS FACTORES
(TWO WAY)
Un modelo de regresión de componentes de error de dos
factores (two way) incluye, además de un efecto individual
invariante en el tiempo, αi, un efecto común a todos los
individuos el cual captura efectos temporales o
macroeconómicos no observables, δt, en el componente de error
uit31. El modelo de regresión, es por tanto:
yit=αi+xitβ+δt+ϵit
El modelo de estimación entre grupos (within groups) conlleva
tomar promedios aritméticos en la ecuación anterior, tanto en
los individuos como en el tiempo, y transformar el modelo
anterior en:
yit-y̅i-y̅t+y̅=(x̅it-x̅i-x̅t+x̅)tβ+(ϵit-ϵ̅i-ϵ̅t-ϵ̅)
31El componente de intercepto para los individuos αi y el componente estocástico puro, ϵit, tienen los mismos supuestos que en el modelo de un
solo factor (one way), además, δt~(0,σ2ϵ ) es una vaiid para todo t y αi, δt y ϵit son independientes para todo i,j,t.

En este modelo de componentes de error de dos factores (two

way) puede también contrastar la significancia conjunta de las
variables dummies ejecutadas en la estimación por mínimos
cuadrados de variables dummy (LSDV), de forma similar a como
se indicó para los modelos de un solo factor (one way), para dos
los grupos de variables no observadas, individuos (i) y tiempo
(t). De este modo, la prueba de hipótesis del modelo de dos
factores (two way) se puede expresar como:
H0: α1=α2=α3=…=αk=0 y δ1=δ2=δ3=………=δT=0
H1: αi ≠0 ∀ i∈N o δ j ≠0 donde j∈T
El estadístico de contraste para este caso es:
Donde el RSSR es la suma de cuadrados de residuos (Residual

Sum of Squares) de la regresión que se obtiene de la estimación
OLS en el modelo agrupado y el RSSU es la suma de los cuadrados
de los residuos de la regresión entre grupos (within groups)
sobre la ecuación transformada por promedios aritméticos.

FN+T-2,(N-1)(T-1)-K.
Dada la estructura anterior de contraste de hipótesis, es posible,

además, efectuar pruebas de no tener efectos individuales
(αi=0), dada la existencia de efectos temporales (t), es decir:

H0: α1=α2=α3=…=αk=0 tal que δj≠0 donde j∈T

H1: αi ≠0 ∀ i∈N o δ j ≠0 donde j∈T
En este caso, la suma de cuadrados de residuos de la regresión,

RSSR, incluye únicamente los componentes no observados
temporales en la regresión:
yit-y̅i-y̅t+y̅=(x̅it-x̅i-x̅t+x̅)tβ+(ϵit-ϵ̅i-ϵ̅t-ϵ̅)
Mientras que la suma de cuadrados residuales de la regresión

within, RSSU. La distribución, con sus correspondientes grados
de libertad, para efectuar el contraste de la hipótesis nula, H0,
converge a una F(N-1),(N-1)(T-1)-K.
Obsérvese la diferencia entre la construcción de las pruebas de

hipótesis nula, contrastando efectos individuales en los modelos
de un solo factor (one way) y dos factores (two way):
H0: αi=0 i=1,2,…,N suponiendo que δt=0 para
t=1,2,….,T (One way)
H0: αi=0 i=1,2,…,N sabiendo que δt=0 para
t=1,2,….,T (Two way)
Mientras en el primero caso realiza una prueba de

heterogeneidad entre los individuos a través del intercepto
(αi=0) donde supone un efecto temporal, en el segundo caso
sabe de la existencia del efecto del tiempo (t) dentro de la
estructura de datos panel.
Esta es una diferencia radical en la construcción y el contraste de

la prueba hipótesis.

De forma análoga, se puede efectuar el contraste de hipótesis de

la significancia de efectos temporales (t) conociendo de
antemano la existencia de efectos de heterogeneidad individual
(αi≠0), donde se puede plantear la prueba:
H0: δ1= δ2=…………= δT= 0 sabiendo que αi≠0
H1: δj≠0
Donde la suma de cuadrados de residuos de la regresión, SSRR,

está dado por la regresión de la forma yit-yit-1=(xit-xit-1)tβ+(ϵit-ϵit-
1) y suma de cuadrados residuales de la regresión entre grupos
(within groups) procede de la regresión yit-y̅i-y̅t+y̅=(x̅it-x̅i-
x̅t+x̅)tβ+(ϵit-ϵ̅i-ϵ̅t-ϵ̅).

F(T-1),(N-1)(T-1)-K.
VI. DATOS PANEL EN STATA

Se muestran las siguientes salidas con su correspondiente
análisis en el programa STATA.

Estimador de efectos fijos (FE)

Sobre cada una de las salidas para el modelo FE se hace una
breve descripción de los conceptos y principales resultados.

Estimador de efectos aleatorios (RE)

Sobre cada una de las salidas para el modelo RE se hace una
breve descripción de los conceptos y principales resultados.
Prueba de Multiplicadores de Lagrange (LM)

La prueba LM permite decidir entre una regresión de efectos
aleatorios (RE) o por OLS. Es una prueba de Poolability.
La hipótesis nula de la prueba LM expone que las diferencias a

través de individuos es cero. Esto es, no hay una diferencia
significativa entre unidades (es decir, no afecta el panel). Frente
a la alternativa que hay una diferencia significativa entre las
unidades (es decir, afecta el panel)

H0: σ2α =0 (No existe un efecto individual no observado)

H1: σ2α ≠0 (Existe un efecto individual no observado)
Prueba de Hausman
Para decidir entre FE o RE se utiliza la prueba de HAUSMAN
donde la hipótesis nula radica en que el modelo a utilizar es
efectos aleatorios (RE) contra la alternativa de efectos fijos (FE).
La prueba en el modelo trasfondo determina estadísticamente

sobre los términos de error (Ui) si están correlacionados con los
regresores contra su hipótesis que no.
Es una prueba de exógeneidad entre los efectos individuales no

observdos y los términos de error.
Para efectuarla se implementa un modelo de efectos fijos (FE) y

se almacena las estimaciones. Luego se ejecuta un modelo de

efectos aleatorios (RE) y se almacena las estimaciones. Después

se ejecuta la prueba.
H0: Efectos individuales no observados (αi) están no

correlacionados con los regresores. Se utiliza un modelo RE
H1: Efectos individuales no observados (αi) están
correlacionados con los regresores. Se utiliza un modelo FE.
Hausman demostró que la diferencia entre los coeficientes de

efectos fijos y aleatorios (βFE-βRE) puede ser utilizada para
probar la hipótesis nula que los términos de error ui y las
variables X no están correlacionadas.
Así pues, la hipótesis nula de la prueba de Hausman parte de los

estimadores de efectos aleatorios (βRE) y de efectos fijos (βFE) no
difieran sustancialmente.

Si se rechaza la hipótesis nula, Ho, los estimadores difieren, y la

conclusión es efectos fijos (βFE) es más conveniente que efectos
aleatorios.
Si no se puede rechazar Ho, no existe sesgo de qué preocuparse y

es preferible efectos aleatorios que, al no estimar tantas
dummies, es un modelo más eficiente.
DIAGNÓSTICO Y ESPECIFICACIÓN DE MODELOS PANEL EN STATA
REGRESIÓN AGRUPADA (POOLED OLS)

El enfoque restringido de análisis de datos panel es omitir las
dimensiones del espacio y el tiempo de datos agrupados y sólo
calcular la regresión OLS. Este modelo se expresa:
Yit    1 X 1it   it (1)
Donde se encuentra la i-ésima unidad transversal en el periodo

t-esimo. Si se trata de explicar la variable respuesta o
dependiente con las variables independientes de la forma:
reg spend dem* divgov dis1 persinc* aper* popul*

EFECTOS ALEATORIOS (RANDOM EFFECTS)

El primer modelo (ecuación 1) supone el intercepto de la
regresión es la misma para todos los individuos. Sin embargo, es
probable que se necesite controlar el efecto individual.
El modelo RE permite suponer que cada unidad transversal tiene

un intercepto diferente. Este modelo se expresa como:
Yit  i  1 X1it   it (2)
Donde αi= μ+εi. Es decir, se supone una variable aleatoria con

un valor esperado α y una desviación vi. Sustituyendo en (2) se
obtiene:
Yit    1 X1it  i   it
(3)
Stata estima el modelo de efectos aleatorios con el comando
xtreg spend dem* divgov dis1 persinc* aper* popul*, re

Si se analiza el modelo anterior (ecuación 3), se observa que si la

varianza de μi es igual a cero, es decir, σ2u =0, entonces no existe
ninguna diferencia relevante entre el modelo pooled (ecuación
1) y el modelo de efectos aleatorios (ecuación 3).
¿Cómo se puede determinar si es necesario utilizar el modelo de

efectos aleatorios (RE) o de datos agrupados (pooled)?
Breusch y Pagan formularon la prueba conocida como Prueba de

Multiplicador de Lagrange (LM) para efectos aleatorios (RE) la
cual en su hipótesis nula, Ho, afirma que no existe un efecto
individual no observado, (H0: σ2α =0), frente a la alternativa de
existe un efecto individual no observado (H1: σ2α ≠0).
La prueba de Breusch y Pagan se implementa en Stata con el

comando xttest0 después de la estimación de RE.

xttest0
Con el p-value y la probabilidad que se encuentra en la región de

rechazo indica que se puede rechazar la hipótesis nula Ho de “no
existen efectos individuales no observados”. Por lo tanto, los
efectos aleatorios (RE) son significativos y es preferible utilizar
este método en vez del procedimiento agrupado (pooled).
EFECTOS FIJOS (FIXED EFFECTS)

¿Cómo se puede permitir que el intercepto varíe con respecto a
cada individuo? Existen dos opciones. La primera, utiliza el
modelo LSDV por el cual estima una dummy para cada individuo
de la siguiente manera:
Yit  i  1 X1it  eit (4)
Stata utiliza el comando:
xi: reg spend dem* divgov dis1 persinc* aper* popul* i.stcode

La segunda utiliza el estimador within con el comando xtreg.

xtreg spend dem* divgov dis1 persinc* aper* popul*, fe

¿Cuál de los modelos pooled (ecuación 1) o de efectos fijos

(ecuación 4) es el apropiado?
El modelo pooled (1) esta restringido, pues asume un intercepto

común para todos los individuos. Por lo tanto, para compararlo
con un modelo de efectos fijos (FE) estimados por LSDV se
puede utilizar una prueba estadística tipo F.
La prueba plantea la hipótesis nula como Ho: d1=d2=…..=di=0. Es

decir, todas las variables dicotómicas son iguales cero frente a la
alternativa, Ha, al menos una variable dicotoma es distinta de
cero.

Si la prueba se rechaza, significa que al menos una variable

dicotómica es distinta de cero. Por tanto, es necesario utilizar el
método de efectos fijos (FE).
La prueba F de significancia de los efectos fijos (FE) se reporta

automáticamente con el comando xtreg, fe. Al final de la salida de
la estimación de efectos fijos (FE) aparece:
El p-value indica que se puede rechazar la hipótesis nula, Ho, de

“todos los coeficientes son iguales al cero” por lo que es
preferible utilizar el método de FE frente al modelo agrupado.
EFECTOS FIJOS vs. ALEATORIOS

Las pruebas de Breusch y Pagan para efectos aleatorios, y la
prueba F de significancia de los efectos fijos indican que tanto el
modelo de efectos aleatorios (RE) como el de efectos fijos (FE)
son adecuados frente al modelo agrupado (pooled) o determinar
estadísticamente si se incorporan o no los efectos indivuales no
observados.
¿Pero cómo decidir cuál de los dos usar? La respuesta depende

de la posible correlación entre el componente de error individual
vi y las variables explicativas X.
La prueba de Hausman se implementa en Stata después de la

regresión con efectos aleatorios con el comando hausman:

estimates store FIXED

xtreg spend dem* divgov dis1 persinc* aper* popul*, re
estimates store RANDOM
hausman FIXED RANDOM
En este ejemplo, se rechaza la hipótesis nula. Es decir, la

diferencia entre los coeficientes de efectos aleatorios (RE) y fijos
(FE) sí es sistemática. Por lo tanto, conviene utilizar el método
de efectos fijos (FE).
EFECTOS TEMPORALES (TWO-WAY FIXED EFFECTS).

La incorporación de variables dicotómicas permite modelar
características de unidades transversales que no cambian en el
tiempo pero que sí afectan el resultado de interés.
Ahora bien, también, de forma indirecta, es posible agregar

variables dicotómicas temporales al modelo. Es decir, una para
cada año en la muestra, que capturen eventos comunes a todas
las entidades durante un período u otro.
Agregando efectos temporales, la ecuación (4) se transforma en:

Yit  vi   t  1 X 1it   it (5)
Donde δt representa un vector de variables dicotómicas para

cada año.
Estas variables dicotómicas permitirán controlar por aquellos

eventos a los que fueron sujetos todos los individuos en un año
dado y, al igual que los efectos fijos, pueden reducir sesgos
importantes.
En Stata se pueden incorporar efectos temporales al modelo de

efectos fijos con el comando xi.
xi: xtreg spend dem1 demmaj1 demgov divgov dis1 persinc*

aper* popul* i.year, fe
(Producto omitido por tamaño)
O bien, generando tanto las dummies de estado como de año,
xi: reg spend dem1 demmaj1 demgov divgov dis1 persinc* aper*
popul* i.stcode i.year
Al igual que con los efectos por individuos, se puede realizar una
prueba F para conocer la significancia conjunta de las variables
dicotómicas temporales en el modelo.

La hipótesis nula parte de δ1= δ2=…..=δn=0. En este ejemplo,

luego de estimar un modelo con efectos fijos por individuo y
tiempo, se indica en la ventana de comando:
testparm _Iyear_1951 - _Iyear_1989
El p-value de la prueba F indica que rechaza la hipótesis nula, Ho,

por lo que es posible afirmar que las variables dicotómicas
temporales son conjuntamente significativas y pertenecen al
modelo.
PRUEBAS SOBRE LA ESTRUCTURA DEL MODELO PANEL

Es importante señalar que aun cuando se ha intentado modelar
la heterogeneidad temporal y espacial, la ecuación (5) puede
estar mal especificada en otros aspectos.
De acuerdo con los supuestos de Gauss-Markov, los estimadores

OLS son BLUE o MELI siempre y cuando los términos de errores,
εit, sean independientes entre sí y se distribuyan idénticos con
varianza constante σ2.
Con frecuencia estas condiciones son violadas en datos panel.
HETEROSCEDASTICIDAD
Cuando la varianza de los errores de cada unidad transversal no
es constante, se encuentra con una violación de supuestos
iniciales de la estructura de estimación panel.

ESTRUCTURA DE LOS TÉRMINOS DE ERROR
Una forma de saber si la estimación tiene problemas de

heteroscedastidad es a través de la prueba del Multiplicador de
Lagrange de Breusch y Pagan.
Sin embargo, de acuerdo con Greene (2005), ésta y otras

pruebas son sensibles al supuesto sobre la normalidad de los
errores.
Afortunadamente, la prueba Modificada de Wald (WALD*) para

Heterocedasticidad funciona aún cuando dicho supuesto es
violado.32
La hipótesis nula de esta prueba parte de no existe problema de

heteroscedasticidad, es decir, σ2i =σ2 para todo i=1…N, donde N
es el número de unidades transversales.
32 Para una discusión sobre esta prueba, consulta Greene, W. 2000. Econometric Analysis. Upper Saddle River, NJ: Prentice Hall, p. 598.

Naturalmente, cuando la hipótesis nula, Ho, se rechaza, se tiene

un problema de heteroscedasticidad. Esta prueba puede
implementar en Stata con el comando xttest3 después de estimar
el modelo de efectos fijos:

xttest3
La prueba indica que se rechaza la hipótesis nula, Ho, de

varianza constante y no se rechaza la hipótesis alternativa Ha de
heteroscedasticidad.
CORRELACIÓN CONTEMPORÁNEA
Las estimaciones en datos panel pueden tener problemas de
correlación contemporánea si las observaciones de ciertas
unidades están correlacionadas con observaciones de otras
unidades en el mismo periodo de tiempo.
Como se observó en la sección sobre heterogeneidad, las

variables dicotómicas de efectos temporales se incorporan al
modelo para controlar los eventos que afectan por igual a todas
las unidades en un año dado.

La correlación contemporánea es similar, pero con la posibilidad

de algunas unidades estén más o menos correlacionadas que
otras.
El problema de correlación contemporánea se refiere a la

correlación de los errores de al menos dos o más individuos en el
mismo periodo t.
En otras palabras, se tienen errores contemporáneamente

correlacionados si existen características no observables de
ciertos individuos que se relacionan con las características no
observables de otros individuos.
Por ejemplo, errores de dos individuos pueden relacionarse pero

mantenerse independientes de los errores de los demás.
El comando xttest2 de Stata ejecuta la prueba de Breusch-Pagan

para identificar problemas de correlación contemporánea en los
residuales de un modelo de efectos fijos.
La hipótesis nula, Ho, afirma la existencia de independencia

transversal (cross-sectional independence). Es decir, los errores
entre unidades son independientes entre sí.
La prueba de hipótesis parte de determinar la matriz de

correlación de los residuales, obtenida sobre las observaciones
comunes a todas las unidades transversales, e identificada como

una matriz identidad de orden N, donde N es el número de

individuos33.
Si la hipótesis nula Ho se rechaza, entonces existe un problema

de correlación contemporánea. El comando xttest2 se
implementa después de un modelo de efectos fijos (FE). En este
ejemplo:
xttest2
Breusch-Pagan LM test of independence: chi2(1081) =

4106.551, Pr = 0.0000
Based on 17 complete observations
El p-value del estadístico χ2 indica que se puede rechazar la

hipótesis nula. Por tanto, también es necesario corregir el
problema de correlación contemporánea.
AUTOCORRELACIÓN
La independencia se viola cuando los errores de diferentes
individuos están correlacionados (correlación contemporánea),
o cuando los errores dentro de cada individuo se correlacionan
temporalmente (correlación serial) o ambos.
En este ejemplo, es muy probable que el nivel de gasto (spend)

en t esté asociado con el nivel de gasto (spend) en t-1.
33 Para una discusión de esta prueba, consulta Greene, W. 2000. Econometric Analysis. Upper Saddle River, NJ: Prentice Hall, p. 601.

Existen muchas maneras de diagnosticar problemas de

autocorrelación.34
Sin embargo, cada una de estas funciona bajos ciertos supuestos

sobre la naturaleza de los efectos individuales.
Wooldridge desarrolló una prueba flexible basada en supuestos

mínimos. La hipótesis nula de esta prueba parte de la no
existencia de autocorrelación. Naturalmente, si se rechaza, se
puede concluir que ésta sí existe.35
El método de Wooldridge (2002) utiliza los residuos de una

regresión de primeras diferencias, observando que si los
términos de error, εit, no está serialmente correlacionados,
entonces la correlación entre los errores εit diferenciados para el
periodo t y t-1 es igual a -0.5.
El comando xtserial requiere que se especifiquen la variable

dependiente e independientes del modelo. En este ejemplo:
xtserial spend dem1 demmaj1 demgov divgov dis1 persinc* aper*

popul*, output
34 Muchas de las pruebas que se utilizan para diagnosticar problemas de correlación serial en series de tiempo han sido ajustadas para aplicarse a
datos tipo panel en Stata. Estas pruebas puedes bajarlas por internet del modulo “PANELAUTO” y “PANTEST2” tecleando en la línea de comando:
ssc install panelauto y ssc install pantest2.
35 Para una discusión más amplia de esta prueba, consulta Wooldridge, J. M. 2002. Econometric Analysis of Cross Section and Panel Data.
Cambridge, MA: MIT Press.

La prueba indica que existe un problema de autocorrelación que

es necesario corregir.
Una manera de hacerlo es a través de un modelo de efectos fijos

(FE) con término (ρ) autorregresivo de grado 1 (AR1) que
controla la dependencia del tiempo( t) con respecto a su valor
rezagado (t-1).
El modelo AR1 con efectos fijos se especifica de la manera:

Yit  vi  1 X1it  i   it
Donde 𝛆it=𝛒𝛆it-1+𝛈it, es decir, los errores tienen una correlación

de primer grado, que se determina a partir del coeficiente ρ.
Donde |ρ|<1 y εit es una vaiid con media cero y varianza 𝜎𝜀2 . La
selección del modelo RE o FE utiliza los mimos supuestos que
modelos anteriores sobre el componente individual no
observado (αi).
El comando xtregar de STATA ajusta una regression cuando los

terminos de error tiene un componente autoregresivo de primer
orden.
Este comando ofrece un estimador within para efectos fijos (FE)

y un estimador GLS según Baltagi-Wu36, el cual extiende el
estimador panel proporcionado en Baltagi-Li37 a un caso de
paneles desbalanceados con desigualdad de observaciones.
Ambos estimadores ofrecen distintas estimaciones del

coeficiente de correlación ρ. El modelo AR1 es ejecutable en
Stata de la forma:
xtregar spend dem* divgov dis1 persinc* aper* popul*, fe
36Baltagi, B. H., and P. X. Wu. 1999. Unequally spaced panel data regressions with AR(1) disturbances. Econometric Theory 15: 814–823.
37Baltagi, B. H., and Q. Li. 1991. A transformation that will circumvent the problem of autocorrelation in an error-component model. Journal of
Econometrics 48: 385–393.

¿CÓMO SOLUCIONAR LOS PROBLEMAS DE HETEROGENEIDAD,

CORRELACIÓN CONTEMPORÁNEA, HETEROSCEDASTICIDAD Y
AUTOCORRELACIÓN?
Los problemas de correlación contemporánea,
heteroscedasticidad y autocorrelación examinadas pueden
solucionarse conjuntamente con estimadores de Mínimos
Cuadrados Generalizados Factibles (Feasible Generalizad Least
Squares ó FGLS), o con Errores Estándar Corregidos para Panel
(Panel Corrected Standard Errors ó PCSE).38
38Para una introducción técnica pero fácil de entender sobre las propiedades de FGLS y PCSE, ver: Nathaniel Beck, “Time-Series-Cross-Section
Data: What Have We Learned in the Past Few Years?”, Annual Review of Political Science, 4: 271-93 (2001).

Beck y Katz (1995) demostraron que los errores estándar de

PCSE son más precisos que los de FGLS. Desde entonces,
distintos trabajos utilizan PCSE en sus estimaciones para panel.39
En este ejemplo sobre el gasto estatal, se han detectado

problemas de heteroscedasticidad, correlación contemporánea y
autocorrelación. Para corregir estos problemas se ejecuta:
El comando de STATA xtpcse calcula estimaciones panel

corregidas por desviación estándar (PCSE) para modelos panel
donde los parametros son estimados por regresión de la forma
Prais-Winten. Cuando se calculan los errores estándar de la
matriz de covarianza se suponen provienen de paneles
correlacionados contemporáneamente y heterocedasticos.
xi: xtpcse spend dem1 demmaj1 demgov divgov dis1 persinc*

aper* popul* i.stcode i.year, correlation(ar1)
ó también el comando:
xi: xtgls spend dem1 demmaj1 demgov divgov dis1 persinc* aper*
popul* i.stcode i.year, panels (correlated) corr(ar1)
39 Hasta la fecha, el debate entre FGLS y PCSE continúa, y ya se han desarrollado algunos métodos alternativos. Para propósitos de este curso, vale
la pena estimar ambos métodos y comparar resultados.

Un Buen resumen se observa en las dos siguientes tablas. La

primera, presenta la estrucutra metodológica de trabajo y las
pruebas estadosticas a implmentar. La segunda, expone los
comandos mas utilizados bajo distintos supuestos.
METODOLOGIA DE TRABAJO Y PRUEBAS
Stata ejecuta FGLS y PCSE con los comandos xtgls y xtpcse

respectivamente para solucionar estos problemas.
Las opciones que ofrecen estos comandos dependen de los

problemas detectados en las pruebas que se han revisado.
La siguiente Tabla presenta los comandos que se pueden

ejecutar cuando se encuentren con problemas de correlación
contemporánea, heteroscedasticidad, autocorrelación y sus
combinaciones.
Por ejemplo, si las pruebas sólo detectaron problemas de

heteroscedasticidad, entonces los comandos son:
xtgls […] , p(h)
xtpcse […] , het.

Si existen problemas de heterocedasticidad y correlación

contemporánea, entonces los comandos son:
xtgls […] , p(c)
xtpcse […]
COMANDOS DE STATA APLICABLES
Estos comandos no calculan automáticamente efectos fijos (FE),

por lo que en caso de ser necesario, se debe incluir variables
dummy con el comando xi.
MODELOS DE DATOS PANEL NO LINEALES

Los métodos de estimación e inferencia de panel de datos, dadas
sus características, son más complicados que los modelos de
corte transversal o series temporales. Los errores estándar en
las estimaciones de paneles de datos necesitan ser ajustados
debido a que cada periodo de tiempo adicional no es
independiente del periodo anterior, y por tanto, requieren el uso
de modelos más ricos y métodos de estimación más potentes.
PANEL DINÁMICO BINOMIAL NEGATIVA

En algunos casos sobre datos de conteo se demuestra que la
varianza excede la media (Cameron and Trivedi 2005). Para
modelos de datos de conteo panel el propósito es modelar la
sobredispersión a través de la distribución binomial negativa y

un estimador asociado de los parámetros. El estimador de

Máxima verosimilitud no es consistente cuando las variables
explicativas están en un contexto dinámico o en modelos de
datos panel con variables de conteo como estrictamente
exógenas. Su principal aplicación recae en economía de la salud y
modelos de patentes. En la literatura académica, aunque existen
desarrollos y aproximaciones, en la actualidad no existe una
metodología clara de implementación de modelos paneles
dinámicos sobre datos de conteo modelados binomiales
negativos.
PANEL DINÁMICO TOBIT

La metodología TOBIT trabaja sobre modelos censurados y
truncados de regresión. Este tipo de modelos generalmente
aplica cuando la variable explicativa es continua pero la masa de
probabilidad tiene uno o más puntos restringidos. Dentro de la
literatura se reconocen modelos truncados, cuando las
observaciones se encuentran fuera del rango específico y están
totalmente perdidas dentro de la selección de la muestra, los
modelos censurados, por otra parte, dentro del espacio muestral
se encuentran representado de alguna manera dentro de alguna
de las variables explicativas. La representación de la variable
dependiente es de la siguiente forma:
y ∗ si y ∗ > 0
y={
0 si y ∗ ≤ 0
La metodología de estimación generalmente utiliza técnicas por

máxima verosimilitud (MLE), sin embargo, tiene deficiencias
sobre efectos individuales y observaciones iniciales.

Adicionalmente, tiene una alta complejidad que en algunos casos

lo hace inmanejable (HSIAO Pag. 259). Otros autores Arellano
Bowe, Labeaga (1999) han desarrollado metodologías
alternativas pero no han alcanzado una importante acogida
dentro de la comunidad académica por su complejidad
computacional.
PANEL DINÁMICO POISSON

La metodología XTDINAMPOISSON es un programa que estima
modelos dinámicos de datos de conteo utilizando regresiones de
Poisson en un ambiente agrupado. En el modelamiento de datos
de conteo, donde existe una naturaleza no lineal producida por
resultados de su variable dependiente como discreta y no
negativa (y=m>0), el método generalizado de momentos GMM
es implementado40. Su aplicación principalmente se destina a
las aplicaciones hacia economía de la salud y riesgo operativo.
Esta modelo, con el objetivo de incluir estructuras panel, realiza
el agrupamiento o clustering para la estimación de los
parámetros. Se asume que las observaciones sobre los
individuos provienen de la misma familia (cluster) y están
correlacionados con otros individuos, pero no existe agrupación
entre diferentes clusters. En un contexto panel se puede asumir
que las observaciones sobre el mismo individuo son las mismas
en dos periodos distintos de tiempo. Adicionalmente, se incluye
una estructura panel sobre instrumentos GMM con la selección
de rezagos, en este caso un periodo. Los resultados son
estimadores consistentes en una estructura agrupada. Aunque
esta metodología desarrollada por Hansen (1982) es potente en
40 El estimador de Variables Instrumentales (IV) es un caso especial del Método Generalizado de Momentos (GMM)

sus resultados, en algunos casos puede generar sesgo, en

particular con muestras pequeñas, regresores altamente
persistentes en su estructura dinámica y cuando los
instrumentos GMM son predictores débiles de las variables
endógenas. Algunos autores resaltan el efecto positivo de el
feedback dinámico sobre el problema de inflación de ceros, y por
tanto, colaborar en la solución de la sobredispersión (Cameron &
Trivedi).
Dentro del programa se incluye una prueba de identificación y el

estadístico de Wald. En relación al primero, en el Contexto GMM,
las restricciones de sobreidentificación pueden ser probadas
empleando el estadístico J de Hansen (1982) que evalúa la
idoneidad del modelo. Rechazar la hipótesis nula implica que los
instrumentos seleccionados no satisfacen las condiciones de
ortogonalidad requeridas para su empleo, con el siguiente
estadístico:
PANEL PROBIT MULTINOMIAL ORDENADO

La metodología REGOPROB es un programa que estima
MODELOS GENERALIZADOS PROBIT ORDENADOS CON
EFECTOS ALEATORIOS. La característica de estos modelos parte
de tomar en la variale dependiente un ordenamiento donde
valores mas altos corresponde a un mayor resultado, es decir, si
se tiene una escala de 1 a 5, 5 es mayor que 4, 4 mayor que 3, y
así sucesivamente. Aplicaciones de estos modelos se encuentran
en medición de bienestar o modelos de riesgo de crédito. El
modelo generalizado relaja el supuesto de regresiones

paralelas41 sobre modelos probit estándar al soportar

restricciones lineales y permite parcialmente especificar
variables independientes (nl) o de todas las variables
explicativas (pl). La función de verosimilitud para cada unidad
utiliza un método de optimización numérica por cuadratura
Gauss-Hermite42, regoprob es una generalización de goprobit.
VII. VENTAJAS Y DESVENAJAS DEL MODELO DE DATOS

PANELES
La técnica de datos panel presenta una serie de ventajas y
desventajas en comparación con los modelos de series de tiempo
y de corte transversal. Las más relevantes son las siguientes
ventajas:
1. Permite disponer de un mayor número de observaciones
incrementando los grados de libertad y reduciendo la
colinealidad entre las variables explicativas y, en última
instancia, mejorando la eficiencia de las estimaciones
econométricas.
2. Permite capturar la heterogeneidad no observable ya sea
entre unidades individuales de estudio, como en el tiempo.
Con base en lo anterior, la técnica permite aplicar una serie
de pruebas de hipótesis para confirmar o rechazar dicha
heterogeneidad y cómo capturarla.
3. Los datos panel suponen, e incorporan en el análisis, el
hecho que los individuos, firmas, bancos o países son
41 Este supuesto parte que todas las razones de probabilidad (odds ratio) son las mismas evaluando la variable dependiente sobre cualquier valor
de m (y=m). también se conoce como supuesto de proporcionalidad de razones de probabilidad. En términos prácticos, suponga un modelo con
variables de edad y escolaridad. Este supuesto indica que cambios en la edad tiene el mismo efecto sobre las razones de probabilidad que
escolaridad.
42 El método de quadratura Gauss-Hermite, constituye una variante de considerable importancia en la técnica general de interpolación pues
permite optimizar el cálculo efectivo de integrales sobre intervalos incluso infinitos. La principal funcionalidad es la solución eficaz de integrales.
Las Cuadraturas Mecánicas o de Gauss demuestran la existencia de cuadraturas estableciendo su forma explícita para intervalos finitos de
integración. La extensión de estos métodos a intervalos infinitos fue realizada posteriormente por los franceses Legendre, Laguere, Hermite y
otros.

heterogéneos. Los análisis de series de tiempo y de corte

transversal no tratan de controlar esta heterogeneidad
corriendo el riesgo de obtener resultados sesgados.
4. Permite estudiar de una mejor manera la dinámica de los
procesos de ajuste. Esto es fundamentalmente cierto si se
analiza el grado de duración y permanencia de ciertos
niveles, características o efectos (por ejemplo, medidas
regulatorias, pobreza, desempleo, etc.).
5. Permite elaborar y probar modelos relativamente
complejos de comportamiento en comparación con los
análisis de series de tiempo y de corte transversal. Un
ejemplo claro de este tipo de modelos, son los referencias a
medir niveles de eficiencia técnica por parte de unidades
económicas individuales (empresas, bancos, etc).
6. Una ventaja de la metodología de paneles de datos es el
incremento en la precisión de estimación. Este es el
resultado del incremento en el número de observaciones
combinando o agrupando (pooling) distintos periodos de
tiempo para cada individuo. Sin embargo, para validar la
inferencia estadística se necesita controlar la probable
correlación de errores del modelo de regresión sobre el
tiempo para un individuo. En particular, la forma usual de
estimación por mínimos cuadrados de los errores standard
en una regresión agrupada por OLS (pooled) típicamente
exagera las ganancias en la precisión, conduciendo a
subestimar errores estándar y t estadísticos que pueden ser
exagerados.
7. Los datos panel tienen la posibilidad de estimaciones
consistentes del modelo de efectos fijos, los cuales permiten
que la heterogeneidad individual no observada pueda estar

correlacionada con los regresores (endogeneidad). Tal

heterogeneidad no observada conduce al sesgo por
variables omitidas que debe ser corregido por métodos de
variables instrumentales (IV) utilizando únicamente una
sola sección de corte transversal (t=1), pero en la práctica
es difícil obtener un instrumento válido. Los datos panel
cortos ofrecen un camino alternativo, como se observó
anteriormente, para proceder si un efecto especifico
individual no observado es asumido e invariante en el
tiempo.
8. Proporcionan la posibilidad de generar pronósticos más
acertados para resultados individuales que las series
individuales aisladas. Si el comportamiento individual es
similar sobre ciertas variables, lo datos panel proporcionan
la posibilidad de aprender el comportamiento individual,
observando el comportamiento de otros, adicionalmente, la
información temporal de su comportamiento individual
(variación between y within). De esta forma, es más
ajustada que la utilizada si existiera una descripción del
comportamiento individual obtenida por los datos
agrupados (pooling data).
Desventajas:
1. En términos generales, las desventajas asociadas a la técnica
de datos panel se relacionan con los procesos para la
obtención y el procesamiento de información estadística
sobre las unidades individuales de estudio, cuando esta se
obtiene por medio de encuestas, entrevistas o utilizando
algún otro medio de levantamiento de los datos. Ejemplos
de este tipo de limitaciones son cobertura de la población de

interés, porcentajes de respuesta, preguntas confusas,

distorsión deliberada de las respuestas, etc., que causa
impacto en la construcción y balanceo de las bases de datos,
errores y variables omitidas.
2. El poder de los datos panel radica en la capacidad de aislar
efectos de acciones específicas, tratamientos o políticas.
Para cumplir con este propósito debe estar condicionado
con la estructura de datos. La información utilizada puede
demostrar cómo cada uno los i-esimos agentes económicos
a través del tiempo (t) pueden ser influenciados desde
diferentes factores, la lista puede ser infinita, de tal forma,
que es necesario permanezcan aquellos factores que se
creen tiene un impacto significativo. Sin embargo, si factores
de efectos individuales o específicos en el tiempo existen
entre los cortes transversales o las series de tiempo no son
capturadas por las variables explicativas puede conducir a
heterogeneidad en los parámetros en la especificación del
modelo. Ignorar tal heterogeneidad conduce a estimaciones
inconsistencias o sin sentido. Esto es conocido como sesgo
de heterogeneidad. Se pueden observar desde dos puntos
de vista (HSIAO 2003).
Caso 1. Interceptos heterogéneos (αi≠αj), pendientes

homogéneas (βi=βj).

Las elipses con líneas punteadas representan el punto de

dispersión (nube de puntos) para un individuo sobre el
tiempo, y la línea recta punteada representa las regresiones
individuales. Las líneas solidas sirven para demostrar la
regresión por mínimos cuadrados (OLS) ejecutada por el
modelo de panel de datos. Cada una de las figuras 1.1, 1.2 y
1.3., expone un sesgo para la metodología de datos
agrupados (pooled) debido a la heterogeneidad de los
interceptos. En cada uno de estos casos una regresión
agrupada (pooled) ignora la heterogeneidad de los
interceptos, y no debería ser utilizada. Adicionalmente, el
sesgo de la pendiente general estimada, o la línea gruesa, no
puede ser determinada de forma a priori.
Caso 2. Interceptos heterogéneos (αi≠αj) y pendientes

heterogéneas (βi≠βj).

Los puntos de dispersión, como en las figuras 1.1. y 1.2., no

se muestran y los números en círculos significan las
unidades individuales (i) donde la regresión ha sido
incluida en el análisis. Por ejemplo, en la figura 1.4., un
agrupamiento sencillo de las NT observaciones, asumiendo
parámetros idénticos para todas las unidades de corte
transversal conduciría a resultados sin sentido en razón a
que representaría un promedio de coeficientes que difieren
en gran medida a través de los individuos (i). La figura 1.5.,
tampoco tiene sentido en una figura agrupada, causado por
la falsa inferencia en la relación agrupada (pooled) ya que
su forma es curvilínea para efectuar un adecuad
agrupamiento de los individuos, de este modo, el supuesto
de homogeneidad no tiene sentido.
BIBLIOGRAFIA
Cameron, C. & P. Trivedi. Microeconometrics: Methods &
Applications, Cambridge U. Press, 2005
Hilbe, J. Negative Binomial Regression. 2006
Hsiao, C. Analysis of Panel Data. Editorial: Cambridge University
Press. 2003
Long, J. Scott. Regression Models for Categorical and Limited
Dependent Variables. 1997.
Wooldridge, J. Econometric Analysis of Cross Section and Panel
Data. 2002
Winkelmann, R. Econometric Analysis of Count Data. Springer.
2008.


ANALISIS DE SERIES DE TIEMPO

UNIVARIADA

INTRODUCCIÓN
En 1970, Box y Jenkins desarrollaron un cuerpo metodológico
destinado a identificar, estimar y diagnosticar modelos dinámicos
de series temporales en los que la variable tiempo juega un papel
fundamental, conocidos como modelos ARIMA.
La metodología de análisis ARIMA es sólo una pequeña parte de

lo que se conoce normalmente como “Econometría de Series
Temporales” pero, sin duda alguna, una de las más utilizadas y
germen de otros muchos desarrollos posteriores.
Esta metodología permite que los propios datos temporales de la

variable a estudiar indiquen las características de la estructura
probabilística subyacente y ayuden a pronosticar (su meta
principal).
La utilización de modelos ARIMA es principalmente para

pronóstico a corto plazo, descartando la comprensión estructural
del fenómeno o la simulación de escenarios.
Los procedimientos se han contrapuesto a la llamada

“econometría estructural”, es decir, a la especificación de modelos
econométricos apoyada en las teorías subyacentes.
Sin embargo, hoy en día estos conceptos y procedimientos

constituyen una herramienta para apoyar y complementar los
conocimientos econométricos tradicionales que es un modo
alternativo de “hacer econometría”.

COMPOSICIÓN DE PATRONES SISTEMÁTICOS Y ESTOCÁSTICOS

El enfoque de análisis temporal de una serie descansa siempre, en
mayor o menor medida, en la idea genérica que una serie
temporal de datos puede dividirse en componentes parciales que
agregados conforme un esquema de suma o multiplicación y
configuran el aspecto global de la serie observada.
Suele así afirmarse que cualquier serie de datos temporales

proviene de la agregación de cuatro patrones de evolución de sus
datos: tendencia, ciclo, estacionalidad y componente estocástico o
no sistemático.
SERIE COMPUESTA POR TENDENCIA, ESTACIONALIDAD Y

COMPONENTE ALEATORIA

Ciclo: Patrón de evolución que revela cierta propensión de la serie

a repetir a muy largo plazo una misma secuencia de
comportamientos tendenciales.
Por ejemplo....
Ciclos de crecimiento intertrimestral de la economía americana puede señalarse
que, a principios de 2000, el ciclo económico de crecimiento no había
terminado.
10%
8%
6%
4%
2%
0%
-2%
-4%
1970
1975
1980
1985
1990
1995
2000
Componente de tendencia: Generalmente asociado con el cambio
en la media a lo largo del tiempo. Se identifica la tendencia con el
patrón de evolución sostenido a medio o largo plazo por encima
de la existencia de movimientos a corto plazo.

Por ejemplo....
La representación de los índices bursátiles DOW JONES, IBEX y NIKKEI revelan
en el caso del DOW JONES e IBEX la tendencia de la cotización de los índices ha
sido creciente durante los últimos 15 años y especialmente acelerada desde
mediados de 1995.
Estacionalidad: Patrón de evolución de la serie que se repite de

forma más o menos invariable en momentos similares de espacio
temporal, generalmente un año.
Por ejemplo....
Observando la serie mensual de ventas de artículos de navidad puede comprobarse
como existe una marcada estacionalidad, especialmente en el período de finde año.
250000
200000
150000
100000
50000
1995
1996
1997
1998
1999
2000

Innovación, componente aleatorio o no sistemático: Porción no

sistemática del comportamiento temporal de una serie, o al
menos movimiento que no puede catalogarse como estacional,
tendencial y/o cíclico.
La idea básica del análisis de series de tiempo consiste en que

cada uno de estos componentes puede ser analizado de forma
separada para posteriormente, agregar los análisis parciales en
un resultado conjunto.
En ocasiones, el análisis se centra sólo en alguno de los

componentes sistemáticos por separado (tendencia,
estacionalidad, ciclo).
En otras ocasiones, como es el caso del modelamiento de series

de tiempo, lo que interesa es ir más allá de los componentes
cíclicos, tendenciales y estacionales, estudiando el componente
no sistemático, de carácter aparentemente aleatorio, para tratar
de identificar algún patrón de interés en su evolución que ayude a
entender la progresión de la serie completa.
Así pues, la aplicación de modelos de series de tiempo suele

realizarse por descomposición, analizando en primer lugar la
tendencia de la serie, pasando después a observar la
estacionalidad y concentrándose después en la identificación del
componente estocástico o no sistemico.

SERIE DE TIEMPO Y PROCESOS ESTOCÁSTICOS

Un proceso estocástico es una sucesión de variables aleatorias Yt
ordenadas, pudiendo tomar t cualquier valor entre el intervalo
abierto (-, ).
Por ejemplo, la siguiente sucesión de variables aleatorias puede

ser considerada como proceso estocástico:
Y -5 , y-4 , y-3 , y-2 ,........ y3 , y4
El subíndice t no tiene, en principio, ninguna interpretación a
priori, aunque si se habla de proceso estocástico en el contexto
del análisis de series de tiempo este subíndice representará el
paso del tiempo.
PROCESO ESTOCASTICO
Definición. Proceso estocástico. Conjunto de variables aleatorias

(Yt)t∈I , donde el índice t toma valores en un conjunto I. Llamamos
trayectoria del proceso a una realización del proceso estocástico.
Si I es discreto, el proceso es en tiempo discreto. Si I es continuo,
el proceso es en tiempo continuo.

Una serie de tiempo es una realización de un proceso estocástico

teórico con valores discretos ajustado a una serie real. El análisis
de series de tiempo tratará, a partir de un modelo teórico inferir
las características de la estructura probabilística subyacente del
verdadero proceso estocástico conocido como proceso generador
de datos (PGD).
Definición. Serie de tiempo. Es la realización de un proceso

estocástico en tiempo discreto donde los elementos de I están
ordenados y corresponden a instantes equidistantes del tiempo.
Es decir:
Si I = {1, . . . , n}, la serie es y1, y2, . . . , yn;
Si I = ℕ, la serie es y0, y1, y2, . . . ,;
Si I = ℤ, entonces la serie es . . . , y−2, y−1, y0, y1, y2....
Una serie temporal describe la evolución aleatoria de una

variable en el tiempo.
PROCESO ESTOCÁSTICO ESTACIONARIO EN SENTIDO FUERTE.

Suponga que cada una de las variables Yt que configuran un
proceso estocástico tendrán su propia función de distribución con
sus correspondientes momentos.
Así mismo, cada conjunto de variables tendrá su correspondiente

función de distribución conjunta y sus funciones de distribución
marginales de probabilidad.
Se dice que un proceso estocástico es estacionario en sentido

estricto o fuerte si las funciones de distribución conjuntas (no
sólo la esperanza, varianzas o autocovarianzas, sino las funciones

de distribución conjunta de probabilidad completas) son

constantes, o dicho con más propiedad, son invariantes con
respecto a un desplazamiento en el tiempo (variación de t).
Definición. Proceso estocástico estacionario en sentido fuerte. Un

proceso es estacionario en sentido estricto si al realizar un mismo
desplazamiento en el tiempo de todas las variables de cualquier
distribución conjunta finita, resulta que esta distribución que no
varía, es decir:
Para todo conjunto de índices (i1, i2, ..., ir) y todo j.
PROCESO ESTOCÁSTICO ESTACIONARIO EN SENTIDO DÉBIL

La definición de estacionariedad en sentido estricto puede
relajarse sustancialmente utilizando la denominada
estacionariedad en sentido débil. Se dice que un proceso
estocástico es débilmente estacionario si:
a. Las esperanzas matemáticas de las variables aleatorias no
dependen del tiempo, son constantes:
E[ Y t ] = E[ Y t+m ]  m
b. Las varianzas son constantes y no dependen del tiempo (son
finitas):
Var[ Y t ] = Var[ Y t+m ]    m
c. Las autocovarianzas entre dos variables aleatorias del
proceso correspondientes a períodos distintos de tiempo
(distintos valores de t) sólo dependen del lapso de tiempo
transcurrido entre ellas:

Cov( Y t ,Y s ) = Cov( Y t+m ,Y s+m )  m

De esta última condición se desprende que si un fenómeno es
estacionario sus variables pueden estar relacionadas linealmente
entre si, pero de forma que la relación entre dos variables sólo
depende de la distancia temporal k transcurrida entre ellas.
Definición. Proceso estocástico estacionario en sentido débil. Un

proceso estocástico estacionario en sentido débil existe si
mantiene constantes todas las características de sus momentos a
lo largo del tiempo, es decir, si para todo t:
PROCESO ESTOCÁSTICO RUIDO BLANCO (WHITE NOISE)

En este contexto, un proceso ruido blanco es una sucesión de
variables aleatorias (proceso estocástico) con esperanza
matemática nula (cero), varianza constante, y autocovarianzas
nulas para distintos valores de t. Es un caso particular de un
proceso estacionario en sentido débil.
Definición. Proceso estocástico ruido blanco. Es un proceso

estacionario εt que cumple las siguientes características:

Se puede interpretar un proceso estocástico ruido blanco como

una sucesión de valores sin relación alguna entre ellos, oscilando
en torno a una media cero dentro de un margen constante.
Si además yt, proceso estocástico ruido blanco, es un proceso

normalmente distribuido, entonces todas las variables del
proceso son independientes. En este caso, (Yt) se llama ruido
blanco normal o gaussiano.
En este tipo de procesos implica que conocer valores pasados no

proporciona ninguna información sobre el futuro ya que el
proceso es puramente aleatorio, por consiguiente, carece de
memoria, también es conocido como procesos de memoria corta.
GRAFICO. PROCESO RUIDO BLANCO

PROCESO ESTOCÁSTICO PASEO ALEATORIO (RANDOM WALK)

Suponga un proceso estocastico que se encuentra definido como
un paseo aleatorio y está determinada su forma funcional por:
Este Yt es un tipo de proceso estocástico no estacionario (existen

cambios en su media y varianza a lo largo del tiempo).
Esto implica que el efecto de cualquier suceso que ocurra en el

pasado se queda para siempre impactando la dinámica de la serie,
también es conocido como procesos de memoria larga.
Esta es una diferencia clave respecto a los procesos estacionarios,

donde el impacto de lo ocurrido en el pasado remoto tiende a
desaparecer, en la medida en que los parámetros estimados se
hacen sucesivamente más pequeños.
GRAFICO. PROCESO PASEO ALEATORIO

Definición. Función de medias. La función de medias de un

proceso estocástico (Yt)t∈I es una función de t que proporciona
las esperanzas de las variables Yt para cada periodo t.
Definición. Función de varianzas. La función de varianzas de un

proceso estocástico (Yt)t∈I es una función del tiempo (t) que
proporciona las varianzas de las series Yt para cada t.
Definición. Función de autocovarianzas. La función de

autocovarianzas de un proceso estocástico (Yt)t∈I es una función
que describe las covarianzas entre las variables del proceso en
cada par de instantes. Por ejemplo:
Definición. Función de autocorrelación. La función de

autocorrelación de un proceso estocástico (Yt)t∈I es una función
de dos instantes que describe las correlaciones entre las
variables en un par de instantes ti, tj∈I cualesquiera i≠j.
Definición. Función de autocorrelación simple (FAS). Es la

función de autocorrelación entre dos variables separadas por h
instantes para series estables en autocovarianza. Se denota por
ρh. Proporciona las correlaciones en función del rezago h.

Definición. Función de autocorrelación parcial (FAP). Mide el

aporte de las variaciones de una variable Yt frente a otra
variable, aislados los efectos de las restantes variables.
Por ejemplo, sea la variable Yt rezagada un periodo, Yt-1. La

función de autocorrelación simple (FAS) ignora el hecho que
parte de la correlación que pueda existir entre yt y yt-2, se debe a
que ambas están correlacionadas con yt-1.
Los coeficientes de autocorrelación parcial de los modelos

teóricos se denotan como ϕKK, y los estimados para la muestra
cómo Φ̂ kk.
ECUACIONES DE YULE-WALKER
Sea el model AR(p) donde se omite la constante por simplicidad
en la exposición:
Suponga el modelo estacionario, si se multiplica cada miembro

por el rezago YT-K se tiene que:
Suponga ahora que E[YtYt-k]=γk y es la autocovarianza entre la

variable t en el periodo t y el periodo k, entonces:
Dividiendo por la varianza del proceso respecto al periodo

actual, es decir, γ0 se tiene que:

Si se tiene k rezagos que pueden ser realizaciones de k=1,2,…,p

se genera un sistema de p ecuaciones lineales:
Ya que existe una condición de simetría dentro de las

correlaciones implica que ρk-j=ρj-k este sistema de ecuaciones
recibe el nombre de ecuaciones de Yule-Walker.
El sistema de ecuaciones anterior puede ser considerando en

términos de coeficientes de autocorrelación ρi.
En particular si en vez de la autocorrelación poblaciona,l ρi, se

dispone de las estimaciones, ρ̂i , puede plantearse el siguiente
sistema de ecuaciones para la estimación de ϕi.
La solución a este sistema de ecuaciones arroja los

̂ que forman la función de autocorrelación parcial
coeficientes Φ
o FAP.

Definición. Matrices de autocovarianzas y autocorrelaciones de

orden h. Las matrices de autocovarianzas y autocorrelaciones de
orden h son:
Matriz de covarianzas Matriz de correlaciones
ANÁLISIS DEL CORRELOGRAMA DE UNA SERIE

Un procedimiento que no requiere la aplicación de ningún
contraste en las series, es el de observar el correlograma de la
misma. Es decir, la representación gráfica de su función de
autocorrelación simple (FAS) y parcial (FAP).
Distintos trabajos, en especial los presentados por Hoskin

(1989), Diebold y Rudebusch y Lo (1991), se han centrado en
analizar las variaciones de las funciones de autocorrelación en
términos del orden de integración d de una serie.
En general, la regla a aplicar será sencilla. Los valores de la FAS o

la FAP de una serie no estacionaria desciende muy suavemente
hacia el cero, mientras que cuando no hay presencia de raíces
unitarias el descenso es exponencial.

Las imágenes que se muestran a continuación corresponden a

series reales de tipo de cambio. La diferencia en el patrón de
evolución sobre un correlograma.
FAS DEL TIPO DE CAMBIO EN COLOMBIA

SERIE ESTACIONARIA SERIE NO ESTACIONARIA
La razón del comportamiento de la FAS y FAP en uno y otro está

en función de las raíces características del polinomio de la
ecuación en diferencias para el proceso estocastico.
De esta forma, si la serie no estacionaria guarda memoria larga

sobre las innovaciones pasadas y recientes (precisamente por
presentar un componente de tendencia), la relación entre dos
valores separados por un lapso de tiempo j-esimo presentarán
necesariamente algún tipo de relación, o sea, los coeficientes de
correlación yt,yt-j tenderán a mantenerse elevados.
Efectivamente, la expresión de la solución de una ecuación en

diferencias de primer orden puede expresarse como:

A partir de las expresiones anteriores puede calcularse el

coeficiente de autocorrelación yt,yt-j para cada caso.
Cuando es una serie estacionaria, el término a1 o correlacion

entre dos periodos de tiempo, y es menor a la unidad fuerza a los
coeficientes de autocorrelación a descender rápidamente hacia
cero en una progresión geométrica de razón a1. La expresión de
la serie de coeficientes de autocorrelación es:
Si existe el caso de series no estacionarias, el término a1 igual a la

unidad, la estructura del proceso tiene la forma:
El cálculo de las correlaciones, sin embargo, es un término lineal

(t-s). La expresión de los coeficientes de correlación es ahora:
Si se representan s rezagos en el caso de procesos

autoregresivos de orden 1, AR(1), por ejemplo, para series
estacionarias, el ritmo de descenso de los coeficientes de
autocorrelación es directo y rápido. Mientras que el caso del
paseo aleatorio (random walk) el descenso es tenue, sobre todo
para las primeras observaciones.

PROCESO DE IDENTIFICACIÓN DE ESTRUCTURA DE REZAGOS

SIGNIFICATIVOS
Basados en la FAS y FAP se puede determinar los órdenes de los
procesos estocásticos basados en las siguientes reglas:
Los procesos AR tienen memoria relativamente larga, ya que el

valor actual está correlacionado con todos los anteriores rezagos,
aunque con coeficientes decrecientes si la serie es estacionaria.
Sin embargo, si se desea analizar procesos de memoria corta

usualmente son utilizados los procesos de media móvil, o
procesos MA, una familia de procesos que tiene esta propiedad.


Existe una dualidad entre procesos AR y MA, de manera que la

FAP de un MA(q) tiene la estructura de la FAS de un AR(q), y la
FAS de un MA(q) tiene la estructura de la FAP de un AR(q).
Un proceso AR(p) puede escribirse como un proceso MA(∞), es

decir, como suma infinita de innovaciones. De otra parte, un
proceso MA(q) puede expresarse como un AR(∞), es decir, como
suma infinita de valores anteriores de la serie.

FAS y FAP de un modelo ARIMA (1,1)
En concreto, un examen detallado de las funciones de

autocorrelación simple y parcial demuestra que:
a. Un proceso genérico AR(p) muestra un decrecimiento rápido
de los coeficientes de autocorrelación simple (FAS) junto a la
presencia de P coeficientes significativos de autocorrelación
parcial.
b. De forma simétrica, un proceso genérico MA(q) muestra un
decrecimiento rápido de los coeficientes de autocorrelación
parcial (FAP) junto a la presencia de Q coeficientes
significativos autocorrelación simple.

Aunque el aspecto teórico de un AR(p) o un MA(q) es sencillo de

diferenciar, cuando se analizan series temporales reales, la
representación de correlogramas muestrales resulta siempre algo
menos evidente, y por tanto, más confusa. En ese sentido,
conviene observar las siguientes recomendaciones:
a. El análisis de los correlogramas es sólo un análisis

preliminar que después podrá complementarse con medidas
técnicas adicionales por lo que, en todo caso, el correlograma
deberá utilizarse para realizar sólo un juicio preliminar que
después conviene refrendar con otros cálculos.
b. El patrón AR(p) exige la presencia simultánea de un

decrecimiento en la función de autocorrelación simple y (p)
valores estadísticamente significativos en la FAP. De forma
similar, los patrones de un MA(q) deben aparecer también
de forma simultánea.
c. El número p o q de rezagos significativos en la FAP o en la

FAS puede evaluarse en términos estadísticos43 pero en un
primer momento basta observar si los valores de los
coeficientes son gráficamente significativos, es decir, si
presentan un valor evidentemente mayor que el resto de
coeficientes. Los rezagos estadísticamente significativos son
de orden limitado. Un valor aparente significativo en un
43 Bartlett demostró que

ˆ k  N 0, 1 n 
Como para cualquier distribución normal estándar, el intervalo de confianza al 95% es 1,96*DT , pueden calcularse los límites de nulidad de los
“ρ”: cualquiera que se salga de esos límites es estadísticamente distinto de “0” (límites que aparecen dibujados en el correlograma de E-Views)

orden elevado (salvo en los retardos estacionales), sin que

previamente los anteriores retardos parezcan significativos,
suele indicar alguna atipicidad en la serie, y no un patrón de
interés analítico.
Para la evaluación econométrica, más allá del análisis gráfico de la

FAS y FAP, pueden considerarse criterios estadísticos habituales
como los siguientes:
a. Análisis de la significancia individual de los coeficientes AR y
MA. Para ello puede utilizarse el contraste “t” clásico de
significación estadística individual al modo habitual.
b. Criterios de información (Akaike44 y/o Schwarz45 entre
otros). Recordando que, entre modelos alternativos, se
elegirá aquel con el menor valor del criterio de información.
c. Evaluación de los errores. El análisis de errores clásico de
una regresión puede proporcionar criterios suficientes para
elegir entre posibles modelos alternativos. En este sentido,
pueden utilizarse cualesquiera medidas que resuman. A
proiri el tamaño y sus características (ausencia de trazas
autocorrelacionadas o heterocedásticas, capacidad de ajuste
de los puntos de cambio de tendencia) que permitan intuir
su comportamiento a posteriori.
44 El coeficiente AIC: responde a la expresión:

 e' e 
2k  n ln( L)  2k  n ln  
 n 
2k k  1
Para muestras pequeñas, se propone la versión corregida AICc (muestras pequeñas): AIC 
n  k 1
45 El criterio de Schawrz, denominado generalmente BIC, es algo más exigente que el AICE para la inclusión de nuevas variables y responde a la
 e' e   ln( n) 
expresión ln    k  
 n   n 

TABLA RESUMEN PROCESO DE IDENTIFICACIÓN
El problema principal de la utilización de este método radica en

el comportamiento de la función de autocorrelación cuando
existe una serie que es no estacionaria esta es extremadamente
similar al del caso de una serie estacionaria en el que la raíz toma
un valor muy cercano a la unidad.
Suponga cuatro (4) correlogramas correspondientes a distintos

valores del coeficiente a1 del proceso teórico:
Donde la sucesión εt ha sido generada idéntica para todos los

casos:
Puede comprobarse como el primero de los casos (paseo

aleatorio) puede confundirse con el resto aun cuando el valor de
a1 esté relativamente alejado de la unidad (ρ=0.95).

En el gráfico siguiente se puede observarse la similitud entre el

valor del coeficiente de autocorrelación de un AR(1) y el de un
paseo aleatorio para valores muy cercanos a la unidad e incluso,
cómo el ritmo de decrecimiento es más lento para un ρ=0.98
cuando, como en este caso el número de observaciones es 30.
SERIE CON COEFICIENTES DE CORRELACIÓN CERCANOS A LA

UNIDAD Y UN PASEO ALEATORIO
PRUEBA DE AUTOCORRELACION: LJUNG BOX

Despues de la observación del gráfico de la función de
autocorrelación simple y parcial puede completarse el análisis
con el cálculo de contrastes.
Este tipo de prueba estadística permite, después de calculados

los coefeicientes de correlacion simple y parcial, determinar si
cualquiera de un grupo de autocorrelaciones de una serie de
tiempo son diferentes de cero.

El estadístico conocido como Q fue propuesto por Box y Pierce

(1970) y Ljung y Box (1978). Los estadísticos calculados son:
Q de Box-Pierce
Q de Ljung-Box
En ambos casos, la hipótesis a contrastar radica en que los p

primeros coeficientes de autocorrelación calculados ρj son
iguales a cero. El escalar T será igual al número total de
coeficientes de correlación representados en el correlograma.
H0: ρj =0
H1: ρj ≠0
Estos contrastes se distribuyen como una χ2 con (T-k) grados de
libertad.
Su aplicación se puede ver en dos partes. La primera, si se están

observando las pruebas directamente sobre una serie, no para
los residuos de un modelo, los grados de libertad de la χ2 serán
entonces p rezagos que corresponde al proceso de identificación.
En segundo lugar, aplicarlos sobre los residuos de un modelo

ARIMA previamente estimado, con técnicas que se expondrán
posteriormente, para saber si se está ante un proceso ruido
blanco o no, en este caso el parámetro k toma el valor de los
coeficientes estimados de ese modelo ARIMA.

Si el estadístico supera el p-valor se rechaza la hipótesis nula de

los p primeros coeficientes son significativamente nulos.
Salida Prueba Ljung-Box
La PAC muestra la El estadístico de prueba Ljung- Grafica la AC la cual Grafica la PAC la cual no
La AC muestra la correlación
correlacion entre el valor Box parte de la hipótesis nula demuestra un lento muestra picos después del
entre el valor corriente de
corriente de unemp y su que todos los coeficientes de decaimiento en la segundo rezago lo cual
unemp y el valor 3 trimestres
valor tres trimestres atrás es correlación superiores al tendencia, siguiriendo no muestra que los otros
atrás es 0.8045. AC puede ser
0.1091 sin el efecto de los rezago k son iguales a cero, estacionareidad dentro rezagos son espejos del
utilizado para definir el
dos periodos previos. PAC Esta serie muestra del proceso estocastico. segundo rezago.
modelo MA(q) únicamente si
puede ser utilizado para autocorrelación significativa en
la serie es estacionaria.
definir el modelo AR(p) el valor Prob>Q el cual en
únicamente en series cualquiera es menor que 0.05,
estacionarias por lo tanto, rechaza la
hipótesis nula que todos los
rezagos son no
correlacionados.
TRANSFORMACIONES A LA SERIE
En su mayoría las series de tiempo económicas tienen
características incompatibles con una proceso generador de datos
(DGP) estacionario.
Sin embargo, en algunos casos transformaciones simples sobre la

serie original pueden cercarla a la estacionariedad. En tal caso,
una transformación logarítmica puede ayudar a estabilizar la
volatilidad y acercar al proceso de varianza constante dentro de
la definición del segundo momento del proceso estacionario en
sentido débil.

Evaluación de la serie a distintas transformaciones

Yt Log Yt
D Yt Ds Log Yt
De otro lado, si se efectua un proceso de diferenciación sobre una

serie de tiempo es capaz de eliminar su tendencia de largo plazo
buscando un nivel constante sobre su media, una característica
del primer momento de un proceso estacionario en sentido débil.
Definición. Diferenciación. Es un procedimiento que tiene como

objetivo eliminar la tendencia de una serie de datos que consiste
en suponer que la tendencia evoluciona lentamente en el tiempo,
de manera que en el instante t la tendencia debe estar próxima a
la tendencia en el instante t−1.
De esta forma, si se resta a cada valor de la serie anterior, la serie

resultante estará aproximadamente libre de tendencia.
Matematicamente de la siguiente forma:
De forma general:

Debido a que las primeras diferencias son tasas de variación de la

serie, una manera de resumir este resultado puede indicar que la
serie original tiene una tendencia en media y varianza
proporcional a los niveles de la serie en tasas de cambio y pueden
estar en línea con un proceso generador de datos (DGP)
estacionario.
Por ejemplo, una metodología usual de trabajo, calcula la

diferencia del logaritmo de la serie para encontrar un proceso
estacionario en sentido débil, en sus primer y segundo
momentos, es decir, ∆log yt = log yt-log yt-1, se traduce en una
serie sin tendencia y varianza constante. Esta metodología es un
caso particular de una metodología mas general conocida como
transformaciones de BoX-Cox.
TRANSFORMACIONES DE BOX-COX
La familia de transformaciones más utilizada para resolver los
problemas de falta de normalidad y de heterocedasticidad de una
serie es la familia de transformaciones Box-Cox.
Para el caso de series de tiempo, y buscar las condiciones de un

proceso estacionario en sentido débil, un requisito es la varianza
contante. En la mayoría de los casos sobre series reales este
supuesto no se cumple.
Con el objetivo de encontrar una varianza constante la

transformación de BOX-COX debe ser utilizada dentro del
procedimiento.

Si se desea transformar la variable Y, cuyos valores muestrales se

suponen positivos, en caso contrario se suma una cantidad fija M
tal que Y + M > 0. La transformación de Box-Cox depende de un
parámetro 𝜆 por determinar y viene dada por:
Si se quieren transformar los datos para conseguir normalidad y

homocedasticidad, el mejor método para estimar el parámetro 𝜆
es utilizar la estimación por máxima verosimilitud y se calcula
para diferentes valores de 𝜆 según la transformacion:
Siendo ŷ=(y1,y2,…..yn)1/n la media geométrica de la variable Y.

Para cada 𝜆, se obtiene el conjunto de valores {Ui(𝜆)}i=1…n. La
función de verosimilitud es:
Se elige el parámetro λ̂ que maximiza L(λ). En la práctica, la

transformación más utilizada para buscar la homocedasticidad y
normalidad en el proceso estocástico el logaritmo natural.
ESTRUCTURA DE MODELOS ARMA
Los modelos de series de tiempo tratarán de expresar la
evolución de una variable Yt de un proceso estocástico en función

del pasado de esa variable o de impactos aleatorios que esa

variable sufrió en el pasado.
Para ello, se utilizarán dos tipos de formas funcionales lineales. La

primera los modelos autorregresivos (AR). La segunda, modelos
de Medias Móviles (MA).
MODELOS AUTORREGRESIVOS AR(P)

Definimos un modelo AR (autorregresivo) como aquel en el que la
variable endógena de un período t es explicada por las
observaciones de ella misma correspondientes a períodos
anteriores (parte sistemática) más un término de error ruido
blanco (innovación).
Los modelos autorregresivos se abrevian con la palabra AR tras la

que se indica el orden del modelo: AR(1), AR(2),....etc.
El orden del modelo expresa el número de observaciones

rezagadas de la serie de tiempo analizada que intervienen en la
ecuación. Así, por ejemplo, un modelo AR(1) tendría la siguiente
expresión:
Y t =  0 + 1Y t -1 + at
La expresión genérica de un modelo autorregresivo, no de un
AR(1), sino de un AR(p) sería la siguiente:
Y t =  0 + 1Y t -1 + 2 Y t -2 + ......+ p Y t - p + at
Esta forma funcional se acompaña de una serie de restricciones

conectadas con importantes hipótesis analíticas:

a. La correlación entre una variable y su pasado va

reduciéndose a medida que nos alejamos más en el tiempo
(proceso ergódico).
b. La magnitud de los coeficientes está limitada en valor
absoluto. Así, por ejemplo, en el caso de un AR(1), el
coeficiente autorregresivo de un proceso estocástico
estacionario ha de ser inferior a 1 en valor absoluto. En el
caso de un AR(2), es la suma de los dos coeficientes la que no
puede exceder la unidad. Estas restricciones expresadas en
los coeficientes conectan con las propiedades de
estacionariedad del proceso, o dicho de otro modo, sólo los
modelos cuyos coeficientes respetan una serie de
condiciones (que dependen del orden P del modelo)
representan procesos estocásticos estacionarios y, por tanto,
tienen utilidad analítica.
OPERADOR Y POLINOMIO DE REZAGOS

El operador rezago Lp aplicado al valor Yt de una determinada
serie devuelve el valor de esa serie rezagado p observaciones. Es
decir:
LpYt=Yt-p
Un polinomio de rezagos de orden p p(L) se compone de una

sucesión de p operadores de rezagos con sus respectivos
coeficientes:
 p (L) = 1 -  1 L -  2 L2 - ...... -  p L p
El polinomio de rezagos permite abreviar la expresión de un
modelo AR(p) escribiéndose como:

 p (L)Y t =  0 + at
La utilidad del polinomio de rezagos no es permitir una notación
abreviada. Las características del polinomio de rezagos o, más
concretamente, el valor de sus raíces características (soluciones
del polinomio) permiten analizar las propiedades de
estacionariedad del proceso estocástico que subyace al modelo
ARIMA.
Es decir, se pueden evaluar características relevantes del proceso

estocástico que se está modelando estudiando las propiedades
matemáticas del polinomio de rezagos de ahí su utilidad.
CONDICIONES DE ESTACIONAREIDAD
Sea el modelo Autoregresivo de orden P (se omite la constante
por simplicidad) se tiene que:
Utilizando el operador de rezagos (L) se tiene que:
De manera sintética:
La expresión puede interpretarse como una ecuación en

diferencias finitas de la variable yt. Como la variable at es ruido
blanco, y por consiguiente no influye sobre la existencia de una

tendencia en la variable, la trayectoria en el tiempo está

determinada por el polinomio autoregresivo. En otras palabras:
Sea un modelo autoregresivo de orden 2 o AR(2) que se expresa

de la forma:
La ecuación homogénea de grado dos en yt es:
Sustituyendo a yt por r2 se obtiene una ecuación característica de

la forma:
El polinomio autogregresivos utilizando el polinomio de rezagos

(L) tiene la siguiente forma:
Las raíces de la primera ecuación (1) corresponden a las raíces

inversas del polinomio autoregresivo. Para el caso general de la
ecuación característica es:
El polinomio autoregresivo correspondiente:
La solución general de la ecuación homogénea puede plantearse

como:

Cuando t→∞ la trayectoria en el tiempo para yt va a estar

determinado por la raíz de mayor modulo. Sean p raíces reales.
Si existe |ri|>1 entonces yt no tiene limite (o no tiene límite
finito).
Si dentro de las raíces de la ecuación característica existen

soluciones complejas, tiene el mismo efecto para el módulo de
raíces reales.
En resumen, las características de la ecuación característica

deben ser inferiores a 1 como las raíces del polinomio
autoregresivo son las inversas correspondientes a la ecuación
característica se llega a la regla general de la estacionareidad de
un proceso AR(p).
Las raíces de un polinomio autoregresivo deben ser, en modulo,

superiores a la unidad o deben estar fuera del circulo unitario.
MODELO DE MEDIAS MÓVILES MA(Q)

Un modelo de medias móviles (MA) es aquel que explica el valor
de una determinada variable en un período t en función de un
término independiente y una sucesión de términos de error o
innovaciones correspondientes a períodos precedentes,
convenientemente ponderados.
Estos modelos se denotan normalmente con las siglas MA,

seguidos, como en el caso de los modelos autorregresivos, del
orden entre paréntesis.

Así, un modelo con q términos de error MA(q) respondería a la

siguiente expresión:
Y t =  + at + 1 at -1 + 2 at -2 + ....+ q at -q
Que de nuevo puede abreviarse utilizando el polinomio de
rezagos (como en el caso de los modelos AR) en una forma MA(1)
de la forma:
Y t =  q (L) at + 
¿Qué significa que una variable aleatoria se explique en función
de las innovaciones cometidas en períodos precedentes? ¿De
dónde proceden esos errores? ¿Cuál es la justificación de un
modelo de este tipo?
En realidad, un modelo de medias móviles (MA) puede obtenerse

a partir de un modelo autorregresivo al realizar sucesivas
sustituciones:
Y t =  Y t -1 + at  Y t -1 =  Y t -2 + at -1 
Y t = at +  at -1 +  Y t -2  ........
2
Y t = at +  at -1 +  at -2 +  at -3 + ....+  at - j +
2 3 j
PROCEDIMIENTOS DE ANÁLISIS DE ESTACIONARIEDAD DE

SERIES DE TIEMPO
El estudio de la estacionariedad de las series de tiempo resulta
clave en la práctica para la construcción de un modelo
econométrico.

La atención a la estacionariedad de las series de tiempo se ha

convertido en algo indispensable por varios motivos, entre ellos:
1. La detección de la no-estacionariedad resulta
estadísticamente fundamental, ya que afecta de forma
decisiva al uso de distribuciones en las etapas de
identificación, contraste y validación de los modelos
planteados. En ese sentido, no debe olvidarse que la mayor
parte de la teoría econométrica está construida asumiendo
la estacionariedad de las series.
2. Trata de evitar al máximo que la no estacionariedad de las
variables guíe los resultados de las estimaciones de las
relaciones que las unen, provocando la obtención de análisis
espurios.
3. El análisis de estacionariedad es básico como etapa previa
en el análisis de cointegración, una de las principales
aportaciones a la técnica econométrica de los últimos años.
4. El concepto de tendencia estocástica frente al tradicional de
tendencia determinista interesa conceptualmente a la teoría
económica, en especial, en el contexto del análisis temporal
de los efectos de la política económica sobre las variables
macroeconómicas.
TENDENCIAS DETERMINISTAS Vs TENDENCIAS ESTOCÁSTICAS
TENDENCIAS DETERMINISTAS
Cuando se analiza la solución general a una ecuación en
diferencias que representa una serie de tiempo, se admite una
descomposición de la serie en componentes cíclico, tendencia,
estacional y estocástico.

La principal característica que define al componente de tendencia

frente al estocástico es la presencia de efectos permanentes sobre
la serie de tiempo yt.
En un gran número de ocasiones, las series pueden no presentar

componente de tendencia, como es el caso de un proceso
autorregresivo puro AR(1) en el que los coeficientes cumplan las
condiciones de estacionariedad:
Como se aprecia en el gráfico siguiente, este proceso fluctúa

alrededor del valor medio representado por una línea horizontal
cruzándolo frecuentemente sin que ningúna innovación sobre yt
se convierta en permanente para valores futuros:
Proceso AR(1) Sin tendencia
Definir la tendencia constante en una serie de tiempo,yt ,utiliza el

siguiente cálculo. Por ejemplo, la serie:

Presenta un patrón dominado fundamentalmente por una

tendencia como en los siguientes casos presentados de formas
lineales o cuadráticas:
Este tipo de proceso, se clasifica dentro de aquellos que vienen

definidos por lo que se denomina una tendencia determinista.
Este patrón de evolución parecería servir adecuadamente al

análisis de ciertas series económicas dado que resulta usual
encontrar magnitudes que exhiban perfiles similares a los
presentados.
Esta tendencia de tipo determinista puede combinarse con el

proceso autorregresivo para generar otra variedad de proceso
con tendencia determinista que se denomina proceso
estacionario sobre una tendencia. Su expresión sería la siguiente:
En este caso, el proceso es dominado por la componente de

tendencia sumando a un proceso estacionario, con un valor
razonable de la varianza de εt.

Poder distinguir gráficamente su evolución temporal como un

modelo de tendencia determinista con un componente
estocástico puro como el presentado en los gráficos anteriores
resulta casi imposible.
TENDENCIAS ESTOCÁSTICAS
Si se observan algunas series en economía, se puede caer en la
tentación de calificarlas entre aquellas con tendencias
deterministas como las observadas hasta aquí.
Sin embargo, desde la teoría económica sería muy difícil

justificar una tendencia determinista. Aún a pesar de existir
componentes tendenciales importantes desde el punto de vista
teórico, seguramente estos no serían de naturaleza determinista.
Es muy posible, por ejemplo, que la productividad tienda a

crecer de forma natural en la medida en que con el paso del
tiempo se va incorporando mejoras tecnológicas en procesos
productivos.
Sin embargo, ambos procesos teóricos no se producirán, con

total seguridad, de una manera invariable, constante, predecible,
determinista, con el paso del tiempo.
Frente a la tendencia determinista surge, por tanto, la necesidad

de definir un componente de tendencia, con efectos permanentes
en la evolución de la serie analizada, pero de naturaleza
estocástica.

PASEO ALEATORIO (RANDOM WALK)

El caso más simple de modelo con tendencia estocástica viene
determinado el paseo aleatorio simple:
Con εi ruido blanco. La solución recursiva de un paseo aleatorio

corresponde a:
Esta expresión permite comprobar que un paseo aleatorio es

estacionario en media por definición:
Su varianza, sin embargo, no es constante dado que su expresión

corresponde a:
Según este proceso la varianza se amplía con el paso del tiempo

tendiendo a infinito a medida que t también lo hace.
Lo interesante de la ecuación anterior puede observarse

claramente como cada una de las innovaciones definidas como
εt=(ε0,ε1,...,εt-1,εt) tiene sobre yt un efecto permanente (o de
tendencia) sobre yt pero siempre tratándose de un elemento de
naturaleza aleatoria.

Así, la denominada esperanza condicional para yt+s, es decir, el

valor más probable de yt+s dadas las t realizaciones anteriores
del proceso yt, es precisamente yt para todos los posibles valores
de t y s.
Esto confirma que cualquier innovación o shock de la sucesión

contenida en:
Tiene una presencia sobre yt+s de la misma intensidad que sobre

yt. Es decir, estamos ante un componente de tendencia.
¿Existen, en la realidad, fenómenos que se comporten como

paseos aleatorios? Nótese que, gráficamente, el paseo aleatorio
fluctúa ampliamente sin presentar tendencia a crecer o a
decrecer.
Rara vez alcanza un valor anterior y ninguna fuerza tiende a

devolverlo a su nivel de equilibrio, cualquiera que sea el mismo.
¿Es posible encontrar series en economía de esa naturaleza?
Figura1: Serie SIN tendencia determinista Figura 2: Serie CON tendencia
(No Estacionaria en media ) determinista (No estacionaria en media)

12.0000 50.0000
10.0000
8.0000 40.0000
6.0000
30.0000
4.0000
2.0000
20.0000
0.0000
-2.0000
10.0000
-4.0000
-6.0000
0.0000
-8.0000
-10.0000 -10.0000
ene-96
ene-97
ene-98
ene-99
ene-00
ene-01
ene-02
ene-03
ene-04
ene-05
ene-96
ene-97
ene-98
ene-99
ene-00
ene-01
ene-02
ene-03
ene-04
ene-05
PASEO ALEATORIO CON DERIVA (TENDENCIA DETERMINISTA
MÁS TENDENCIA ESTOCÁSTICA)
El paseo aleatorio con deriva (drift) incorpora una constante a0
dentro de la expresión del paseo simple de la forma:
La expresión deriva se aplica ya que el proceso así definido

experimentará una variación constante definida por el término
a0 dado que la solución genérica recursiva a la ecuación anterior
responde a la expresión:
Después de t períodos, el valor de yt se ve impactado por todas

las innovaciones pasadas y presentes a través del término de
tendencia estocástica al mismo tiempo, de forma invariable,
también permanente pero perfectamente conocida, por el
término determinista a0t.

A diferencia del paseo aleatorio simple la deriva incluida en este

otro modelo supone que el proceso no sólo no será estacionario
en varianza sino tampoco en media.
Para la varianza se tiene que:
Comparando un paseo aleatorio simple de otro con deriva, el

patrón gráfico de evolución de este tipo de procesos vendrá
dominado por la componente tendencial determinista del
mismo.
No obstante para muestras pequeñas y una varianza de εt

suficientemente elevada su aspecto puede confundirse con un
paseo aleatorio sin deriva.

En cualquier caso, si el paseo aleatorio con deriva resulta

gráficamente muy similar al presentado al de tendencia
determinista explica como frecuentemente se califican procesos
deterministas que, probablemente, presenten un componente
con tendencia estocástica.
Solamente para muestras grandes un proceso estocástico podrá

ser distinguido del otro en la medida en que, aunque el paseo
aleatorio con deriva presentará una marcada evolución de su
tendencia, por tanto, tenderá a fluctuar de forma algo más visible
sobre la línea de tendencia de lo que lo haría un modelo
determinista puro.
CONCEPTO DE INTEGRACIÓN
Si se toma un paseo aleatorio (random walk) y es expresado en
primeras diferencias se comprueba que, además de seguir
siendo estacionario en media, se convierte también en un
proceso estacionario en varianza, es decir:
En el caso de un paseo aleatorio con tendencia determinista (con

deriva) la diferenciación permite también convertir la serie en
estacionaria tanto en media como en varianza:
Además:

Se puede así mismo comprobar como las covarianzas para

observaciones del proceso separadas por el rezago j-esimo sólo
dependen del valor de ese rezago. Es decir, se puede comprobar
que ambos procesos diferenciados cumplen con estacionariedad
en sentido débil.
La idea que la diferenciación corrige los problemas derivados de

la presencia de tendencias estocásticas y determinísticas puede
generalizarse matemáticamente del siguiente modo.
Suponga el caso general de un modelo ARIMA con sus

polinomios de rezago del tipo:
En el que se supone la presencia de una raíz unitaria en el

polinomio de rezagos A(L), mientras que se mantienen las
condiciones de estacionariedad para el proceso definido sobre εt
mediante el polinomio L(B), o sea, se supone que todas sus
raíces estan fuera del círculo unitario.
Si el polinomio A(L) tiene efectivamente una raíz característica

puede ser factorizado y expresarlo de la forma:
Donde ahora A’(L) será un polinomio de orden inferior a la

unidad al original A(L), es decir, p-1.

La principal característica de este nuevo polinomio es que ya no

contiene una raíz unitaria, por tanto, todas sus raíces estan fuera
del círculo unitario. La ecuación original del modelo ARIMA
quedaría ahora:
O lo que es igual:
Incluyendo la diferenciación sobre la variable yt se tiene que:
Por tanto, la diferencia de un proceso con una raíz unitaria es

ahora estacionaria, y lo mismo ocurre cuando se esta ante dos
raíces unitarias, si se toman diferencias dos veces o ante d raíces
unitarias si se efectuan d diferencias. Por ejemplo, suponga el
siguiente proceso ARIMA (2,1,2):
Este puede expresarse como:
Utilizando los polinomios de rezagos resulta:
El polinomio de rezagos de la parte autorregresiva contiene una

raíz unitaria por lo puede escribirse como:

Es interesante observar que no es necesario que yt siga un paseo

aleatorio puro. Si en un proceso del tipo:
La perturbación aleatoria no fuera ruido blanco sino que siguiera

un proceso autorregresivo de la forma:
La primera diferencia de yt daría una serie estacionaria siempre

y cuando ρ fuera menor que la unidad en valor absoluto.
Definición. Serie integrada de orden d. Se dice que una serie yt no

estacionaria es integrada de orden d, representada como yt~I(d),
cuando puede ser transformada en una serie estacionaria
diferenciándola d veces.
Siguiendo la definición dada por Engle y Granger (1987), una

serie sería integrada de orden d si admite una representación
ARMA estacionaria e invertible después de ser diferenciada d
veces.
Un proceso ruido blanco, por ejemplo, o una serie AR(1) con

coeficiente menor que la unidad son series I(0). Una serie que
siga un paseo aleatorio es, sin embargo, una serie I(1). Granger
(1986) y Engle y Granger (1987) caracterizaron las series I(0)
frente a las I(1) de la siguiente forma:
PROCESO INTEGRADOS Vs NO INTEGRADOS

Sin embargo, la diferenciación de una serie para convertirla en

estacionaria sólo es adecuada cuando se encuentra ante
tendencias estocásticas, nunca cuando existen tendencias
deterministas.
EVALUACIÓN DE TENDENCIAS DETERMINISTICAS

En ese caso, el procedimiento habitual para eliminar la tendencia
determinística parte de aplicar sobre la serie original un filtro
adicional.
Se estima la regresión de la serie no estacionaria yt sobre un

término de tendencia determinista obteniéndose una estimación
de la serie original yt.
Es suficiente entonces con trabajar con la serie transformada:
En el gráfico siguiente (en azul) puede observarse como la serie

original presenta una tendencia lineal creciente que puede ser
estimada (representada) con la línea discontinua (tendencia).

La serie corregida (filtrada) de tendencia reproduce exactamente

las mismas variaciones que la serie original pero sin mostrar
tendencia alguna.
Estimación de tendencia y serie filtrada de tendencia

Serie Original Tendencia Serie (sin) "filtrada de" tendencia
800,00
600,00
400,00
200,00
0,00
-200,00
-400,00
1
6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
81
86
91
96
GENERACIÓN DE SERIE FILTRADA DE TENDENCIA
Para realizar un filtro de tendencia, se asume que la tendencia
(Tt) es un componente que se agrega a la serie sin tendencia
(YSTt) generando la serie original (Yt).
En el gráfico anterior, la serie original (en azul) es la suma de los

valores de la serie sin tendencia (en rojo) más los valores de la
tendencia (línea discontinua):
yt  Tt  YSTt
Para calcular los valores de la tendencia en cada período se
efectua una regresión simple de la serie en función contra una
variable de tiempo (t=1,2,3,4,……). El residuo de esta regresión
será la serie filtrada de tendencia.

La única decisión a considerar será el tipo de función matemática

que mejor ajusta la tendencia de la serie (lineal, parabólica,
exponencial, etc).
SERIES CON DISTINTOS TIPOS DE TENDENCIA:

REPRESENTACIÓN GRÁFICA Y FUNCIÓN MATEMÁTICA A
ESTIMAR
TENDENCIA Potencial TENDENCIA Exponencial
Serie Potencial Ajuste Serie Exponencial Ajuste
200000,00 80000,00
70000,00
150000,00
60000,00
50000,00
100000,00
40000,00
50000,00 30000,00
20000,00
0,00
10000,00
0,00
-50000,00
-10000,00
-100000,00 -20000,00
1
15
22
29
36
43
50
57
64
71
78
85
92
99
15
22
29
36
43
50
57
64
71
78
85
92
99
yi  a  tib  ui yi  a  bt  ui
TENDENCIA Logarítmica TENDENCIA Polinomica
Serie Logarítmica Ajuste Tendencia Polinómica Ajuste
40,00 100,00
35,00 80,00
30,00
60,00
25,00
40,00
20,00
20,00
15,00
10,00 0,00
5,00 -20,00
0,00 -40,00
1
7
13
19
25
31
37
43
49
55
61
67
73
79
85
91
97
1
7
13
19
25
31
37
43
49
55
61
67
73
79
85
91
97
yi  a  b  ln( t )  ui yi  a  b  t  b  t 2  ui
Sobre la elección del modelo de tendencia se debe tener en

cuenta:
1. Debe priorizarse la sencillez en la selección del modelo de
tendencia. Esta debe sólo centrarse en la evolución de la
serie de modo que no es necesario que la tendencia
reproduzca exactamente cada movimiento a corto plazo. Un

comportamiento oscilante podría modelarse, por ejemplo,

con una función sinusoidal.
AJUSTE DE TENDENCIA
Ajuste de Tendencia Correcto (serie Ajuste de Tendencia Incorrecto (tendencia
oscilante alrededor de una tendencia sobreparametrizada)
monótonamente creciente)
30.0000 30.0000
25.0000 25.0000
20.0000 20.0000
15.0000 15.0000
10.0000 10.0000
5.0000 5.0000
0.0000 0.0000
96
97
98
99
00
01
02
03
04
05
96
97
98
99
00
01
02
03
04
05
e-
e-
e-
e-
e-
e-
e-
e-
e-
e-
e-
e-
e-
e-
e-
e-
e-
e-
e-
e-
en
en
en
en
en
en
en
en
en
en
en
en
en
en
en
en
en
en
en
en
2. Si existen dudas sobre el modelo de tendencia a utilizar,
pueden probarse especificaciones alternativas (lineal Vs
logarítmica, potencial Vs exponencial, por ejemplo) y
utilizarse los resultados de la regresión (R2, porcentaje de
error absoluto medio, contrastes t para los términos
incluidos en la regresión, etc) con el fin de valorar cuál de las
especificaciones ajusta mejor la evolución de la serie.
3. Las tendencias pueden ser compuestas, es decir, para un
determinado período de análisis pueden combinarse
distintos tipos de tendencias (primero lineal creciente, luego
lineal decreciente, por ejemplo)
4. Algunas tendencias pueden no ser lineales por lo que su
estimación con un modelo de regresión lineal requerirá la
linealización previa de la función a estimar si no se conocen
métodos de estimación no lineales.

5. En presencia de componentes estacionales conviene

habitualmente eliminarlos antes de proceder al análisis de
tendencia
En todo caso, una vez elegido el modelo de tendencia más

adecuado, el procedimiento de filtrado es:
1. Se estima, conforme al modelo elegido, la regresión de la
serie en función del tiempo. En el ejemplo gráfico, el ajuste
lineal por OLS implica estimar:
yt  a  bTt  U t
2. La tendencia se corresponde con la serie estimada (ŷt) en
tanto que la serie filtrada es simplemente el residuo de esta
regresión. La serie original (yt) menos la estimación de la
tendencia (ŷt).
Debe tenerse especial cuidado para no confundir la tendencia

determinista y estocástica, ya que entonces tanto uno como otro
método resultarían incorrectos de aplicar.
Por ejemplo, si se tiene un proceso del tipo:
En el que se tiene tendencia determinista pero no estocástica. Si

se toma una primera diferencia la anterior expresión quedaría:
O sea, se habría eliminado la tendencia temporal pero incluida

una raíz unitaria en el proceso MA, que ahora sería no invertible.

Debe notarse que este problema también se planteará, por las

mismas razones, en el caso en el que sobrediferenciacion de una
serie más allá de su orden de integración.
Se comente un error si se intentar transformar un modelo con

tendencia estocástica aplicando el filtro representado para la
eliminación de la tendencia determinista:
1. En primer lugar, el t-estadístico de significancia individual
tiende a infinito para la variable de tendencia determinista
introducida en el filtro y es inconsistente, por lo que resulta
fácil rechazar erróneamente la hipótesis de nulidad del
parámetro de tendencia.
2. El R2 converge a una distribución no degenerada, es decir, a
medida que el tamaño de la muestra se incrementa y no
converge hacia un escalar, sino hacia una variable aleatoria.
3. Un efecto adicional comentado por Durlauf y Phillips (1988)
es que, en estos casos, el estadístico DW de la errónea
regresión de la serie sobre una tendencia temporal tiende a
acercarse a cero. Este síntoma puede utilizarse como
medida de alerta cuando se encuentre en una situación
similar.
En cualquier caso, la trascendencia de un posible error en los

resultados del modelo exige establecer un modus operandi con
más garantías. El chequeo de la presencia de raíces unitarias es
insalvable, para lo cual deben conocerse extensamente los
contrastes más habituales que permitan detectarlas.
PROCEDIMIENTOS PARA LA DETECCIÓN DE RAÍCES UNITARIAS

ANÁLISIS DEL GRÁFICO TEMPORAL DE LA SERIE

Apoyándose en las características comunes de las series
integradas frente a las no integradas, resumidas en la tabla
anterior, se puede utilizar la representación gráfica de una serie
para el análisis de su estacionariedad.
Efectivamente, uno de los métodos que suelen proponerse como

suficientes para la detección de la no estacionariedad de una
serie es el del análisis de representaciones gráficas de la misma.
Así, la contemplación del gráfico de evolución temporal de la

serie es un insumo para decidir si la serie es o no estacionaria en
virtud, por ejemplo, de la pendiente que presente.
Gráfico de serie no estacionaria
Por otro lado, suelen aconsejarse medidas como el gráfico rango

de la media para detectar la no estacionariedad en varianza.
Ambos procedimientos sólo son parcialmente útiles.
Efectivamente ya se ha visto anteriormente cómo pueden

confundirse con facilidad representaciones gráficas de procesos

con tendencias estocásticas de procesos con tendencias

deterministas y los efectos que tiene un error en su confusión.
Por otro lado, incluso con procedimientos técnicamente

elaborados, resulta aún más complejo diferenciar, por ejemplo,
un proceso con una raíz unitaria de otro con una raíz
autorregresiva elevada.
En el gráfico siguiente, por ejemplo, se han representado dos

procesos, uno estacionario y otro con una raíz unitaria. En
ambos casos se ha utilizado la misma sucesión de perturbaciones
aleatorias mientras que los coeficientes utilizados en cada caso
han sido diferentes.
DIFERENCIACIÓN GRAFICA DE PROCESOS ESTACIONARIOS Y NO

ESTACIONARIOS
Modelo estacionario
Modelo I(1):
No obstante, a pesar que el análisis gráfico no puede considerase

una herramienta suficiente para el análisis de la estacionariedad
de una serie, si ha de servir como etapa previa a la aplicación de
contrastes más avanzados.

Efectivamente, observar la evolución gráfica de la serie puede

permitir localizar cambios de estructura, comportamientos
estacionales o medias y tendencias de tipo determinista, lo que
permitirá aplicar con mayor porcentaje de éxito, las pruebas de
raíces unitarias.
CONTRASTES DE NO ESTACIONARIEDAD PRUEBA DICKEY-

FULLER
La prueba habitual a la hora de determinar la estacionariedad de
una serie de tiempo consiste en la aplicación de la prueba de
Dickey–Fuller (DF). Éste es una prueba de No estacionariedad el
cual contrasta la hipótesis nula como la presencia de una raíz
unitaria en el proceso generador de datos de la serie analizada.
H0: existe raíz unitaria (es un proceso no estacionario)
H1: No existe Raíz unitaria (es un proceso estacionario)
Se supone inicialmente, como modelo de partida para el análisis

de una determinada serie yt, un proceso estacionario
autorregresivo de orden uno como hipótesis nula H0:
Frente a este modelo se plantea el modelo alternativo de un

paseo aleatorio no estacionario del tipo:
Se trata, por tanto, de contrastar si el coeficiente a1 es igual a la

unidad o distinto de ella.

Para probar el coeficiente a1, no se puede utilizar el contraste

tradicional t-student sobre una estimación por OLS del primer
modelo.
La razón radica en que la hipótesis nula que habitualmente se

contrasta a partir de la cual se deriva la expresión y propiedades
de la prueba t parte de probar (a1=0). Sin embargo, en este caso
se necesita contrastar H0: a1=1.
Si la hipótesis nula no se rechaza, ya que la varianza de yt sería

no estacionaria, dado que crecería con los valores del tamaño de
muestra según la expresión dada de la varianza de un paseo
aleatorio con deriva:
En estas condiciones la estimación del parámetro a1 sería una

estimación inconsistente y sesgada respecto al verdadero valor
del parámetro y el uso de la distribución t-student estándar sería
incorrecta. Efectivamente, en el modelo simple AR(1):
La estimación de a1 será consistente según los valores que tome

la estimación. Si |a1|<1, la distribución del estimador es
asintóticamente normal, o lo que es lo mismo, el estadístico t-
student converge hacia una N(0,1) cuando los grados de libertad
tienden a infinito.
En el caso de que |a1|>1, también puede caracterizarse la

distribución del estimador del parámetro y de su razón de

contraste t si bien la convergencia en el límite no se produce

hacia una normal.
El problema surge cuando |a1|=1, ya que en este caso, la

distribución del parámetro, y por tanto, de su razón de contraste
estadístico no puede caracterizarse adecuadamente dada la
inconsistencia y sesgo de los resultados.
La distribución del estimador es entonces función de

movimientos Brownianos. Según Fuller (1976) se tiene que
N(a1-1) converge en distribución a un cociente de integrales de
Wiener.
Por tanto, la distribución de probabilidad asintótica del

estimador OLS del modelo AR(1) presenta una discontinuidad
cuando a1=1 y, como sustituto, deberán utilizarse las
distribuciones derivadas de forma empírica mediante un
procedimiento de Montecarlo realizado por Dickey (1976).
En este experimento se generaron un elevado número de series

ruido banco εt para construir el mismo número de paseos
aleatorios con deriva. La estimación de los parámetros de interés
en cada uno de esos modelos controlados arrojó las siguientes
conclusiones:
1. El 90% de los valores estimados del parámetro a1 estaban
menos alejados de 2.58 errores estándar del verdadero
valor (la unidad).
valor (la unidad).


valor (la unidad).
Tras este experimento de Dickey, fue Fuller (1976) quien obtuvo
la distribución límite apropiada y publicó, tabulados, toda una
batería de valores críticos, dado que el valor empírico del
contraste varía en función del tamaño muestral.
Estas tablas de referencia, permiten prescindir de la distribución

t-student a la hora de contrastar si el parámetro a1 es igual, o no,
a la unidad.
Más recientemente, MacKinnon (1991) realizó un número

mayor de simulaciones que las tabuladas por Dickey y Fuller.
Además, MacKinnon estimó la superficie de respuesta usando los
resultados de la simulación, lo que permite calcular los valores
críticos de la prueba DF para cualquier tamaño muestral y
cualquier número de variables en el lado derecho de la ecuación.
El modelo utilizado para el contraste DF no es el expuesto al

comienzo sino otro equivalente derivado de la siguiente forma:
Por tanto, la hipótesis nula inicial se transforma ahora en H0:

γ=0 frente a la alternativa H1: γ <0. Decir que γ es nulo es lo
mismo que a1=1, o existe una raíz unitaria. Decir que es menor

que cero equivale a decir que a1 es menor que la unidad o un

proceso autorregresivo estacionario.
El procedimiento básico para la aplicación de la prueba DF es

aparentemente sencillo. Se estima el modelo propuesto y se
calcula el valor estimado de la t del parámetro analizado.
Una vez calculado se compara con el valor empírico de

referencia obtenido con las tablas de Dickey y Fuller o de
MacKinnon. Si el valor estimado para γ es superior al tabulado
dado un determinado nivel de confianza se admite la hipótesis
nula, o sea, la presencia de raíz unitaria.
REPRESENTACIÓN DE UNA PRUEBA DF EN STATA
PRUEBA DF Y PROCESO GENERADOR DE DATOS

Los valores críticos del t-estadístico de referencia para el
contraste DF no sólo dependerán del tamaño muestral también

del tipo de modelo estimado, por tanto, del proceso generador de

datos supuesto.
Por tanto, antes de estimar los parámetros del modelo es

necesario decidir si el proceso generador de datos será el simple,
presentado anteriormente, ó contendrá una constante (a0), un
término de tendencia determinista (a2t) o ambas
simultáneamente. Los tres modelos propuestos por Dickey-
Fuller son por tanto:
Modelo 1. Simple
Modelo 2. Constante
Modelo 3. Constante y
tendencia determinística
Una vez decidido el modelo estadístico de referencia la manera

de efectuar el contraste será diferente. Se nota generalmente por
las letras τ para el caso más simple, τμ para el caso del modelo
con constante y ττ para el caso del modelo con tendencia
determinista.
Consultar correctamente el estadístico de referencia es

fundamental dado que las diferencias entre los distintos valores
de τ, τμ y ττ son importantes. Por ejemplo, para un nivel de
significancia del 95% y 100 observaciones los valores críticos
serían –1.95 para τ, -2.89 para τμ y –3.45 para ττ.

Tal y como describen Suriñach (1995) los modelos 2 y 3

presentados por Dickey y Fuller son en realidad formas
reducidas de determinados modelos estructurales.
Así, el modelo 2, que contrasta la hipótesis nula de paseo

aleatorio con deriva frente a una alternativa de esquema AR(1)
estacionario sin tendencia, es la forma reducida del modelo:
Bajo la hipótesis nula en el que a0=δ0(1-a1) con el caso de (a1=1)

el término constante sería nulo luego su presencia en el modelo
a estimar es irrelevante y sólo se justificaría para garantizar que,
en el caso que no se rechace la hipótesis alternativa, el proceso
autorregresivo tenga media no nula.
El modelo 3, que contrasta la hipótesis nula de un paseo

aleatorio con deriva frente a la alternativa de un proceso AR(1)
estacionario sobre una tendencia determinista, sería la forma
reducida del modelo:
Con a0=δ0(1-a1)+δ1a1 y a2=δ0(1-a1). Bajo la hipótesis de raíz

unitaria (a1=1) se tiene que a0=δ1 y a2=0 luego, como en el caso
anterior, la presencia en este caso del parámetro a2 es
irrelevante en el caso de raíz unitaria y su presencia intenta sólo
garantizar la consistencia del contraste en una situación de
hipótesis alternativa (proceso estacionario sobre tendencia
determinista).

CONTRASTE DE RAÍCES UNITARIAS MÚLTIPLES

Debe ahora ponerse de manifiesto una característica del
contraste DF que quizá resulte inadvertida. El contraste DF no
puede dar resultados concluyentes en una sola etapa.
Si se aplica la prueba DF sobre una serie yt y el resultado es no

rechazar la hipótesis nula (no estacionariedad o presencia de
una raíz unitaria) la conclusión debe ser que, o bien yt~I(1) o
bien no es integrada de ningún orden, es decir, que no puede
transformarse en estacionaria por diferenciación.
Para decidir entre una u otra alternativa Charemza y Deadman

(1992) sugieren aplicar nuevamente la prueba DF ahora sobre la
serie en diferencias ∆yt:
Contrastando el parámetro γ para que resultase nulo o menor

que cero por tanto yt fuese integrada de orden 1, entonces ∆yt
deberá ser I(0), es decir γ <0.
Si, en cambio, la aplicación de la prueba DF sobre este nuevo

modelo afirmara que ∆yt tiene una raíz unitaria, entonces el
proceso debería continuar ahora con ∆∆yt a fin de determinar si
yt es I(2) o se está ante una serie no integrable. Podría
proseguirse ahora con ∆∆∆yt y así sucesivamente.
Esquema Charemza-Deadman (1992)

En cualquier caso, como se muestra al final del esquema, siempre

se debe tener presente la posibilidad que el test DF no sea capaz
de detectar la presencia de una raíz unitaria para un
determinado orden de diferenciación.
Si así fuera, se corre el peligro de sobrediferenciar una serie. En

ese caso, tal y como señalan Charemza y Deadman (1992) la
prueba DF tiende a tomar un valor muy alto y positivo (en lugar
de negativo) acompañado así mismo de un valor muy elevado
del coeficiente de determinación para el ajuste.
Dickey y Pantula (1987) proponen un procedimiento alternativo

al anterior para el contraste de más de una raíz unitaria. La idea
es realizar también una sucesión de contrastes pero empezando
por el número máximo de raíces unitarias que se piensa pueden
encontrarse.
Así, si se piensa que un proceso tiene exactamente, y como

mucho, dos raíces unitarias, se plateará el modelo siguiente:

Si efectivamente yt tiene dos raíces unitarias, ∆2yt debe ser

estacionaria por lo que el parámetro β1 debe ser nulo.
Se efectúa el contraste de la hipótesis nula H0: β1=0, si no se

puede rechazar, se afirma que yt tiene exactamente dos raíces
unitarias, o sea, es I(2).
Si β1 es distinto de cero se debe plantearse entonces el modelo:
Dado que ya se sabe que no hay dos raíces unitarias algunos de

los dos coeficientes, o ambos, no serán nulos (sencillamente esto
sería incongruente con el resultado obtenido en la etapa
anterior).
La hipótesis nula en este caso será que yt tenga una raíz unitaria,
o sea, que ∆yt sea estacionaria.
Para eso será necesario que en la expresión anterior β2=0 y

β1<0. Si no es así debe rechazarse la hipótesis nula (tanto β1
como β2 son no nulos), entonces yt será estacionaria, es decir, no
tendrá ninguna raíz unitaria.
Este procedimiento puede utilizarse para un orden mayor r para

el caso en que se sospechen sólo dos raíces unitarias. El caso
sería bastante excepcional pero, si se diese, el procedimiento es
el mismo que el descrito anteriormente sólo que comenzando el
contraste con el modelo:

CONTRASTES CONJUNTOS DE PARÁMETROS EN EL MODELO

SIMPLE DF
Sobre los modelos propuestos que contienen más de un
parámetro (modelos 2 y 3) puede además también contrastarse
la hipótesis de nulidad simultánea de conjuntos de parámetros.
Dickey y Fuller (1981) plantearon la construcción de
estadísticos F clásicos para contrastar las hipótesis H0:γ=a0=0
(estadístico ϕ1) en el modelo 2 y H0: γ=a0=a2=0 (estadístico ϕ2)
ó H0: γ=a2=0 (estadístico ϕ3) en el modelo 3.
Los estadísticos ϕ1,2,3 se construyen según la expresión conocida

del test F:
Donde SCRmr y SCRmrn son las sumas de cuadrados de los

residuos de los modelos restringido (mr) y no restringido (mnr),
n es el número total de observaciones, k el número de
parámetros del modelo no restringido y r el número de
restricciones.
Como ya sucediera en el caso del contraste t individual, no es
posible utilizar las tablas habituales de la razón F por lo que de
nuevo debe acudirse a las tablas de Dickey-Fuller en las que se
recogen los valores generados empíricamente para ϕi.

Resulta necesario resaltar, que la aplicación de los contrastes de

nulidad conjunta ϕ1, ϕ2 y ϕ3 supone una forma alternativa a los
estadísticos individuales t de contrastar la estacionariedad de yt.
Efectivamente podría, por ejemplo, contrastarse con ϕ2 la

hipótesis nula que yt siga un paseo aleatorio simple (no
estacionariedad) frente a un AR(1) estacionario con término
independiente. Este hecho, no hace sino hacer aún más compleja
la realización e interpretación del contraste DF.
Por último, conviene no olvidar que, aún a pesar del carácter

molesto (nuisance) de algunos de los parámetros, cabe la
posibilidad de contrastar, también, la nulidad individual de los
mismos, supuesta, eso sí, la existencia de una raíz unitaria.
Así, puede contrastarse en el modelo 2 la hipótesis a0=0 dado

γ=0 mediante el denominado contraste ταμ o en el modelo 3 las
hipótesis a0=0 dado γ=0 (estadístico τατ) y a2=0 dado γ=0
(estadístico τβτ).
RESUMEN PRUEBAS DF

PRUEBA DF Y ELECCIÓN DE COMPONENTES DETERMINISTAS

DEL PROCESO GENERADOR DE DATOS (PGD)
El primer problema que plantea la aplicación de la prueba DF
radica en la estructura teórica del proceso generador de datos
asumida para la serie yt ya que influye decisivamente en los
resultados obtenidos.
Así, no es invariante a los resultados del contraste, suponer para

yt un modelo con o sin término independiente, con o sin
tendencia determinista, con componente autorregresivo de
orden uno u orden superior a uno o con o sin componente de
medias móviles.
El problema radica en que la mayor parte de las ocasiones, el

modelo con las características del proceso se desconoce a priori.
Ya se ha observado cómo, desde el primer momento, se ha

diferenciado claramente el caso de un modelo simple del caso de
un modelo con constante y/o tendencia determinista, dado que
los contrastes de referencia son en uno y otro caso diferentes
(, , ).

Incluso se ha visto que una misma hipótesis nula puede

contrastarse utilizando las prubas individuales τi o los conjuntos
τi, dependiendo del proceso generador de datos (PGD) supuesto
y de los coeficientes a incluir en el contraste en cada caso.
Las diferencias entre los estadísticos de referencia τ y ϕ para

una misma hipótesis nula en las tablas de Dickey-Fuller de 1976
para τ y 1981 para ϕ son importantes, por lo que parece
fundamental cuidar la elección del modelo y la hipótesis a
contrastar en cada caso, siendo en muchas ocasiones esta etapa,
decisiva de cara a la correcta aplicación del contraste.
¿Qué puede ocurrir entonces si se equivoca en la identificación del

modelo de referencia?
a. Si se toma como modelo de partida un modelo con
tendencia determinista y término constante, se puede estar
sobreparametrizando la estimación lo que supone una
inmediata pérdida de grados de libertad.
Pero además, los valores críticos de referencia para no

rechazar o rechazar la hipótesis nula dependen del modelo
estimado por lo que, parece algo arriesgado tomar
conclusiones de no rechazo o rechazo de la hipótesis en
cada momento con un modelo que, quizá, no sea realmente
válido. Concretamente, para un determinado nivel de
significancia, los intervalos de confianza alrededor del valor
γ=0 se amplían de forma importante si se incluye una
deriva o una tendencia determinista provocando, en caso de
no ser realmente necesarios, frecuentes errores en el
rechazo de la hipótesis nula de raíz unitaria. Dicho de otro

modo, la potencia del contraste decrece tanto más cuanto

mayor sea el número de parámetros incluidos
incorrectamente. Esto significa que se tiende a concluir la
existencia de una raíz unitaria cuando, en realidad, no la
hay.
b. Una posible alternativa a este esquema podría ser el
comenzar por el modelo más restringido, es decir, más
simple, e ir incluyendo nuevos parámetros de forma
secuencial.
Sin embargo, este procedimiento tampoco soluciona el

problema de potencia del contraste dado que la omisión del
término independiente o la tendencia determinista, cuando
estas son variables relevantes también provoca de nuevo
una estimable pérdida de potencia hasta el punto de poder
incluso anularse por completo.
Campbell y Perron (1990) comprobaron empíricamente que la

omisión de una variable relevante que crezca tan rápido o más
que otra de las incluidas (término de tendencia determinista, por
ejemplo), provoca que la potencia del contraste se reduzca hasta
cero a medida que el tamaño muestral se incrementa.
Si la variable omitida fuese la deriva, el t-estadístico sería

consistente pero, para muestras pequeñas, la potencia se vería
seriamente afectada, tanto más cuanto mayor fuera el coeficiente
de deriva omitido.

Este problema expuesto hasta aquí, admite además ciertos

matices adicionales. En primer lugar, cuando el proceso
generador de datos contiene una tendencia o una deriva, la
varianza muestral de yt queda dominada por ellas.
Así, se ha comprobado empíricamente que, en esos casos, los

estadísticos tμ y tτ convergen a una distribución normal estándar
por lo que, si se conoce la presencia real de esa tendencia o
deriva, la hipótesis nula γ=0 debe contrastarse usando una
distribución normal estandarizada en lugar de las distribuciones
asintóticas tabuladas por Dickey y Fuller.
Hylleberg y Mizón (1989) mostraron que los valores normales

estándar llevan frecuentemente al rechazo de la hipótesis nula,
incluso con muestras grandes, a menos que la constante sea muy
grande. Estos autores propusieron nuevos valores críticos
situados entre los clásicos tabulados por DF y los de la
distribución normal.
A medida el tamaño de la constante se reduce, estos valores se

aproximan más a los valores DF. Por esta razón, en estas
situaciones y para muestras pequeñas, se recomienda como
criterio general utilizar las tablas propuestas por Dickey y Fuller
y no las normales estandarizadas.
En la práctica, el problema de la elección de los regresores

deterministas a incluir en el contraste no tiene una solución
sencilla.

El principio general puede ser el de “elegir aquella especificación

que, a priori, sea más verosímil tanto bajo la hipótesis nula como
bajo la alternativa”. Así, puede realizarse un análisis previo de la
serie que ayude a determinar si cabe la consideración de una
tendencia (determinista o estocástica), y en ese caso incluir una
constante y una tendencia en la regresión.
Si la serie no presenta tendencia pero tiene media no nula, se

incluye la deriva en el modelo y, por último, si presenta media
nula y ausencia de tendencia se aplica el contraste con el modelo
más restringido.
Dolado (1990) y Perron (1990) propusieron, entre otros

autores, seguir un proceso en etapas a fin de garantizar el éxito
en la elección del modelo de referencia en el mayor número de
ocasiones:
1. En primer lugar se estimaría el modelo menos restringido
(con término constante y tendencia determinista).
2. Dado que el principal error de esta táctica inicial consistiría
en la escasa potencia del contraste para el rechazo de la
hipótesis nula por inclusión de variables irrelevantes, si los
valores críticos indican rechazo (ausencia de raíz unitaria),
se termina el procedimiento.
3. En el caso de no rechazarse la hipótesis nula de presencia de
una raíz unitaria, es decir, en el caso en que se admite la
presencia de una raíz unitaria (H0: =0) sigue ahora examinar la
significancia del parámetro de tendencia determinista a2. Dado
que, en este punto, estaríamos bajo la hipótesis ya admitida que
=0, se utiliza el valor de referencia de e incluso, para
mayor seguridad, también el contraste conjunto 3 (a2==0).

4. Si el término de tendencia resulta significativo (a20) se

contrasta de nuevo la presencia de una raíz unitaria (H0: =0)
pero utilizando entonces las tablas de una normal estandarizada.
Sea cual sea el resultado del test con las nuevas tablas finalizan
el contraste admitiendo o rechazando la presencia de una raíz
unitaria.
5. Si el término de tendencia es no significativo, deberá
replantearse el modelo inicialmente estimado pasándose a
examinar otro con término constante pero sin esta tendencia
determinista. Con este modelo se vuelve a analizar la presencia
de una raíz unitaria (=0).
6. En el caso en que, nuevamente, se sostenga la presencia de una
raíz unitaria, se contrastará entonces la adecuación del término
independiente a0 bien con el contraste , bien con 1. Si el
término independiente resulta significativo se utiliza de nuevo
las tablas de una normal para contrastar la presencia de la raíz
unitaria, concluyendo de nuevo aquí el contraste.
7. Sólo si entonces la constante a0 es no significativa se utiliza el
modelo más simple como modelo de referencia contrastándose,
de nuevo, la presencia de raíz unitaria. En este caso, no tiene
cabida el uso de la distribución normal estandarizada.
8. Por último, parece sensato incluir aquí como consejo la
atención a la teoría del fenómeno que se está analizando. Así,
en ciertas ocasiones la teoría económica nos mostrará que no
cabe considerar una tendencia en una determinada serie o bien,
por el contrario, que no cabe la fluctuación alrededor de un
valor medio.
PRUEBA DF EN MODELOS AUTORREGRESIVOS DE ORDEN

SUPERIOR. CONTRASTE ADF

Hasta este momento permite contrastar la presencia de una o

más raíces unitarias en una determinada serie temporal para la
que se supone un proceso AR(1). Sin embargo, muchas serie
temporales se ajustan más adecuadamente a procesos
autorregresivos de orden superior AR(2) o AR(3).
No parece, por tanto, adecuado, contrastar la presencia de una o

más raíces unitarias utilizando siempre la estructura de un
modelo AR(1) ya que las raíces unitarias pueden aparecer
también en estructuras más complejas.
Este problema da lugar a lo que se conoce como test de raíces

unitarias de Dickey-Fuller Ampliado (ADF). Si se quiere
contrastar la presencia de una raíz unitaria en una serie que
sigue un proceso AR(p), deberá aplicarse el procedimiento
expuesto para el caso simple AR(1), pero suponiendo ahora del
modelo:
Dónde:
Para entender este modelo y la hipótesis que se contrasta de

cara a detectar la presencia de una raíz unitaria, veamos un caso
sencillo de una serie que presente una raíz unitaria en el marco
de un modelo AR(3). Dado el modelo original:

Sumando y restando para yt-2
Calculando
Sumando y restando para yt-3
Si la serie presenta una raíz unitaria en este modelo bastará con

que γ=0 ya que entonces:
lo que garantiza que, al menos, una raíz característica de la

ecuación sea igual a uno, es decir, yt ~I(1). La nulidad del
parámetro se contrasta siguiendo el mismo procedimiento que
en el modelo simple y, por tanto, se utilizan las mismas tablas
que en el caso del contraste DF.
En este sentido, es importante señalar que el propio Fuller

demostró que la distribución asintótica del estadístico “t” del
parámetro g estimado, es independiente del número de rezagos
de la variable diferenciada que se incluya en la especificación del
modelo estimado.

Debe observarse cómo la aplicación del test ADF no sólo es

conceptualmente útil para el contexto en el que se sospecha un
modelo AR(p), sino que, además, se presenta como una posible
corrección a los problemas de autocorrelación que pudieran
aparecer en el término de error del modelo básico utilizado en el
test simple DF, sobre todo en series de frecuencia superior a la
anual.
Efectivamente, debe tenerse en cuenta que los valores de

referencia de la prueba se han obtenido suponiendo la ausencia
de autocorrelación serial en et, en este sentido, la introducción
de un número suficiente de rezagos de la variable dependiente
podría ser suficiente para transformar et en un ruido blanco. La
elección del número de rezagos a considerar viene determinada
por:
1. El modelo teórico de referencia supuesto para yt, en la
medida en que este sea conocido por el investigador.
2. Criterios clásicos de aceptación de variables en un modelo
como el test “t- Student” de significancia individual, AIC o
SBC.
Esta forma de corrección de posibles problemas de

autocorrelación en et es lo que se denomina Solución
Paramétrica al problema de la autocorrelación y fue sugerida por
los propios autores del contraste, Dickey y Fuller (1981).
De hecho, debe señalarse que numerosos textos introducen

conceptualmente la prueba ADF al comentar el problema de una
posible autocorrelación en los residuos del modelo simple DF.

Esquema de análisis de estacionariedad previo a la identificación y

eventuales transformaciones de la serie original según los
resultados
Serie inicial “Yt”
NO SI
¿Es estacionaria en media ?
Aplicar filtro de tendencia
Continuamos con la serie filtrada Continuamos con la serie

“Yt(ft)” inicial “Yt”
NO ¿Es “Yt(ft)” estacionaria SI NO ¿Es “Yt” estacionaria en

SI
en varianza ? varianza ?
Aplicar Aplicar
diferencias diferencias
(1) Continuamos con la (2) Continuamos con (3) Continuamos con la (4) Continuamos con
serie filtrada en la serie filtrada serie en diferencias la serie original
diferencias “dYt(ft)” “Yt(ft)” “dYt” “Yt”
a. La presencia de componentes estacionales en las series de

tiempo estacionarias obliga a plantearse al menos tres
preguntas previas a la identificación:
i. ¿Conviene preservar el componente estacional en la serie

o eliminarlo antes de identificar sus estructuras ARMA y
utilizar los resultados con fines analíticos?

ii. En caso que sea de interés eliminar el componente

estacional, ¿Cuándo conviene aplicar el correspondiente
filtro para eliminar la estacionalidad? ¿Antes del
tratamiento de la tendencia determinista y las raíces
unitarias? ¿Después de los filtros de tendencia pero antes
del análisis de Raíces Unitarias?
iii. Suponiendo que está claro cuándo conviene eliminar la

estacionalidad, ¿existe un procedimiento estándar o más
de uno? y, lo que es más importante, ¿es indiferente la
aplicación de los distintos métodos que existen o por el
contrario los distintos procedimientos impactan sobre la
serie filtrada resultante y, por tanto, sobre el resto de las
etapas del análisis?
Algunas de las preguntas previas tienen una respuesta.

Empezando por el final, existen distintos métodos para eliminar
la componente estacional y la aplicación de cada uno de ellos
genera resultados que pueden diferir sustancialmente influyendo
en el resto de las etapas (identificación y análisis de
estacionariedad).
Entender distintos procedimientos pasa por comprender una

distinción muy simple de tres (3) tipos genéricos de
estacionalidad. Puramente determinista, Estacionalidad
estacionaria y Estacionalidad integrada.
Definición. Estacionalidad determinista. Asume que el

componente estacional de una serie transformada Zt puede ser

pronosticado con exactitud a futuro, permaneciendo invariante

en el tiempo, y puede, por tanto, ser modelado por ejemplo
mediante la inclusión de variables dummies.
Excluida la estacionalidad determinista, el resto de métodos

ideados para modelar la estacionalidad no determinista (X11,
X12) impactan de forma distinta, y a veces significativa, en los
resultados obtenidos para la serie filtrada y, además, generan
resultados potencialmente distintos según el momento elegido
para la aplicación del filtro.
Por último, conviene preguntarse además si la estacionalidad es

siempre “estacionaria” o, por el contrario, del mismo modo que
aparecen raíces unitarias “regulares” es posible encontrar raíces
unitarias estacionales.
Efectivamente, es posible encontrar raíces unitarias estacionales

lo que obliga a pensar en la aplicación de test específicos46 antes
de observar otros componentes estacionales estacionarios en la
identificación.
Con el fin de no complicar en exceso el proceso de identificación y

en términos de la estacionalidad y supondremos bien que
estamos ante una serie sin componentes estacionales o, al menos,
con componentes estacionales estacionarios que, por tanto,
podrán ser filtrados previamente o bien modelados en el propio
proceso de identificación ARMA en su componente estacional
(SARMA).
46 Existen varias propuestas al respecto: DF Estacional (Dickey Fuller) , HEGY (Hyllenerg,Engle,Granger y Loo) , CH (Canovas – Hansen)

REGRESIONES ESPURIAS
El problema de la aparición de regresiones espurias en los
resultados de un buen número de análisis económicos es
siempre atribuido a Granger y Newbold (1974).
Sin embargo, a finales de la década de los años 20, Yule (1926)

ya había arrojado la primera piedra en el Journal of the Royal
Statistical Society con un artículo con el título: Why do we
sometimes get nonsense correlations between time series?
El problema de las regresiones espurias admite como buenas,

relaciones económicas que en realidad sólo se deben a aspectos
casuales.
Por regresión espuria se entiende aquellas ecuaciones de

regresión que presentan una elevada significancia conjunta,
medida en términos del coeficiente de ajuste R2 o R2 ajustado. Sin
embargo, fuertes problemas de autocorrelación positiva
reflejados en bajos valores del estadístico Durbin Watson.
La presencia de un término de error fuertemente

autocorrelacionado impide efectuar un proceso de inferencia con
mínimas garantías.
La probabilidad de un error en el cálculo y en la aplicación de los

test de significancia individual convencionales es muy
importante, sin contar los problemas de no eficiencia de los
estimadores.

Este tipo de regresiones aparecen cuando se relacionan series de

tiempo no estacionarias y se agudizan cuanto estas estén más
cercanas a la forma de un paseo aleatorio. Es decir, cuanto más
evidente sea la presencia de tendencias estocásticas en las series.
La forma más clara de ilustrar el problema es utilizar los

resultados del ejemplo expuesto por Newbold y Davies (1978) y
Granger y Newbold (1986). Suponga dos variables yt y xt
independientemente generadas por paseos aleatorios:
Donde ε1t y ε2t son procesos ruido blanco normales estándar

independientes entre sí con media cero y varianza unitaria.
Dado que yt y xt están generadas de forma independiente se debe

esperar que no existiera ninguna relación significativa entre
ambas.
Sin embargo, sobre un conjunto de 1000 muestras de yt y xt con

50 observaciones, alrededor de un 65% de las regresiones de yt
sobre xt presentan contrastes t significativos a un nivel de
significancia del 5%.
Tal y como expone Enders (1995) basta con comprender las

propiedades de la perturbación aleatoria de la regresión de yt
sobre xt para apreciar lo inconsistente de estos resultados.
Efectivamente, en la regresión:

Es claro que, prescindiendo de la constante a0:
Por lo que imponiendo las restricciones iniciales y0=x0=0 se

tiene que:
Por tanto, se está ante una sucesión εt no estacionaria en

varianza. Si esto es así, εt presenta una tendencia estocástica, lo
que quiere decir que el error cometido en t no se diluye en t+1,
t+2... t+s.
Es imposible que una regresión en la que los errores se acumulan

de forma permanente pueda tener algún interés.
Nótese que en esta situación se violan un buen número de

hipótesis básicas asumidas en los procesos de inferencia
habituales en el contexto del Modelo Básico de Regresión Lineal:
1. La varianza de εt no es constante. Como se demostró
anteriormente la varianza se incrementa hacia el infinito a
medida que el tamaño de muestra t crece.
2. Existe correlación serial. La misma expresión para εt puede
utilizarse para comprobar como la correlación entre εt y εt+1
tiende a uno a medida que t se incrementa.
3. Si la serie xt no es estacionaria, no satisface la propiedad:

Dada semejante acumulación de errores, ningún test de

significancia puede ser usado con garantías y por ello, ninguna
inferencia será fiable.
Las regresiones espurias, no obstante, no sólo se producen por la

aparición de tendencias estocásticas en las series. Las tendencias
deterministas también pueden ser un problema.
Si se construye una serie yt lineal (1,2,3,4..... 50) y se hace

depender de otra xt con tendencia cuadrática (1,4,.......502) el
resultado en términos de R2 es 0,94 cuando en realidad el patrón
de evolución de la serie cuadrática acabará por divergir de forma
definitiva cuando el número de datos tienda a infinito.
Desde el primer momento, y aún de forma intuitiva, la utilización

de tasas o primeras diferencias se utiliza en las series de cara a
mitigar los efectos negativos en este tipo de situaciones.
Este fenómeno sucede con facilidad cuando son utilizados series

en niveles, dado que los cambios sobre el nivel se producen de
forma mucho más suave generando series con patrones
tendenciales ampliamente comunes y fácilmente predecibles.
El problema, no obstante, no reside en una cuestión de niveles o

tasas, sino en el concepto de estacionariedad de la serie de
tiempo.

EVALUACIÓN DE LA ESPECIFICACIÓN SARMA (ESTACIONALES)

Del mismo modo que se ha identificado la presencia de términos
AR y/o MA en la componente “regular”, observando los
correlogramas o utilizando criterios clásicos de evaluación
econométrica, pueden así mismo identificarse estructuras AR y
MA para retardos estacionales.
Este tipo de estructuras SAR y/o SMA se identifican con los

mismos instrumentos especificados anteriormente.
Con relación al correlograma, en el caso de las componentes

estacionales las estructuras SAR y SMA se identifican
gráficamente con los mismos patrones señalados para la
componente regular.
Sin embargo, para evaluar en este caso un decrecimiento en la

FAP o FAS debemos fijarnos exclusivamente en los valores de los
coeficientes de autocorrelación (simples o parciales)
correspondientes a los rezagos estacionales (por ejemplo para
una serie trimestral, se debe observar gráficamente el valor de los
coeficientes de autocorrelación para t-4, t-8, t-12……etc).
Dado que habrá que observar coeficientes de autocorrelación

para rezagos estacionales, deberán solicitarse correlogramas más
extensos que par la identificación de la componente regular.
En una serie mensual, por ejemplo, una docena de coeficientes

son suficientes para observar cualquier estructura en la
componente regular y, sin embargo, no podría observarse la

componente estacional dado que el único coeficiente estacional

disponible sería el correspondiente a “t-12”.
Por lo que se refiere a la evaluación econométrica de las

especificaciones SARMA alternativas, todos los consejos citados
para la evaluación econométrica de la componente regular son
igualmente aplicables para evaluar la conveniencia de la inclusión
de términos SAR y/o SMA en una especificación.
INTRODUCCIÓN AL ANÁLISIS DE INTERVENCIÓN

El modelamiento econométrico ARIMA de una serie temporal
rara vez concluye con la identificación de una estructura AR / MA.
La razón es que este tipo de estructuras ARMA regulares y/o

estacionales pueden servir como regla general de
comportamiento para la serie disponible, pero sólo capturarán
aquella porción de la variabilidad sistemática que se observe a lo
largo de la serie completa.
Esto significa que, aún utilizando una estructura ARMA pueden

quedar fuera de análisis:
a. Ciertos componentes de variabilidad sistemática (y por ello
previsible en gran medida) pero de carácter irregular o de
frecuencia anómala. Como componente sistemático de
carácter puntual podemos, por ejemplo, imaginar el efecto de
la semana santa sobre la serie semanal de entrada de
turistas. Dado que la Semana Santa es un fenómeno puntual
dentro del año (no ocurre todos los meses) y además no
siempre “cae” en la misma semana natural, su “efecto” sobre
la serie no se puede recoger con el componente regular

ARMA previamente identificado. Otros efectos de esta

naturaleza pueden ser el efecto”año bisiesto”, la presencia de
fiestas de distinto carácter (internacional, nacional, regional,
local,…) que afecten a la serie o a parte de ella.
b. Impactos puntuales en la serie debidos a la presencia de

observaciones atipicas, imprevisibles, no sistemáticas,
relacionadas con acontecimientos extraordinarios o errores
en la manipulación de datos (atípicos)
Ejemplos de puntos atípicos con influencia sobre cualquier

serie hay tantos como acontecimientos imprevisibles puedan
ocurrírsele a uno (un atentado, un seísmo, un cambio
legislativo, una fusión empresarial, …..)
La presencia de este tipo de componentes deficientemente

incluidos en la especificación, pueden generar problemas en los
modelos estimados.
En primer lugar, la presencia de puntos o períodos atípicos eleva

el error de estimación, lo que repercute en varios aspectos clave
en materia de evaluación general del modelo (tests de
significatividad, precisión en el contraste de hipótesis, tamaño de
los intervalos para los parámetros y la predicción, etc).
En segundo lugar, la propia presencia no atendida de tramos o

puntos anómalos puede inducir errores en la identificación de las
estructuras ARMA.
En este sentido, algunos puntos atípicos pueden tener una

elevada influencia en los resultados de las medidas y los test que

se utilizan en la tarea de especificación.
Adicionalmente, la presencia de señales atípicas en las series y su

correcta detección aporta en muchas ocasiones una fuente
auxiliar de conocimiento del fenómeno analizado que no conviene
desperdiciar.
En líneas generales, el análisis de intervención aspira a

complementar la identificación ARMA de la componente de
variabilidad sistemática regular de la serie, añadiendo al modelo
una componente (de tipo determinista) que recoja los efectos de
los anómalos.
Esa componente determinista puede ser, a futuro, previsible o

imprevisible en función, precisamente, del carácter determinista
o no sistemático del acontecimiento incluido.
La forma que adoptará la componente determinista del análisis

de intervención dependerá del tipo y duración fenómeno a
incorporar en el modelo.
En ocasiones se tratará de series completas de tiempo en otras de

meras variables dummy pensadas para capturar algún
acontecimiento puntual.
Así, por ejemplo, en el caso del modelamiento de datos atípicos
(outliers), suelen distinguirse algunos perfiles habituales (se
muestran sólo algunos ejemplos de los diversosperfiles que
podrían imaginarse):

Impulso: El acontecimiento es puramente Escalón: Se produce un cambio de nivel

puntual afectando a una única (media) en la serie a partir de un
observación. determinado acontecimiento.
20 40
35
10
30
0
25
-10 20
-20 15
10
-30
5
-40
0
-50 -5
1 14 27 40 53 66 79 92 105 118 131 144 157 170 183 196 209 222 235 248 261 274 287 300 313 326 339 352 365 378 391 404 417 430 443 456 469 482 495 1 14 27 40 53 66 79 92 105 118 131 144 157 170 183 196 209 222 235 248 261 274 287 300 313 326 339 352 365 378 391 404 417 430 443 456 469 482 495
Meseta: Una variante del atípico de Tendencia (o rampa): El acontecimiento

escalón pero de duración determinada impacta progresivamente en la serie
40 generando una tendencia determinista.
35 40
30 35
30
25
25
20
20
15
15
10 10
5 5
0
0
-5
-5
1 14 27 40 53 66 79 92 105 118 131 144 157 170 183 196 209 222 235 248 261 274 287 300 313 326 339 352 365 378 391 404 417 430 443 456 469 482 495
-10
1 14 27 40 53 66 79 92 105 118 131 144 157 170 183 196 209 222 235 248 261 274 287 300 313 326 339 352 365 378 391 404 417 430 443 456 469 482 495
Los distintos acontecimientos que requieren análisis de

intervención pueden ser conocidos previamente por el analista
por lo que su detección técnica no es necesaria.
Sin embargo, la exploración puramente técnica de la serie en

busca de datos atípicos puede ser también importante por cuanto
algunos fenómenos que impactan en la serie pueden no ser
conocidos a priori (bien por falta de atención o estudio del
analista, bien por tratarse de cuestiones particularmente raras e
inexplicables incluso a posteriori).

En este sentido, muchos programas con módulos específicos de

análisis de series temporales (TRAMO-SEATS) ofrecen
mecanismos de detección y caracterización de datos atípicos que
complementan las ideas a priori del analista.
Estimación
Los parámetros del modelo ARMA pueden estimarse por Máxima
Verosimilitud asumiendo una distribución condicional concreta
para la serie de interés. Aunque las observaciones no son
mutuamente independientes, la verosimilitud puede obtenerse
mediante la siguiente función de verosimilitud:
Si esta condicionalmente normal entonces su función de densidad

condicional viene dada por:
Si también asumimos que el proceso es estacionario y Gaussiano,

de forma que la distribución marginal de las observaciones
iniciales sea Gaussiana, entonces la densidad marginal es:
El logaritmo de la función de verosimilitud Gaussiana se define

como:

En los modelos ARMA, la varianza condicional siempre es

constante. Por lo tanto:
La media condicional y la distribución marginal dependen del

modelo particular que se haya ajustado a la serie.
Ejercicio. Suponga el caso de un AR(1). Construya la función de

verosimilitud asociada. Sean los momentos y la forma funcional
del proceso estacionario de la forma:
Por lo tanto, el logaritmo de la función de verosimilitud Gaussiana

se define como:

Si se consideran que los valores iniciales de la serie son fijos en

distintas realizaciones, entonces:
El estimador de máxima verosimiltud condicional es equivalente

a OLS con sus propiedades asintóticas son las mismas que las del
estimador de máxima verosimilitud.
Bajo el supuesto de estacionariedad, la distribución asintótica del

estimador de máxima verosimilitud es la habitual, lo que nos
permite realizar contraste de hipótesis sobre los parámetros del
modelo de forma estándar.
DIAGNÓSTICO DE LOS RESIDUOS

La estructura de diagonostico del modelo, según la metodología
Box-Jenkins, ademas de la significancia de los parametros del
modelo se puede resumir en la siguiente tabla:
Prueba Objetivo

LM Prueba para determinar

efecto ARCH o varianza no
condicionada.
Q-Ljung-Box Estacionareidad y
autocorrelación de los
residuos.
Prueba de Pormanteau Prueba de autocorrelación
del primer residuo.
Normalidad Shapiro-Wilk / Jarque-Bera
Prueba de estabilidad Test de Chow
PRONOSTICO
Si se ha encontrado un modelo adecuado para el proceso
generador de datos (DGP) de una serie de tiempo puede ser
utilizada para pronosticar el desarrollo futuro de la variable en
estudio.
Los procesos AR son particularmente fáciles de usar para con este

propósito. Tener una componente determinista y asumiendo un
AR(p) de la forma yt = α1yt-1+ ··· + αpyt-p + ut, donde el termino,
ut, son generados por un término independiente no
correlacionado ruido blanco.
Se puede demostrar que el óptimo (mínimo ECM) un periodo

haca adelante tiene la esperanza condicional:
Para pronósticos más amplios, h>1, puede ser obtenido

recursivamente de la forma:

Donde yt+j|T=yt+j para j<0. El correspondiente error de

pronóstico está dado por:
Donde se puede observar por sustitución sucesiva que los

coeficientes Φj pertenecen a una representación MA si el proceso
es estacionario. En consecuencia, los coeficientes ΦJ pueden ser
calculados de forma recursiva como:
Con ϕ0=1 y αi=0 para i>p. Donde ut, es el error de pronostico un

paso hacia adelante y el pronóstico es insesgado, es decir, el error
de pronostico tiene expectativa cero.
Este es el ECM de pronóstico. El ECM de h periodos hacia adelante

es:
Para cualquier otro pronostico h periodos hacia adelante con el

ECM σ̅2y (h), por ejemplo, σ
̅2y (h)- σ2y (h) es no negativa.

Este resultado se basa en el supuesto que ut es ruido blanco

independiente, es decir, ut y us sean independientes para s≠t. Si ut
es ruido blanco no correlacionado y no es independiente en el
tiempo implica que los pronósticos obtenidos de forma recursiva
son:
Con yT(j)=yT+j para j<0 es el mejor pronostico lineal . Es

importante indicar que el pronostico del ECM para variables
estacionarias I(0) esta acotado por la varianza condicional σ2y (h)
de yt.
Si el proceso yt es gaussiano, es decir, ut~vaiid N(0,σ2), el error de

pronostico también se comporta normalmente. Este resultado
puede ser utilizado para construir intervalos de confianza de la
forma:
Donde c1-γ/2 es el porcentaje (1-γ/2)100 de una distribución

normal estándar y σy(h) denota la raíz cuadrada de σ2y (h), es
decir, σy(h) es la desviación estándar del error de pronostico h
periodos hacia delante de la variable yt.
Aunque se ha presentado el pronostico para procesos

estacionarios las mismas formulas aplican si yt es I(d) con d>0.
También los Φj pueden ser calculados como:

En el caso no estacionario, los Φj no son coeficientes en una

representación MA, y no onvergen a cero para j→∞.
Como consecuencia, el ECM del pronóstico no converge para

h→∞.
Para variables no estacionarias de orden d, I(d), existe otra

posibilidad para calcular en pronostico. Suponga yt es I(1) de
modo que ∆yt es estacionaria. Es posible utilizar el hecho que
yt+h=yt+∆yt+1+……+∆yt+h. De este modo, el pronostico yt+h
desde el periodo t, solamente es necesario de la variable
estacionaria ∆yt+j (j=1,…,h) y sumárselo al pronóstico de yt para
obtener el pronóstico de yt+h. Este pronóstico es idéntico al
obtenido directamente de los niveles en una formulación AR(p).
En la práctica, no se conoce el proceso generador de datos (DGP)

pero se ejecuta sobre la aproximación a este. En otras palabras,
las cantidades estimadas se efectúan incluyendo el gorro de
estimación sobre la ecuación de pronóstico, es decir:
El correspondiente error de pronóstico es:

En el origen del pronóstico T, el primer término del lado derecho

implica los residuos futuros solamente, mientras el segundo
término variables presentes y pasadas únicamente,
proporcionando únicamente variables pasadas para su
estimación.
En consecuencia, si ut es ruido blanco visto como una vaiid los

dos términos son independientes. Por otra parte, bajo supuestos
estándar, la diferencia yT+h|t - yT+h|T es pequeño en la probabilidad
en la medida que el tamaño de muestra utilizada para la
estimación se hace grande. Por lo tanto, la varianza del error de
predicción es:
Donde o(1) denota un termino que se aproxima a cero en cuanto

el tamaño de muestra tiende a infinito. De esta forma, para
estimación de muestras grandes la incertidumbre puede ser
ignorada en evaluar la precisión de pronóstico y estableciendo
intervalos de confianza. En muestra pequeña incluye un término
de corrección. En este caso, la precisión del pronóstico dependerá
sobre la precisión de los estimadores.
Incluir un términos determinístico en el proceso utilizado para

pronóstico es utilizado. El valor apropiado del termino
determinístico es adicionado a cada pronostico.

CARACTERÍSTICAS DE LAS PREDICCIONES REALIZADAS CON

MODELOS ARIMA
1. Modelos AR(p): la predicción tiende a m (media del proceso)
a medida que aumenta el
2. horizonte temporal de la predicción.
3. Modelos MA(q): dada la memoria limitada que caracteriza a
estos procesos, la predicción es igual a m (media del
proceso) cuando el horizonte temporal de la predicción es
mayor que el orden del proceso (q).
4. Modelos ARMA(p,q): a partir de "q" períodos futuros la
predicción tiende a m (media del proceso) a medida que
aumenta el horizonte temporal de la predicción.
5. Modelos ARI(p,d) e IMA(d,q): la predicción ya no tiende a m
sino que será una línea recta que parte deY(1) con pendiente
igual a la media del proceso wt (serie resultante de las
transformaciones necesarias para hacerla estacionaria).
PROTOCOLO DE IDENTIFICACIÓN DE MODELOS ARIMA

En términos generales, se conoce como identificación del modelo
la determinación de los ordenes “p” y “q”, de la estructura ARMA
de la transformada la variable transformada Zt de una serie
temporal yt diferenciada o con filtro de tendencia.
Antes de proponer algunas técnicas concretas para la

identificación de la serie Zt, conviene hacer algunas observaciones
preliminares importantes:
b. La observación de la estructura ARMA(p,q) supone la
presencia de componentes regulares en las series, una vez
filtrada la presencia de tendencias deterministas y

estocasticas.
No todas las series presentan este tipo de componentes

regulares o, dicho de otro modo, no todas las series son
susceptibles de ser analizadas mediante un esquema ARMA.
A este respecto, conviene recordar que los modelos ARMA

implican estructuras de comportamiento muy sencillas que
no siempre se ajustan a la compleja evolución de las series
reales.
c. Aunque técnicas de identificación pueden aplicarse a
cualquier variable transformada Zt de la serie original yt debe
tenerse en cuenta que el resultado del proceso de
identificación no es independiente de las decisiones
adoptadas en el proceso de análisis de estacionariedad
previo.
Todas las decisiones adoptadas en este proceso previo

(aplicación de filtros de tendencia, elección de un filtro
frente a otro, orden de integración y diferenciación de la
tendencia estocastica) implican obtener diferentes
versiones, transformadas de Zt, y por tanto, alteran las
características del proceso a observar mediante la
identificación.
Aplicar una diferencia cuando no existía una raíz unitaria en

una tendencia estocastica (sobrediferenciar), no aplicar una
diferencia necesaria (infradiferenciar), elegir un filtro de
tendencia incorrecto implican errores en el proceso de
identificación.

Así, por ejemplo, en las siguientes figuras se observa como la

aplicación incorrecta de un filtro de tendencia lineal genera
una señal filtrada sobre la variable transformada Zt
absolutamente distinta de la que se genera cuando se aplica
el filtro correcto.
Figura 1: Serie Yt con tendencia Figura 2: Serie Yt, filtro de tendencia

polinómica lineal incorrectamente aplicado y serie
1600000 filtrada Zt=yt(ft) resultante
2000000
1500000
1200000
1000000
500000
400000 0
800000
-500000
200000
400000
0
-200000
0 96 97 98 99 00 01 02 03 04 05
96 97 98 99 00 01 02 03 04 05
Residual Actual Fitted
SERIE1
Figura 3: Serie Yt, filtro de tendencia polinómico correctamente aplicado y serie

filtrada Zt=yt(ft) resultante
2000000
1500000
1000000
40000
500000
20000
0
0
-500000
-20000
-40000
96 97 98 99 00 01 02 03 04 05
Residual Actual Fitted
METODOLOGÍA BOX – JENKINS

La publicación de Box y Jenkins “Times Series Análisis:

Forecasting and Control” en la década de los 70’s generó un
nuevo conjunto de herramientas de predicción, cuyo
procedimiento se llamó metodología Box- Jenkins. También
técnicamente conocida como metodología ARIMA.
Este método de predicción se basa en el análisis de las

propiedades probabilísticas o estocásticas de las series de
tiempo económicas en sí mismas, pues una variable Yt puede ser
expresada como una función de sus valores pasados, razón por la
que algunas veces se les denomina modelos sin concepción
estructural donde no existe relación causal alguna a diferencia
de los modelos clásicos de regresión.
El objetivo de la metodología Box – Jenkins es identificar y

estimar un modelo estadístico que puede ser interpretado como
generador de la información de la muestra. En este sentido, si el
modelo estimado es usado para la predicción debe suponerse
que las características de la serie es al menos estacionaria en
estido debil. Por lo tanto, la predicción se efectúa sobre una base
válida considerando que el modelo es estacionario o estable.
PROCEDIMIENTO
Las etapas que se deben seguir en la elaboración de un modelo
ARIMA con fines predictivos son las siguientes:

Etapa 1. Identificación.
Esta fase consiste en detectar el tipo de proceso estocástico que
ha generado los datos. Esto significa encontrar los valores
adecuados del la parte autoregresiva (p),el orden de integración
(d) y el componente de mendia móvil (q) del modelo ARIMA. Las
herramientas fundamentales en la identificación son el
correlograma muestral y el correlograma parcial muestral.
Es importante tener en cuenta que antes de usar los criterios de

identificación sobre las funciones de autocorrelación de FAS y
FAP se debe lograr una serie estacionaria. Para ello, se efectúan
las pruebas de estacionariedad a la serie original.
En caso de que esta no sea estacionaria, la variable puede

diferenciarse d veces hasta que ésta sea estacionaria. Mediante
este procedimiento se identifica el orden de integración d del
modelo ARIMA.
A continuación se presentan los patrones teóricos de la FAS y

FAP según el tipo de modelo, los cuales son útiles en la
identificación de p y q del modelo ARIMA:

Puesto que en la práctica no se observan la FAS y la FAP teóricas,

se usan las FAS y FAP estimadas, las cuales presentan error
estadístico. El objetivo es encontrar la mayor exactitud entre la
FAS y FAP teóricas y estimadas, en tanto que la identificación del
modelo ARIMA requiere de habilidad, la cual se obtiene con la
práctica. Cabe anotar, que en el procedimiento de identificación
de p y q.
Cabe anotar, que en el procedimiento de identificación de p y q,

se consideran aquellos rezagos estadísticamente significativos,
por lo cual no es necesario incluir rezagos intermedios hasta p o
q si éstos no son significativos.
Etapa 2. Estimación.
En esta etapa se estiman los coeficientes de los términos
autorregresivos y de media móvil incluidos en el modelo, cuyo
número de rezagos p y q ya han sido identificados en la etapa
anterior.
Algunas veces la estimación se efectúa por OLS, pero en otras se

recurre a la estimación no lineal de los parámetros. Este último

procedimiento utiliza un algoritmo para minimizar la suma de

los cuadrados de los residuos, comenzando con algún valor
inicial de los parámetros del modelo.
En general el algoritmo busca si otro vector de parámetros

mejora el valor de la función objetivo, produciendo iteraciones
sucesivas hasta alcanzar la convergencia. Los paquetes
estadísticos efectúan este procedimiento a través de rutinas de
computador en las que se tienen definidos los parámetros
iniciales, así como los criterios de convergencia.
Teóricamente el método OLS en la medida que las muestras sean

grandes posee propiedades asintóticas, esto quiere decir que se
generan estimadores asintóticamente consistentes y convergen a
una distribución normal, por lo que las pruebas hipótesis
convencionales sobre los parámetros del modelo serán válidas.
La estimación del modelo ARMA(p,q) se efectúa para la serie que

se ha comprobado es estacionaria. En la práctica los modelos
más comunes son los autorregresivos. Sin embargo, de acuerdo
con el teorema de descomposición de Wold, el modelo ARMA
debería ser la primera opción, teniendo en cuenta que la
inclusión de términos adicionales MA puede mejorar las
propiedades estadísticas de la estimación.
Los modelos MA son poco comunes y en la práctica a todos los

modelos se les incorpora la constante o intercepto. Debido a que
en la práctica es difícil identificar con exactitud el orden p y q del
modelo ARMA, se suelen plantear dos o más modelos plausibles,

que luego de ser estimados son útiles para la elección del más
apropiado.
Etapa 3. Verificación de Diagnóstico.

En esta etapa ser busca evaluar si el modelo estimado se ajusta a
los datos en forma razonablemente buena, ya que es posible que
exista otro modelo ARMA que también lo haga. A esta etapa
también se le conoce como validación o comprobación de
diagnóstico en la cual se efectúan algunas pruebas antes de hacer
uso del modelo para la predicción.
La validación o verificación incluye el análisis de los coeficientes

o parámetros del modelo, la evaluación de la bondad de ajuste y
análisis de los residuos.
1. Análisis de los coeficientes. Se desea que el modelo
ARMA(p,q) estimado cumpla con las condiciones de
estacionariedad e invertibilidad y que exista significancia
estadística en los rezagos incorporados. Teniendo en cuenta
las propiedades asintóticas de la estimación por OLS, los
estadísticos t-student pueden utilizarse para probar
significancia individual de cada uno delos coeficientes hasta
p y q.
2. Bondad de Ajuste. Debido a que en la fase de identificación
se postula más de un modelo tentativo, en el diagnóstico o
validación es importante identificar cuál de los modelos
presenta una mejor bondad de ajuste. Una herramienta para
ello es el R2 ajustado, el cual es corregido por los grados de
libertad resultantes de introducir parámetros adicionales en
el modelo. Por esta razón es aconsejable el R2 ajustado que
el R2, ya que el primero en cierto modo tiende a evitar o

castigar la sobreparametrización. Sin embargo, el R2

ajustado tiene validez solamente cuando se comparan
modelos en los que se han tomado el mismo número de
diferencias. Esto se sustenta en que la varianza total
depende del número de diferencias que se haya tomado.
3. Debido a esta limitación del R2 se han propuesto medidas
alternativas ecomo criterios de información como Akaike
Information Criterion (AIC) o el Schwartz Criterion (SBC).
Estas son herramientas estadísticas útiles para elegir el
número adecuado de rezagos p y q del modelo ARMA.
Ambos criterios se basan en la utilización de la suma de los
cuadrados de los errores, buscando minimizarla a partir de
diversas combinaciones de p y q. A esta prueba se le conoce
como la prueba de parsimonia. Al efectuar el diagnóstico se
desea que tanto el AIC y el SC den lo menor posible al
comparar modelos con diversas combinaciones de p y q. En
este proceso es importante considerar que los rezagos
adicionales deben ser significativos, puesto que si éstos no
los son aumenta k sin que la suma de cuadrados de los
errores se reduzca.
4. Análisis de los residuos. El supuesto de errores del modelo
son un proceso puramente aleatorio (media cero, varianza
constante y no correlación serial) debe verificarse. Para ello
es posible efectuar varios análisis:
a. Gráfico de los residuos. Consiste en una gráfica de los
errores en función del tiempo. La gráfica puede revelar
a simple vista si por ejemplo es admisible la hipótesis
de varianza constante o correlación.
b. Correlograma de los residuos y el estadístico Ljung –
Box. Se evalúa con el correlograma que los errores del

modelo son ruido blanco. En caso de no serlo, es

indicativo de que hay alguna estructura remanente del
modelo que no se logró capturar. La manera de
efectuar la prueba es mediante la inspección del
comportamiento del correlograma muestral a medida
que aumenta el número de rezagos y a través del
estadístico Ljung–Box.
c. Histograma. Generalmente se acostumbra probar que
los errores del modelo siguen distribución normal. Para
ello, se construye el histograma de frecuencias. La
prueba de normalidad se efectúa con el estadístico
Jarque Bera. En caso de que el modelo cuente con
errores autocorrelacionados se volverá a la etapa de
identificación con el objeto de reformular el modelo
hasta que los errores sigan un proceso puramente
aleatorio.
Etapa 4. Pronóstico.
El paso mas importante. Se pronostica un periodo futuro a partir
del modelo seleccionado. Es decir, aquel que es “el mejor”
resultante de las etapas anteriores, es importante considerar si
la variable original fue diferenciada. Se hace necesario ejecutar
pruebas de backtesting e intramuestra para verificar al
asertividad del modelo.
SELECCIÓN DE MODELOS
Existen dos metodologías en la selección de modelos de
pronóstico. La primera parte de los criterios de información. La
segunda utiliza metodologías de minimización del error de
pronóstico.

CRITERIOS DE INFORMACIÓN
La selección de modelos en el análisis econométrico involucra
tanto consideraciones estadísticas como no estadísticas. Esto
dependerá de los objetivos del análisis, de la naturaleza y
extensión de la teoría económica utilizada y de los resultados
estadísticos del modelo bajo consideración comparado con otros
modelos econométricos.
El cálculo de los valores de las funciones de criterio corresponde

a las propuestas por Akaike (1973,1974), Schwarz (1978) y
Hannan-Quinn (1979), tanto para modelos uniecuacionales como
multiecuacionales.
Estos criterios de selección de modelos miden el “ajuste” (“fit”) de

un modelo dado, maximizando el valor de la función de máxima
verosimilitud con el uso de diferentes funciones de costos
(“penalty”) para tomar en cuenta el hecho de que diferentes
números de parámetros desconocidos pudieron haber sido
estimados para diferentes modelos bajo consideración.
Si ln(Θ) es el valor maximizado de la función de máxima
verosimilitud de un modelo econométrico, donde Θ ̂ es el
estimador de máxima verosimilitud de Θ, basado en una muestra
de tamaño n.
Definición. Criterio de información de Akaike (AIC). Para este

modelo proporciona una aproximación para muestras pequeñas.
Se define como:

Definición. Criterio de información Bayes-Schwarz (BIC).

Suministra una aproximación para muestras grandes del
porcentaje de probabilidad del modelo bajo consideración. Este
criterio se define como:
Definición. Criterio de información Hannan–Quinn. Este criterio de

información fue primeramente propuesto para seleccionar el
orden autorregresivo de los modelos de promedios móviles o
vectores autorregresivos (VAR), y es definido por:
MINIMIZACIÓN DEL ERROR DE PRONÓSTICO

Si entendemos que una predicción es mejor que otra cuando
comete menor error, los criterios de selección de modelos serían
el error cuadrático medio (ECM), error absoluto medio (EAM) y
error absoluto porcentual medio (EAPM). Estos indicadores se
calcularían a período histórico, es decir, se calcularían los
valores que el modelo ofrece para las H últimas observaciones y
se compararían con el valor real, del siguiente modo:

Otra medida que permite analizar la bondad de la predicción.

Está basada en la diferencia cuadrática que existe entre las tasas
de crecimiento de la variable real y la estimada conocida como u
de Theil.
El valor de coeficiente está comprendido entre 0 y 1. El valor 0

supone una predicción perfecta ya que coinciden ambas tasas en
todos los puntos.
El valor 1 en cambio supone máxima desigualdad, este hecho se

puede deber a predicciones nulas para valores reales distintos
de cero o viceversa.
n
  yˆ
i 1
i  y i 
2
U  Theil  n
n n
 yˆ i
2
 y i
2
i 1
 i 1
n n
El valor del coeficiente se puede atribuir a tres factores:

1. Error Sistemático: atribuido a la diferencia sistemática entre

el promedio de las tasas reales y estimadas de la variable
dependiente. Toma valores positivos o negativos según la
media de la tasa de crecimiento de la variable estimada sea
mayor o menor que la media de la tasa de la variable real.
2. Error de Dispersión:atribuido a la diferencia entre las
desviaciones típicas de las tasas de crecimiento reales y
estimadas de la variable dependiente. Toma valores entre 0
y 1 ó -1 y 0 según la dispersión de la tasa de crecimiento de
la variable estimada sea mayor o menor que la media de la
tasa de la variable real.
3. Error de Correlación: Supone el que las dos series siguen
trayectorias distintas, queda reflejado en la mayor o menor
correlación existente entre las tasas de crecimiento reales y
estimadas de la variable dependiente.

PROCESOS ESTACIONALES
Durante los últimos años se presenta un aumento pronunciado
del interés por el análisis de la variación estacional de las series
cronológicas.
Este hecho, junto con investigación relacionada con el tema de

raíces unitarias de modelos autoregresivos, llevó al tratamiento
de las raíces unitarias estacionales.
La evidencia proporcionada por estos estudios indica que,

además de ser no estacionarias, muchas series cronológicas
económicas observadas con periodicidad inferior a la anual
muestran también variaciones estacionales que son más grandes
y más irregulares que lo que se creía anteriormente.
De hecho, mientras algunas variables muestran variaciones

estacionales determinísticas, otras despliegan movimientos
estacionales que cambian lentamente a través del tiempo.
En otras palabras, algunas series cronológicas económicas

observadas con periodicidad trimestral o mensualmente parecen
desplegar a menudo variaciones estacionales estocásticas no
estacionarias y, en esos casos, los correspondientes procesos

generadores de los datos (PGD) son llamados estacionalmente

integrados o procesos con raíces unitarias estacionales.
Cuando se trabaja con datos que presentan estacionalidad, se

puede utilizar algún filtro para obtener datos estacionalmente
ajustados o puede intentar captar la estacionalidad por medio de
variables dummy estacionales lo que es equivalente a suponer
que las variaciones estacionales son puramente determinísticas.
Sin embargo, si los efectos estacionales cambian gradualmente a
través del tiempo, el modelo de variables dummy produce una
especificación dinámica errada.
Por esta razón, siempre que se usen datos estacionales en

econometría es aconsejable hacer la prueba de las propiedades
estacionales de las series cronológicas utilizadas.
PROCESOS ESTACIONALES E INTEGRACIÓN ESTACIONAL

La teoría subyacente al análisis de series cronológicas
estacionales considera tres clases de procesos estacionales:
1. Puramente determinísticos,
2. Estacionarios en covarianza
3. Procesos estacionales integrados.
La primera clase incluye aquellos procesos generados por

componentes puramente determinísticos como un término
constante, variables ‘dummy’ estacionales y tendencias
determinísticas. En el siguiente ejemplo, el proceso yt es
generado solamente por dummies estacionales que afectan la
coordenada al origen:

s
y t   i Dit   t
i 1 (1)
Donde las variables Dit (i = 1,2,..., s) toman el valor 1 cuando t
corresponde a la estación i, y cero en los otros casos, y donde t
es un conjunto de variables aleatorias idéntica e
independientemente distribuídas (IID). Esta ecuación puede ser
reformulada para evitar la confusión entre los niveles de las
diferentes estaciones, de la siguiente manera:
s 1
y      Di   * *
(2)
t i t t
i 1
Donde  es la media del proceso y los coeficientes i* están

sujetos a la restricción de sumar cero. Para hacer operativa esta
restricción las dummies Dit* (i = 1, 2,..., s) se definen de manera
tal que toman valor 1 cuando t corresponde a la estación i, –1
cuando t representa la estación s, y valen cero el resto de las
veces, y donde t es una serie de variables aleatórias IID.
Finalmente, la ecuación anterior también puede incluir
tendencias determinísticas con coeficientes estacionales
constantes o variables, es decir,
s1 s
y     Di    [ Di  g (t )]  
t
i 1
i t
i 1
i
(3)
t t
Donde g(t) es un polinomio determinístico en t. El segundo caso,

proceso estacional estacionario en covarianza, puede ser
ejemplificado por un modelo expresado como
yt = s yt – s + t (4)
donde s < 1 y t es un conjunto de variables aleatorias IID. Si

s = 1 en la ecuación (4), entonces tenemos un paseo aleatorio
estacional, un proceso que exhibe un patrón estacional que varía
a través del tiempo. Ésta es la tercera clase de proceso estacional

listada anteriormente. En ese caso, la variable  s yt , definida

como,
s yt = yt–yt–s (5)
Es estacionaria. La diferencia principal entre estas formas de

estacionalidad es que en el modelo determinístico, si t es ruido
blanco, los shocks, o innovaciones, tienen sólo un impacto
inmediato; en el caso del modelo estacional estacionario los
‘shocks’ tienen un efecto transitorio (desaparecen en el largo
plazo), mientras que tienen un efecto permanente en el modelo
integrado. Es decir, los procesos estacionalmente integrados
tienen propiedades similares a aquéllas observadas en el caso
ordinario (frecuencia cero). Las series tienen buena memoria de
manera tal que los efectos de un shock permanecen para
siempre y pueden, en consecuencia, modificar el patrón
estacional de manera permanente.
Estos procesos tienen varianzas que aumentan linealmente

desde el comienzo de la serie y no están asintóticamente
correlacionados con procesos que tengan raíces unitarias en
otras frecuencias. La secuencia de los tests depende de la
definición de integración estacional adoptada. De entre las
diferentes definiciones de integración estacional existentes
mencionamos tres de ellas: la propuesta por Osborn (1988), otra
debida a Engle (1989) y finalmente aquélla dada por Hylleberg
(1990). Se dice que una variable es integrada de órdenes (d,D),
denotado I(d,D), si la serie se transforma en estacionaria
después de diferenciarla d veces con diferencias finitas y D veces
con diferencias estacionales, es decir, Xt ~ I(d,D) si

(1  L)d (1  Ls ) D X t  d Ds X t
es estacionaria. El segundo concepto
establece que una serie cronológica es integrada de orden d0 y ds,
denotado SI(d0,ds), si (1  L) [S ( L)] X   [S ( L)] X es estacionaria,
d0 ds d0 ds
t t
donde la expresión polinómica S(L) se define como

S(L)=1+L+L2+L3+….Ls-1. Cuando las variables no presentan
integración estacional ambas definiciones coinciden, es decir,
I(1,0) = SI(1,0), I(2,0) = SI(2,0), etc. Por el contrario, siempre
que una serie es estacionalmente integrada estas definiciones
difieren. Esto sucede porque Δs=(1-Ls) puede factorizarse como
(1-L)S(L). De esta manera, el equivalente de I(0,1) es SI(1,1);
I(1,1) = SI(2,1), y así sucesivamente. De la misma manera, el
proceso SI(0,1) no tiene equivalente. En este trabajo
utilizaremos la definición SI. Finalmente, una tercera definición
afirma que una serie xt es un proceso estacional integrado si
tiene una raíz unitaria estacional en su representación
autoregresiva. Más generalmente, es integrada de orden d en la
frecuencia  si el espectro de xt toma la forma
f ( )  c(   ) 2d
Para  próxima a . Esto es denotado convenientemente por

xt~I(d). Esta definición resulta conveniente al discutir los
resultados de algunas pruebas.
PRUEBAS DE RAÍCES UNITARIAS ESTACIONALES

Antes de describir las diferentes pruebas es necesario tener la
estrategia propuesta por Dickey-Pantula (1987) que sugieren
que para conservar el tamaño nominal de la prueba en el caso de
más de una raíz unitaria, es conveniente comenzar la sucesión de
pruebas a partir del número máximo de raíces en consideración.

Esto también es válido cuando se trabaja con datos trimestrales

y presenta una sucesión completa de posibles pruebas que
empiezan con el caso SI(2,1), indicando las alternativas que
pueden someterse a cada prueba en cada caso. Siguiendo este
criterio en el caso que nos ocupa, comenzamos haciendo la
prueba de hipótesis de existencia de dos raíces unitarias.
Si una variable tiene que ser filtrada de alguna manera para que
se transforme en estacionaria, esto puede ser causado por una
raíz unitaria, o por raíces unitarias de alguna frecuencia
estacional. Este hecho determina cual será el modelo de
regresión que debe ser estimado para hacer la prueba dada una
hipótesis nula. La idea básica es que cuando la hipótesis nula
establece que existe una raíz unitaria en el rezago de orden 1 o
en los rezagos estacionales, los estadísticos de la prueba de
hipotesis son modificados de manera tal que, al estimarse la
regresión, se usen datos apropiadamente diferenciados (con Δ o
Δs, respectivamente). Cuando la hipótesis mantenida es que
existen raíces unitarias en las frecuencias estacionales, deben
usarse datos estacionalmente corregidos.
PRUEBAS CON HIPÓTESIS NULA DE EXISTENCIA DE RAÍCES

UNITARIAS
La prueba HEGY es una extensión del modelo Dickey-Fuller para
el caso en que la periodicidad de los datos es trimestral. Éste es
el test más comúnmente usado en los trabajos empíricos
recientes. La estrategia propuesta permite detectar la presencia
de raíces unitarias en una (o en todas) las frecuencias
estacionales así como en la frecuencia cero. Para hacer la prueba
la hipótesis nula de que las raíces del polinomio autoregresivo

(1-L4)=0 están localizadas sobre el círculo unitario, versus la

alternativa de que se encuentran fuera del mencionado círculo,
los autores usan la factorización del polinomio basado en las
cuatro raíces del mismo
(1  L )  (1  L)(1  L)(1  iL)(1  iL) (6)
4
Donde cada factor del lado derecho de la igualdad está asociado

con una raíz en particular. Agrupando los factores del lado
derecho de (6) de tres maneras diferentes, obtenemos:
(1  L)(1  L)(1  iL)(1  iL)  (1  L) S ( L) (7.1)
 (1  L)(1  L  L  L ) (7.2)
2 3
 (1  L2 )(1  L2 ) (7.3)
El segundo factor en el lado derecho de las tres igualdades

anteriores, o sea S(L), (1-L+L2-L3) y (1-L2), son filtros que
transforman adecuadamente los datos originales generando tres
variables auxiliares utilizadas en la regresión de la prueba.
Cuando la hipótesis nula de la prueba establece que existen dos
raíces unitarias en la frecuencia cero esos filtros se aplican sobre
la primera diferencia de la variable en vez de aplicarlos sobre el
nivel de la misma. Este último caso, que corresponde a la prueba
de una raíz unitaria, es el que usamos a continuación para
mostrar el procedimiento HEGY. Si denominamos yt a los precios
e yit (i = 1,2,3) a las variables auxiliares, tenemos:
 Y1t=S(L)yt es la transformación de los datos que filtra toda
la variación estacional de la serie reteniendo la raíz unitaria
asociada a la raíz +1 del polinomio autoregresivo
(frecuencia cero).

 Y2t=-(1-L+L2-L3)yt es la transformación que retiene la raíz

unitaria –1 del polinomio autoregresivo, la cual está
asociada con la frecuencia . El cambio de signo del filtro
tiene por objeto facilitar la manipulación algebraica mas no
afecta la esencia de la prueba.
 Y3t=-(1-L2)yt es la variable auxiliar asociada con las dos
raíces complejas conjugadas del polinomio autoregresivo y
que corresponde a la frecuencia π/2 .
Cabe resaltar, por lo tanto, que se cumplen las siguientes

igualdades:
 4 yt  (1  L)(1  L  L2  L3 ) yt  (1  L) Y1t
4 yt  (1  L)(1  L  L2  L3 ) yt  (1  L)Y 2t
4 yt  (1  L2 )(1  L2 ) yt   (1  L2 )Y 3t .
Después de hacer uso de algunos resultados del álgebra, se

obtiene una expresión equivalente que facilita la prueba de
hipótesis de hipótesis. El modelo testable resultante, usado para
verificar la presencia de una raíz unitaria47 en la frecuencia cero
y raíces unitarias en las frecuencias estacionales, está dado por
la ecuación (8) que puede ser estimada por mínimos cuadrados
ordinarios (OLS y los estadísticos  usados para realizar
inferencias, mientras que el término μt puede contener una
constante, una tendencia determinística y/o tres dummies
estacionales:
 4 yt  t  1Y1t 1   2Y2t 1   4Y3t 1 
47 En este caso la hipótesis nula de existencia de dos raíces unitarias en la frecuencia cero ya fue rechazada. El modelo usado en aquel test es
semejante a la ecuación (8): la variable dependiente es  12 yt y las auxiliares fueron obtenidas con los filtros anteriores, apenas que
aplicados a  yt en vez de yt .

k
  3Y3t 2    i  4 yt i   t (8)
i 1
La interpretación de los resultados y los valores críticos

necesarios para realizar las pruebas pueden encontrarse en
Hylleberg (1990). El orden de los rezagos (el valor de k en la
suma) es determinado usando las pruebas de diagnóstico de
manera tal que los errores del modelo estimado sean ruido
blanco. En la estimación de la ecuación (8), si no se rechaza la
nula de π1=0 significa que existe una raíz unitaria en los datos
estacionalmente ajustados. No rechazar π2=0 implica en la
existencia de una raíz unitaria en el ciclo estacional con periodo
semestral (dos ciclos por año). Si π3 y π4 son estadísticamente
iguales a cero existe una raíz unitaria en el ciclo estacional anual.
PRUEBAS CON HIPÓTESIS NULA DE ESTACIONARIEDAD

Puesto que las pruebas HEGY toman como nula la existencia de
raíces unitarias, el rechazo de su hipótesis nula implica el
resultado (fuerte) que la serie tiene un comportamiento
estacional estacionario. Sin embargo, debido a la baja potencia de
las pruebas en muestras de tamaño moderado, la falta de
rechazo de la hipótesis nula no puede tomarse como evidencia a
su favor de la presencia de raíces unitarias. Teniendo en cuenta
este problema de baja potencia de las pruebas HEGY, un
complemento útil de los procedimientos anteriores sería otra
prueba que tomase la estacionalidad estacionaria como hipótesis
nula y la no estacionaria como alternativa. En este contexto, el
rechazo de la hipótesis nula implicaría el resultado (fuerte) de
que los datos son de hecho no estacionarios, una conclusión que
ni las pruebas DHF ni los de HEGY pueden proporcionar. Visto

conjuntamente con estas pruebas, el procedimiento permitiría

realizar un análisis más completo de sus datos.
El punto de partida es un modelo lineal de series cronológicas

con estacionalidad estacionaria que puede especificarse
matemáticamente de dos maneras diferentes, aunque
equivalentes. La primera es la representación trigonométrica
usada en la literatura de serie cronológicas, y la segunda, es la
formulación con variables dummy. El primer procedimiento da
lugar a dos pruebas de raíces unitarias en las frecuencias
estacionales, y el segundo, resulta en cuatro pruebas para la
variación en el tiempo de los coeficientes de las variables
dummy estacionales (datos trimestrales). Estas diferentes
pruebas son obtenidas mediante la especificación apropiada de
la hipótesis alternativa en cada caso. La regresión auxiliar usada
para realizar estas pruebas es la siguiente:
yt    Zt'   f t '   ut (9)
Donde la variable Zt es un vector de tamaño (kx1) de variables

explicativas, ut es estacionaria, f t  [cos(1 , t ), sin(1 , t ),...,cos(s/2 , t),sin(s / 2, t)] ,
'
donde
2 j
j  s
s ( j  1, 2,.... 2)
El valor de s es el número de observaciones por año. De esta

manera, ft es equivalente a un conjunto de variables ‘dummy’
estacionales representado en el dominio de la frecuencia. Si la
alternativa en consideración es estacionalidad no estacionaria,
entonces debe hacerse una prueba simultánea de la existencia de
raíces unitarias en todas las frecuencias estacionales. Esto

significa que, para ejecutar la prueba de estabilidad con hipótesis

nula de estacionariedad en todas las frecuencias, el estadístico
que debe calcularse es el siguiente:
T
~ ~ ~
L  T  F ( ) F
f
2
t
f 1
t
t 1
T
~ ~ ~
 T tra[( f ) 1  Ft Ft ]
2
t 1
T
~
Ft   f t u~t ~
Donde es una secesión de sumas parciales, u es el
t 1 t
conjunto de residuos en la estimación de la ecuación (9) por

MCO y donde
m
~ 1
   W ( k , m)  f f  u~ u~
f
t k t t k t
T
k  m t
Es una estimación consistente de la matriz de varianza-

~
covarianza de f u (llevando en cuenta la posible existencia de
t t
heterocedasticidad y autocorrelación), y donde W(∙,∙) es un

alisado o suavizamiento (‘smoothing’). Si lo que interesa es hacer
la prueba de los componentes estacionales en las
correspondientes frecuencias individuales, la matriz pertinente
asume una forma diferente y el estadístico L original se reduce a
Lj (j=1,2,...,s/2) que puede computarse como un subproducto
del cálculo de Lf. Cuando se usan datos trimestrales (s=4)
resultan dos estadísticos de ese tipo. Éstos son dados por la
forma cuadrática
T
~ ~ ~
L  T  F  ( ) F
j
2
jt
f
jj
1
jt
t 1
T
~
Fjt   f jt u~t
f jt'  [cos( j , t ), sin( j , t )] f s/ 2,t  cos( , t )  ( 1) t
donde t 1 , , y
~  f
2 j 1, 2 j 1  f
2 j 1, 2 j

 fj j   
  
f f
2 j , 2 j 1 2 j ,2 j 

s ~
j  hlf  fj j
Para y donde
2 es un elemento característico de . La
distribución asintótica del estadístico de la prueba es la
distribución generalizada de Von Misses con grados de libertad
según la dimensión del proceso de sumas parciales. Las pruebas
Lj son complementos útiles de la prueba conjunta Lf. Si la prueba
conjunta rechaza la hipótesis nula esto podría deberse a la
existencia de raíces unitarias en cualquiera de las frecuencias
estacionales.
Las pruebas Lj son aptos para descubrir exactamente en cual

frecuencia estacional específica surge la no estacionariedad. Para
realizar el test de patrones estacionales variables se usa el
modelo más tradicional con variables ‘dummy’ estacionales,
determinando si la coordenada al origen estacional cambia a
través del tiempo. Nuevamente, escogiendo apropiadamente la
forma de la matriz pertinente es posible definir s estadísticos La
diferentes (a=1,2,3…,s) que permiten hacer la prueba de la
estabilidad de la a-ésima ordenada al origen estacional. Cuando
el objetivo de la prueba es la estabilidad conjunta de las
constantes estacionales se define un estadístico Lj.
Sin embargo, éste es una prueba para inestabilidad en cualquier

ordenada al origen estacional, de manera que pueden detectarse
hasta movimientos de largo plazo. Como resultado, la hipótesis
nula puede rechazarse en consecuencia de la existencia de
inestabilidad de largo plazo en esa frecuencia, lo cual es un rasgo
indeseable de la prueba. Las modificaciones propuestas por
Canova y Hansen para resolver este problema llevaron de vuelta
al estadístico de prueba conjunta definida en el primer caso.

EJEMPLO. DESCRIPCIÓN DE LOS DATOS Y RESULTADOS DE LOS

TESTS
Los datos son el precio medio de exportación, por trimestre, de
la tonelada de carne bovina argentina que cubren el periodo
1960–1970, están expresados en pesos de 1960. La segunda
fuente es una publicación donde se publica la serie mensual del
índice del precio real del kilogramo vivo del novillo en el
Mercado de Liniers. Esta serie cubre el periodo enero de 1970–
octubre de 1994.
GRÁFICO I. PRECIO TRIMESTRAL DEL NOVILHO EN EL

MERCADO DE LINIERS
(Índice de los precios reales; base de comparación: 1970-I)
Periodo: 1960–1994
180
160
140
120
100
80
60
40
60 65 70 75 80 85 90
IND70NOR IND70SEC
La observación del gráfico revela una acentuada disminución del

índice entre 1973 y 1975. Con efecto, el índice cae de un valor de
160 en el primer trimestre de 1973 para 55 en el tercer

trimestre de 1975. Cabe resaltar que esa disminución ocurre en

la serie de la SAGyP, lo cual elimina la posibilidad de que el
problema se origine en el encadenamiento de las series. En
consecuencia, es evidente que los datos correspondientes al
periodo 1960–1974 tienen un nivel medio superior al resto de la
serie. Usando la prueba de Chow en un modelo de regresión con
una dummy para la ordenada al origen y otra para la pendiente,
se detecta una ruptura estructural en la serie al final de 1974.
Por lo tanto, el último trimestre de 1974 y el primero de 1975
pertenecen a dos ‘conjuntos de datos’ diferentes. La primera
mitad tiene 60 observaciones y valor medio de 125,56 mientras
que la segunda, con 80 observaciones, tiene media igual a 89,96.
En el Cuadro I se presentan los estadísticos estimados y los

valores críticos necesarios para realizar las distintas pruebas
HEGY. En los tres periodos fue ajustado el modelo dado por la
ecuación (8), con las diferencias indicadas en el cuadro, es decir,
en todos los casos se incluye una constante mientras que
solamente en el periodo completo se incluye una tendencia
determinística. Como los coeficientes de las variables dummy
estacionales no fueron significativos tales variables fueron
eliminadas de los modelos. En ninguno de los tres casos fue
necesario incluir la variable dependiente rezagada para obtener
residuos sin autocorrelación.
CUADRO I. Resultados de las pruebas con Hipótesis Nula de

Existencia de Raíces Unitarias
Prueba Parám Estad Valor
etro ístico crítico

(5%)
Periodo: 1960–1974 1 – 2,91 – 2,96
Ecuación con constante, sin 2 – 5,63 – 1,95
tendencia y sin ‘dummies’ 3 – 5,92 – 1,90
estacionales. N = 60 4 –3,70 – 1,72
3  33,48 3,04
4
Periodo: 1975–1994 1 – 4,89 – 2,88
Ecuación con constante, sin 2 – 6,90 – 1,95
estacionales. N = 80 4 –3,35 – 1,68
3  40,80 3,08
4
Periodo: 1960–1994 1 – 4,34 – 3,46
Ecuación con constante, con 2 – 8,67 – 1,96
estacionales. N = 140 4 – 5,20 – 1,64
3  68,25 3,04
4
Exceptuando el caso del coeficiente 1 en el periodo 1960–1974,

en todos los otros casos se rechaza la hipótesis nula de existencia
de raíces unitarias al 5% de significancia. Antes de concluir que
existe una raíz unitaria en la frecuencia cero de la serie del
primer periodo, recordemos las advertencias de Canova y
Hansen (1995) sobre la baja potencia de las pruebas HEGY. Si
esa raíz unitaria realmente existiera eso implicaría la presencia
de una tendencia en la serie. Sin embargo, cuando se incluye la

variable tendencia en el modelo el coeficiente de la misma no es

significativo pero transforma en significativo el coeficiente 1
(estadístico – 3,21), rechazando la hipótesis de existencia de raíz
unitaria.
CUADRO II. RESULTADOS DE LOS TESTS CON HIPÓTESIS NULA

DE ESTACIONARIEDAD
Características de los Valor Estadísticos
Tests es 196 1975 1960
(Tamaño de la Crític 0–74 –94 –94
muestra) os
(5%)
Y incluído como –
t1 No No Sí
regressor N – 60 80 140
Raíces en todas las 1,01 0,46 0,28 0,82
frecuencias 0,75 0,37 0,24 0,49
Raíz unitaria en la 0,47 0,13 0,04 0,35
frecuencia 
Raíz unitaria en la
frecuencia /2 0,47 0,20 0,04 0,28
0,47 0,13 0,13 0,15
Inestabilidad por 0,47 0,10 0,10 0,44
trimestre: 0,47 0,28 0,12 0,23
Trimestre 1
Trimestre 2 1,24 0,71 0,38 1,23
Trimestre 3
Trimestre 4
Inestabilidad en todos

los trimestres
Acerca de los resultados obtenidos con la aplicación de la

metodología de CH (ver Cuadro II), los tests fueron ejecutados
con la serie de los precios sin ninguna transformación. En los dos
subperiodos no se incluyó la variable dependiente retrasada
entre los regresores, pero sí se lo hizo en el caso de la serie
completa debido a la presencia de la tendencia decreciente ya
comentada. Los datos del Cuadro II informan los valores de los
estadísticos necesarios para realizar el test conjunto de
existencia de raíces unitarias en todas las frecuencias y en cada
una de las frecuencias estacionales. También se presentan
aquellos estadísticos con los cuales se hacen los tests de
estabilidad de los coeficientes de las variables ‘dummy’
estacionales trimestre por trimestre y en conjunto. Como puede
observarse, en ninguno de todos los casos se rechaza la hipótesis
nula de estacionariedad al nivel de 5% de significación. Esto
indica que la serie es estacionaria tanto en la frecuencia cero
cuanto en las frecuencias estacionales. Estos resultados son
coherentes con aquellos obtenidos al usar el test de HEGY.
Comparando nuevamente con los resultados obtenidos en el

caso de la aplicación de la metodologia de CH a la serie de
precios de São Paulo, Aguirre y Sansó (1999) encuentran
evidencias de existencia de una raíz unitaria estacional en la
frecuencia  de la serie brasileña. Tales resultados contradicen
aquellos producidos —para la misma serie— por los tests de
HEGY. Como em ambas metodologías la hipótesis nula es
rechazada, Aguirre y Sansó eliminan la posibilidad de que la

causa de esta incoherencia sea la baja potencia de los tests,

concluyendo que debe tratarse de una especificación incorrecta
del modelo utilizado para efectuarlos. El verdadero modelo
podría ser, por ejemplo, no lineal.
BIBLIOGRAFÍA
1 Wooldridge, Jeffrey M. (2003).Econometric Analysis of
Cross Section and Panel Data. MIT Press.
2 Kalman, R.E., A New Approach to Linear Filtering and
Prediction Problems, Trans. ASME,J. Basic Engineering,
vol 82, March 1960, pp 94-35.
3 Hamilton, J.D. (1994) “Time Series Analysis”, Princeton
University Press.
4 Amemiya T.(1985), Advanced Econometrics. Harvard
University Press.
5 Greene W. (1997), Econometric Analysis. Prentice Hall,
tercera edición.
6 White, H. (1984), Asymptotic Theory for
Econometricians. Academic Press
7 Kydland, Finn y Prescott, Edward. (1990). "Business
Cycles: Real Facts and a Monetary Myth". En: Quarterly
Review. Federal Reserve Bank of Minneapolis.
Primavera. P.3-18.

VECTORES AUTOREGRESIVOS (VAR)

La aplicación de vectores autoregresivos (VAR) modela las
interacciones simultáneas entre un grupo de variables. Un VAR
es un modelo de ecuaciones simultáneas formado por un sistema
de ecuaciones de forma reducida sin restringir48. En un modelo
vectorial autoregresivo de primer orden, VAR(1), las variables
explicativas de cada ecuación son una constante, más un rezago
de cada una de las variables del modelo. Si el modelo pretende
explicar el comportamiento temporal de 3 variables, por
ejemplo, habría 3 variables explicativas, más una constante en
cada ecuación, para un total de 12 coeficientes a estimar,
siguiendo la formula n+np. Como puede verse, todas las
variables son tratadas simétricamente, siendo explicadas por su
pasado. Pueden incluirse también, como variables explicativas,
algunas de naturaleza determinista, como tendencias
temporales, variables dummy estacionales, que sirve para llevar
a cabo una análisis de intervención en el sistema. Por último,
podría incluirse como explicativa una variable, incluso en valor
contemporáneo, que pueda considerarse exógena respecto a las
variables que integran el modelo VAR.
El modelo VAR es útil cuando existe evidencia de simultaneidad

entre un grupo de variables y la posibilidad de que sus
relaciones se transmitan a lo largo de un determinado número
de períodos. Al no imponer ninguna restricción sobre la versión
estructural del modelo este incurre en errores de especificación
que son solucionados imponiendo restricciones. De hecho, la
principal motivación detrás de los modelos VAR es la dificultad
48Ecuaciones de forma reducida indica que los valores contemporáneos de las variables del modelo no aparecen como variables explicativas en
ninguna de las ecuaciones. El conjunto de variables explicativas de cada ecuación está constituido por un bloque de rezagos de cada una de las
variables del modelo. Las ecuaciones no restringidas implica que en cada una de ellas exsite el mismo grupo de variables explicativas.

en identificar variables como exógenas49 como se hace necesario

en el proceso de identificacion y estimación en un modelo de
ecuaciones simultáneas. En un modelo VAR todas las variables se
tratan de igual modo, el modelo tienen tantas ecuaciones como
variables, y los valores rezagados de todas las ecuaciones son
variables explicativas en todas las ecuaciones.
Una vez estimado el modelo, puede procederse a excluir algunas

variables explicativas, en función de su significancia estadística.
Si se mantiene el mismo conjunto de variables explicativas en
todas las ecuaciones, la estimación por mínimos cuadrados
ordinarios (OLS) ecuación por ecuación es eficiente. Sin
embargo, la presencia de bloques de rezagos como variables
explicativas hace que la colinealidad entre variables explicativas
sea relevante, lo que hace perder precisión en la estimación del
modelo y reduce los valores numéricos de los estadísticos tipo t
de Student. En un modelo VAR estimado no tiene sentido tratar
de interpretar los signos y las magnitudes de los coeficientes
individuales. Por el contrario, hay que utlizar estadísticos
globales, que traten de resumir con carácter agregado la
influencia de unas variables sobre otras que incluye estadísticos
tipo F para el contraste de significancia de un bloque de rezagos
de una determinada variable, contrastes de causalidad, funciones
de impulso respuesta y descomposiciones de la varianza del
error.
EL MODELO VAR
49 La defincion de exogeneidad estadística se expondrá con mas detalle en el documento siguiendo a Sims (1980)

En el caso más simple, con sólo dos variables y un rezago, el

modelo VAR(1) puede ser expresado como:
o, en forma matricial,
Donde los términos de error satisfacen las siguientes

propiedades:
En el modelo VAR anterior, valores negativos de β12 y β21 tienden

a inducir correlación negativa entre y1t e y2t si bien no la
garantizan. Una innovacion inesperada en y2t, en la forma de un
valor no nulo de la innovación u2t, además de afectar a y2t, influye
sobre y1t, a través de de la correlación entre las innovaciones de
ambas variables. En general, una sorpresa en y2t vendrá
acompañada de un valor no nulo de la innovación u1t, salvo en el
caso excepcional en que σu1u2=0. Estos efectos se propagan en el
tiempo debido a la presencia de los valores rezagados como
variables explicativas. En general, un modelo VAR en términos
de sus rezagos anteriores puede ser expresado como:
Donde Yt es un vector columna nx1, K es el orden del modelo

VAR, o número de rezagos en cada ecuación, y ut es un vector
nx1 de innovaciones sin autocorrelación, con la propiedad que
var(ut)=Σ constante. El elemento (i,j) en la matriz As, 1≤s≤K

mide el efecto directo de un cambio en Yi en el instante t sobre

las variables explicativas al cabo de s períodos, Yj,t+s. El elemento
i-ésimo en ut es el componente de Yit que no puede ser previsto
utilizando el pasado de las variables que integran el vector Yt.
UN MODELO ESTRUCTURAL
Es útil interpretar el modelo VAR como una forma reducida de
un modelo estructural,
Donde y1t, y2t son variables estacionarias, y ε1t, ε2t son

innovaciones, procesos ruido blanco con valor esperado cero y
varianzas σ2ε1, σ2ε2. Este es un modelo de ecuaciones simultáneas
con sus dos variables endógenas. Una innovación en y2t, en la
forma de un valor no nulo de la innovación estructural ε2t, afecta
directamente a y2t, pero también influye sobre y1t a través de la
presencia de y2t como variable explicativa en la primera
ecuación. Este efecto se propaga en el tiempo debido a la
presencia de los valores rezagados. Es natural pensar que los
términos de error del modelo estructural estan no
correlacionados, puesto que la correlación contemporánea entre
y1t e y2t ya está capturada por la presencia de sus valores
contemporáneos como variables explicativas en ambas
ecuaciones. Por tanto, suponemos que Cov(ε1t,ε2t)=σε1,ε2=0. De
forma resumida, la representación matricial del modelo
estructural puede escribirse,
Con

Y si suponemos que la matriz B tiene inversa, lo cual requiere

que α11α21≠ 1, tenemos,
Donde
Con lo que supone la forma reducida del modelo VAR. Si los

términos de error del modelo estructural eran ruido blanco,
también los términos de error del modelo VAR tendrán
estructura ruido blanco. Sin embargo, las innovaciones del VAR
estarán correlacionadas entre sí, puesto que,
De modo que, si los términos de error del modelo estructural

están no correlacionados, σε1ε2=0, las perturbaciones del modelo
VAR tendrán correlación no nula. Es importante examinar las
relaciones entre los parámetros de ambos modelos, que son, en
el caso del modelo VAR(1), las 6 relaciones entre los parámetros
β y los parámetros α que aparecen en (3.3), más las 3 relaciones
entre los elementos de las respectivas matrices de covarianzas,

IDENTIFICACIÓN EN UN MODELO VAR

La estimación de un modelo VAR(1) en forma reducida
proporciona valores numéricos para 10 parámetros, las dos
constantes más los cuatro coeficientes en las variables rezagadas
y las varianzas y covarianza del vector ut. El modelo estructural
consta de 11 parámetros, las dos constantes, los 6 coeficientes, y
los 3 parámetros de la matriz de covarianzas del vector εt, por lo
que no es posible recuperar los parámetros del modelo
estructural. En modelo 1 se prueba que el modelo estructural
recursivo bivariante de orden 1, de la forma:
Modelo 1. Suponga un modelo VAR con las siguientes

caracterisiticas:
El modelo anterior está exactamente identificado, es decir, sus

parámetros pueden recuperarse de forma única a partir de las
estimaciones del modelo VAR en forma reducida. Este es un
modelo que identifica todos los parámetros del modelo
estructural a partir de las estimaciones de la forma reducida,
introduciendo la hipótesis de que la variable y1t afecta a la
variable y2t únicamente con un rezago, mientras que la dirección
de influencia de y2t hacia y1t se presenta dentro del mismo
período. No sólo se pueden recuperar estimaciones de todos los
parámetros que aparecen en el modelo estructural, también las
series de tiempo de los residuos del modelo estructural pueden
recuperarse a partir de los residuos obtenidos en la estimación
del modelo VAR, mediante, el hecho que:

Modelo 2. Supongamos un modelo con dos restricciones con un

modelo VAR(1) de la forma:
Implicaría que la variable y1t no afecta ni de forma

contemporánea, ni rezagada a la variable y2t, por lo que ésta
puede considerarse exógena respecto de y1t. Examinando los
modelos anteriores, se puede observar que las dos restricciones
impuestas, α21=α22=0 implica que en el modelo VAR, β21=0,
restricción que puede contrastarse utilizando el estadístico t-
student sobre dicho coeficiente. Al incluirse una restricción más,
el modelo estructural está ahora sobreidentificado, es decir, hay
más de una manera de recuperar valores numéricos para los
parámetros de dicho modelo, a partir de las estimaciones
numéricas del modelo VAR.
Modelo 3. Ahora se analizara el caso con en modelo 3, Más

dificultades plantean el modelo,
Este modelo también se encuentra sobreidentificado, con varias

maneras de recuperar las estimaciones de los parámetros del
modelo estructural. Sin embargo, en este caso no hay ninguna
restricción sencilla contrastable que permita evaluar esta
representación ya que las que pertenecen al modelo estructural
introducen tipos no lineales para verificar los parámetros del
modelo VAR en forma reducida. Una posible estrategia consiste
en estimar el modelo VAR sujeto a restricciones no lineales

generadas por las condiciones de sobreidentificación. Al obtener

innovaciones estructurales a partir de las del modelo VAR en
forma reducida equivale a la posibilidad de disponer de valores
numéricos para los elementos de la matriz B, puesto que εt=But.
Esta matriz tiene unos en la diagonal principal, pero no es
simétrica, por lo que tiene k(k−1) parámetros por determinar.
Además, se debe contar con las k varianzas de las innovaciones

estructurales que sus covarianzas son nulas. Así, tenemos k2
parámetros del modelo estructural, que se necesitan recuperar a
partir de los (k2+k)/2 elementos de Var(ut). es necesario por
tanto, (k2−k)/2 restricciones adicionales, si se desea tener
alguna posibilidad de identificar el modelo. En el caso de un
modelo VAR(1) con 2 variables, se debe imponer (22−2)/2=1
restricción para identificar el sistema exactamente. En un
modelo con 3 variables se necesita imponer (32−3)/2=3
restricciones. El número de restricciones necesarias para
identificar el modelo es independiente del orden del modelo
VAR. Si se imponen condiciones de recursividad en un modelo
con 3 variables, tenemos,
Que implica imponer 3 restricciones sobre los elementos de la

matriz B−1, por lo que el modelo estaría, en principio,
exactamente identificado. La recursividad del sistema equivale a
suponer que la matriz B es triangular inferior o superior, lo que
genera exactamente k2−k restricciones, precisamente el número
que se precisa para lograr la identificación exacta del modelo.
Hay conjuntos alternativos de restricciones, como,

Que también lograría la identificación exacta del modelo. La

representación inversa es,
Otro tipo de restricciones consistiría en imponer un

determinado valor numérico para una respuesta. Por ejemplo,
podemos pensar que la innovación ε2t tiene un efecto unitario
sobre y1t, es decir, como
Esto equivale a suponer que α11= −1. Una posibilidad diferente

consistiría en identificar el modelo estructural imponiendo
restricciones sobre la matriz de covarianzas, ya sea imputando
un valor numérico para la varianza de ε1t, la varianza de ε2t, o la
covarianza entre ambos. Este tipo de restricciones conduce a
soluciones múltiples, por lo que el modelo estructural está en tal
caso, sobreidentificado. Por último, puede conseguirse la
identificación imponiendo restricciones razonables entre los
valores numéricos de los parámetros estructurales. Por ejemplo,
puede imponerse una condición de simetría, α11=α21, o cualquier
otra que resulte adecuada en la aplicación que se analiza. En el
caso del modelo de 2 variables está condición de simetría de
efectos conduce asimismo a una condición de igualdad de
varianzas para las innovaciones estructurales, lo que no ocurre
en modelos con más de 2 variables.

IDENTIFICACIÓN Y RESPUESTAS DEL SISTEMA

Otra manera de entender los problemas de identificación es la
siguiente suponga que, sin considerar el posible modelo
estructural, hemos estimado un modelo VAR(1) , en el que es
necesario calcular cómo reacciona cada variable ante una
innovación en una de ellas, lo que luego denominaremos como
funciones impulso respuesta. Sería poco adecuado, sin embargo,
calcular las respuestas a un impulso en una de las innovaciones,
u1, por ejemplo, sin que u2 experimente ningún impulso, pues
ambas innovaciones están correlacionadas entre sí. Por tanto,
hemos de transformar primero el modelo estimado en otro
modelo en que los términos de error, siendo innovaciones, estén
no correlacionados entre sí. Para ello, podríamos seguir una
estrategia similar a la discutida más arriba, proyectando por
mínimos cuadrados una de las dos innovaciones, u1t, por
ejemplo, sobre u2t,
Cuyo residuo ât, definido por ât=u1t−ρ̂tu2t, estaría no

correlacionado, por construcción, con u2t. Premultiplicando el
modelo (2.1) por la matriz
Tendríamos,
Un modelo en el que la variable y2 tiene efectos contemporáneos

sobre y1. En este modelo, tiene sentido preguntarse por las
respuestas de ambas variables a una perturbación en ât o en u2t,
puesto que ambos están no correlacionados, por construcción.

En respuesta a un impulso en u2t, ambas variables reaccionarán

en el mismo instante, y también en períodos siguientes, hasta
que dichas respuestas decaigan a cero. En cambio, en respuesta a
una perturbación en ât, y1 responderá en el mismo período y
períodos siguientes, mientras que y2 sólo responderá en
períodos siguientes al de la perturbación. Este es el modelo
estructural exactamente identificado (4.1) que antes
consideramos. Una extensión a este procedimiento se basa en el
hecho conocido de que dada una matriz simétrica, definida
positiva, como es la matriz de covarianzas Σ, existe una única
matriz triangular inferior A, con unos en su diagonal principal, y
una única matriz diagonal D, con elementos positivos a lo largo
de su diagonal principal, tal que Σ admite una descomposición,
Si consideramos la transformación lineal del vector de error

precisamente con esta matriz, εt=A-1ut, tenemos,
Por lo que, a diferencia de los componentes del vector u, los

elementos del vector ε están no correlacionados entre sí.
Deshaciendo la transformación, tenemos,
Por lo que,

Si los coeficientes a1k, a2k, ..., ak−1,k se obtienen mediante una

estimación de mínimos cuadrados ordinarios de la ecuación
(4.2), que tiene a ukt como variable dependiente, y a ε1t, ε2t, ...,
εk−1,t como variables explicativas,
Entonces tendremos, por construcción,

E(εkt.ε1t)=E(εkt.ε2t)=...=E(εkt.εk−1,t)=0. Dicho de otra manera, si
estimamos regresiones de cada innovación uit sobre todas las
que le preceden dentro del vector u y nos quedamos con el
residuo de dicha regresión, llamémosle εit, tendremos un
componente de uit que, por construcción, estará no
correlacionado con u1t,u2t,...,ui−1,t. Nótese que los espacios
generados por las variables u1t, u2t, ..., ui−1,t y por las variables ε1t,
ε2t, ..., εi−1,t son los mismos, es decir, que ambos conjuntos de
variables contienen la misma información. La única diferencia
entre ambos es que las variables u1t, u2t,...,ui−1,t tiene
correlaciones no nulas, mientras que las variables ε1t, ε2t,...,εi−1,t
están no correlacionadas entre sí.
CONDICIONES DE ESTABILIDAD
Si resolvemos recursivamente el modelo VAR(1) tenemos,
Como puede verse, para la estabilidad del sistema es preciso que

las sucesivas potencias de la matriz A1 decaigan hacia cero, pues
de lo contrario, el futuro lejano tendría efectos sobre el presente,
en contra de la convergencia temporal de efectos inherente a
todo proceso estacionario. Esto requiere que las raíces del

polinomio característico de dicha matriz | Ik−A1λ |=0, decrezcan

fuera del círculo unitario, condición análoga a la que se tiene
para un proceso autoregresivo univariante. Cuando se cumplen
las condiciones de estabilidad, tomando límites, tenemos,
Donde µ=E(Y) es el vector de valores esperados, que viene dado

por,
Además,
En el caso bivariante, µ1=E(u1t), µ2=E(u2t), con
Siendo Δ=(1−β11)(1−β22) − β12β21, y
VAR Y MODELOS UNIVARIANTES

Si se parte de un VAR(1), como (2.1), escrito en función del
operador de rezagos de la forma:
Se tiene que
Reemplazandolo en la ecuación anterior se tiene que:

Finalmente,
Que es un proceso ARMA(2,1).
ESTIMACIÓN DE UN MODELO VAR

En ausencia de restricciones, la estimación por mínimos
cuadrados, ecuación por ecuación, de un modelo VAR produce
estimadores eficientes a pesar de que ignora la información
contenida en la matriz de covarianzas de las innovaciones. Junto
con el hecho de que colinealidad entre las variables explicativas
no permite ser estricto en la interpretación de los estadísticos t,
sugiere que es preferible mantener todas las variables
explicativas iniciales en el modelo.
El estimador es consistente siempre que los términos de error

sean innovaciones, es decir, procesos ruido blanco, pues en tal
caso, estarán no correlacionados con las variables explicativas.
Por tanto, la ausencia de autocorrelación en los términos de
error de todas las ecuaciones es muy importante. Tomando
ambos hechos conjuntamente, es fácil concluir que debe
incluirse en cada ecuación como variable explicativa, el menor
número de rezagos que permita eliminar la autocorrelación
residual en todas las ecuaciones. Existen contrastes del tipo de
razón de verosimilitud sobre el número de rezagos a incluir en el
modelo.
Un modelo VAR no se estima para hacer inferencia acerca de

coeficientes de variables individuales. Precisamente la baja
precisión en su estimación no aconseja cualquier análisis de

coeficientes individuales. Tiene mucho sentido, por el contrario,

el análisis conjunto de los coeficientes asociados a un bloque de
rezagos en una determinada ecuación. Bajo hipótesis de
normalidad del vector de innovaciones, el logaritmo de la
función de verosimilitud es,
Siendo 𝛴̂ la matriz de covarianzas estimada del vector de

innovaciones u,
Una matriz simétrica, definida positiva, por construcción.
CONTRASTACIÓN DE HIPÓTESIS Y CONTRASTES DE

ESPECIFICACIÓN
Uno de los contrates más habituales en un modelo VAR es el
relativo al número de rezagos que deben incluirse como
variables explicativas. Es importante dentro de este análisis
tener en cuenta que en cada ecuación entra un bloque de rezagos
de todas las variables del vector y. Si, por ejemplo, trabajamos
con 4 variables y establecemos un orden 3 para el VAR,
tendremos 12 variables explicativas, más el término constante,
en cada ecuación, con un total de 52 coeficientes en el sistema de
ecuaciones, más parámetros en la matriz de varianzas-
covarianzas de las innovaciones. El número de parámetros a
estimar crece rápidamente con el número de rezagos. Si pasamos
de 3 a 4 rezagos, tendríamos 68 coeficientes más los 10
parámetros de la matriz de covarianzas. Por eso ya comentamos
con anterioridad que debe incluirse en cada ecuación el menor

número de rezagos que permita eliminar la autocorrelación del

término de error de todas ellas. Existe un contraste formal de
significancia de un conjunto de rezagos, que utiliza un estadístico
de razón de verosimilitudes,
Donde |ΣR|,|ΣSR| denotan los determinantes de las matrices de

covarianzas de los modelos restringido y sin restringir,
respectivamente. Si queremos contrastar si un cuarto retardo es
significativo, deberíamos estimar el modelo con 3 y con 4
rezagos, y construir el estadístico anterior, que tiene una
distribución chi-cuadrado con un número de grados de libertad
igual al número de restricciones que se contrastan. Al pasar del
modelo con 3 rezagos al modelo con 4 rezagos, hay que añadir
un rezago más de cada variable en cada ecuación, por lo que el
número de restricciones es igual al incremento en el número de
rezagos, por el número de variables al cuadrado.
Sin embargo, no puede olvidarse que la elección del número de

rezagos debe tener en cuenta la eliminación de autocorrelación
residual. Los estadísticos anteriores no examinan este
importante aspecto y, por tanto, no deben utilizarse por sí sólos.
En consecuencia, una buena estrategia es comenzar de un
número reducido de rezagos, y examinar las funciones de
autocorrelación de los residuos, junto con estadísticos del tipo
Ljung-Box o Box-Pierce para contrastar la posible existencia de
autocorrelación, lo que requeriría aumentar el número de
rezagos y con ello, el número de parámetros a estimar.

Lamentablemente, sin embargo, es muy poco probable que

pueda eliminarse la autocorrelación residual con menos de 4
rezagos cuando se trabaja con datos trimestrales, o con menos
de 12 rezagos, cuando se trabaja con datos mensuales. Una
estrategia distinta para encontrar el orden del modelo VAR
consiste en examinar los denominados criterios de Información,
que son determinadas correcciones sobre el valor muestral de la
función logaritmo de Verosimilitud. Los más conocidos son los
de Akaike y Schwartz,
Siendo n= k(d+pk) el número de parámetros estimados en el

modelo VAR. El parametro d es el número de variables exógenas,
p el orden del VAR, y k el número de variables. En ocasiones, se
ignora el término constante, y los criterios anteriores se
aproximan por,
Siendo N el número de parámetros que se estima, y Σ la matriz

de covarianzas de los residuos. Estos estadísticos se calculan
para una sucesión de modelos con distinto número de rezagos y
se comparan, seleccionando aquél modelo que produce un
menor valor del estadístico. Un estadístico de razón de
verosimilitudes como el antes descrito puede utilizarse para
contrastar cualquier tipo de hipótesis, y no sólo la significancia
de grupos de variables, siempre que el modelo restringido esté
anidado dentro del modelo sin restringir.
CONTRASTES DE CAUSALIDAD

Un contraste especialmente interesante se conoce como de

causalidad en el sentido de Granger. Supongamos que estamos
explicando el comportamiento de una variable y utilizando su
propio pasado. Se dice que una variable z no causa a la variable y
si al añadir el pasado de z a la ecuación anterior no añade
capacidad explicativa. El contraste consiste en analizar la
significancia estadística del bloque de rezagos de z en la ecuación
mencionada, y la hipótesis nula es que la variable z no causa, en
el sentido de Granger, a la variable y.
La propuesta inicial de Granger hacía referencia a que la

predicción de y basada en el pasado de las dos variables y y z, sea
estrictamente mejor (es decir, con menos error) que la
predicción de y basada exclusivamente en su propio pasado. Así,
se diría que la variable z no causa a la variable y si se tiene,
Sin embargo, esta propiedad no suele analizarse; se contrasta

exclusivamente la significancia del bloque de rezagos de z en la
ecuación de y, si dicho bloque de variables es significativo,
contribuirá a mejorar la predicción de la variable y. Esta manera
de proceder se basa en que, analíticamente, es evidente que la
presencia del bloque de rezagos de z en la ecuación de y hace
que el valor esperado condicionado de y en el pasado de las dos
variables, y y z, sea distinta del valor esperado condicionado de y
en su propio pasado exclusivamente. Si bien esta propiedad
teórica no siempre se manifiesta en resultados prácticos, y es
bien sabido que un buen ajuste no necesariamente conduce a
una buena predicción.

El contraste puede llevarse a cabo utilizando el estadístico F

habitual en el contraste de significancia de un bloque de
variables, o mediante el estadístico de razón de verosimilitudes.
Con más de dos variables, existen posibles contrastes de
causalidad y en algunos casos, el estadístico de razón de
verosimilitudes puede resultar más útil que el estadístico F, al
permitir contrastar la exclusión de algún bloque de rezagos en
varias ecuaciones simultáneamente. Asimismo, el contraste de
causalidad o, lo que es lo mismo, el contraste de significancia de
un bloque de rezagos puede llevarse a cabo mediante un
estadístico de razón de verosimilitudes, en el que el modelo
restringido excluye un grupo de rezagos de una ecuación.
REPRESENTACIÓN MA DE UN MODELO VAR

Todo modelo VAR admite una representación de medias móviles
(VMA),
La recursividad de Yt−s en (2.2). La representación VMA puede

obtenerse asimismo en función de las innovaciones
estructurales. Esta representación permite resumir las
propiedades de las relaciones cruzadas entre las variables que
componen el vector yt, que queda representado como una
combinación lineal de valores actuales y pasados del vector de
innovaciones. La simultaneidad vuelve a quedar palpable en
sentido que cualquier innovación uit afecta a todas las variables
Yj,t+s. Si volvemos al modelo de dos variables de orden 1,
tenemos,

Que, como vimos, puede escribirse,
y, en términos de las innovaciones del modelo estructural,
Donde,
Existe un procedimiento recursivo para obtener las matrices de

coeficientes de la representación de medias móviles,que utiliza
la relación,
De modo que tenemos,
Que conduce a,
Que pueden utilizarse para calcular recursivamente las matrices

de coeficientes de la representación de medias móviles.
FUNCIONES DE IMPULSO RESPUESTA

La ecuación (9.1) es la representación de medias móviles del
modelo VAR(1) bivariante. Los coeficientes de la sucesión de
matrices Φ(s) representan el impacto que, a lo largo del tiempo,

tienen sobre las dos variables del modelo y1t e y2t una
perturbación en las innovaciones ε1t, ε2t. Por ejemplo, los
coeficientes φ12(s) reflejan el impacto que en los distintos
períodos s, s≥1, tiene sobre y1 una perturbación del tipo impulso
en ε2. Es decir, consideramos que ε2 está en su valor de
equilibrio, cero, excepto en un período, en que toma un valor
igual a 1; como reaccionan, y dicha respuesta se extiende a
varios períodos, hasta que las sucesión φ12(s) se hace cero. La
sucesión de valores numéricos {φ12(s)} se conoce como la
respuesta de y1 a un impulso en ε2. El efecto, multiplicador o
respuesta a largo plazo es la suma ∑∞ 𝑠=0 𝜙12 (𝑠). Esta suma existe
si las variables son estacionarias, pues en tal caso ha de
cumplirse |∑∞ 𝑠=0 𝜙12 (𝑠)|<∞. El problema al que nos enfrentamos
al tratar de calcular las funciones de impulso respuesta es que, si
bien contamos con estimaciones numéricas de los parámetros βij
con i,j=1,2, desconocemos los parámetros α11 y α21 que aparecen
en (9.2). En el modelo recursivo que antes vimos, se tiene α21=0.
Además, se prueba en el ejercicio 1 que en este modelo el
parámetro α11 puede recuperarse mediante 𝛼̂1=σu1u2/σ2u2. En
ese caso, u2t=ε2t y u1t = ε1t+α11ε2t=ε1t+α11u2t.
Las funciones de impulso respuesta sólo puden obtenerse bajo

restricciones de este tipo. La que hemos descrito es la más
habitual, y equivale a admitir que una de las dos variables afecta
a la otra sólo con rezago, si bien permitimos que en la otra
dirección haya respuesta contemporánea. Estaremos
caracterizando las respuestas del sistema a un impulso en cada
una de las innovaciones del modelo estructural o, lo que es lo
mismo, en la innovación u2t y en u1t−α11u2t. Esta última es la
componente de u1t que no está explicada por u2t o, si se prefiere,

la componente de u1t que no está correlacionada con u2t. En

efecto, consecuencia, tanto y1 como y2
Que está incorrelacionado con ε2t. De hecho, si α21=0, entonces

u1t−α11u2t es, precisamente, igual a la perturbación estructural
ε1t. Como hemos visto, las funciones de impulso respuesta sólo
pueden obtenerse después de haber incluido restricciones
acerca del rezago con que unas variables inciden sobre otras.
Esta elección condiciona bastante, en general, el aspecto de las
funciones de respuesta, excepto si las innovaciones del modelo
VAR, u1t y u2t están no correlacionadas, en cuyo caso, coinciden
con las innovaciones del modelo estructural.
Las funciones impulso respuesta calcula el impacto que, en cada

instante futuro tendría, sobre cada variable del modelo, un
impulso en una determinada innovación, y ello puede repetirse
para las innovaciones en cada una de las ecuaciones. Por eso,
suele representarse en varios gráficos, cada uno de los cuales
incluye las respuestas a través del tiempo, de una determinada
variable a un impulso en cada una de las innovaciones. De este
modo, se tiene tantos gráficos como variables en el modelo, cada
uno de ellos conteniendo tantas curvas como variables.
Alternativamente, pueden construirse gráficos, cada uno de los
cuales representa la respuesta temporal de todas las variables
del modelo a un impulso en una de las innovaciones.
Nuevamente hay tantos gráficos como variables, cada uno de
ellos conteniendo tantas curvas como variables. El inconveniente
del segundo tipo de representación es que las respuestas de las
distintas variables dependen de sus respectivas volatilidades,

por lo que la comparación de las respuestas de dos variables

diferentes a un determinado impulso no permite decir cuál de
las variables responde más.
Recordando que la desviación típica es una medida adecuada del

tamaño de toda variable aleatoria de esperanza nula, debemos
dividir las respuestas de cada variable por su desviación típica
antes de representarlas en un mismo gráfico. Tampoco un
impulso de tamaño unidad tiene el mismo significado en cada
variable, por lo que conviene calcular las respuestas
normalizadas a un impulso de tamaño igual a una desviación
típica en cada innovación. Consideremos un VAR(1) sin
constante (es decir, las variables tiene esperanza igual a cero),
Supongamos que antes del instante t0 las innovaciones toman un

valor cero en todos los períodos, las variables están en sus
niveles de equilibrio, y=y∗=0. En dicho instante, la innovación
u1t0 toma un valor unitario, u1t0=1, y vuelve a ser cero en los
períodos siguientes. ¿Cuál es la respuesta del sistema? En el
instante t0,
Por lo que y2t0 e y3t0 estarán en sus niveles de equilibrio,

y2=y∗2=0, y3=y∗3=0, mientras que y1t0=y∗1+1= 1.
Posteriormente,

Que van proporcionando la primera columna de las matrices que

obtenemos calculando las sucesivas potencias de la matriz de
coeficientes A1. De este modo, tendríamos las respuestas del
sistema a sorpresas en las innovaciones del modelo VAR. Si
queremos calcular las respuestas a innovaciones estructurales,
debemos utilizar la representación,
y examinar la sucesión definida en (9.2).
DESCOMPOSICIÓN DE LA VARIANZA
Si utilizamos la representación MA para obtener predicciones de
las variables y1, y2, tenemos,
Por lo que el error de predicción es,
Cuya varianza es,
Que, inevitablemente, aumentan con el horizonte de predicción.

La expresión anterior nos permite descomponer la varianza del

error de predicción en dos fuentes, según tenga a ε1 o a ε2 como

causa. Con ello, estamos examinando el inevitable error de
predicción en cada variable a un determinado horizonte, y
atribuyéndolo a la incertidumbre acerca de la evolución futura
en cada una de las variables. Es, por tanto, una manera de hacer
inferencia acerca de las relaciones intertemporales entre la
variables que componen el vector y. Para ello, se expresan los
componentes de cada varianza en términos porcentuales,
Si una variable es prácticamente exógena respecto a las demás,

entonces explicará casi el 100% de la varianza de su error de
predicción a todos los horizontes posibles. Esto es lo más
habitual a horizontes cortos, mientras que a horizontes largos,
otras variables pueden ir explicando un cierto porcentaje de la
varianza del error de predicción. La descomposición de la
varianza está sujeta al mismo problema de identificación que
vimos antes para las funciones de impulso respuesta, siendo
necesario introducir alguna restricción como las consideradas en
la sección anterior.
Si la correlación entre las innovaciones del VAR es muy pequeña,

el ordenamiento que se haga de las variables del vector y o, lo
que es lo mismo, las restricciones de exclusión de valores
contemporáneos que se introduzcan serán irrelevantes. Sin
embargo, tales restricciones condicionan de manera significativa
la descomposición de la varianza resultante. De hecho, con las
restricciones de la sección anterior, ε2 explica el 100% de la
varianza del error de predicción un período hacia adelante en la
variable y2. Si, en vez de dicha restricción, excluyéramos y2t de la

primera ecuación, entonces ε1 explicaría el 100% de la varianza

del error de predicción un período hacia adelante en la variable
y1.
IDENTIFICACIÓN RECURSIVA: LA DESCOMPOSICIÓN DE

CHOLESKY
Para eliminar la correlación contemporánea existente entre las
innovaciones ut de distintas ecuaciones, podemos transformar el
vector ut en un vector et mediante la descomposición de
Cholesky de la matriz de covarianzas Σ, Σ=Var(ut). Esta
descomposición nos proporciona una matriz triangular inferior
G tal que GGt=Σ. Como consecuencia, G−1ΣG−1t = I, y el sistema
VAR puede escribirse,
Entonces
El efecto de eit sobre Yj,t+s viene medido por el elemento (j,i) de la

matriz 𝐴̃s. La sucesión de dichos elementos, para 1≤s≤∞
proporciona la respuesta dinámica de la variable Yj a una
innovación en la variable Yi. Esto se conoce como función de
respuesta de Yj a un impulso no esperado en Yi. Como eit es el
error de pronostico un período hacia adelante en Yit, la
representación VMA ortogonalizada, por la descomposición de
cholesky, nos permite calcular el error de proostico de Yit, m-
períodos hacia adelante, en el instante t−m+1, a través del
elemento i-ésimo en le vector Pm−1 s=0 Aeset−s. Su varianza, el
elemento i-ésimo en la diagonal de ∑𝑚− ̃ ̃𝑡
𝑠 𝐴𝑠 𝐴𝑠 , puede escribirse,
∑𝑘𝑗=1 ∑𝑚−1
𝑠=0 𝑎̃ 𝑠 (𝑖, 𝑗)𝑎̃𝑠 (𝑗, 𝑖), siendo 𝑎̃𝑠 (𝑖, 𝑗)𝑎̃𝑠 el elemento (i,j) de la

matriz element 𝐴̃𝑠 . Al aumentar m, a partir de m=1, esta

descomposición de la varianza del error de predicción de Yit+m
entre las k variables del vector Yt se conoce como
descomposición de la varianza de Yit. Proporciona una
estimación de la relevancia de cada variable del sistema para
explicar los errores de predicción de las fluctuaciones futuras en
Yit.
BIBLIOGRAFÍA
1 Wooldridge, Jeffrey M. (2003).Econometric Analysis of
Cross Section and Panel Data. MIT Press.
2 Kalman, R.E., A New Approach to Linear Filtering and
Prediction Problems, Trans. ASME,J. Basic Engineering,
vol 82, March 1960, pp 94-35.
3 Hamilton, J.D. (1994) “Time Series Analysis”, Princeton
University Press.
4 Amemiya T.(1985), Advanced Econometrics. Harvard
University Press.
5 Greene W. (1997), Econometric Analysis. Prentice Hall,
tercera edición.
6 White, H. (1984), Asymptotic Theory for
Econometricians. Academic Press
7 Kydland, Finn y Prescott, Edward. (1990). "Business
Cycles: Real Facts and a Monetary Myth". En: Quarterly
Review. Federal Reserve Bank of Minneapolis.
Primavera. P.3-18.

Curso Econometria PDF

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Curso Econometria PDF

Загружено:

Авторское право:

Доступные форматы

NOTAS DE CLASE:

Este documento es un borrador

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Parte I CONCEPTOS BÁSICOS

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Se comienza con algunas de las definiciones respecto a

Definición 1. Una sucesión de números no aleatorios

Definición 2. Una sucesión {an|n=1,2,3,….,n} es acotada, si y solo,

Ejercicio. Suponga las siguientes series:

2. an=(-1)n entonces no es convergente pero es acotada.

3. an=n1/4 entonces an no es convergente ni es acotada.

Serie 1 Serie 2 Serie 3

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

La definición anterior indica que se hace cada vez más

Ejemplo. Supongamos que tenemos una variable aleatoria xn

Es decir, xn converge en probabilidad a cero. A medida que n

Definición 4. Convergencia “casi segura” (almost surely o “a.s”) o

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Prob{ limn xn( )=x( )} = 1

Esto es, la sucesión {xn} converge a x con probabilidad 1. Esto se

Ejemplo 2. La convergencia fuerte, se observa en los siguientes

Por la ley fuerte de los grandes números.

Es común encontrar notaciones O(1/n) y o(1/n). Se dice

Entonces se dice que xn converge en media cuadrática (quadratic

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Además, se tiene que plim xn=μ. Este último resultado se basa en

ambos lados de la desigualdad cuando n tenemos:

Lo cual implica que plim xn= , dado que limn n= y lim n  2

=0. La Convergencia en media cuadrática implica convergencia

La media muestral x de cualquier población con media finita y

una población cuya distribución tiene media y varianza finitas

Asumiendo que las variables aleatorias x son independientes e

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

limn Var(x)=0. Por lo tanto, x converge en media cuadrática a

Teorema 1. Con muestreo aleatorio, para cualquier función g(x),

Teorema de Slutsky. Para una función continua g(xn) que no es

Reglas de la Probabilidad Límite

Ejemplo. Supongamos que la media y varianza muestral del

Matrices. Sea Wn una matriz cuyos elementos son variables

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Si Xn e Yn son matrices de variables aleatorias, tal que plim Xn=A

plim(XnYn)=AB (regla de la matriz producto)

Reglas para la Distribución Límite. Si y plim yn=c, entonces:

3. Si x  x y g(xn) es una función continua, entonces g ( x )  g ( x)

4. Si plim(xn-yn)=0, entonces xn e yn tienen la misma

Ejemplo. Supongamos una muestra de n observaciones i.i.d.

Bajo ciertas condiciones de regularidad, se tiene que plim s2=σ2

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Por otra parte, convergencia en distribución no implica

Se tiene que , donde

Es decir, xn converge a una variable aleatoria pero no a una

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Distribución Asintótica de una Función de una Variable Aleatoria

continua que no depende de n, se tiene que:

Para analizar el caso multivariado, consideremos un vector zn de

que no dependen de n, entonces:

Donde C es una matriz jx k cuya j-ésima fila es el vector de

Consistencia y Normalidad Asintótica de Mínimos Cuadrados

Asumamos que = limn (1/n)XTX=Q, matriz positiva definida e

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Donde xi es el vector 1xk correspondiente a la i-esima fila de la

De ello, se puede observar que: