Вы находитесь на странице: 1из 18

UNIVERSIDAD NACIONAL DEL ALTIPLANO

FACULTAD DE INGENIERÍA ESTADÍSTICA E INFORMÁTICA

MULTICOLINEALIDAD
TRABAJO ENCARGADO

CURSO : REGRESIÓN AVANZADA

DOCENTE : Vargas Valverde Confesor Milan

PRESENTADO POR : PAXI ANCCOTA ANGELO

PUNO - PERÚ
UNIVERSIDAD NACIONAL DEL ALTIPLANO
FACULTAD DE INGENIERÍA ESTADÍSTICA E INFORMÁTICA

Contenido

1. INTRODUCCIÓN. ..................................................................................................................................................... 2
2. NATURALEZA DE LA MULTICOLINEALIDAD............................................................................................................ 2
3. ¿ES LA MULTICOLINEALIDAD NECESARIAMENTE MALA?........................................................................................ 4
4. CONSECUENCIAS DE LA MULTICOLINEALIDAD ....................................................................................................... 5
5. DETECCIÓN DE LA MULTICOLINEALIDAD. ............................................................................................................ 5
5.1. Una R2 elevada pero pocas razones t significativas. ....................................................................................... 5
5.2. Altas correlaciones entre parejas de regresoras. ............................................................................................ 6
5.3. Examen de las correlaciones parciales. ........................................................................................................... 6
5.4. Regresiones auxiliares. .................................................................................................................................... 7
5.5. Valores propios e índice de condición............................................................................................................. 7
5.6. Tolerancia y factor de inflación de la varianza. ............................................................................................... 7
5.7. Diagrama de dispersión. ................................................................................................................................. 8
6. MEDIDAS CORRECTIVAS........................................................................................................................................ 10
6.1. No hacer nada ............................................................................................................................................... 10
6.2. Procedimientos de reglas practicas .............................................................................................................. 10
7. EJEMPLO DE APLICACIÓN ..................................................................................................................................... 13
8. RESUMEN Y CONCLUSIONES ................................................................................................................................. 16
9. BIBLIOGRAFÍA. ...................................................................................................................................................... 17

1
UNIVERSIDAD NACIONAL DEL ALTIPLANO
FACULTAD DE INGENIERÍA ESTADÍSTICA E INFORMÁTICA

Multicolinealidad

1. INTRODUCCIÓN.

Uno de los supuestos básicos del modelo lineal general y=Xβ+u establece que las variables explicativas
son linealmente independientes. Este supuesto asegura que la matriz X de orden N×k tiene un rango igual
a k, su determinante difiere de cero y su inversa puede calcularse mediante el método de la matriz
adjunta. En definitiva, el supuesto de ausencia de multicolinealidad garantiza que el sistema de
ecuaciones normales es un sistema de Cramer, que siempre admite una solución unica y que é stá viene
dada por el estimador de mínimos cuadrados.

2. NATURALEZA DE LA MULTICOLINEALIDAD

El término multicolinealidad se atribuye a Ragnar Frisch. Originalmente, designaba una relación lineal
“perfecta” o exacta entre algunas o todas las variables explicativas de un modelo de regresión. Para la
regresión con k variables que incluye las variables explicativas X1, X2, . . . , Xk

(donde X1 = 1 para todas las observaciones de forma que den cabida al término del intercepto), se dice
que existe una relación lineal exacta si se satisface la siguiente condición:

λ1 X1 + λ2 X2 + · · · + λk Xk = 0 (10.1.1)

donde λ1, λ2,. . . , λk, son constantes tales que no todas son simultáneamente iguales a cero. Hoy en día,
sin embargo, el término multicolinealidad incluye el caso de multicolinealidad

perfecta, como lo indica (10.1.1) y también el caso en el cual hay X variables intercorrelacionadas pero no
en forma perfecta, de la siguiente manera:

λ1 X1 + λ2 X2 + · · · + λ2 Xk + vi = 0 (10.1.2)

donde vi es un término de error estocástico.

La multicolinealidad se expresa concisamente mediante un diagrama de Ballentine, En esta figura los


círculos Y, X2 y X3 representan las variaciones en Y (la variable dependiente) y en X2 y X3 (las variables
explicativas). El grado de colinealidad se mide por la magnitud de la intersección (área sombreada) de los
círculos X2 y X3. En la figura 10.1a) no hay intersección entre X2 y X3, y, por tanto, no hay colinealidad. En
las figuras 10.1b) a 10.1e), el grado de colinealidad va de “bajo” a “alto”: entre mayor sea la intersección
entre X2 y X3 (es decir, entre mayor sea el área sombreada), mayor será el grado de colinealidad. En el
extremo, si X2 y X3 estuvieran superpuestos completamente (o si X2 estuviera por completo dentro de X3,
o viceversa), la colinealidad sería perfecta.

2
UNIVERSIDAD NACIONAL DEL ALTIPLANO
FACULTAD DE INGENIERÍA ESTADÍSTICA E INFORMÁTICA

FIGURA 10.1

Gráfico de Ballentine de Y Y
multicolinealidad.

X3 X2

X2 X3

a) No existe colinealidad b) Colinealidad baja

Y Y

X2
X3

X3 X2 X3 X2

c) Colinealidad moderada d) Colinealidad alta e) Colinealidad muy alta

¿Por qué supone el modelo clásico de regresión lineal que no hay multicolinealidad entre las X? El
razonamiento es el siguiente: Si la multicolinealidad es perfecta en el sentido de (10.1.1), los
coeficientes de regresión de las variables X son indeterminados, y sus errores estándar, infinitos. Si
la multicolinealidad es menos que perfecta, como sucede en (10.1.2), los coeficientes de regresión,
aunque sean determinados, poseen grandes errores estándar (en relación con los coeficientes
mismos), lo cual significa que los coeficientes no pueden ser estimados con gran precisión o
exactitud. Las pruebas de estas afirmaciones se presentan en las siguientes secciones.

Existen diversas fuentes de multicolinealidad. Como afirman Montgomery y Peck, la multicolinealidad


puede deberse a los siguientes factores:

El método de recolección de información. Por ejemplo, la obtención de muestras en un intervalo


limitado de valores tomados por las regresoras en la población.

Restricciones en el modelo o en la población objeto de muestreo. Por ejemplo, en la regresión del


consumo de electricidad sobre el ingreso (X2) y el tamaño de las viviendas (X3) hay una restricción física
en la población, pues las familias con ingresos más altos suelen habitar vivien- das más grandes que
las familias con ingresos más bajos.

Especificación del modelo. Por ejemplo, la adición de términos polinomiales a un modelo de regresión,
en especial cuando el rango de la variable X es pequeño.

3
UNIVERSIDAD NACIONAL DEL ALTIPLANO
FACULTAD DE INGENIERÍA ESTADÍSTICA E INFORMÁTICA

Un modelo sobredeterminado. Esto sucede cuando el modelo tiene más variables explicativas que
el número de observaciones. Esto puede suceder en investigación médica, donde en ocasiones hay
un número reducido de pacientes sobre quienes se reúne información respecto de un gran número
de variables.

¿Y en series de tiempo? puede ser que las regresoras del modelo compartan una tendencia común;
es decir, que todas aumenten o disminuyan a lo largo del tiempo. Por tanto, en la regresión del gasto
de consumo sobre el ingreso, la riqueza y la población, las regresoras ingreso, riqueza y población tal
vez todas crezcan con el tiempo a una tasa aproximadamente igual, con lo cual se presentaría la
colinealidad entre dichas variables.

3. ¿ES LA MULTICOLINEALIDAD NECESARIAMENTE MALA?

Quizá no, si el objetivo es sólo la predicción

Si el único propósito del análisis de regresión es el pronóstico o la predicción, la multicolinealidad


no es un problema grave, pues, entre más alta sea la R2, mejor será la predicción. Pero esto sucede
“… siempre que los valores de las variables explicativas, para los cuales se desean las predicciones,
obedezcan las mismas dependencias lineales casi exactas de la matriz X [de datos] del diseño original”.

Por tanto, si en una regresión estimada se encuentra que X2 = 2X3 aproximadamente, entonces, en
una muestra futura para pronosticar Y, X2 también debe ser aproximadamente igual a 2X3, condición
difícil de cumplir en la práctica en cuyo caso la predicción será cada vez más incierta. Más aún, si el
objetivo del análisis no es sólo la predicción sino también la estimación confiable de los parámetros, la
presencia de una alta multicolinealidad puede ser un problema porque, como vimos, genera grandes
errores estándar en los estimadores.

Sin embargo, existen situaciones en las cuales la multicolinealidad puede no representar un problema
grave. Es el caso en el cual se tiene una R2 elevada y los coeficientes de regresión son significativos
individualmente como lo demuestran los altos valores t. Aun así, los diagnósticos de multicolinealidad,
por ejemplo el índice de condición, indican que los datos presentan colinealidad grave.

¿Cuándo puede presentarse tal situación? Como menciona Johnston:

Esto sucede si los coeficientes individuales resultan estar numéricamente muy por encima del valor
verdadero, de forma que el efecto siga visible, a pesar de los errores estándar inflados y/o debido a
que el valor verdadero es en sí mismo tan grande que, aunque se obtenga una estimación
subestimada, continúe siendo significativa.

4
UNIVERSIDAD NACIONAL DEL ALTIPLANO
FACULTAD DE INGENIERÍA ESTADÍSTICA E INFORMÁTICA

4. CONSECUENCIAS DE LA MULTICOLINEALIDAD

En los casos de casi o alta multicolinealidad es probable que se presenten las siguientes
consecuencias:

 Aunque los estimadores de MCO son MELI, presentan varianzas y covarianzas grandes que
dificultan la estimación precisa.
 Debido a la consecuencia 1, los intervalos de confianza tienden a ser mucho más amplios, lo
cual propicia una aceptación más fácil de la “hipótesis nula cero” (es decir, que el verdadero
coeficiente poblacional es cero).
 También debido a la consecuencia 1, la razón t de uno o más coeficientes tiende a ser
estadísticamente no significativa.
 Aunque la razón t de uno o más coeficientes sea estadísticamente no significativa, R2, la
medida global de bondad de ajuste, puede ser muy alta.
 Los estimadores de MCO y sus errores estándar son sensibles a pequeños cambios en los
datos.

5. DETECCIÓN DE LA MULTICOLINEALIDAD.

Después de estudiar las características y las consecuencias de la multicolinealidad, el interrogante


natural es: ¿cómo conocer la presencia de colinealidad en cualquier situación dada, en especial en
modelos con más de dos variables explicativas? Aquí es útil la advertencia de Kmenta:

1. La multicolinealidad es una cuestión de grado y no de clase. La distinción importante no es entre


presencia o ausencia de multicolinealidad, sino entre sus diferentes grados.
2. Como la multicolinealidad se refiere a la condición de las variables explicativas que son no
estocásticas por supuestos, es una característica de la muestra y no de la población.

Por consiguiente, no es necesario “llevar a cabo pruebas sobre multicolinealidad”, pero, si se desea,
es posible medir su grado en cualquier muestra determinada.

Como la multicolinealidad es en esencia un fenómeno de tipo muestral que surge de información sobre
todo no experimental recopilada en la mayoría de las ciencias sociales, no hay un método único para
detectarla o medir su fuerza. Lo que se tiene en realidad son ciertas reglas prácticas, algunas
informales y otras formales, pero todas reglas prácticas. Consideremos algunas de ellas.

5.1. Una R2 elevada pero pocas razones t significativas.

Como ya mencionamos, es un síntoma “clásico” de multicolinealidad. Si R2 es alta, es decir, está por


encima de 0.8, la prueba F, en la mayoría de los casos, rechazará la hipótesis de que los coeficientes

5
UNIVERSIDAD NACIONAL DEL ALTIPLANO
FACULTAD DE INGENIERÍA ESTADÍSTICA E INFORMÁTICA

parciales de pendiente son simultáneamente iguales a cero, pero las pruebas t individuales mostrarán
que ningún coeficiente parcial de pendiente, o muy pocos, son estadísticamente diferentes de cero.

Aunque este diagnóstico es razonable, su desventaja es que “es demasiado fuerte, en el sentido de
que la multicolinealidad se considera dañina únicamente cuando no se puede separar la totalidad de
las influencias de las variables explicativas sobre Y ”.

5.2. Altas correlaciones entre parejas de regresoras.

Otra regla práctica recomendable consiste en observar el coeficiente de correlación de orden cero o
entre dos regresoras. Si éste es alto, digamos, superior a 0.8, la multicolinealidad es un problema
grave. La desventaja con este criterio es que, aunque las altas correlaciones de orden cero pueden
sugerir la presencia de colinealidad, no es necesario que dichas correlaciones sean altas para tener
colinealidad en un determinado caso específico. En términos un poco técnicos: las correlaciones de
orden cero elevadas son una condición suficiente pero no necesaria para la existencia de
multicolinealidad, debido a que puede existir a pesar de que las correlaciones de orden cero o
correlaciones simples sean comparativamente bajas (es decir, inferiores a 0.50). Para apreciar esta
relación, suponga un modelo con cuatro variables:

Yi = β1 + β2 X2i + β3 X 3i + β4 X4i + ui

y suponga que
X4i = λ2 X2i + λ3 X3i

donde λ2 y λ3 son constantes, sin ser los dos iguales a cero. Obvio, X4 es una combinación lineal
exacta de X2 y X3, que da R2= 1.

Por consiguiente, en los modelos donde hay más de dos variables explicativas, la correlación
simple o de orden cero no proporciona una guía infalible sobre la presencia de multicolinealidad.
Claro que si sólo existen dos variables explicativas, bastarán las correlaciones de orden cero.

5.3. Examen de las correlaciones parciales.

Si bien puede ser útil un estudio de correlaciones parciales, nada garantiza que proporcionen una guía
infalible sobre multicolinealidad, pues puede suceder que tanto R2 como todas las correlaciones
parciales sean lo bastante altas. Sin embargo, y tal vez más importante, C. Robert Wichers mostró20
que la prueba de correlación parcial de Farrar-Glauber es ineficaz en el sentido de que una
determinada correlación parcial puede ser compatible con diferentes patrones de multicolinealidad.
La prueba de Farrar-Glauber también recibió fuertes críticas de T. Krishna Kumar,21 John O’Hagan y
Brendan McCabe.

6
UNIVERSIDAD NACIONAL DEL ALTIPLANO
FACULTAD DE INGENIERÍA ESTADÍSTICA E INFORMÁTICA

5.4. Regresiones auxiliares.

Como la multicolinealidad surge porque una o más de las regresoras son combinaciones lineales
exactas o aproximadas de las demás regresoras, una forma de determinar cuál variable X está
relacionada con las demás variables X es efectuar la regresión de cada Xi sobre las variables X
restantes y calcular la R2 correspondiente, que se designa R2 i cada una de estas regresiones se
denomina regresión auxiliar, auxiliar a la regresión princi- pal de Y sobre las X. Así, conforme a la
relación entre F y R2 establecida, la variable sigue la distribución F con k − 2 y n − k + 1 gl. En la
ecuación (), n representa el tamaño de la muestra, k representa el número de variables explicativas
incluyendo el intercepto.

5.5. Valores propios e índice de condición.

Mediante EViews y Stata podemos calcular los valores propios y el índice de condición para
diagnosticar la multicolinealidad. No analizare- mos aquí el tema de los valores propios, pues
implicaría abordar temas de álgebra matricial, fuera del alcance de este libro. Sin embargo, a partir
de estos valores propios puede derivarse lo que se conoce como número de condición k, definido
como:

Valor propio máximo


k=
Valor propio mínimo

y el índice de condición (IC), definido como:

Entonces tenemos esta regla práctica: Si k está entre l00 y 1 000, existe una multicolinealidad que
va de moderada a fuerte, mientras que si excede de 1 000, existe multicolinealidad grave. De otro
modo, si el IC ( = raíz(k)) está entre 10 y 30, hay multicolinealidad entre moderada y fuerte, y
si excede de 30, una multicolinealidad grave.

5.6. Tolerancia y factor de inflación de la varianza.


Entre mayor es el valor del FIVj, mayor “problema” o colinealidad tiene la variable Xj. ¿Pero,
cuánto debe ascender el FIV antes de que una regresora se convierta en un problema? Como

7
UNIVERSIDAD NACIONAL DEL ALTIPLANO
FACULTAD DE INGENIERÍA ESTADÍSTICA E INFORMÁTICA

regla práctica, si el FIV de una variable es superior a 10 (esto sucede si R2 excede de 0.90), se dice
que esa variable es muy colineal.

Desde luego, puede utilizarse TOLj como medida de la multicolinealidad, en vista de su estrecha
conexión con FIVj. Mientras más cerca esté TOLj de cero, mayor será el grado de colinealidad de
esa variable respecto de las demás regresoras. Por otra parte, mientras más cerca esté TOLj de 1,
mayor será la evidencia de que Xj no es colineal con las demás regresoras.

5.7. Diagrama de dispersión.

Es una buena práctica usar un diagrama de dispersión para ver cómo se relacionan las diversas
variables de un modelo de regresión. La figura presenta el diagrama de dispersión. Se trata de un
diagrama de cuatro por cuatro cuadros porque hay cuatro variables en el modelo, una variable
dependiente (C) y tres variables explicativas: ingreso personal disponible real (Yd), riqueza real
(W) y tasa de interés real (I).

8
UNIVERSIDAD NACIONAL DEL ALTIPLANO
FACULTAD DE INGENIERÍA ESTADÍSTICA E INFORMÁTICA

Primero considere la diagonal principal, de la esquina superior izquierda a la esquina inferior


derecha. No hay puntos de dispersión en estos cuadros en la diagonal principal. Si los hubiera,
tendrían un coeficiente de correlación de 1, pues las gráficas serían de una variable dada sobre
sí misma. Los cuadros fuera de la diagonal muestran intercorrelaciones entre las variables. Por
ejemplo, el cuadro de riqueza (W) muestra que la riqueza y el ingreso están muy correlacionados
(el coeficiente de correlación entre los dos es 0.97), pero no de manera perfecta. Si tuvieran co-
rrelación perfecta (es decir, si tuvieran un coeficiente de correlación de 1), no habríamos podido
estimar la regresión (10.6.6) porque habría una relación lineal exacta entre riqueza e ingreso. El
diagrama de dispersión también muestra que la tasa de interés no está muy correlacionada con
las otras tres variables.

Como la función de diagrama de dispersión se incluye ahora en varios programas estadísticos, este
diagnóstico debe tomarse en consideración junto con los que estudiamos antes. No obstante, hay
que recordar que las correlaciones simples entre parejas de variables pueden no ser un indi-
cador definitivo de colinealidad, como ya señalamos.

Para concluir la detección de la multicolinealidad, reiteramos que los diversos métodos son
en esencia “expediciones de pesca”, pues no puede decirse cuáles funcionan en una aplica- ción
particular. Sin embargo, no se puede hacer mucho al respecto, pues la multicolinealidad es un
problema específico de una muestra dada sobre la cual el investigador puede no tener mucho
control, sobre todo si los datos son no experimentales por naturaleza, como es lo común para los
investigadores de las ciencias sociales.

Nuevamente, como una parodia de multicolinealidad, Goldberger cita diversas formas de


detectar la micronumerosidad, como el desarrollo de valores críticos del tamaño de la muestra,
n*, tales que la micronumerosidad es un problema sólo si el tamaño real de la muestra n es más
pequeño que n*. Lo importante de la parodia de Goldberger es destacar que el tamaño pequeño

9
UNIVERSIDAD NACIONAL DEL ALTIPLANO
FACULTAD DE INGENIERÍA ESTADÍSTICA E INFORMÁTICA

de la muestra y la falta de variabilidad en las variables explicativas pueden ocasionar problemas


por lo menos tan graves como los debidos a la multicolinealidad.

6. MEDIDAS CORRECTIVAS.

¿Qué puede hacerse si la multicolinealidad es grave? Hay dos posibilidades:


a) no hacer nada o
b) seguir algunas reglas prácticas.
6.1. No hacer nada
Lo que Blanchard afirma es que la multicolinealidad es en esencia un problema de
deficiencia de datos (de nuevo, micronumerosidad), y en algunas ocasiones no hay
opción respecto de los datos disponibles para el análisis empírico.

6.2. Procedimientos de reglas practicas


Se pueden intentar las siguientes reglas practicas: el éxito depende de la gravedad de la
multicolinealidad.
1. Información a priori. Suponga que consideramos el modelo.
Yi = β1 + β2X2i + β3X3i + ui
donde Y _ consumo, X2 _ ingreso y X3 _ riqueza.
suponga que, a priori, creemos que β3 _ 0.10β2. Podemos entonces efectuar la siguiente
regresión:
Yi = β1 + β2X2i + 0.10 β2X3i + ui
= β1 + β2Xi + ui
donde Xi _ X2i + 0.1X3i. Una vez obtenido ˆ β2 podemos estimar ˆ β3 a partir de la
relación postulada entre β2 y β3.

2. Combinación de información de corte transversal y de series de tiempo.


conocida como mezcla de datos.
ln Yt = β1 + β2 ln Pt + β3 ln It + ut
donde Y _ número de automóviles vendidos, P _ precio promedio, I _ ingreso y t _
tiempo. El objetivo es estimar la elasticidad precio β2 y la elasticidad ingreso β3. Con
esta estimación, la anterior regresión de series de tiempo se escribe como.

Y∗= β1 + β2 ln Pt + ut
donde Y ∗ = ln Y − ˆ β3 ln I, es decir, Y ∗ representa ese valor de Y después de eliminarle
el efecto del ingreso. Ahora se puede obtener una estimación de la elasticidad precio β2
de la regresión anterior.

10
UNIVERSIDAD NACIONAL DEL ALTIPLANO
FACULTAD DE INGENIERÍA ESTADÍSTICA E INFORMÁTICA

3. Eliminación de una(s) variable(s) y el sesgo de especificación. Al enfrentar el


problema de multicolinealidad grave, una de las soluciones “más simples” consiste en
omitir del modelo de una de las variables colineales.
Sin embargo, al eliminar una variable del modelo se puede incurrir en un sesgo de
especificación o error de especificación. El sesgo de especificación surge de la
especificación incorrecta del modelo utilizado en el análisis.

Si el modelo verdadero es
Yi = β1 + β2X2i + β3X3i + ui

pero se ajusta de manera errónea el modelo


Yi = b1 + b12X2i + ˆui

se demuestra que.
E(b12) = β2 + β3b32

donde b3 2 _ coeficiente de la pendiente en la regresión de X3 sobre X2.

4. Transformación de variables. Una razón de la alta multicolinealidad entre el


ingreso y la riqueza en tal información es que, con el tiempo, las dos variables tienden
a moverse en la misma dirección. Una forma de reducir esta dependencia es proceder
de la siguiente manera.
Si la relación
Yt = β1 + β2X2t + β3X3t + ut

se cumple en el periodo t, también debe cumplirse en el periodo t − 1, pues el origen del


tiempo es, de todas formas, arbitrario. Por consiguiente, tenemos que:

Yt−1 = β1 + β2X2,t−1 + β3X3,t−1 + ut−1

Si restamos (10.8.4) de (10.8.3) obtenemos

Yt − Yt−1 = β2(X2t − X2,t−1) + β3(X3t − X3,t−1) + vt

donde vt _ ut − ut−1. La ecuación (10.8.5) se conoce como la forma en primeras


diferencias.

Otra transformación común en la práctica es la transformación de razón. Considere el


siguiente
modelo:
Yt = β1 + β2X2t + β3X3t + ut
donde Y es el gasto de consumo en dólares reales, X2 es el PIB y X3 es la población
total. Como el PIB y la población aumentan con el tiempo, es muy probable que estén
correlacionados.

11
UNIVERSIDAD NACIONAL DEL ALTIPLANO
FACULTAD DE INGENIERÍA ESTADÍSTICA E INFORMÁTICA

5. Datos nuevos o adicionales. Como la multicolinealidad es una característica de la


muestra, es posible que en otra muestra con las mismas variables la colinealidad no sea
tan grave como en la primera.

6. Reducción de la colinealidad en las regresiones polinomiales. En la sección 7.10


estudiamos los modelos de regresión polinomial. Una característica especial de estos
modelos es que la(s) variable(s) explicativa(s) aparece(n) elevada(s) a diversas
potencias. Por tanto, en la función cúbica de costos totales que implica la regresión del
costo total sobre la producción, la producción) 2 y la (producción)3, como en (7.10.4),
los diversos términos de la producción van a estar correlacionados, lo que dificulta la
estimación precisa de los diversos coeficientes de pendiente.

7. Otros métodos de remediar la multicolinealidad. Las técnicas estadísticas


multivariadas como el análisis de factores y el de componentes principales, o como
la regresión en cadena, son comunes para “resolver” el problema de la
multicolinealidad.

12
UNIVERSIDAD NACIONAL DEL ALTIPLANO
FACULTAD DE INGENIERÍA ESTADÍSTICA E INFORMÁTICA

7. EJEMPLO DE APLICACIÓN

Los datos se reproducen en la tabla 1, y son series de tiempo de 1947 a 1962, donde Y = número de
personas con trabajo (en miles), X1 = índice implícito de deflación de precios para el PIB, X2 = PIB (en
millones de dólares), X3 = número de desempleados (en miles), X4 = número de personas enlis- tadas en
las fuerzas armadas, X5 = población no institucionalizada mayor de 14 años de edad y X6 = año (igual a
1 para 1947, 2 para 1948 y 16 para 1962).

Tabla 1.

Suponga que nuestro objetivo es predecir Y con base en las seis variables X. Mediante el software EViews6
obtenemos los siguientes resultados de la regresión:

Variable dependiente: Y

Muestra: 1947-1962

Variable Coeficiente Error estándar Estadístico t Probabilidad


C -3482259. 890420.4 -3.910803 0.0036
X1 15.06187 84.91493 0.177376 0.8631
X2 -0.035819 0.033491 -1.069516 0.3127
X3 -2.020230 0.488400 -4.136427 0.0025
X4 -1.033227 0.214274 -4.821985 0.0009
X5 -0.051104 0.226073 -0.226051 0.8262
X6 1829.151 455.4785 4.015890 0.0030

13
UNIVERSIDAD NACIONAL DEL ALTIPLANO
FACULTAD DE INGENIERÍA ESTADÍSTICA E INFORMÁTICA

A primera vista, dichos resultados sugieren que se tiene un problema de colinealidad, pues el valor R2 es muy
alto; sin embargo, unas cuantas variables son estadísticamente no significativas (X1, X2 y X5), lo cual constituye
un síntoma característico de multicolinealidad. Para arrojar más luz a este problema, en la tabla 2 se presentan
las intercorrelaciones entre las seis regresoras.

Tabla 2.

Esta tabla suministra lo que se llama matriz de correlación. En la tabla, las entradas de la diagonal principal
(las que van desde la esquina superior izquierda hacia la esquina inferior de- recha) suministran la correlación
de una variable consigo misma, la cual por definición siempre es 1; además, las entradas fuera de la diagonal
principal son las parejas de correlaciones entre las variables X. El primer renglón de esta tabla proporciona la
correlación de X1 con las otras variables X. Por ejemplo, 0.991589 es la correlación entre X1 y X2; 0.620633 es la
correlación entre X1 y X3, y así sucesivamente.

Como se ve, varias de estas correlaciones a pares son muy altas, lo cual sugiere que quizá haya un grave
problema de colinealidad. Por supuesto, debe recordarse la advertencia anterior de que tales correlaciones a
pares tal vez sean una condición suficiente, pero no necesaria, para la multicolinealidad.

Con objeto de aclarar más la naturaleza del problema de la multicolinealidad, observe las regresiones
auxiliares; es decir, la regresión de cada variable X sobre las restantes variables X. Para ahorrar espacio, se
presentarán sólo los valores R2 obtenidos con base en esas regresiones, las cuales se listan en la tabla 3.

tabla 3. Valores R2 obtenidos de regresiones auxiliares

14
UNIVERSIDAD NACIONAL DEL ALTIPLANO
FACULTAD DE INGENIERÍA ESTADÍSTICA E INFORMÁTICA

Como los valores R2 de las regresiones auxiliares son muy altos (con la posible excepción de la regresión de X4)
sobre las restantes variables X, al parecer existe un grave problema de colinealidad. La misma información
se obtiene a partir de los factores de tolerancia. Como ya mencionamos, mientras más cercano a cero esté
el factor de tolerancia, mayor será la evidencia de colinealidad.

Al aplicar la regla práctica de Klein observamos que los valores R2 obtenidos de las regresiones auxiliares
exceden el valor general R2 (es decir, el que se obtuvo de la regresión de Y sobre todas las variables X), que
es igual a 0.9954, en 3 de 6 regresiones auxiliares, lo cual de nuevo sugiere que sin duda los datos Longley
están plagados del problema de multicolinealidad.

Ya observamos que los estimadores de MCO y sus errores estándar son sensibles a los pequeños cambios en
los datos.

Ahora que establecimos que existe un problema de multicolinealidad, ¿qué acciones correctivas pueden
llevarse a cabo? Reconsidere el modelo original. En primer lugar, el PIB puede expresarse no en términos
nominales, sino en términos reales, lo cual se realiza al dividir el PIB nominal entre el índice de deflación del
precio implícito. En segundo lugar, en vista de que la población no institucional mayor de 14 años aumenta
con el tiempo debido al crecimiento natural de la población, estará muy correlacionada con el tiempo, la
variable X6 del modelo. Por tanto, en lugar de conservar esas dos variables, mantenemos la variable X5 y
desechamos X6. En tercer lugar, no hay ninguna razón de peso para incluir X3, el número de personas
desempleadas; quizá la tasa de desempleo fuese una mejor medida de las condiciones del mercado de
trabajo; sin embargo, no hay ningún dato al respecto. Por consiguiente, eliminamos la variable X3. Con estos
cambios obtenemos los siguientes resultados de la regresión (PIBR = PIB real):

Variable dependiente: Y

Muestra: 1947-1962

Variable Coeficiente Error estándar Estadístico t Probabilidad

C 65720.37 10624.81 6.185558 0.0000

PIBR 9.736496 1.791552 5.434671 0.0002

X4 -0.687966 0.322238 -2.134965 0.0541

X5 -0.299537 0.141761 -2.112965 0.0562

Aunque R2 disminuyó un poco en comparación con la R2 original, aún es muy alta. Ahora todos los coeficientes
estimados son significativos y sus signos tienen sentido desde el punto de vista económico.

15
UNIVERSIDAD NACIONAL DEL ALTIPLANO
FACULTAD DE INGENIERÍA ESTADÍSTICA E INFORMÁTICA

8. RESUMEN Y CONCLUSIONES

1. Un supuesto del modelo clásico de regresión lineal es que no haya multicolinealidad entre las
variables explicativas, las X. Interpretada en términos generales, la multicolinealidad se refiere a
una situación en la cual existe una relación lineal exacta o aproximadamente exacta entre las
variables X.

2. Las consecuencias de la multicolinealidad son las siguientes: si existe colinealidad perfecta entre
las X, sus coeficientes de regresión son indeterminados y sus errores estándar no están definidos.
Si la colinealidad es alta pero no perfecta, es posible la estimación de los coeficien- tes de regresión,
pero sus errores estándar tienden a ser grandes. Como resultado, los valores poblacionales de los
coeficientes no pueden estimarse en forma precisa; sin embargo, si el objetivo es estimar
combinaciones lineales de estos coeficientes, las funciones estimables, esto se logra aun en
presencia de multicolinealidad perfecta.

3. Aunque no hay métodos seguros para detectar la colinealidad, existen diversos indicadores,
como los siguientes:
a) El signo más claro de multicolinealidad es cuando R2 es muy alta pero ninguno de los
coeficientes de regresión es estadísticamente significativo con base en la prueba t
convencional. Este caso es, por supuesto, extremo.
b) En los modelos con apenas dos variables explicativas, puede tenerse una idea relativamente
buena de la colinealidad mediante el examen del coeficiente de correlación de orden cero, o
simple, entre las dos variables. Si esta correlación es alta, la multicolinealidad suele ser la
culpable.
c) Sin embargo, los coeficientes de correlación de orden cero pueden ser malos indicadores en
modelos con más de dos variables X, pues es posible tener correlaciones bajas de orden cero y
encontrar aún alta multicolinealidad. En estas situaciones puede ser necesario examinar los
coeficientes de correlación parcial.
d) Si R2 es alta pero las correlaciones parciales son bajas, la multicolinealidad es una posibilidad.
Aquí hay una o más variables que pueden ser superfluas. Pero si R2 es alta y las correlaciones
parciales también son altas, la multicolinealidad puede no ser fácilmente detectable.
También, como señalan C. Robert Wichers, Krishna Kumar, John O’Hagan y Brendan McCabe,
hay algunos problemas estadísticos con la prueba de correlación parcial sugerida por Farrar y
Glauber.
e) Por consiguiente, se puede hacer la regresión de cada variable Xi sobre las variables X
f) restantes en el modelo y encontrar los coeficientes de determinación correspondientes

4. La detección de multicolinealidad es la mitad de la batalla. La otra mitad es hallar la forma de


deshacerse del problema. Nuevamente, no existen métodos seguros, sólo unas cuantas reglas

16
UNIVERSIDAD NACIONAL DEL ALTIPLANO
FACULTAD DE INGENIERÍA ESTADÍSTICA E INFORMÁTICA

prácticas, algunas de las cuales son las siguientes: 1) utilizar información obtenida a priori o
externa al modelo, 2) combinar información de corte transversal y de series de tiempo,

omitir una variable si es muy colineal, 4) transformar los datos y 5) obtener datos adiciona- les o
nuevos. Naturalmente, saber qué regla funciona en la práctica depende de la naturaleza de la
información y de la gravedad del problema de colinealidad.

5. Mencionamos el papel de la multicolinealidad en la predicción y señalamos que, a menos que la


estructura colineal continúe en muestras futuras, es peligroso utilizar para fines de proyec- ción
una regresión estimada que haya sido contaminada por la multicolinealidad.

6. Aunque la multicolinealidad ha recibido extensa (algunos dirían excesiva) atención en la teoría,


un problema igualmente importante en la investigación empírica es el de la micro- numerosidad,
o pequeñez del tamaño de la muestra. De acuerdo con Goldberger: “Cuando un artículo de
investigación acusa la presencia de multicolinealidad, los lectores deben ver si esa queja sería
convincente si se sustituyera el concepto de ‘micronumerosidad’ por el de ‘multicolinealidad’ ”.46
Él sugiere que el lector es quien debe decidir cuán pequeña puede ser n, el número de
observaciones, antes de concluir que se tiene un problema de muestra pe- queña, de la misma
forma que decide cuán alto es un valor de R2 en una regresión auxiliar antes de declarar que el
problema de colinealidad es muy grave.

9. BIBLIOGRAFÍA.

Damodar N. Gujarati (2010), Econometría, Mc Graw Hill. Capítulo 10.

Novales, A. (1993). Econometría. McGraw Hill. Capítulo 10.

17