Cap 1 Econ

Econometría Moderna El Modelo de Regresión Lineal
CAPITULO 1
EL MODELO DE REGRESIÓN LINEAL
1.1. EL ANÁLISIS DE REGRESIÓN
1.1.1 Interpretación
El inglés Francis Galton1 (1822 - 1911) fue el primero en introducir el término regresión.
Cuando estudiaba la relación entre las estaturas de los hijos y los padres observó que la estatura
de los hijos era alta o baja cuando los padres eran altos o bajos, respectivamente. Sin embargo,
la estatura promedio de los hijos cuyos padres tenían una estatura dada, tendía a moverse o
converger hacia el promedio de la población. Así, determinó una regresión de la estatura de los
hijos hacia el promedio o, en términos de Galton, “una regresión hacia la mediocridad”.
La Ley de Regresión Universal de Galton fue confirmada, años después, por Karl Pearson,
quien realizó un estudio similar utilizando más de mil observaciones. Con el estudio de Pearson
se confirmó que la estatura promedio de los hijos de un grupo de padres altos era menor que la
estatura de sus padres y la estatura promedio de los hijos de padres de estatura baja era mayor
que la de sus padres. Así, se observa que los hijos de estatura alta o baja, “regresan” en forma
similar hacia la estatura promedio de la población.
En este sentido, la regresión de una variable aleatoria Y sobre otra variable X fue entendida
como la media de Y condicional en X, a través de una relación funcional entre X e Y. El
estimador de los coeficientes involucrados en esta forma funcional fue hallado utilizando el
criterio de estimación de Mínimos Cuadrados Ordinarios (MCO), que será estudiado en el
siguiente capítulo, y las observaciones muestrales de X e Y.
Una interpretación más moderna de regresión indica que la misma es cualquier aproximación
de la distribución de probabilidad de Y condicionada a los valores de las observaciones de X,
1
Francis Galton, “Family Likeness in Stature”, Proceedings of Royal Society, Londres,vol, 40, 1886, pp. 42-72.
8
siendo Y una función de X. En otras palabras, el análisis de regresión estudia la relación

existente entre una variable endógena o dependiente (Y) y una o más variables exógenas o
independientes (X), con el objeto de estimar la media o valor promedio poblacional de la
primera en términos de los valores conocidos o fijos de las últimas. Ahora, resulta más clara la
relación entre el estudio de Galton y la definición moderna del término regresión.
A menudo se confunden los términos regresión y correlación, los cuales están estrechamente
ligados a pesar de que existen diferencias substanciales entre ellos. Por un lado el análisis de
correlación pretende medir el grado de asociación lineal entre dos variables a través del
coeficiente de correlación2. Por ejemplo, se puede estar interesado en conocer la correlación
entre la cuenta de capitales y la tasa de interés, entre los términos de intercambio y la balanza
comercial, entre la tasa de encaje y créditos del sistema bancario, etc. En cambio, cuando se
analiza una regresión se trata de estimar o de predecir el valor promedio de una variable
(llamada explicada, dependiente o endógena) utilizando valores fijos 3 de las variables
explicativas (también llamadas independientes o exógenas) . Utilizando el ejemplo anterior,
puede ser que se desee predecir el saldo de la cuenta de capitales teniendo información muestral
de la tasa de interés o que se desee predecir el monto total de créditos conociendo la tasa de
encaje bancaria. Así, y conociendo la relación existente entre estas variables a través de un
análisis de regresión, será posible predecir valores de la variable dependiente utilizando
realizaciones de las independientes.
1.1.2 ¿Cómo se conecta el análisis económico con el análisis de regresión?
El análisis económico toma en consideración diversas variables en conjunto. La relación

entre las tasas de inflación y el desempleo, la relación intertemporal entre las tasas de interés y
el consumo o la relación entre éste y los precios de los bienes relacionados de un bien, son
algunos de los tantos ejemplos que se encuentran en el análisis empírico en economía. Como
ejemplo concreto, se puede citar la Ley de Okun4, la cual afirma que por cada punto porcentual
que caiga la tasa de desempleo el producto tiende a crecer 3 puntos porcentuales. Esto significa
que existe una relación negativa entre las dos variables y, para contrastar el modelo, se
necesitará utilizar simultáneamente datos de ambas variables.
Para ello, se deben utilizar distribuciones de probabilidad conjuntas o multivariadas 5. Se sabe

por nociones básicas de estadística que la función de probabilidad conjunta se puede plantear de
la siguiente forma:
f( y/ x1 , x2 , x3 ) = F ( y/ x1 , x2 , x3 ) * f (x1 , x2 , x3 ) (1.1)
Siendo la primera la función de probabilidad condicional y la segunda la marginal. En el

análisis econométrico, y tal como se indicó anteriormente, se busca estimar la distribución
condicional mientras que la marginal no se utilizará, por el momento.
2
El coeficiente de correlación entre dos variables aleatorias expresa el grado de dependencia entre el comportamiento
Cov (Y , X )
de dichas variables. Formalmente: 
( x )( y )
3
Se debe resaltar que las variables explicativas pueden ser de naturaleza estocástica, pero por simplicidad para el
análisis de regresión se asume que los valores de X no cambian en diversas muestras, es decir son fijos en el muestreo
repetido. De hecho este supuesto deberá imponerse al momento de querer obtener estimados de los verdaderos
parámetros. El problema asociado a la presencia de regresores (variables exógenas) estocásticos, será abordado en
otro capítulo.
4
Se puede expresar matemáticamente de la siguiente manera: 3(un  u 1 )  (Q1  Q f ) , donde un y Qf
indican que el producto está en pleno empleo y por tanto la tasa de desempleo (u) es la natural.
5
Son las funciones de probabilidad generadas por el comportamiento aleatorio conjunto de dos o más variables y se
utilizan en el estudio de las relaciones existentes entre éstas.
9
De esta manera, si se tiene la siguiente función conjunta: C = f (r, Yd, w, Yp), ésta nos indica
que el consumo es una función de la tasa de interés, el ingreso disponible, el salario y el ingreso
permanente. La función anterior expresa únicamente una relación matemática, sin embargo, y
tal como se indicó en la introducción del libro, uno de los objetivos de la econometría es
formular un modelo econométrico a partir de un modelo económico, para luego proceder a la
estimación y comprobación del mismo a partir de los datos muestrales. En consecuencia, se
debe transformar la función anterior en un modelo econométrico, por ejemplo consideremos el
siguiente modelo de regresión lineal6:
C   0   1 r   2 Yd   3 w   4 Yp   
donde u es el componente estocástico o aleatorio, que recoge los efectos de variables no

incluidas en el modelo que no afectan de manera sistemática a la variable endógena o explicada
(el consumo). Se supone que u es una variable aleatoria y tiene una distribución de probabilidad
conocida que será materia de estudio en un capítulo posterior. El otro miembro de la ecuación
indica la relación exacta entre la variable explicada (C) y las demás variables llamadas
explicativas, es decir, es el componente determinístico (o predecible) del modelo. Los  son
conocidos como parámetros y recogen los efectos ocasionados por las variaciones de las
variables r, Yd, w, y Yp sobre la variable C que se desea explicar. En términos matemáticos 7,
cada parámetro indica la sensibilidad de la variable dependiente ante un cambio unitario en la
variable independiente.
El modelo econométrico especificado en la expresión (1.2), tiene como objetivo estimar el

valor del consumo sobre la base de valores fijos de las variables explicativas, utilizando un
conjunto de datos muestrales. Por tanto, una regresión de C sobre las demás variables se
interpreta como el valor esperado de la distribución de probabilidad de C dado los valores de las
variables r, Yd, w y Yp, es decir, y tal como se dijo en la primera parte de este capítulo, una
regresión puede interpretarse como la media condicional de Y dado X. Formalmente:
E (C /r, Yd, w, Yp ) = f (Xi) (1.3)
Un punto importante que debe notarse es que la estructura de la relación entre la variable
explicada y las variables explicativas se supone que es lineal lo cual puede ser un aproximación
muy gruesa de la realidad porque de hecho muchos eventos o fenómenos que se pretenden
explicar son de naturaleza no lineal. En todo caso el modelo de regresión lineal puede pensarse
como una aproximación lineal de Taylor de un problema no lineal.
1.1.3 Definiciones Básicas
Una vez que hemos entendido el concepto de regresión como la modelación de la media
condicional de una distribución de probabilidades es deseable realizar algunas definiciones
básicas que vamos a utilizar a lo largo del libro.
El modelo de regresión lo podemos plantear de manera general de la siguiente forma:

y t   1   2 x 2t   3 x3t  .............   k x kt   t
La variable Y que es aquella que condicionamos a los valores que adopte las demás variables
(X) recibe indistintamente le nombre de variable explicada, endógena o dependiente. Las
6
Este modelo será estudiado en el Capítulo III.
Y
7
Formalmente:   i es decir, cada parámetro representa la derivada parcial de la variable dependiente con
X i
respecto a cada variable explicativa.
10
variables a la derecha del modelo reciben el nombre de variables explicativas, exógenas o

independientes. Como vemos el modelo es un modelo lineal el cual supone que los efectos de
cada una de las variables explicativas se pueden agrupar de manera separada y el efecto
conjunto se da de manera aditiva. El plantear el modelo de esta manera nos permite decir que lo
que estamos haciendo es separar a la variable explicada en dos conjuntos:
 La parte sistemática o determinística que viene representada por :
 1   2 x 2t   3 x 3t  .............   k x kt
Esta es la parte que es sugerida por el investigador y establece una relación sistemática
y de dependencia entre la variable explicada y las variables explicativas. Dado el
concepto de media condicional de la regresión, la parte sistemática representa lo que en
promedio se dará cuando los valores de las X estén dados. Esta será la parte explicada
por nuestro modelo de los valores de Y. Otra forma de apreciar esta parte es que
representa lo que nosotros podremos predecir con nuestro modelo. Dado el carácter de
media condicional, la predicción será aquel valor que esperamos tenga nuestra variable
dependiente con mayor probabilidad.
 La parte aleatoria o estocástica que viene representada por el término de error (  ).

Dado que la economía busca estudiar el comportamiento económico de las personas no
podemos pensar en encontrar relaciones exactas que gobiernen el comportamiento de
los agentes económicos. Las personas, empresas o el Estado se desenvuelven en un
contexto estocástico debido a que existen muchos factores no controlables como los
estados de la naturaleza, movimientos bruscos en el mercado, factores políticos o los
descubrimientos de nuevos productos y tecnologías que pueden afectar de manera
inesperada cualquier relación que queramos estimar. Estos factores pueden ser
importantes en un momento determinado pero no afectan de manera permanente a la
variable dependiente. Un ejemplo de ello puede ser la presencia del fenómeno del niño.
Como sabemos, este fenómeno aparece de manera inesperada y no se sabe cada qué
tiempo afecta al Perú. Así, en un determinado año podríamos tener que todas las
variables que afectan la producto de manera sistemática (incluidas en la parte explicada
de la regresión) tengan un determinado valor. Si utilizamos nuestra relación estimada
podríamos obtener algún resultado esperado, pero si se produce el fenómeno del niño,
nos podríamos alejar considerablemente del valor que el modelo nos arroja como el más
probable.
Otro concepto que debemos utilizar es el referido al tipo de datos que podemos encontrar en la
realización de trabajos empíricos. Los datos pueden clasificarse de la siguiente manera:
 Datos de Series de Tiempo: En este caso podemos pensar que el individuo sobre el cual
se mide la variable es el mismo y se observa éste a lo largo del tiempo. Un ejmplo
podría ser el individuo PERU para el cual se miden a lo largo del tiempo los valores del
producto bruto interno.
 Datos de Corte Transversal: En este caso lo fijo es la unidad de tiempo y lo que varían
son los individuos. Un ejemplo de esto son las encuestas que se hacen en un momento
determinado del tiempo. En el Perú tenemos varios casos de encuestas realizadas como
la Encuesta Nacional de Niveles de Vida (ENNIV) que sirve para analizar la calidad de
vida de las personas a través de la medición de ingresos y acceso a servicios básicos
como la salud, educación, nutrición. Etc.
 Datos Longitudinales: Esta tercera categoría es una combinación de las dos anteriores.
Podríamos pensar en encuestas o mediciones que se hacen a distintos individuos en
11
diferentes períodos de tiempo. Esto implica construir un panel de datos cuya realización
es costosa porque implica hacer un seguimiento a los individuos a fin de poder
ubicarlos para realizar la recolección de la información a lo largo del tiempo. En el Perú
son pocos los casos en donde se han construido estos paneles de datos. Sin embargo,
empresas privadas han invertido en la construcción de estos paneles dado que proveen
muy buena información acerca de cambios en los patrones de consumo e ingresos de las
personas.
Una vez realizada esta definición de conceptos básicos es de suma utilidad iniciar el estudio
de los métodos y formas que se encuentran disponibles para la obtención de los parámetros de
los modelos que pretendamos estimar.
1.2.1 ¿Cómo obtener los parámetros?
Si analizamos nuestro modelo, veremos que dada una muestra determinada, conocemos los
valores muestrales tanto de la variable dependiente como de la dependiente. Sin embargo, los
parámetros verdaderos (los  ´s) son desconocidos. Por ello, debemos desarrollar una
estrategia que nos permita realizar una estimación adecuada de los mismos. En este punto es
conveniente tener claro el concepto de estimación. Un estimador se define como cualquier
fórmula o función de los datos que permite obtener estimaciones de los parámetros
desconocidos. Así, se deduce que una estimación es el valor numérico que resulta de la
aplicación de esta función a un conjunto de datos muestrales específicos. 8
Según los expuesto, antes de proceder a explicar el proceso de estimación debemos hacer
ciertas aclaraciones. El modelo planteado por el investigador sobre la base de consideraciones
teóricas o apreciaciones intuitivas es un modelo desconocido al cual llamaremos modelo
teórico. El modelo con el cual trabajaremos en la práctica implicará que se reemplazará los
parámetros desconocidos por los estimadores correspondientes. Como estos no son los
verdaderos sino aproximaciones que esperamos cumplan con ciertas condiciones deseables que
veremos más adelante, los errores tampoco serán los verdaderos sino aproximaciones. Lo ideal
es que exista cierta conexión entre el modelo teórico y el empírico. Esto lo podemos ilustrar con
las siguientes expresiones:
Y=X +u  Y = X ̂ + e (1.4)
modelo modelo
teórico empírico
En este caso hemos optado por expresar el modelo de manera general donde X es una matriz
que contiene todos los datos de las variables explicativas. Denotaremos al número de variables
explicativas como k y tendremos n datos. Por lo tanto, el orden de la matriz X será nxk.  es
un vector columna que contiene a los k parámetros del modelo. De manera similar el orden del
vector Y y del vector de errores (sean teóricos o empíricos) será de nx1 y .Como se puede
apreciar, en el modelo empírico se ha reemplazado al parámetro verdadero y desconocido (  )
por su estimador ( ̂ ). De igual manera ocurre con los errores teóricos (  ) y los errores
empíricos (e). Si bien son dos las magnitudes desconocidas en este modelo (los parámetros y
los errores) debe notarse que una vez que obtenemos los estimados de los parámetros quedan
determinados los errores empíricos. Por ello, el énfasis estará centrado en la estimación de los
parámetros.
8
Esto implica que para otra muestra (la cual puede variar debido al método de muestreo) puedo obtener distintos
estimados de los parámetros a pesar de que el estimador (función donde se reemplazan los datos) sea el mismo para
todas las muestras posibles.
12
La estimación de los parámetros se deriva de un problema de predicción condicional. En

dicho problema se observa la realización de un vector aleatorio X y se desea predecir la
realización de una variable aleatoria Y.
En este punto debemos introducir el concepto de función de pérdida, la cual recibe este
nombre debido a que la presencia de un estimador implica que existe un predictor que trata de
explicar o aproximarse lo más posible al verdadero valor de Y. Así, el planteamiento de una
función de pérdida tiene como objetivo lograr que el modelo sujeto a estimación se parezca lo
más posible a lo observado en la realidad. En consecuencia, el mejor predictor será aquél que
minimice la pérdida esperada de una función de pérdida específica. Dicho predictor resuelve un
problema de minimización de la siguiente forma:
Min E [L (Y - P) / X] (1.5)
P
Observado Estimado
Siendo la función de pérdida L, P denota un predictor de Y y E (L (Y – P) / X ) es la pérdida

esperada, condicional en X, cuando P es usado para predecir Y. Esta función debe satisfacer la
siguiente condición:
0uv 
0=L(0)L(u) L(v) (1.6)
0 = L(0)  L(-u )  L(-v ) (1.7)
Evidentemente, la idea es que la función de pérdida sea lo más pequeña posible, donde u y v
son los valores para el error de predicción (Y – P). Si la función de pérdida es fija, el valor del
mejor predictor depende sólo de la distribución de probabilidad de Y condicional en X. En otras
palabras, la estructura de la función es elegida por el investigador y lo que varía es el error de
predicción para cada observación muestral de X e Y. En consecuencia, el valor del mejor
predictor o estimador dependerá sólo de la distribución de probabilidad mencionada. En este
sentido, y recordando que la regresión es el valor esperado de la distribución condicional de Y
dado X, deducimos que el mejor predictor se obtiene mediante una regresión. Algo que no debe
perderse de vista es que la proximidad entre el valor predicho y el valor verdadero dependerá de
la elección del estimador. Por ello, deberá elegirse aquel estimador que haga mínima la
diferencia dada una función de pérdida.
En la práctica, los mejores predictores son los que se estudian más detalladamente en el
análisis de regresión. Ellos describen brevemente la manera cómo varía Y ante cambios en los
regresores (X). Sin embargo, existen distintas funciones de pérdida interesantes y, a su vez,
muchas maneras de interpretar formalmente la posición de una variable aleatoria. A
continuación se presentan algunas funciones de pérdida conocidas y los distintos predictores
que se derivan de ellas.
i) Pérdida cuadrática: La función de pérdida cuadrática es:
L (u)  u2 (1.8)
En este caso, el mejor predictor resulta la media condicional de Y en X. Este resultado se

obtiene mediante el método de estimación de Mínimos Cuadrados Ordinarios, como veremos en
el siguiente capítulo.
13
ii) Pérdida absoluta: Cuya función de pérdida es la siguiente:
L (u)  u  (1.9)
Si tomamos esta función de pérdida, el mejor predictor es la mediana de Y condicional en X.
iii) Pérdida discreta: Dada una constante positiva , la función de pérdida discreta sería:
L( * ,  )
L ( u )  0 si u    (1.10)
L ( u )  1 si u    (1.11)
En este caso, el mejor predictor es el punto medio del intervalo de longitud 2 que tiene la
más alta probabilidad de contener a Y. En la medida en que  se aproxime a cero, el mejor
predictor se aproximará a la moda de Y condicional en X.
En general, la media, la mediana y la moda de la regresión de Y en X difieren entre sí. La

media como regresión puede ser lineal en X mientras que la mediana puede no serlo, o ambas
pueden ser lineales pero con diferentes pendientes. Por otro lado, puede ser posible que una
regresión aumente con X mientras la otra decrezca, o viceversa .
En el problema de predicción descrito, la función de pérdida escogida determina la regresión

sujeta a análisis. Dicha función debe reflejar las pérdidas asociadas al error de predicción, en
otras palabras, debe reflejar cuán cerca están las predicciones del modelo con respecto a las
observaciones reales. En ello radica la importancia de escoger una adecuada función de pérdida
aunque dicha necesidad disminuye sólo si uno cuenta con alguna información acerca de la
distribución, lo que implica que distintos predictores se comporten similarmente.
1.1.3 Métodos de estimación de los parámetros
Cuando se efectúa una regresión se puede seleccionar el método de estimación más

adecuado, dependiendo de la información previa a la que el investigador tiene acceso. Por
ejemplo, si no se cuenta con información acerca de la forma de la regresión o no es de interés la
estimación de un forma particular y sólo se quiere haceruna aproximación general de la función
de densidad, se puede realizar una estimación no paramétrica, concepto que está fuera del
alcance del presente libro9. De otro modo, si se quiere trabajar con un modelo de regresión
paramétrica existen distintos métodos de estimación que se pueden entre los cuales se puede n
mencionar los siguientes: El método de Mínimos Cuadrados Ordinarios, el de Momentos
Muestrales o el de Máxima Verosimilitud, los cuales se definirán a continuación y
posteriormente se discutirán en detalle. Esos métodos son los más utilizados y responden a
diferentes criterios con sus respectivas funciones de pérdida pero debe tenerse en cuenta que son
arbitrarios. Su utilización generalizada obedece a que cumplen con una serie de propiedades
deseables que facilitan su aplicación.
i) Mínimos Cuadrados Ordinarios (MCO)
9
El lector interesado puede revisar el trabajo de Pagan y Ullah (1999) “Nonparametric Econometrics” Cambridge
University Press.
14
El método de Mínimos Cuadrados es uno de los más usados, eficaces y conocidos del
análisis de regresión debido al contenido de las propiedades estadísticas que posee. El principio
sobre el cual descansa esta metodología consiste en hacer mínimos la norma del vector de
errores o perturbaciones del modelo10. Formalmente este criterio de puede establecer de la
siguiente forma:
n
Min e =  (y
i 1
2
i i  x i ˆ ) 2 (1.12)
La minimización de los errores al cuadrado presenta una ventaja con respecto a la

minimización de la suma de errores sin elevar al cuadrado dado que ésta puede verse afectada
por los signos de los errores. Así, podemos tener errores positivos muy grandes y errores
negativos muy grandes que se compensan por lo que la suma podría ser cero pero ello no
implicaría que la regresión estimada sería buena dado que los errores tendrían una magnitud
considerable.
ii) Método de Momentos
El objetivo de este método consiste en aproximar lo más posible los momentos muestrales a
los poblacionales. Recordemos que un momento es un estadístico que resume algunas
características de una distribución de probabilidad, tal como un valor esperado o una desviación
estándar. Las ecuaciones a partir de las cuales se determinan los parámetros se obtienen al
reemplazar los supuestos poblacionales por sus contrapartes muestrales. Si la función de pérdida
está fijada en términos de la distancia entre los momentos poblacionales y los muestrales la
elección de los parámetros será aquella que minimice esta distancia. Este método ha sido
generalizado por Hansen y Singleton (1982) en donde podemos utilizar más de un momento
para la estimación de cada parámetro de un modelo.
iii) Máxima Verosimilitud
Este método consiste en maximizar la probabilidad de que una muestra dada pertenezca a
determinada distribución. Para ello se plantea como supuesto que la variable Y tiene una
distribución de probabilidad y se desea lograr que dicho supuesto inicial sea lo más verosímil
posible, si sólo se cuenta con la muestra. Es decir, los coeficientes estimados son aquellos que
hacen máxima la probabilidad de que la muestra pertenezca a la distribución supuesta.
1.1.4 Significado de la línea de regresión
Cuando se define la regresión como la media condicional de Y dado los valores de las
observaciones de X, de hecho podemos representar geométricamente este concepto a través de
una línea o curva de regresión.
De este modo, una curva de regresión llamada poblacional, es aquella que muestra el lugar
geométrico de las medias condicionales o esperanzas de la variable endógena para los valores
fijos de la(s) variable(s) exógena(s). Esto se puede apreciar en la siguiente figura:
E(Y/X) =  0  1 X i
10
Debe tenerse en cuenta que la minimización de la norma de un vector implica la minización de la raíz cuadrada de
la sumatoria de cada uno de los elementos del vector elevados al cuadrado.
15
X1 X2 X3 X
Figura 1.1
Línea de regresión poblacional
La figura muestra cómo para cada X existen valores poblacionales de Y, y una media
condicional correspondiente. Precisamente, la línea o curva de regresión pasa por las medias
condicionales de la variable Y, y denota alguna función de la variable dependiente X. Así, se
define formalmente la regresión como:
E(Y/X ) = f (Xi) (1.13)
y, en el modelo de regresión lineal simple (donde sólo se incluye una variable explicativa) se
puede tener la siguiente función lineal de X:
E( Y/X ) =Xi (1.14)
Los parámetros o coeficientes de regresión son los de la ecuación anterior. Asimismo,
es el llamado intercepto y  es el coeficiente de la pendiente.
En el análisis de regresión lo que se busca es estimar los parámetros desconocidos teniendo

como base las observaciones de X e Y. Sin embargo, se debe tomar en cuenta que a cada valor
de X no necesariamente le corresponde un valor de Y que se encuentre sobre la línea de
regresión. En otras palabras, el valor de una variable explicada para una observación en
particular se encuentra alrededor de su esperanza condicional. De este modo, se puede expresar
la desviación o perturbación de un valor de Y alrededor de su media o esperado de la siguiente
forma:
i  Yi  E (Y / X i ) (1.15)
Despejando la ecuación, queda:
Yi  E (Y / X i )  i (1.16)
y reemplazando la ecuación (1.14) en (1.16) resulta:
Yi   0   1 X i   i i=1,2, ... , n (1.17)
Como se mencionó en la sección anterior, i es llamado perturbación estocástica o estructural

e introduce el elemento aleatorio a la ecuación de regresión, pudiendo tomar valores positivos o
negativos para cada observación muestral.
16
Cabe mencionar que en la mayoría de casos, no es posible disponer de todas las

observaciones de la población, dado que en la práctica solamente se cuenta con una muestra de
valores de Y que corresponden a los valores fijos de X. Con dicha información muestral se
deberá estimar la función de regresión anterior, de modo que cuando se reemplacen los valores
estimados para 0 y 1 se hallará la siguiente ecuación, también llamada función de regresión
muestral:
Yˆi  ˆ 0  ˆ1 X i (1.18)
La ecuación muestra las estimaciones de los coeficientes de regresión. Esta función es una
aproximación a la ecuación de regresión poblacional, por eso se dice, en algunos casos, que Ŷi
sobreestima o subestima la verdadera E(Y/X). Es decir, el valor estimado de Y puede hallarse
sobre la línea de regresión poblacional y como consecuencia presentar un error positivo o el
valor estimado de Y puede encontrarse bajo la línea de regresión poblacional, y por lo tanto
presentar un error negativo. En este sentido, lo importante en el análisis de regresión consiste en
diseñar una regla o método que consiga que dicha aproximación se acerque lo más posible a los
verdaderos valores de los parámetros, aún cuando nunca se llegue a conocerlos.
El siguiente capítulo se ocupará de abordar dicho problema empezando con el análisis de un

modelo de regresión lineal simple. Sin embargo, es importante advertir que en los procesos
económicos, por lo general, se precisa de más de una causa para explicar de forma adecuada el
comportamiento de una variable aleatoria, o bien se utilizan formas más complicadas que la
lineal. A pesar de ello, es conveniente realizar una primera aproximación analizando la
especificación más sencilla, de modo que luego se podrá comprender con menor dificultad el
modelo de regresión lineal múltiple o general, cuyo estudio detallado será materia del Capítulo
3.
1.2. SUPUESTOS DEL MODELO DE REGRESIÓN LINEAL
El objetivo de un análisis de regresión no sólo consiste en estimar los coeficientes de

regresión, sino también en hacer inferencia acerca de los verdaderos valores de los parámetros
(En otras palabras, se desea saber cuán cerca están los estimadores de sus contrapartes
poblacionales, o cuán cerca está el valor estimado de Y de la verdadera E(Y/X). Por ello, resulta
necesario plantear ciertos supuestos sobre el proceso generador de las variables endógenas (Y).
Así y debido a que la función de regresión poblacional de Y, depende de las variables X y de i,
es necesaria una especificación de la forma como se generan las variables explicativas y los
errores. En este sentido, los supuestos que se plantean a continuación resultan críticos para
interpretar en forma válida los estimadores de una regresión lineal.
Antes de proceder con la descripción de los supuestos, cabe mencionar que el modelo clásico
de regresión lineal se atribuye al matemático alemán Carl Friedrich Gauss, por quien también
recibe el nombre de Modelo de Gauss. Este matemático planteó diez supuestos, válidos tanto
para el análisis de regresión simple como para el modelo de regresión lineal múltiple, o de más
de un regresor.
Primer supuesto: El modelo es estocástico
Esto se debe a la inclusión de un componente aleatorio en el modelo, expresado por el

término de error (i). La inclusión del término de error se debe a las siguientes razones:
17
 Las respuestas humanas son impredecibles, puesto que las personas no tienen un patrón
preestablecido de preferencias, hábitos de consumo, etc.
 Omisión de variables explicativas que deberían incluirse en el modelo. Pretender que las
variables independientes pueden explicar la estructura o predecir exactamente el
comportamiento de la variable dependiente es una ilusión, debido a que en la realidad
existen otros factores que afectan el comportamiento de la variable explicada que no son
incluidos en el modelo. En efecto, puede suceder que las variables explicativas sean muy
difíciles de medir. Por ejemplo, consideremos un modelo donde se busca explicar la
demanda a través de la utilidad que brinda el consumo de un determinado bien. De hecho, la
cuantificación y medición de la variable utilidad resulta una tarea bastante difícil debido al
carácter subjetivo de la misma. En este sentido, la falta de información muestral conduciría
a una mala medición o a la omisión de una variable relevante. Por otro lado, si dichas
variables pueden medirse pero su impacto sobre Y no es significativo, entonces no amerita
su inclusión.
 Errores de medición en la variable endógena (Y). Esto ocurre frecuentemente debido a que
las estimaciones de Y se realizan sobre la base de muestras finitas, además de que dicha
variable puede no ajustarse a la teoría económica que el investigador desea contrastar. Por
ello, el investigador debe decidir con cuidado el papel que desempeña cada variable, es
decir, debe definir adecuadamente las variables exógenas y la endógena.
 Agregación de variables. En muchos casos, la relación existente entre la variable endógena

y las exógenas es un intento por resumir un conjunto de observaciones individuales en un
agregado económico. Por ejemplo, el gasto agregado intenta resumir un conjunto de
decisiones individuales de gasto. En este sentido, y debido a que las relaciones individuales
son probablemente distintas entre individuos, cualquier intento de relacionar el gasto
agregado con el consumo agregado es una aproximación. Así, la diferencia se le atribuye al
término de error.
Como ya se mencionó existe una distinción entre el error teórico o poblacional (i) y el error
de estimación o empírico. El primero responde a la necesidad de introducir un elemento
aleatorio en el modelo por razones antes expuestas mientras que el error de estimación se define
ˆ ) y la verdadera E (Y/X).
como la diferencia entre el estimado de la variable dependiente ( X
Segundo supuesto: La esperanza matemática del término de error o perturbación es cero.

Esto se expresa de la siguiente manera:
E(i) = 0 (1.19)
Este supuesto indica que el valor de la media condicional del término de error para cualquier
variable explicativa X dada, es idéntico a cero. De este modo, este supuesto garantiza que las
variables que no están incluidas en el modelo (y que por tanto están incorporadas en i), no
trasmiten ningún efecto sistemático sobre la media condicional de Y dado X. En términos más
sencillos, los valores negativos de i se compensan con sus realizaciones positivas. Por ello, en
promedio no presentan ningún efecto sobre la variable dependiente del modelo. Aquellas
variables no incluidas en el modelo pero que afectan de manera sistemática son recogidas por el
intercepto del modelo.
Tercer supuesto: La varianza del error es constante (el error es homocedástico).
Formalmente:
18
Var(i) = 2 i = 1,2,3,...,n (1.20)
Esto implica que el término de error tiene igual(homo) dispersión(cedasticidad). Aquí

debemos mencionar que un supuesto implícito en el modelo de regresión lineal es que cada uno
de los errores proviene de una distribución de probabilidades. El valor que observamos del error
para cada observación es la realización de la variable aleatoria ante la ocurrencia de un
determinado evento. Entonces una forma de entender le presente supuesto es que implica que la
varianza de cada una de las distribuciones de los distintos errores aplicables para cada
observación es la misma. En otras palabras, y dados los valores de X, la varianza del error no
cambia para distintas observaciones11. El siguiente gráfico ilustra los conceptos que hemos
mencionado hasta el momento:
Y    X
Y = X +  x0
E(Y) = X x1
X
Var(Y) = Var()
Figura 1.2
Como podemos apreciar, en el eje de la variable X suponemos que sus distintos valores están
fijos lo que se refleja en las líneas discontinuas que parten de los valores x 1 y x2 . Ante estos
valores fijos de la variable explicativa tenemos diversas posibilidades de que ocurran diversos
eventos lo que se refleja en todas la posibilidades de valores que puede tomar la variable
dependiente (y). Estas distintas posibilidades (y sus probabilidades respectivas) determinan la
función de distribución de los errores.
Cuando no se verifica este supuesto, se dice que el término de perturbación es

heterocedástico, es decir, posee una dispersión diferente para cada observación. Formalmente:
Var(i) = i2 i = 1,2,3,..., n (1.21)
El subíndice i indica que la varianza del término de error no es constante ya que presenta un
valor distinto para cada observación de X. En consecuencia, no todos los valores de Y, que
corresponden a distintos valores de X, serán de igual importancia y confianza como indicadores
11
Evidentemente, cada término de error representa la realización de un proceso estocástico y lo que se asume a través
de este supuesto es que las distribuciones de donde son “extraídos” estos errores presentan igual dispersión.
19
de la posición de la línea de regresión. Se dicen que son confiables cuando poseen menor
dispersión, es decir, se mide la confiabilidad por la cercanía con la cual se distribuyen los
valores de Y alrededor de sus medias, esto es, sobre la línea de regresión poblacional. Si
analizamos con cuidado la expresión (1.12) notaremos que el error que se minimiza es la
diferencia entre el valor observado (Y i) y el estimado , de este modo se requiere que los valores
observados sean indicadores confiables de la posición de la línea de regresión poblacional, esto
es, E(Y/X).
Cuarto supuesto: Ausencia de autocorrelación entre los errores.
Formalmente:
Cov(i, j) = 0  i  j (1.22)
Lo anterior implica que no existe autocorrelación o correlación serial entre los términos de
error i y j, dadas las observaciones xi y xj. En este sentido, podemos definir el término
autocorrelación como la correlación entre miembros de series de observaciones ordenadas en el
tiempo (información de series de tiempo) o en el espacio (en información de corte tranversal).
En otras palabras, si disponemos de datos de series de tiempo, se dice que un error t para un
periodo de tiempo t, está correlacionado con los términos de error t+1, t+2, .. y t-1, etc.
Un ejemplo típico donde se detecta la presencia de autocorrelación positiva ocurre bajo el

modelo de expectativas adaptativas. Supongamos que los agentes económicos realizan su
pronóstico de la inflación futura basados en la inflación pasada, solamente. Formalmente:
Pˆ e 1  Pˆ e  v( Pˆ  Pˆ e ) (1.23)
Esta ecuación implica que la expectativa de la inflación de mañana es una combinación

lineal de la expectativa para el período actual y el error de predicción registrado en este periodo.
En este sentido, y en la medida en que los errores cometidos en el periodo actual se trasmiten al
próximo a través del mecanismo descrito en (1.23), el pronóstico de la inflación evidenciará
cierta inercia, es decir, estará autocorrelacionado con el error de predicción registrado en este
periodo.
En cambio, si se considera un modelo de expectativas racionales sabemos que los agentes

económicos utilizan eficientemente toda la información disponible, ya sea porque conocen y
entienden el modelo que esta utilizando el Estado para hacer política económica o simplemente
conocen al modelo que explica la economía. Por lo tanto, al plantear sus expectativas de
inflación futura lo hacen sobre la base de expectativas sobre las futuras políticas económicas.
De lo anterior se puede inferir que los errores no son sistemáticos o no presentan correlación
alguna.
Los supuestos tercero y cuarto pueden resumirse en uno solo si pensamos en el moelo
planteado de forma matricial. El vector de errores del modelo es de dimensión Nx1 o Tx1, si se
habla de información muestral de corte transversal o de series de tiempo, respectivamente. Por
consiguiente su matriz de varianza y covarianzas es simétrica y definida positiva, de dimensión
NxN o TxT, para cada caso. Esto se ilustra con la siguiente expresión:
 Var (  1 ) Cov (  1 ,  2 ) ... Cov (  1 ,  n ) 

 
 Cov(  2,  1 ) Var (  2 ) ... 
E (  ' )  Var (  ) 
 ... ... ... 
 
Cov (  n,  1 ) Cov (  n,  2 ) Var (  n ) 
20
En términos de esta matriz el tercer supuesto implica que todos los elementos de la diagonal
principal son iguales. Por otro lado, el supuesto de ausencia de autocorrelación, determina que
los elementos fuera de la diagonal principal son cero. De este modo, y de verificarse los dos
supuestos antes analizados, la matriz anterior se puede escribir como:
Var()=2In (1.24)
Esto usualmente se conoce como el supuesto general de que los errores del modelo son
esféricos.
Quinto supuesto: Las variables explicativas y los errores son ortogonales entre sí.
Formalmente:
Cov(xi,i) = 0 (1.25)
Este supuesto implica que los errores y las variables independientes no presentan
correlación. Como ya hemos mencionado el análisis de regresión lo que hace es descomponer a
la variable dependiente en dos partes: una explicada o determinística y otra aleatoria o no
explicada. Por tanto, este supuesto implica que si no existe relación entre las variables
explicativas (que son el componente esencial de la parte explicada) y aquella parte no explicada,
podemos descomponer el espacio donde está definida la variable dependiente en dos
subespacios que son ortogonales entre sí 12. En otras palabras, cuando se especifica el modelo,
se supone que las variables exógenas y los errores son dos partes separadas y aditivas de la
variable a explicar (Y).
Parte aleatoria i
Yi =0 +1Xi +i
Parte determinística 0 +1Xi
Los supuestos 2, 3, 4 y 5, son también conocidos como las condiciones de Gauss-Markov.

Estos garantizan que el estimador de mínimos cuadrados ordinarios es eficiente propiedad que
analizaremos en los capítulos 3 y 4. Por otro lado, los supuestos 2, 3 y 4 garantizan que los
errores del modelo son ruidos blancos.
Sexto supuesto: El modelo es lineal en los parámetros.
Se dice que un modelo tiene una especificación lineal cuando la variable endógena Y, o
alguna transformación monotónica de la misma, se puede expresar como una función lineal de
X o de alguna transformación de ella. Al respecto, consideremos las siguientes relaciones:
Y =  + X + (1.26)
Y = 0 + 1 X + 2 X2 + 3 X3 + (1.27)
Y = 0 + 1 X1+ 2 X2 + (1.28)
12
Podemos ampliar el concepto utilizando conceptos de teoría de conjuntos. Si tomamos que Y representa un
conjunto, el supuesto que estamos presentando implica que se puede descomponer dicho conjunto en dos
subconjuntos disjuntos (es decir, que no presentan intersección).
21
La ecuación (1.26) muestra una relación lineal simple, mientras que la (1.27) es un modelo
lineal en parámetros, más no en las variables. Por otro lado, la ecuación (1.28) no es lineal en
parámetros, ni tampoco puede reducirse a una función que exprese una relación lineal.
Ahora se considera el siguiente modelo que busca predecir la cantidad demandada(Q) dadas
las observaciones muestrales de la variable explicativa precio(P). El análisis de este modelo
implica la estimación de los parámetros  y , sin embargo, y de acuerdo al supuesto de
linealidad, el modelo deberá ser transformado de la siguiente manera:
Q  P  e  (1.29)
LnQ = ln +lnP + (1.30)
La linealiadad en los parámetros es relevante para el análisis de regresión, por consiguiente, de

ahora en adelante cuando se diga que una regresión es lineal se referirá a una regresión que es
lineal en los parámetros. Sin que esto necesariamente implique que también lo sea en las
variables explicativas (X).
Séptimo supuesto: Los parámetros son constantes entre observaciones.
Conocido también como el supuesto de estabilidad temporal, éste implica que los
coeficientes del modelo de regresión lineal son constantes en el tiempo. Igualmente, se supone
que el modelo es idéntico para todas las observaciones de la muestra. De hecho, este supuesto
resulta esencial no sólo si se pretende modelar la estructura que gobierna el comportamiento de
la variable dependiente sobre la base de las independientes, sino principalmente si se busca que
el modelo realice predicciones confiables. Así, si la estructura que modela la variable
dependiente se mantiene inalterada a lo largo de todo el intervalo muestral, podemos asumir que
esta misma estructura se mantiene para periodos fuera del intervalo de la muestra y utilizar la
misma para predecir, este procedimiento es conocido como extrapolación.
Octavo supuesto: Causalidad unidireccional.
El análisis de regresión supone la existencia de una relación causal desde las variables
independientes (X) hacia la variable dependiente (Y).
Cabe mencionar que desde un punto de vista meramente estadístico, el modelo de regresión
no necesariamente tiene una connotación de causalidad. Es decir, de la misma manera como se
puede estimar una regresión de una variable dependiente Y sobre otra variable independiente X,
se puede estimar una regresión de modo inverso.
En cambio, al plantear un modelo econométrico se debe tener cuidado al especificar las

variables, y definir tanto las explicativas (consideradas fijas), como la variable a explicar
(considerada aleatoria). Así, el investigador debe decidir el papel que le otorga a las diferentes
variables de modo que sólo exista una dirección en la relación de causalidad. A manera de
ejemplo, recordemos que la teoría cuantitativa del dinero afirma que el volumen de
transacciones en una economía es igual a la cantidad de dinero que rota en la misma.
Formalmente:
P.Q=M.V (1.31)
donde:
P= precio
Q= producto
M= dinero
22
V= velocidad de circulación constante.
En la ecuación anterior existe una relación causal que va de M hacia P, es decir, el nivel de
precios es explicado por la cantidad de dinero en la economía. Sin embargo, no se cumple lo
contrario, puesto que el nivel de precios es una variable aleatoria (endógena), mientras que M es
fija o determinística (exógena).
Sin duda, en términos estadísticos podríamos estimar una relación de este tipo, esto es, una
regresión de la cantidad de dinero sobre el nivel de precios, sin embargo, esta especificación no
tendría ningún sustento teórico. En este sentido, el investigador debe decidir a priori cuál es la
especificación que va a utilizar sobre la base de la teoría que busca verificar y una vez decidida,
se supone una única dirección causal
Noveno supuesto: Las variables explicativas son linealmente independientes.
Este supuesto implica que ninguna de las variables explicativas involucradas en el modelo
puede expresarse en términos de una combinación lineal exacta de las demás. Si alguna de las
variables explicativas fuera una combinación lineal de otra significaría que la primera no aporta
nada adicional al modelo o que los efectos individuales que ésta puede tener sobre la variable
dependiente se confunden con los de la segunda. Este problema es conocido como
multicolinealidad, el cuál será abordado con detalle en el Capítulo (9)
Décimo supuesto: Las variables independientes son fijas o determinísticas (no aleatorias)
Si revisamos con cuidado el análisis hasta ahora expuesto, notaremos que este supuesto ha
estado implícito desde el inicio del capítulo. Este supuesto implica que de poderse repetir el
proceso de muestreo numerosas veces, los valores observados de las variables exógenas no
deben cambiar.
Cuando se trabaja con datos de series temporales, es común la aparición de valores

retardados de la variable explicada (Y) como variables explicativas, ya que a veces las variables
económicas no toman de inmediato el valor esperado por los agentes, y de ese modo incorporan
cierta inercia. De este modo, cuando los retardos (o rezagos) son incluidos en el modelo de
regresión como variables explicativas, se dice que son predeterminadas o en términos más
formales, que son realizaciones del proceso que gobierna el comportamiento de la variable
explicada. Este caso específico se analizará en un capítulo posterior.
3. A MODO DE RESUMEN
En este capítulo hemos revisado los conceptos básicos que están detrás del análisis de regresión
así como aquellos relevantes respecto a las variables incluidas en el modelo. De la misma
manera hemos revisado los principales supuestos que se realizan con respecto al modelo lineal
general que analizaremos en buena parte del libro. Debe entenderse que estos supuestos son, en
algunos casos, muy restrictivos y será interesante analizar cuáles son los efectos de la relajación
de los mismos sobre los distintos estimadores que estudiaremos más adelante. Habiendo
establecido el lenguaje común que utilizaremos a partir de ahora es importante iniciar la
exploración de los distintos caminos con los que contamos para a obtención de los parámetros
desconocidos de nuestro modelo. En primer lugar, analizaremos el estimador de mínimos
cuadrados ordinarios que es uno de los más analizados y el mejor cuando trabajamos con
modelos lineales.
23

Cap 1 Econ

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Cap 1 Econ

Загружено:

Авторское право:

Доступные форматы

Econometría Moderna El Modelo de Regresión Lineal

1.1. EL ANÁLISIS DE REGRESIÓN

siendo Y una función de X. En otras palabras, el análisis de regresión estudia la relación

1.1.2 ¿Cómo se conecta el análisis económico con el análisis de regresión?

El análisis económico toma en consideración diversas variables en conjunto. La relación

Para ello, se deben utilizar distribuciones de probabilidad conjuntas o multivariadas 5. Se sabe

Siendo la primera la función de probabilidad condicional y la segunda la marginal. En el

donde u es el componente estocástico o aleatorio, que recoge los efectos de variables no

El modelo econométrico especificado en la expresión (1.2), tiene como objetivo estimar el

E (C /r, Yd, w, Yp ) = f (Xi) (1.3)

1.1.3 Definiciones Básicas

El modelo de regresión lo podemos plantear de manera general de la siguiente forma:

variables a la derecha del modelo reciben el nombre de variables explicativas, exógenas o

 La parte sistemática o determinística que viene representada por :

 La parte aleatoria o estocástica que viene representada por el término de error (  ).

1.2.1 ¿Cómo obtener los parámetros?

La estimación de los parámetros se deriva de un problema de predicción condicional. En

Siendo la función de pérdida L, P denota un predictor de Y y E (L (Y – P) / X ) es la pérdida

0=L(0)L(u) L(v) (1.6)

0 = L(0)  L(-u )  L(-v ) (1.7)

i) Pérdida cuadrática: La función de pérdida cuadrática es:

En este caso, el mejor predictor resulta la media condicional de Y en X. Este resultado se

ii) Pérdida absoluta: Cuya función de pérdida es la siguiente:

Si tomamos esta función de pérdida, el mejor predictor es la mediana de Y condicional en X.

En general, la media, la mediana y la moda de la regresión de Y en X difieren entre sí. La

En el problema de predicción descrito, la función de pérdida escogida determina la regresión

1.1.3 Métodos de estimación de los parámetros

Cuando se efectúa una regresión se puede seleccionar el método de estimación más

i) Mínimos Cuadrados Ordinarios (MCO)

La minimización de los errores al cuadrado presenta una ventaja con respecto a la

ii) Método de Momentos

iii) Máxima Verosimilitud

1.1.4 Significado de la línea de regresión

E(Y/X ) = f (Xi) (1.13)

E( Y/X ) =Xi (1.14)

En el análisis de regresión lo que se busca es estimar los parámetros desconocidos teniendo

Despejando la ecuación, queda:

y reemplazando la ecuación (1.14) en (1.16) resulta:

Yi   0   1 X i   i i=1,2, ... , n (1.17)

Como se mencionó en la sección anterior, i es llamado perturbación estocástica o estructural

Cabe mencionar que en la mayoría de casos, no es posible disponer de todas las

Yˆi  ˆ 0  ˆ1 X i (1.18)

El siguiente capítulo se ocupará de abordar dicho problema empezando con el análisis de un

1.2. SUPUESTOS DEL MODELO DE REGRESIÓN LINEAL

El objetivo de un análisis de regresión no sólo consiste en estimar los coeficientes de

Primer supuesto: El modelo es estocástico

Esto se debe a la inclusión de un componente aleatorio en el modelo, expresado por el

 Agregación de variables. En muchos casos, la relación existente entre la variable endógena

Segundo supuesto: La esperanza matemática del término de error o perturbación es cero.

Tercer supuesto: La varianza del error es constante (el error es homocedástico).

Var(i) = 2 i = 1,2,3,...,n (1.20)

Esto implica que el término de error tiene igual(homo) dispersión(cedasticidad). Aquí

Cuando no se verifica este supuesto, se dice que el término de perturbación es

Var(i) = i2 i = 1,2,3,..., n (1.21)

Cuarto supuesto: Ausencia de autocorrelación entre los errores.

Un ejemplo típico donde se detecta la presencia de autocorrelación positiva ocurre bajo el

Esta ecuación implica que la expectativa de la inflación de mañana es una combinación

En cambio, si se considera un modelo de expectativas racionales sabemos que los agentes

 Var (  1 ) Cov (  1 ,  2 ) ... Cov (  1 ,  n ) 

Los supuestos 2, 3, 4 y 5, son también conocidos como las condiciones de Gauss-Markov.

Sexto supuesto: El modelo es lineal en los parámetros.

Y = 0 + 1 X1+ 2 X2 + (1.28)

LnQ = ln +lnP + (1.30)