Вы находитесь на странице: 1из 7

Regresión lineal Simple

Tiene como objetivo el estudiar cómo los cambios en una variable, no aleatoria, afectan a una
variable aleatoria, en el caso de existir una relación funcional entre ambas variables que puede
ser establecida por una expresión lineal, es decir, su representación gráfica es una línea recta.

Cuando la relación lineal concierne al valor medio o esperado de la variable aleatoria, estamos
ante un modelo de regresión lineal simple. La respuesta aleatoria al valor x de la variable
controlada se designa por Yx y, según lo establecido, se tendrá:

De manera equivalente, otra formulación del modelo de regresión lineal simple sería: si xi es
un valor de la variable predictora e Yi la variable respuesta que le corresponde, entonces

Ei es el error o desviación aleatoria de Yi.

Método de mínimos cuadrados:

A partir de los estimadores: 0 y 1, se pueden calcular las predicciones para las


observaciones muestrales, dadas por,

o, en forma matricial,

t
donde = . Ahora se definen los residuos como

ei = yi - i, i = 1,2,...,n,

Residuo = Valor observado -Valor previsto,

en forma matricial,

Los estimadores por mínimos cuadrados se obtienen minimizando la suma de los cuadrados de
los residuos, ésto es, minimizando la siguiente función,
(6.4)

derivando e igualando a cero se obtienen las siguientes ecuaciones,


denominadas ecuaciones canónicas,

(6.5)

De donde se deducen los siguientes estimadores mínimo cuadráticos de los parámetros de la


recta de regresión

Se observa que los estimadores por máxima verosimilitud y los estimadores mínimo
cuadráticos de 0 y 1 son iguales. Esto es debido a la hipótesis de normalidad y, en adelante,
se denota 0 = 0,MV = 0,mc y 1 = 1,MV = 1,mc.

Propiedades de los estimadores:

1. De la primera ecuación canónica se deduce que la recta de regresión pasa por el


punto que es el centro geométrico de la nube de datos.

2. El estimador 1 es la pendiente de la recta regresión, se denomina coeficiente de


regresión y tiene una sencilla interpretación, indica el crecimiento (o decrecimiento)
de la variable respuesta Y asociado a un incremento unitario en la variable regresora X.

3. Utilizando las hipótesis de normalidad e independencia se obtiene que la distribución

del estimador 1 es una normal de media 1 y varianza . Ésto es,


4. Por tanto la V ar

5. - disminuye al aumentar n,

6. - disminuye al aumentar sx2


2
7. - disminuye al disminuir .

8. El estimador 0 indica el valor de la ordenada en la recta de regresión estimada


para x = 0 tiene menor importancia y, en muchos casos, no tiene una interpretación

práctica. La distribución de 0 es una normal de media 0 y varianza + =

. Ésto es:

9. Por tanto la V ar

10. - disminuye al disminuir V ar (disminuye al aumentar n o al aumentar sx2


2
11. o al disminuir ).
2
12. - disminuye al disminuir .

13. Nuevamente, utilizando las hipótesis de normalidad e independencia se obtiene que la


distribución del estimador máximo-verosímil de 2, viene dado por

n
De las ecuaciones canónicas se deduce que los residuos verifican que i = 1 ei = 0 y i=
n
e
1 i ix = 0 (ver seción 6.4). Por tanto, el número de grados de libertad de los residuos es n -
2 porque hay n residuos relacionados por dos ecuaciones. De donde

y MV 2 es un estimador consistente pero sesgado. Por este motivo, como estimador de 2 se


utiliza la varianza residual, R2 definida como la suma de residuos al cuadrado dividida por el
número de grados de libertad
2
R es un estimador consistente e insesgado.

2 2
Para tamaños muestrales grandes, ambos estimadores, MV y R toman valores muy
próximos.

6. La distribución de la varianza residual viene dada por

7. A partir de este estadístico se pueden obtener intervalos de confianza de la varianza


poblacional, 2.

8. En la práctica, de la distribución de 1 no se pueden calcular intervalos de confianza


de 1, porque la varianza poblacional ( 2) no es conocida y se tiene que sustituir por
un estimador, R2. De la distribución de éste se obtiene que la distribución del
estadístico pivote 1 que sigue la distribución tn-2,

8. De forma análoga se puede obtener un intervalo de confianza del parámetro 0. De


las funciones de distribución de 0 y R2 se deduce que la distribución del
estadístico 0 verifica que

(6.12)

9. Los estimadores 0 y 1 no son variables aleatorias independientes ya que su


covarianza viene dada por

por tanto, si es positiva, la Cov es negativa, ésto es, al crecer 1 disminuye 0.


10. Como ya se ha indicado el parámetro 0 tiene menor importancia que 1 y, en
algunas situaciones, no tiene una interpretación realista si el cero no es un punto del
rango de la X, por ejemplo, al estudiar la relación entre las variables peso y altura de
un colectivo de personas. Por ello tiene interés la ecuación de la recta de regresión
que utiliza solo el parámetro 1. Esta ecuación es la siguiente

(6.13)

11. o bien,

12.

13. Para ello basta con centrar las dos variables en estudio y calcular la recta de regresión
que pasa por el origen de coordenadas.

14. La recta de regresión de X sobre Y es distinta de la recta de regresión de Y sobre X. En


el primer caso se obtiene que

donde 1 = y 0 = - 1 .

Formulación matemática del modelo:

El modelo de regresión más sencillo es el Modelo de Regresión Lineal Simple que estudia la
relación lineal entre la variable respuesta y la variable regresora , a partir de una
n
muestra i=1 , que sigue el siguiente modelo:

(6.1)

Por tanto, es un modelo de regresión paramétrico de diseño fijo. En forma matricial

(6.2)

t t t t
donde = , = , = , = .

Estimación de los parámetros del modelo:


En el modelo de regresión lineal simple hay tres parámetros que se deben estimar: los
coeficientes de la recta de regresión, 0 y 1; y la varianza de la distribución normal, 2.

El cálculo de estimadores para estos parámetros puede hacerse por diferentes métodos,
siendo los más utilizados el método de máxima verosimilitud y el método de mínimos
cuadrados.

Método de máxima verosimilitud:

Conocida una muestra de tamaño n, , de la hipótesis de normalidad


se sigue que la densidad condicionada en yi es

y, por tanto, la función de densidad conjunta de la muestra es,

n
Una vez tomada la muestra y, por tanto, que se conocen los valores de i=1 , se
define la función de verosimilitud asociada a la muestra como sigue

(6.3)

esta función (con variables 0, 1 y 2) mide la verosimilitud de los posibles valores de estas
variables en base a la muestra recogida.

El método de máxima verosimilitud se basa en calcular los valores de 0, 1 y 2 que


maximizan la función (9.3) y, por tanto, hacen máxima la probabilidad de ocurrencia de la
muestra obtenida. Por ser la función de verosimilitud una función creciente, el problema es
más sencillo si se toman logaritmos y se maximiza la función resultante, denominada función
soporte,

Maximizando la anterior se obtienen los siguientes estimadores máximo verosímiles,


donde se ha denotado e a las medias muestrales de X e Y, respectivamente; sx2 es la
varianza muestral de X y sXY es la covarianza muestral entre X eY.

Coeficiente de determinación:

Es una medida de bondad de ajuste de los modelos de regresión lineal a los datos.

Es deseable que los valores de Y ajustados al modelo, sean lo más parecidos posible a los
valores observados. Una medida de lo parecido que son, es el coeficiente de correlación.

Se define el coeficiente de determinación, R2, como el cuadrado del coeficiente de correlación


entre los valores de Y observados y los valores de Y ajustados.

Coeficiente de correlación lineal:

La covariaza tiene el inconveniente de que su valor no es acotado, por lo que, a partir de él es


dificil juzgar si es grande o pequeña.

Se define la correlación, que es una medida de asociación lineal independiente de las unidades
de medida.

El valor de la correlación entre cualquier par de variables es un número entre -1 y 1. n valor


alto de correlación no indica que existe alguna relación de causa-efecto entre las variables.