You are on page 1of 10

REGRESION

REGRESION LINEAL:
Un modelo de regresin es un modelo que permite describir cmo influye una
variable X sobre otra variable Y.

X: Variable independiente o explicativa o exgena


Y: Variable dependiente o respuesta o endgena

El objetivo es obtener estimaciones razonables de Y para distintos valores de X a


partir de una muestra de n pares de valores (x1,y1), . . . ,(xn,yn).
Ejemplos

Estudiar como influye la estatura del padre sobre la estatura del hijo.
Estimar el precio de una vivienda en funcin de su supercie.
Predecir la tasa de paro para cada edad.
Aproximar la calificacin obtenida en una materia segn el nmero de horas
de estudio semanal.
Prever el tiempo de computacin de un programa en funcin de la velocidad
del procesador.

TIPOS DE RELACIN
1. Determinista: Conocido el valor de X, el valor de Y queda perfectamente
establecido. Son del tipo:
y = f (x)
Ejemplo: La relacin existente entre la temperatura en grados centgrados (X)
y grados Fahrenheit (Y) es:
y = 1,8x + 32
2. No determinista: Conocido el valor de X, el valor de Y no queda
perfectamente establecido. Son del tipo:
y = f (x) + u
Donde u es una perturbacin desconocida (variable aleatoria).
Ejemplo: Se tiene una muestra del volumen de produccin (X) y el costo total
(Y ) asociado a un producto en un grupo de empresas.
3. Lineal: Cuando la funcin f (x) es lineal,
f (x) = 0 + 1x

Si 1 > 0 hay relacin lineal positiva.

Si 1 < 0 hay relacin lineal negativa.

4. No lineal: Cuando la funcin f (x) no es lineal.


Por ejemplo:
f (x) = log(x), f (x) = x2 + 3, . . .
5. Ausencia de relacin: Cuando f (x) = 0.
6.
MEDIDAS DE DEPENDENCIA LINEAL
1. La covarianza
Una medida de la dependencia lineal es la covarianza:
n

( x ix ) ( y i y )

cov ( x ; y )= i=1

n1

Si hay relacin lineal positiva, la covarianza ser positiva y grande.


Si hay relacin lineal negativa, la covarianza ser negativa y grande en valor
absoluto.
Si hay no hay relacin entre las variables o la relacin es marcadamente no
lineal, la covarianza ser prxima a cero.

PERO la covarianza depende de las unidades de medida de las variables.


2. El coeciente de correlacin lineal
Una medida de la dependencia lineal que no depende de las unidades de
medida es el coeciente de correlacin lineal:
cov ( x ; y )
n( x ; y )=cor ( x ; y )=
sx s y
Donde:
n

( x ix )2

s 2x =cov ( x ; y )= i=1

n1

( y i y ) 2

s2y =cov ( x ; y )= i=1

n1

-1 cor (x,y) 1
cor (x,y) = cor (y,x)
cor (ax + b,cy + d) = cor (x,y) para cualesquiera valores a, b, c, d.

El modelo de regresin lineal simple supone que,


yi = 0 + 1 xi + ui
donde:

yi representa el valor de la variable respuesta para la observacin i-esima.


xi representa el valor de la variable explicativa para la observacin i-esima.
ui representa el error para la observacin i-esima que se asume normal
ui N(0, )

0 y 1 son los coecientes de regresin:


0: intercepto
1: pendiente

Los parmetros que hay que estimar son: 0, 1 y . El modelo de regresin lineal
simple
El objetivo es obtener estimaciones 0 y 1 de 0 y 1 para calcular la recta de
regresin:
y = 0 + 1x
que se ajuste lo mejor posible a los datos.
Ejemplo: Supongamos que la recta de regresin del ejemplo anterior es:
Costo = 15,65 + 1,29 Volumen
La diferencia entre cada valor yi de la variable respuesta y su estimacin y i se llama
residuo:
ei = yi yi
Ejemplo (cont.): Indudablemente, una empresa determinada que haya producido
exactamente 25 mil unidades no va a tener un gasto de exactamente 16,6 mil euros.
La diferencia entre el costo estimado y el real es el residuo. Si por ejemplo el costo
real de la empresa es de 18 mil euros, el residuo es:
ei = 18 16,6 = 1,4mil euros
HIPOTESIS DEL MODELO DE REGRESIN LINEAL SIMPLE
Linealidad: La relacin existente entre X e Y es lineal,
f (x) = 0 + 1x
Homogeneidad: El valor promedio del error es cero,
E[ui] = 0
Homocedasticidad: La varianza de los errores es constante,
Var(ui) = 2
Independencia: Las observaciones son independientes,

E[uiuj] = 0
Normalidad: Los errores siguen una distribucion normal,
ui N(0, )
ESTIMADORES DE MINIMOS CUADRADOS
Gauss propuso en 1809 el mtodo de mnimos cuadrados para obtener los valores
0 y 1 que mejor se ajustan a los datos:
yi = 0 + 1xi
El mtodo consiste en minimizar la suma de los cuadrados de las distancias
verticales entre los datos y las estimaciones, es decir, minimizar la suma de los
residuos al cuadrado

n
2
i

0 1 x i
y i()

e = ( y i y ) =
i=1

i=1

i =1

Cuyo resultado es:


n

1=

( x i x ) ( y i y )

cov ( x ; y ) i=1
=
s2x

( x ix )2
i=1

0= y 1 x
ESTIMACION DE LA VARIANZA
Para estimar la varianza de los errores, 2, podemos utilizar
n

e2i

2= i=1
n

que es el estimador mximo verosmil de 2, pero es un estimador sesgado.


Un estimador insesgado de 2 es la varianza residual

e 2i

s 2R = i=1
n2

INFERENCIA SOBRE LA PENDIENTE


El estimador 1 sigue una distribucin normal porque es una combinacin lineal de
normales.

( x ix )

y i = wi y i

(n1)s 2x

i=1

1=
i=1

donde yi = 0 + 1xi + ui , que cumple que yi N ( 0+ 1 x i )


Adems, 1 es un estimador insesgado de 1
n

( x ix )

i=1

(n1) s x

E [ ]=

E [ y i ]= 1

Y su varianza es:
n

Var [ ] =
i=1

( x i x )
(n1) s 2x

Var [ y i ] =

( n1)s2x

Por tanto:

1 N= 1

2
(n1)s2x

Queremos ahora obtener el intervalo de conanza para 1 de nivel 1 .


Como 2 es desconocida, la estimamos con
varianza es desconocida es:

1 1

2
R

( n1 ) s2x

t n2

s 2R . El resultado bsico cuando la

que nos permite obtener el intervalo de conanza para 1:

1 t n2, /2

s2R

( n1 ) s 2x

La longitud del intervalo disminuir si:

Aumenta el tamao de la muestra.


Aumenta la varianza de las xi
Disminuye la varianza residual.

CONTRASTES SOBRE LA PENDIENTE


Usando el resultado anterior podemos resolver contrastes sobre 1. En particular, si
el verdadero valor de 1 es cero entonces Y no depende linealmente de X. Por
tanto, es de especial inters el contraste:

H0 : 1 = 0
H1 : 1 0
La regin de rechazo de la hiptesis nula es:

| |
1

s 2R

>t n2, / 2

( n1 ) s2x

Equivalentemente, si el cero esta fuera del intervalo de conanza para 1 de nivel


1 , rechazamos la hiptesis nula a ese nivel. El p-valor del contraste es:

pvalor=2 Pr t n2 >

s 2R

( n1 ) s2x

El estimador 0 sigue una distribucin normal porque es una combinacin lineal de


normales

i=1

( 1n x w ) y
i

donde wi = (xi

x )/n s 2x

y donde yi = 0 + 1 xi + ui que cumple que yi N

( 0+ 1 2 ) Adems, 0 es un estimador insesgado de 0


n

E [ ]=

i=1

( 1n x w ) E [ y ]= 0
i

Y su varianza es
n

Var [ ]=

i=1

2
1
1
x 2
x w i Var [ y i ]= 2 +
n
n ( n1 ) s 2x

Y por tanto:

( (

1
x
N = 0
+
n ( n1 ) s 2x

))

INTERVALO DE CONFIANZA PARA EL ITNERCEPTO:


Queremos ahora obtener el intervalo de conanza para 0 de nivel 1 . Como 2
es desconocida, la estimamos con sR. El resultado bsico cuando la varianza es
desconocida es:
1 1

1
x 2
s
+
n ( n1 ) s 2x
2
R

t n2

que nos permite obtener el intervalo de conanza para 0:

1 t

n2,

(
s 2R

1
x 2
+
n ( n1 ) s2x

La longitud del intervalo disminuir si:

Aumenta el tamao de la muestra.


Aumenta la varianza de las xi

Disminuye la varianza residual.


Disminuye la media de las xi

CONTRASTES SOBRE EL INTERCEPTO


Usando el resultado anterior podemos resolver contrastes sobre 0. En particular, si
el verdadero valor de 0 es cero entonces la recta de regresin pasa por el origen.
Por tanto, es de especial inters el contraste:

H0 : 1 = 0
H1 : 1 0
La regin de rechazo de la hiptesis nula es:

|(

0
2

x
2 1
sR +
n ( n1 ) s2x

>t n2, /2

Equivalentemente, si el cero esta fuera del intervalo de conanza para 0 de nivel


1 , rechazamos la hiptesis nula a ese nivel. El p-valor es:

pvalor=2 Pr t n2 >

1
x
s
+
n ( n1 ) s 2x
2
R

REGRESION MULTIPLE
El modelo que se plantea en regresin mltiple es el siguiente:

yi = 0 + 1 x1i + 2 x2i + . . . + k xki + ui


Donde x1 , x2 , . . . , xk son las variables independientes o explicativas
La variable respuesta depende de las variables explicativas y de una componente
2
de error que se distribuye segn una normal: ui = N (0, )
El ajuste del modelo se realiza por el mtodo de mxima verosimilitud o el mtodo
de mnimos cuadrados. En el caso de distribucin normal de errores, ambos
mtodos coinciden, como ya se vi en regresin simple

ALGUNOS EJEMPLOS DE EJERCICIOS:


Ejercicio 1. Regresin lineal multiple
Se ha estudiado el comportamiento frente a la cristalizacin de las sales 10 rocas
porosas utilizadas como material de construccin. La durabilidad de estas rocas se
ha estimado mediante la prdida de masa despus de cristalizacin de sales.
Adems se caracterizaron diferentes propiedades de la roca, como la resistencia a
la compresin simple, la densidad de conjunto (o aparente), y la porosidad efectiva y
el tamao medio de poro, ambas obtenidas con porosimetra de intrusin de
mercurio.
El objetivo de este ejercicio es seleccionar el mejor modelo lineal mltiple para
predecir la durabilidad de las rocas (variable dependiente) en funcin de las otras
variables (independientes). Este ejemplo muestra cmo se pueden transformar
variables independientes para que tengan una influencia lineal sobre la variable
dependiente (Datos obtenidos en: Benavente et al., (2007): The influence of
petrophysical properties on the salt weathering of porous building rocks. Environ
Geol 52:197206).
El primer paso es realizar la matriz de correlacin y el grafico de dispersin. De esta
forma podemos evaluar qu variables se pueden transformar o eliminar por no ser
significativas. Los grficos de dispersin muestran una relacin inversa entre la
prdida de masa y el tamao de poro y la resistencia mecnica. Para ello, en la
matriz de datos.txt aadir una columna con la inversa del tamao del poro (r -1) y otra
con la inversa de la resistencia a la compresin simple (RCS -1).
Observando los p-valores (Pr(>|t|)) de los contrastes de significatividad individual,
vemos que las variables no significativas (p-valor > 0.05) son la porosidad y la
densidad de conjunto. Eliminando estas variables (en realidad teniendo en cuenta
todas las variables menos stas: reg<-lm(LWD~r -1+RCS-1,data=datos)), volvemos a
realizar la regresin lineal y obtenemos la siguiente regresin lineal mltiple:
LWD [%] = -2.99 + 1.05/r[micras] + 145.39/RCS [MPa].
En este ltimo modelo todas las variables son significativas.
Los resultados obtenidos y el procedimiento seguido en esta prctica no son tan
sencillos cuando se aplican en muchos problemas geolgicos/geoqumicos, los
cuales pueden llegar a ser mucho ms complejos que el mostrado aqu. En la
mayora de los problemas geolgicos/geoqumicos se eliminan las variables que
menos estn relacionadas (lo que el anlisis factorial ser de gran utilidad) y se
intenta buscar un modelo que contenga el mayor nmero de variables con el mayor
valor del coeficiente de correlacin.

Ejercicio 2. Regresin lineal multiple


Obtener una expresin lineal mltiple que relaciones variables de la cuenca,
X1, ...,X6, con la magnitud de la cuenca, Y, definida como el nmero de cursos
fluviales (ros, arroyos, afluentes, etc.). Las variables (independientes) de la cuenca
son X1: elevacin de la desembocadura de la cuenca (pies, ft); X 2: relieve
(profundidad) de la cuenca (pies,ft); X3: rea de cuenca (milla2); X4: longitud total del
cursos fluviales (ros, arroyos, afluentes, etc.) (milla); X 5: densidad de drenaje,
definido como X4 / X3 100; X6: factor de forma de la cuenca, la cual cuantifica su
desviacin con respecto a una seccin circular. El objetivo de esta prctica es
predecir el valor de la magnitud de la cuenca, Y, a partir de todas las variables de la
cuenca debido a que cada una de ellas son importantes y necesarias para el modelo
fsico. Para evaluar la fiabilidad del ajuste o estimacin de Y a partir de la expresin
lineal mltiple, representar el valor real de Y frente al valor estimado por la funcin
(Davis, 2002).