Reg Ersion

Anlisis de datos y Estadstica Avanzada
Mster Interuniversitario de Astrofsica UCM+UAM Tema 4: Regresin lineal simple
Javier Gorgas y Nicols Cardiel

Departamento de Astrofsica y Ciencias de la Atmsfera Facultad de Ciencias Fsicas Universidad Complutense de Madrid
Tema 4: Regresin lineal simple ()
Curso 2010/2011 1
1 / 29
Esquema
Introduccin Anlisis de regresin Tipos de regresin Regresin lineal simple Tratamiento clsico Tratamiento avanzado 6 mtodos de ajuste por mnimos cuadrados
Curso 2010/2011 2
2 / 29
Introduccin
Anlisis de regresin
Qu es la regresin?
El trmino regresin fue acuado por Francis Galton en el siglo XIX para referirse a fenmenos biolgicos: los descendientes de progenitores excepcionales son, en promedio, menos excepcionales que los progenitores, y ms parecidos a sus ancestros ms distantes (Galton utiliz el trmino reversion al hablar de guisantes en 1877, y regression al referirse a la altura de humanos en 1885).
Curso 2010/2011 3
4 / 29
Introduccin
Anlisis de regresin
Anlisis de regresin
El anlisis de regresin es un intento de examinar la relacin que existe entre una variable dependiente (variable respuesta) y un conjunto de variables independientes (predictores). El modelo matemtico que establece dicha relacin es la ecuacin de regresin. La variable dependiente se modela como una variable aleatoria. La ecuacin de regresin contiene una serie de parmetros de regresin (constantes) que establecen la relacin cuantitativa entre las variables independientes y la dependiente. Estos parmetros se estiman a partir de datos. Los parmetros de un modelo de regresin pueden estimarse de varias maneras, por ejemplo utilizando el mtodo de mnimos cuadrados (OLS, del ingls ordinary least squares) el mtodo de mxima verosimilitud tcnicas bayesianas ...
Curso 2010/2011 4
5 / 29
Introduccin
Tipos de regresin
Regresin lineal y no lineal

Regresin lineal: la relacin entre la respuesta Y (variable dependiente) y las variables independientes Xi es lineal En este sentido, una relacin del tipo Y = 0 + 1 X 1 + 2 X 2 + . . . + n X n . Y = 0 + 1 X + 2 X 2
tambin es lineal (lineal en X y X 2 ), aunque la representacin grca no sea una lnea recta. Algunos problemas no lineales pueden linealizarse realizando una transformacin adecuada. Por ejemplo Y = abX se linealiza tomando logaritmos a ambos lados, es decir ln(Y) = ln(a) + ln(b)X . Regresin no lineal: aquella en la que la relacin entre la respuesta y las variables independientes no es una funcin lineal o linealizable. En este tema vamos a concentrarnos en la regresin lineal simple: Y = + X . Simple? En absoluto!
Tema 4: Regresin lineal simple () Anlisis de datos y Estadstica Avanzada Curso 2010/2011 5 7 / 29
Regresin lineal simple
Tratamiento clsico
Ejemplo de diagrama de dispersin. Los datos corresponden a las medidas de dispersin de velocidades y luminosidad en una muestra de 40 galaxias elpticas realizadas por Schechter P.L. (1980).
Cuando en un diagrama de dispersin los datos se distribuyen aproximadamente a lo largo de una lnea reacta ajustaremos una recta de regresin. La regresin de y sobre x vendr dada entonces por y = a + bx, con a y b dos parmetros a determinar. Grcamente, a ser la ordenada en el origen y b la pendiente de la recta.
Tratamiento clsico
Cmo se determina la recta de regresin?

Se minimiza la suma de los cuadrados de las distancias entre los valores yi y los valores dados por la recta: yi = a + bxi di = yi yi M=

(Mtodo de mnimos cuadrados)
(residuo)
N N X 2 X 2 di = (yi yi ) i=1 i=1 N X 2 (a + bxi yi ) i=1
M= 8 < : P P
M a M b
= =
2(a + bxi yi ) = 0 2(a + bxi yi )xi = 0
8 P (a + bxi yi ) = 0 < 8 P P xi = yi < aN + b : a P xi + b P : P
2 (axi + bxi xi yi ) = 0
P yi 1 a= Px y i i N 1 b= P xi
x=
N = P xi
xi X 2 X 2 =N xi xi P 2 xi
P 2 P xi = xi yi
P 2P P P xi yi xi xi yi = P 2 P 2 P 2 N xi ( xi ) xi P P P P yi N xi yi xi yi = P 2 P P N xi ( xi )2 xi yi P xi xi y y= P yi N
y = a + bx
1 Px y x y i i b = N1 P 2 xi x2 N
a = y bx 10 / 29
Curso 2010/2011 7
Tratamiento clsico
Covarianza y coecientes de regresin

Las expresiones para los parmetros de la recta de regresin se pueden simplicar ms introduciendo una importante denicin. Se dene la covarianza de una muestra bidimensional a PN 2 i=1 (xi x)(yi y) Cov sxy = (1) N1 Desarrollando esta expresin se puede llegar a una frmula simplicada para calcularla P P (xi x)(yi y) (xi yi xyi xi y + x y) 2 sxy = = = N1 N1 P P P xi yi x yi y xi + Nx y = = N1 P P xi yi xNy yNx + Nx y xi yi Nx y = = . N1 N1
De la misma forma se puede desarrollar la expresin para la varianza de x e y P P 2 P 2 P P 2 P 2 (xi x)2 (xi 2xi x + x2 ) xi 2x xi + Nx2 xi 2Nx2 + Nx2 xi Nx2 2 sx = = = = = . N1 N1 N1 N1 N1 P P 2 P 2 P P 2 P 2 (yi y)2 (yi 2yi y + y2 ) yi 2y yi + Ny2 yi 2Ny2 + Ny2 yi Ny2 2 sy = = = = = . N1 N1 N1 N1 N1 Usando estas deniciones, podemos reescribir la expresin para la determinacin de la pendiente de la recta de regresin y = a + bx como s2 Cov xy byx = = , s2 s2 x x donde escribimos byx para subrayar que es la recta de regresin de y sobre x. Tema 4: Regresin lineal simple () Anlisis de datos y Estadstica Avanzada Curso 2010/2011 8 11 / 29
Tratamiento clsico
Regresin de y sobre x o de x sobre y?

De igual manera se puede obtener la recta de regresin de x sobre y (x = a + by), minimizando en este caso las distancias horizontales (xi xi ) a la recta. El resultado es que el coeciente de regresin de x sobre y (denotado por bxy ) y la recta resultante se pueden escribir Cov bxy = s2 y Ntese que ambas rectas de regresin no coinciden en general y que ambas se cortan en el punto (x, y). yy= Cov s2 x (x x) ; xx= Cov s2 y (y y)
Ambos coecientes de regresin tienen el mismo signo (el signo de la covarianza, ya que las varianzas siempre son positivas). Esto implica que las dos rectas de regresin sern a la vez ascendentes o descendentes. Tema 4: Regresin lineal simple () Anlisis de datos y Estadstica Avanzada Curso 2010/2011 9 12 / 29
Tratamiento clsico
Coeciente de correlacin lineal

La correlacin estudia el grado de asociacin o dependencia entre las dos variables. Estudiar la correlacin signica analizar hasta qu punto es signicativa la dependencia de una variable con la otra. Aunque la covarianza nos informa del grado (y signo) de la correlacin, su utilizacin est limitada por el hecho de que depende de las unidades de medida en que se trabaje. Para construir una medida adimensional hay que dividir la covarianza por un trmino con sus mismas dimensiones. De esta manera se dene el coeciente de correlacin lineal r= s2 xy sx sy sy sx = Cov sx sy .
Es fcil mostrar que el coeciente de correlacin se relaciona con los coecientes de regresin mediante byx = r y, de hecho, y bxy = r sx sy
No es difcil demostrar que
v u q u Cov Cov r= =t = byx bxy . sx sy s2 s2 x y Cov P (y y)2 VE Variacin explicada o r = P i = = . (yi y)2 VT Variacin total o
2
donde r2 se dene como el coeciente de determinacin.
Curso 2010/2011 10
13 / 29
Tratamiento clsico
Varianza residual
Un concepto relacionado con el coeciente de correlacin es el de varianza residual, la cual permite estimar la variacin de los datos originales respecto a la recta de regresin que se ha ajustado, Pn Pn 2 2 2 i=1 (yi yi ) i=1 (yi a bxi ) sr = = . n2 n2 La relacin entre la varianza residual y el coeciente de determinacin es sr =
2
Interpretacin del coeciente de correlacin

1 r=0 Cov = 0 ;
n1 2 2 sy (1 r ). n2
r = 0. En este caso, por las relaciones vistas en el apartado anterior, es claro que se cumple byx = bxy = 0 ; sr sy .
2 2
Es decir, en este caso, al ser la covarianza nula no existir correlacin. Adems las pendientes de la rectas de regresin de y sobre x y de x sobre y sern nulas, es decir sus orientaciones sern horizontal y vertical respectivamente. Por otra parte, al ser la varianza residual aproximadamente igual a la varianza de y, la dispersin de la variable y no se ver reducida al ajustar la recta de regresin. 2 r = 1. Es claro que en este caso se cumple que la varianza residual es nula (s2 = 0), por lo que no habr dispersin de r los puntos respecto a la recta y todos se situaran sobre ella. En este caso tendremos una dependencia funcional entre ambas variables y una correlacin positiva, o directa, perfecta. Adems las dos rectas de regresin (de y sobre x y de x sobre y) coincidirn. r = 1. Al igual que en el caso anterior todos los puntos se situarn sobre la recta y la correlacin ser negativa, o inversa, perfecta. 0 < r < 1. En este caso, la correlacin ser positiva pero no perfecta. Evidentemente la correlacin (y la covarianza) ser mejor cuanto ms se acerque r a 1. 1 < r < 0. De la misma manera tendremos una correlacin negativa tanto mejor cuanto ms prximo est r a 1. Anlisis de datos y Estadstica Avanzada Curso 2010/2011 11 14 / 29
3 4 5
Tratamiento clsico
Inferencia sobre la regresin lineal clsica

Hemos partido de la hiptesis bsica Y = + X Pero nosotros contamos con unas observaciones que tan solo nos proporcionan la ecuacin de regresin lineal ajustada o de la muestra yi = a + bxi por lo que a es una estimacin de y b es una estimacin de . Diferentes muestras nos proporcionar distintas estimaciones de los parmetros y . En la aproximacin clsica (ver apuntes de primero) se muestra que, bajo la hiptesis de que los errores en las medidas no dependen del valor de la variable independiente x, las incertidumbres asociadas a los coecientes de la regresin son ! PN 2 1 x2 2 2 2 i=1 xi a = + = PN N (N 1)s2 N i=1 (xi x)2 x (suma de dos trminos: error en la ordenada media y el incremento del error al alejarnos del origen x = 0) b =
2
2 (N 1)s2 x
(inversamente proporcional al rango en x y proporcional al error intrnseco de las medidas; lgicamente disminuye con N) 2 es la varianza de Y, cuyo estimador insesgado viene dado por la varianza residual PN 2 2 i=1 (yi a bxi ) sr = N2
Curso 2010/2011 12
15 / 29
Tratamiento clsico
Debilidades de la regresin lineal

Tanto la recta de regresin como el coeciente de correlacin no son robustos, en el sentido de que resultan muy afectados por medidas particulares que se alejen mucho de la tendencia general. No hay que olvidar que el coeciente de correlacin no es ms que una medida resumen. En ningn caso puede substituir al diagrama de dispersin, que siempre habr que construir para extraer ms informacin. Formas muy diferentes de la nube de puntos pueden conducir al mismo coeciente de correlacin. El que en un caso se obtenga un coeciente de correlacin bajo no signica que no pueda existir correlacin entre las variables. De lo nico que nos informa es de que la correlacin no es lineal (no se ajusta a una recta), pero es posible que pueda existir una buena correlacin de otro tipo. Un coeciente de correlacin alto no signica que exista una dependencia directa entre las variables. Es decir, no se puede extraer una conclusin de causa y efecto basndose nicamente en el coeciente de correlacin. En general hay que tener en cuenta que puede existir una tercera variable escondida que puede producir una correlacin que, en muchos casos, puede no tener sentido.
Curso 2010/2011 13
16 / 29
Tratamiento clsico
Recta de regresin cuando hay incertidumbres (Mtodo de mnimos cuadrados)

Si adems de los datos (xi , yi ) se tiene una estimacin de las incertidumbres en yi , que llamaremos i , se puede realizar un proceso similar, minimizando ahora la suma pesada de los cuadrados de las distancias entre los valores yi y los valores dados por la recta: yi = a + bxi di = yi yi M=
N 2 X di
i2 i=1
N X (y yi )2 i i=1
i2
M=
N X a + bxi yi 2 i i=1
8 > > < > > :
M a M b
= =
P h a+bxi yi 1 i 2 =0
i i i i
8 P (a + bxi yi )/i2 = 0 < : P P
P h a+bxi yi xi i 2 =0
2 (axi + bxi xi yi )/i2 = 0
8 P P P 1/i2 + b xi /i2 = yi /i2 < a : a xi /i2 + b
P yi /i2 1 a= P x y / 2 i i i P 1/i2 1 b= P x / 2 i i
P 1/i2 = P xi /i2
2 X 1 X xi = P 2 2 i2 i2 xi /i P xi /i2 P xi /i2
i i
X xi
i2
!2
P 2 2 P xi /i = xi yi /i2
P xi P yi P 1 P xi yi 2 2 2 2 i i i i = P xi yi /i2 P yi /i2 Curso 2010/2011 14
2 P xi P xi yi P xi P yi 2 2 2 2 i i i i = P 2 2 x /
17 / 29
Tratamiento clsico
Incertidumbre en la prediccin?
No es posible hacer una estimacin inmediata de la incertidumbre en y = a + bx sin tener en cuenta las covarianzas (a y b se determinan a partir de los mismos datos, por lo que estn correlacionados). Sin embargo, considerando que y0 = a(xi , yi , i ) + b(xi , yi , i )x0 , a la hora de estimar incertidumbres en la prediccin podemos considerar que y0 = f (yi ), por lo que ! N X y 2 2 2 (y0 ) = j , yj j=1 donde y yj siendo PN
2 xi i=1 2 i
1 2 j
PN
xi i=1 2 i
xj 2 j
PN
1 i=1 2 i
xj 2 j
PN
xi i=1 2 i
1 2 j
x0 ,
0 12 N X xi A . = @ i2 i=1 i2 i2 i=1 i=1

N N 2 X 1 X xi
Curso 2010/2011 15
18 / 29
Tratamiento avanzado
La importancia de las incertidumbres

El mtodo de regresin lineal clsico es una aproximacin demasiado simplista. En la prctica uno tiene que enfrentarse inevitablemente con incertidumbres en las medidas y con la posibilidad de que la hiptesis bsica Y = + X se vea afectada por factores adicionales. Conviene distinguir diferentes situaciones:
1
Problemas en los que la dispersin de los datos dominan sobre cualquier incertidumbre de medida (la dispersin es real!): ver Isobe et al. (1990), y Babu y Feigelson (1992). Problemas en los que dominan las incertidumbres en las medidas: ver Feigelson y Babu (1992; tratan ajustes pesados, y modelos de regresin truncados faltan datos por encima/debajo de unos lmites y con datos censurados cotas). Problemas en los que importan tanto las incertidumbres en las medidas como la dispersin intrnseca: ver Akritas y Bershady (1996; incluyen un mtodo que permite tratar errores en ambas variables y que dicho error est correlacionado).
En este tema vamos a revisar nicamente el primer caso. Consultar las referencias para las otras dos situaciones.
6 mtodos de ajuste por mnimos cuadrados
Alternativas cuando la dispersin intrnseca de los datos domina Podemos emplear diferentes mtodos cuando lo nico que conocemos son (xi , yi ) (asumimos que la dispersin intrnseca domina sobre las incertidumbres de las medidas). Ver descripcin detallada en Isobe et al. (1990) y Babu y Feigelson (1992).
Tratamiento asimtrico de X e Y OLS(Y|X): mtodo clsico en el que se minimiza la distancia en Y (caso a en la gura). OLS(X|Y): similar al anterior, pero se minimiza la distancia en X (caso b en la gura). Tratamiento simtrico de X e Y OLS-bisector: ajuste que bisecciona OLS(Y|X) y OLS(X|Y). Orthogonal regression: minimiza la distancia perpendicular a la recta (caso c en la gura). Reduced major axis: minimiza la suma de las distancias en X e Y (caso d en la gura). OLS-mean: media de OLS(Y|X) y OLS(X|Y).
Curso 2010/2011 17
22 / 29
Curso 2010/2011 18
23 / 29
Curso 2010/2011 19
24 / 29
Gua para el astrnomo (I)

Los diferentes mtodos proporcionan coecientes de regresin que son, desde un punto de vista terico, distintos, por lo que no proporcionan estimaciones diferentes de una misma cantidad. Salvo que tengamos un conocimiento a priori sobre los datos (e.g. no existen residuos en la direccin X) o la pregunta cientca a responder (e.g. prediccin de Y a partir de medidas de X), en cuyo caso puede ser preferible emplear OLS(Y|X), en general no hay una base matemtica para preferir un mtodo frente a otro. Las incertidumbres en OLS(Y|X) que proporcionan las estimaciones clsicas (Bevington 1969) no son realmente correctas (requieren demasiadas restricciones que normalmente no se dan: e.g. residuos en Y independientes de X). Mejor las frmulas derivadas en Isobe et al. (1990).
Curso 2010/2011 20
25 / 29
Babu y Feigelson (1992)
Curso 2010/2011 21
26 / 29
Gua para el astrnomo (II)

Las simulaciones de Monte Carlo (ver Babu y Feigelson 1990) muestran
El mtodo estndar OLS(Y|X) funciona muy bien y debera favorecerse cuando hay una clara distincin entre las variables dependiente e independiente. A la hora de tratar de forma simtrica las variables, el OLS-bisector y el reduced major axis tienen menores varianzas que la orthogonal regression y que el OLS-mean. Un problema con el reduced major axis es que la pendiente que se determina no depende de la correlacin de la poblacin (es invariante de escala) el OLS-bisector parece la mejor alternativa.
Las frmulas para estimar las incertidumbres en los 6 mtodos descritos funcionan bien cuando N es grande. Para N 50 las estimaciones no convergen adecuadamente. Solucin? Jackknife o bootstrap.
Tema 4: Regresin lineal simple () Anlisis de datos y Estadstica Avanzada Curso 2010/2011 22
27 / 29
Jackknife1
Este mtodo consiste en generar, a partir de muestras de N elementos, N submuestras de N 1 elementos, eliminando en cada una de estas submuestras secundarias un elemento (podemos hacerlo de forma consecutiva, eliminando el primer elemento en la primera muestra, el segundo en la segunda muestras, y as sucesivamente.
Bootstrap2
Es una generalizacin del mtodo anterior, en el cual se generan muestras secundarias de N elementos, seleccionando los elementos de forma aleatoria a partir de la muestra original, pero permitiendo repetir valores. De esta forma, una fraccin aleatoria de los valores iniciales aparecern duplicados ( 1/e 37%). Estos mtodos no dan informacin a partir de la nada. Nos dan informacin que desconocamos previamente (ver Press et al. 2002).
1 2
Podemos traducirlo como pequea navaja o navaja de bolsillo.
El nombre se debe a la aparente capacidad del mtodo de conseguir algo aparentemente imposible (sacar de donde no hay). En Las increbles aventuras del Barn Munchhausen, Rudolph Erich Raspe cuenta que en cierta ocasin el Barn logr escapar de una muerte segura al salir volando tirando de los cordones de sus propias botas (en ingls [. . . ] he thought to pull himself up by his own bootstraps).
Curso 2010/2011 23
28 / 29
Referencias (orden cronolgico)

Bevington P.R., Data reduction and error analysis for the physical sciences, 1969, McGraw-Hill Isobe T. et al., Linear regression in Astronomy. I., 1990, ApJ, 364, 104 Babu G.J., Feigelson E.D., Analytical and Monte Carlo comparisons of six different linear squares ts, 1992, Comm. Statit. Comput. Simul., 21(2), 533 Feigelson E.D., Babu G.J., Linear regression in Astronomy. II, ApJ, 397, 55 Arkitas M.G., Bershady M.A., Linear regression for astronomical data with measurement errors and intrinsic scatter, 1996, ApJ, 470, 706 Press W.H., et al., Numerical Recipes in Fortran 77, 2002, Cambridge University Press
Curso 2010/2011 24
29 / 29

Reg Ersion

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Reg Ersion

Загружено:

Авторское право:

Доступные форматы

Anlisis de datos y Estadstica Avanzada

Mster Interuniversitario de Astrofsica UCM+UAM Tema 4: Regresin lineal simple

Javier Gorgas y Nicols Cardiel

Tema 4: Regresin lineal simple ()

Anlisis de datos y Estadstica Avanzada

Tema 4: Regresin lineal simple ()

Anlisis de datos y Estadstica Avanzada

Tema 4: Regresin lineal simple ()

Anlisis de datos y Estadstica Avanzada

Tema 4: Regresin lineal simple ()

Anlisis de datos y Estadstica Avanzada

Regresin lineal y no lineal

Regresin lineal simple

Regresin lineal simple

Cmo se determina la recta de regresin?

(Mtodo de mnimos cuadrados)

N N X 2 X 2 di = (yi yi ) i=1 i=1 N X 2 (a + bxi yi ) i=1

2(a + bxi yi ) = 0 2(a + bxi yi )xi = 0

8 P (a + bxi yi ) = 0 < 8 P P xi = yi < aN + b : a P xi + b P : P

Tema 4: Regresin lineal simple ()

Anlisis de datos y Estadstica Avanzada

Regresin lineal simple

Covarianza y coecientes de regresin

Regresin lineal simple

Regresin de y sobre x o de x sobre y?

Regresin lineal simple

Coeciente de correlacin lineal

No es difcil demostrar que

donde r2 se dene como el coeciente de determinacin.

Tema 4: Regresin lineal simple ()

Anlisis de datos y Estadstica Avanzada

Regresin lineal simple

Interpretacin del coeciente de correlacin

Tema 4: Regresin lineal simple ()

Regresin lineal simple

Inferencia sobre la regresin lineal clsica

Tema 4: Regresin lineal simple ()

Anlisis de datos y Estadstica Avanzada

Regresin lineal simple

Debilidades de la regresin lineal

Tema 4: Regresin lineal simple ()

Anlisis de datos y Estadstica Avanzada

Regresin lineal simple

Recta de regresin cuando hay incertidumbres (Mtodo de mnimos cuadrados)

8 > > < > > :

8 P (a + bxi yi )/i2 = 0 < : P P

8 P P P 1/i2 + b xi /i2 = yi /i2 < a : a xi /i2 + b

P xi P yi P 1 P xi yi 2 2 2 2 i i i i = P xi yi /i2 P yi /i2 Curso 2010/2011 14

Tema 4: Regresin lineal simple ()

Anlisis de datos y Estadstica Avanzada

Regresin lineal simple

0 12 N X xi A . = @ i2 i=1 i2 i2 i=1 i=1

Tema 4: Regresin lineal simple ()

Anlisis de datos y Estadstica Avanzada

Regresin lineal simple

La importancia de las incertidumbres

Regresin lineal simple

6 mtodos de ajuste por mnimos cuadrados

Tema 4: Regresin lineal simple ()

Anlisis de datos y Estadstica Avanzada

Regresin lineal simple

6 mtodos de ajuste por mnimos cuadrados

Tema 4: Regresin lineal simple ()

Anlisis de datos y Estadstica Avanzada