Академический Документы
Профессиональный Документы
Культура Документы
Curso 2010/2011 1
1 / 29
Esquema
Introduccin Anlisis de regresin Tipos de regresin Regresin lineal simple Tratamiento clsico Tratamiento avanzado 6 mtodos de ajuste por mnimos cuadrados
Curso 2010/2011 2
2 / 29
Introduccin
Anlisis de regresin
Qu es la regresin?
El trmino regresin fue acuado por Francis Galton en el siglo XIX para referirse a fenmenos biolgicos: los descendientes de progenitores excepcionales son, en promedio, menos excepcionales que los progenitores, y ms parecidos a sus ancestros ms distantes (Galton utiliz el trmino reversion al hablar de guisantes en 1877, y regression al referirse a la altura de humanos en 1885).
Curso 2010/2011 3
4 / 29
Introduccin
Anlisis de regresin
Anlisis de regresin
El anlisis de regresin es un intento de examinar la relacin que existe entre una variable dependiente (variable respuesta) y un conjunto de variables independientes (predictores). El modelo matemtico que establece dicha relacin es la ecuacin de regresin. La variable dependiente se modela como una variable aleatoria. La ecuacin de regresin contiene una serie de parmetros de regresin (constantes) que establecen la relacin cuantitativa entre las variables independientes y la dependiente. Estos parmetros se estiman a partir de datos. Los parmetros de un modelo de regresin pueden estimarse de varias maneras, por ejemplo utilizando el mtodo de mnimos cuadrados (OLS, del ingls ordinary least squares) el mtodo de mxima verosimilitud tcnicas bayesianas ...
Curso 2010/2011 4
5 / 29
Introduccin
Tipos de regresin
tambin es lineal (lineal en X y X 2 ), aunque la representacin grca no sea una lnea recta. Algunos problemas no lineales pueden linealizarse realizando una transformacin adecuada. Por ejemplo Y = abX se linealiza tomando logaritmos a ambos lados, es decir ln(Y) = ln(a) + ln(b)X . Regresin no lineal: aquella en la que la relacin entre la respuesta y las variables independientes no es una funcin lineal o linealizable. En este tema vamos a concentrarnos en la regresin lineal simple: Y = + X . Simple? En absoluto!
Tema 4: Regresin lineal simple () Anlisis de datos y Estadstica Avanzada Curso 2010/2011 5 7 / 29
Tratamiento clsico
Ejemplo de diagrama de dispersin. Los datos corresponden a las medidas de dispersin de velocidades y luminosidad en una muestra de 40 galaxias elpticas realizadas por Schechter P.L. (1980).
Cuando en un diagrama de dispersin los datos se distribuyen aproximadamente a lo largo de una lnea reacta ajustaremos una recta de regresin. La regresin de y sobre x vendr dada entonces por y = a + bx, con a y b dos parmetros a determinar. Grcamente, a ser la ordenada en el origen y b la pendiente de la recta.
Tema 4: Regresin lineal simple () Anlisis de datos y Estadstica Avanzada Curso 2010/2011 6 9 / 29
Tratamiento clsico
(residuo)
M= 8 < : P P
M a M b
= =
2 (axi + bxi xi yi ) = 0
P yi 1 a= Px y i i N 1 b= P xi
x=
N = P xi
xi X 2 X 2 =N xi xi P 2 xi
P 2 P xi = xi yi
P 2P P P xi yi xi xi yi = P 2 P 2 P 2 N xi ( xi ) xi P P P P yi N xi yi xi yi = P 2 P P N xi ( xi )2 xi yi P xi xi y y= P yi N
y = a + bx
1 Px y x y i i b = N1 P 2 xi x2 N
a = y bx 10 / 29
Curso 2010/2011 7
Tratamiento clsico
De la misma forma se puede desarrollar la expresin para la varianza de x e y P P 2 P 2 P P 2 P 2 (xi x)2 (xi 2xi x + x2 ) xi 2x xi + Nx2 xi 2Nx2 + Nx2 xi Nx2 2 sx = = = = = . N1 N1 N1 N1 N1 P P 2 P 2 P P 2 P 2 (yi y)2 (yi 2yi y + y2 ) yi 2y yi + Ny2 yi 2Ny2 + Ny2 yi Ny2 2 sy = = = = = . N1 N1 N1 N1 N1 Usando estas deniciones, podemos reescribir la expresin para la determinacin de la pendiente de la recta de regresin y = a + bx como s2 Cov xy byx = = , s2 s2 x x donde escribimos byx para subrayar que es la recta de regresin de y sobre x. Tema 4: Regresin lineal simple () Anlisis de datos y Estadstica Avanzada Curso 2010/2011 8 11 / 29
Tratamiento clsico
Ambos coecientes de regresin tienen el mismo signo (el signo de la covarianza, ya que las varianzas siempre son positivas). Esto implica que las dos rectas de regresin sern a la vez ascendentes o descendentes. Tema 4: Regresin lineal simple () Anlisis de datos y Estadstica Avanzada Curso 2010/2011 9 12 / 29
Tratamiento clsico
Es fcil mostrar que el coeciente de correlacin se relaciona con los coecientes de regresin mediante byx = r y, de hecho, y bxy = r sx sy
v u q u Cov Cov r= =t = byx bxy . sx sy s2 s2 x y Cov P (y y)2 VE Variacin explicada o r = P i = = . (yi y)2 VT Variacin total o
2
Curso 2010/2011 10
13 / 29
Tratamiento clsico
Varianza residual
Un concepto relacionado con el coeciente de correlacin es el de varianza residual, la cual permite estimar la variacin de los datos originales respecto a la recta de regresin que se ha ajustado, Pn Pn 2 2 2 i=1 (yi yi ) i=1 (yi a bxi ) sr = = . n2 n2 La relacin entre la varianza residual y el coeciente de determinacin es sr =
2
n1 2 2 sy (1 r ). n2
r = 0. En este caso, por las relaciones vistas en el apartado anterior, es claro que se cumple byx = bxy = 0 ; sr sy .
2 2
Es decir, en este caso, al ser la covarianza nula no existir correlacin. Adems las pendientes de la rectas de regresin de y sobre x y de x sobre y sern nulas, es decir sus orientaciones sern horizontal y vertical respectivamente. Por otra parte, al ser la varianza residual aproximadamente igual a la varianza de y, la dispersin de la variable y no se ver reducida al ajustar la recta de regresin. 2 r = 1. Es claro que en este caso se cumple que la varianza residual es nula (s2 = 0), por lo que no habr dispersin de r los puntos respecto a la recta y todos se situaran sobre ella. En este caso tendremos una dependencia funcional entre ambas variables y una correlacin positiva, o directa, perfecta. Adems las dos rectas de regresin (de y sobre x y de x sobre y) coincidirn. r = 1. Al igual que en el caso anterior todos los puntos se situarn sobre la recta y la correlacin ser negativa, o inversa, perfecta. 0 < r < 1. En este caso, la correlacin ser positiva pero no perfecta. Evidentemente la correlacin (y la covarianza) ser mejor cuanto ms se acerque r a 1. 1 < r < 0. De la misma manera tendremos una correlacin negativa tanto mejor cuanto ms prximo est r a 1. Anlisis de datos y Estadstica Avanzada Curso 2010/2011 11 14 / 29
3 4 5
Tratamiento clsico
2 (N 1)s2 x
(inversamente proporcional al rango en x y proporcional al error intrnseco de las medidas; lgicamente disminuye con N) 2 es la varianza de Y, cuyo estimador insesgado viene dado por la varianza residual PN 2 2 i=1 (yi a bxi ) sr = N2
Curso 2010/2011 12
15 / 29
Tratamiento clsico
Curso 2010/2011 13
16 / 29
Tratamiento clsico
i2 i=1
N X (y yi )2 i i=1
i2
M=
N X a + bxi yi 2 i i=1
M a M b
= =
P h a+bxi yi 1 i 2 =0
i i i i
P h a+bxi yi xi i 2 =0
2 (axi + bxi xi yi )/i2 = 0
P yi /i2 1 a= P x y / 2 i i i P 1/i2 1 b= P x / 2 i i
P 1/i2 = P xi /i2
2 X 1 X xi = P 2 2 i2 i2 xi /i P xi /i2 P xi /i2
i i
X xi
i2
!2
P 2 2 P xi /i = xi yi /i2
2 P xi P xi yi P xi P yi 2 2 2 2 i i i i = P 2 2 x /
17 / 29
Tratamiento clsico
Incertidumbre en la prediccin?
No es posible hacer una estimacin inmediata de la incertidumbre en y = a + bx sin tener en cuenta las covarianzas (a y b se determinan a partir de los mismos datos, por lo que estn correlacionados). Sin embargo, considerando que y0 = a(xi , yi , i ) + b(xi , yi , i )x0 , a la hora de estimar incertidumbres en la prediccin podemos considerar que y0 = f (yi ), por lo que ! N X y 2 2 2 (y0 ) = j , yj j=1 donde y yj siendo PN
2 xi i=1 2 i
1 2 j
PN
xi i=1 2 i
xj 2 j
PN
1 i=1 2 i
xj 2 j
PN
xi i=1 2 i
1 2 j
x0 ,
Curso 2010/2011 15
18 / 29
Tratamiento avanzado
Problemas en los que la dispersin de los datos dominan sobre cualquier incertidumbre de medida (la dispersin es real!): ver Isobe et al. (1990), y Babu y Feigelson (1992). Problemas en los que dominan las incertidumbres en las medidas: ver Feigelson y Babu (1992; tratan ajustes pesados, y modelos de regresin truncados faltan datos por encima/debajo de unos lmites y con datos censurados cotas). Problemas en los que importan tanto las incertidumbres en las medidas como la dispersin intrnseca: ver Akritas y Bershady (1996; incluyen un mtodo que permite tratar errores en ambas variables y que dicho error est correlacionado).
En este tema vamos a revisar nicamente el primer caso. Consultar las referencias para las otras dos situaciones.
Tema 4: Regresin lineal simple () Anlisis de datos y Estadstica Avanzada Curso 2010/2011 16 20 / 29
Alternativas cuando la dispersin intrnseca de los datos domina Podemos emplear diferentes mtodos cuando lo nico que conocemos son (xi , yi ) (asumimos que la dispersin intrnseca domina sobre las incertidumbres de las medidas). Ver descripcin detallada en Isobe et al. (1990) y Babu y Feigelson (1992).
Tratamiento asimtrico de X e Y OLS(Y|X): mtodo clsico en el que se minimiza la distancia en Y (caso a en la gura). OLS(X|Y): similar al anterior, pero se minimiza la distancia en X (caso b en la gura). Tratamiento simtrico de X e Y OLS-bisector: ajuste que bisecciona OLS(Y|X) y OLS(X|Y). Orthogonal regression: minimiza la distancia perpendicular a la recta (caso c en la gura). Reduced major axis: minimiza la suma de las distancias en X e Y (caso d en la gura). OLS-mean: media de OLS(Y|X) y OLS(X|Y).
Curso 2010/2011 17
22 / 29
Curso 2010/2011 18
23 / 29
Curso 2010/2011 19
24 / 29
Curso 2010/2011 20
25 / 29
Curso 2010/2011 21
26 / 29
Las frmulas para estimar las incertidumbres en los 6 mtodos descritos funcionan bien cuando N es grande. Para N 50 las estimaciones no convergen adecuadamente. Solucin? Jackknife o bootstrap.
Tema 4: Regresin lineal simple () Anlisis de datos y Estadstica Avanzada Curso 2010/2011 22
27 / 29
Jackknife1
Este mtodo consiste en generar, a partir de muestras de N elementos, N submuestras de N 1 elementos, eliminando en cada una de estas submuestras secundarias un elemento (podemos hacerlo de forma consecutiva, eliminando el primer elemento en la primera muestra, el segundo en la segunda muestras, y as sucesivamente.
Bootstrap2
Es una generalizacin del mtodo anterior, en el cual se generan muestras secundarias de N elementos, seleccionando los elementos de forma aleatoria a partir de la muestra original, pero permitiendo repetir valores. De esta forma, una fraccin aleatoria de los valores iniciales aparecern duplicados ( 1/e 37%). Estos mtodos no dan informacin a partir de la nada. Nos dan informacin que desconocamos previamente (ver Press et al. 2002).
1 2
El nombre se debe a la aparente capacidad del mtodo de conseguir algo aparentemente imposible (sacar de donde no hay). En Las increbles aventuras del Barn Munchhausen, Rudolph Erich Raspe cuenta que en cierta ocasin el Barn logr escapar de una muerte segura al salir volando tirando de los cordones de sus propias botas (en ingls [. . . ] he thought to pull himself up by his own bootstraps).
Curso 2010/2011 23
28 / 29
Curso 2010/2011 24
29 / 29