Академический Документы
Профессиональный Документы
Культура Документы
Etimologa
El trmino regresin se utiliz por primera vez en el estudio de variables antropomtricas: al comparar la estatura de padres e hijos, result que los hijos cuyos padres tenan una estatura muy superior al valor medio tendan a igualarse a ste, mientras que aquellos cuyos padres eran muy bajos tendan a reducir su diferencia respecto a la estatura media; es decir, "regresaban" al promedio. La constatacin emprica de esta propiedad se vio reforzada ms tarde con la justificacin terica de ese fenmeno.
Donde es la perturbacin aleatoria que recoge todos aquellos factores de la realidad no controlables u observables y que por tanto se asocian con el azar, y es la que confiere al modelo su carcter estocstico. En el caso ms sencillo, con una sola variable explicativa, el hiperplano es una recta: Y = 1 + 2X2 + El problema de la regresin consiste en elegir unos valores determinados para los parmetros desconocidos k, de modo que la ecuacin quede completamente especificada. Para ello se necesita un conjunto de observaciones. En una observacin cualquiera i-sima (i= 1,... I) se registra el comportamiento simultneo de la variable dependiente y las variables explicativas (las perturbaciones aleatorias se suponen no observables).
Los valores escogidos como estimadores de los parmetros , son los coeficientes de regresin, sin que se pueda garantizar que coinciden con parmetros reales del proceso generador. Por tanto, en
Los valores
La relacin entre las variables es lineal. Los errores en la medicin de las variables explicativas son independientes entre s. Los errores tienen varianza constante. (Homocedasticidad) Los errores tienen una esperanza matemtica igual a cero (los errores de una misma magnitud y distinto signo son equiprobables). El error total es la suma de todos los errores.
Tipos de modelos de regresin lineal Existen diferentes tipos de regresin lineal que se clasifican de acuerdo a sus parmetros: Regresin lineal simple Slo se maneja una variable independiente, por lo que slo cuenta con dos parmetros. Son de la forma: Yi = 0 + 1Xi + i donde i es el error asociado a la medicin del valor Xi y siguen los supuestos de modo que iN(0,2) (media cero, varianza constante e igual a un y con ).
Derivando respecto a
Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solucin para ambos parmetros:
De manera equivalente, otra formulacin del modelo de regresin lineal simple sera: si xi es un valor de la variable predictora e Yi la variable respuesta que le corresponde, entonces
donde 0 es la interseccin o trmino "constante", las son los parmetros respectivos a cada variable independiente, y p es el nmero de parmetros independientes a tener en cuenta en la regresin. La regresin lineal puede ser contrastada con la regresin no lineal. Un ejemplo. La recta de regresin representada corresponde a la estimacin obtenida a partir de 20 pares de observaciones: x representa la temperatura fijada en un recinto cerrado e Y el ritmo cardaco de un vertebrado.
Formula =SUMA(ESTIMACION.LINEAL(C3:C8:B3:B8)*{9,1})
Regresin Lineal
Aplicaciones de la regresin lineal Lneas de tendencia Una lnea de tendencia representa una tendencia en una serie de datos obtenidos a travs de un largo perodo. Este tipo de lneas puede decirnos si un conjunto de datos en particular (como por ejemplo, el PBI, el precio del petrleo o el valor de las acciones) han aumentado o decrementado en un determinado perodo. Se puede dibujar una lnea de tendencia a simple vista fcilmente a partir de un grupo de puntos, pero su posicin y pendiente se calcula de manera ms precisa utilizando tcnicas estadsticas como las regresiones lineales. Las lneas de tendencia son generalmente lneas rectas, aunque algunas variaciones utilizan polinomios de mayor grado dependiendo de la curvatura deseada en la lnea.
Medicina En medicina, las primeras evidencias relacionando la mortalidad con el fumar tabaco vinieron de estudios que utilizaban la regresin lineal. Los investigadores incluyen una gran cantidad de variables en su anlisis de regresin en un esfuerzo por eliminar factores que pudieran producir correlaciones espurias. En el caso del tabaquismo, los investigadores incluyeron el estado socio-econmico para asegurarse que los efectos de mortalidad por tabaquismo no sean un efecto de su educacin o posicin econmica. No obstante, es imposible incluir todas las variables posibles en un estudio de regresin. En el ejemplo del tabaquismo, un hipottico gen podra aumentar la mortalidad y aumentar la propensin a adquirir enfermedades relacionadas con el consumo de tabaco. Por esta razn, en la actualidad las pruebas controladas aleatorias son consideradas mucho ms confiables que los anlisis de regresin.
donde i es el error asociado a la medicin i del valor Xip y siguen los supuestos de modo que iN(0,2) (media cero, ). varianza constante e igual a un y con Rectas de regresin Las rectas de regresin son las rectas que mejor se ajustan a la nube de puntos (o tambin llamado diagrama de dispersin) generada por una distribucin binomial. Matemticamente, son posibles dos rectas de mximo ajuste: La recta de regresin de Y sobre X:
Siguiendo con nuestro ejemplo, si consideramos el peso como variable dependiente y como posibles variables explicativas: estatura pie l_brazo a_espald d_craneo El modelo que deseamos construir es El modelo que deseamos construir es:
Al igual que en regresin lineal simple, los coeficientes b van a indicar el incremento en el peso por el incremento unitario de la correspondiente variable explicativa. Por lo tanto, estos coeficientes van a tener las correspondientes unidades de medida.
Para realizar un anlisis de regresin lineal mltiple se hacen las siguientes consideraciones sobre los datos:
a) Linealidad: los valores de la variable dependiente estn generados por el siguiente modelo lineal:
Si admitimos que los datos presentan estas hiptesis entonces el teorema de Gauss-Markov establece que el mtodo de estimacin de mnimos cuadrados va a producir estimadores ptimos, en el sentido que los parmetros estimados van a estar centrados y van a ser de mnima varianza.
Nota La hiptesis nula es que todos los coeficientes menos b0 son nulos y la hiptesis alternativa o complementaria es que existe al menos uno que es distinto de 0, puede haber varios que sean nulos, pero al menos existe uno distinto de cero. Se denomina contraste de regresin al estudio de la posibilidad de que el modelo de regresin sea nulo, es decir, los valores de las variables explicativas X no van a influir en la variable Peso.
Un anlisis apropiado, sin embargo, debe tener en consideracin toda la informacin recogida o de inters para el clnico y requiere de tcnicas estadsticas multivariantes ms complejas. En particular, hemos visto como el modelo de regresin lineal simple es un mtodo sencillo para analizar la relacin lineal entre dos variables cuantitativas.
Sin embargo, en la mayora de los casos lo que se pretende es predecir una respuesta en funcin de un conjunto ms amplio de variables, siendo necesario considerar el modelo de regresin lineal mltiple como una extensin de la recta de regresin que permite la inclusin de un nmero mayor de variables. Estimacin de parmetros y bondad de ajuste Generalizando la notacin usada para el modelo de regresin lineal simple, disponemos en n individuos de los datos de una variable respuesta Y y de p variables explicativas X1,X2,...,Xp. La situacin ms sencilla que extiende el caso de una nica variable regresora es aquella en la que se dispone de informacin en dos variables adicionales. Como ejemplo, tomemos la medida de la tensin arterial diastlica en setenta individuos de los que se conoce adems su edad, colesterol e ndice de masa corporal (Tabla 1). Es bien conocido que el valor de la tensin arterial diastlica vara en funcin del colesterol e ndice de masa corporal de cada sujeto. Al igual que ocurra en el caso bidimensional, se puede visualizar la relacin entre las tres variables en un grfico de dispersin, de modo que la tcnica de regresin lineal mltiple proporcionara el plano que mejor ajusta a la nube de puntos resultante (Fig. 1).
Fig. 1
Del grfico se deduce fcilmente que los pacientes con tensin arterial diastlica ms alta son aquellos con valores mayores de colesterol e ndice de masa corporal. Si el nmero de variables explicativas aumenta (p>2) la representacin grfica ya no es factible, pero el resultado de la regresin se generaliza al caso del mejor hiperplano que ajusta a los datos en el espacio (p+1)dimensional correspondiente. Tabla. 1
Este ejemplo supone que existe una relacin de lnea recta entre cada variable independiente (x1, x2, x3, y x4) y la variable dependiente (y), el valor de los edificios de oficinas en esa rea. El programador elige al azar una muestra de 11 edificios de oficinas de 1.500 edificios posibles y obtiene los datos siguientes. "Media entrada" significa una entrada slo para entregas.
Formula
=ESTIMACION.LINEAL(E2:E12;A2:D12;V ERDADERO;VERDADERO