REGRESION LINEAL, MULTIPLE Y ANALISIS DE REGRESION
ELABORO: TEDDY DE LA CRUZ DE LA CRUZ
3ER SEMESTRE LCP
PICHUCALCO, CHIAPAS ABRIL DE 2014
Introduccin El anlisis de regresin lineal es una tcnica estadstica utilizada para estudiar la relacin entre las variables. Se adapta a una amplia variedad de situaciones. En la investigacin social, el anlisis de regresin se utiliza para predecir un amplio rango de fenmenos, desde medidas econmicas hasta diferentes aspectos del comportamiento humano. En el contexto de la investigacin de mercados puede utilizarse para determinar en cual de diferentes medios de comunicacin puede resultar ms eficaz invertir; o para predecir el nmero de ventas de un determinado producto. En fsica se utiliza para caracterizar la relacin entre variables o para calibrar medidas, etc. Si sabemos que existe una relacin entre una variable denominada dependiente y otras denominadas independientes (como por ejemplo las existentes entre: la experiencia profesional de los trabajadores y sus respectivos sueldos, las estaturas y pesos de personas, la produccin agraria y la cantidad de fertilizantes utilizados, etc.), puede darse el problema de que la dependiente asuma mltiples valores para una combinacin de valores de las independientes. La dependencia a la que hacemos referencia es relacional matemtica y no necesariamente de causalidad. As, para un mismo nmero de unidades producidas, pueden existir niveles de costo, que varan empresa a empresa. Si se da ese tipo de relaciones, se suele recurrir a los estudios de regresin en los cuales se obtiene una nueva relacin pero de un tipo especial denominado funcin, en la cual la variable independiente se asocia con un indicador de tendencia central de la variable dependiente. Cabe recordar que en trminos generales, una funcin es un tipo de relacin en la cual para cada valor de la variable independiente le corresponde uno y slo un valor de la variable dependiente.
Regresin lineal En estadstica la regresin lineal o ajuste lineal es un mtodo matemtico que modela la relacin entre una variable dependiente Y, las variables independientes X i y un trmino aleatorio . Este modelo puede ser expresado como:
: variable dependiente, explicada o regresando. : variables explicativas, independientes o regresores. : parmetros, miden la influencia que las variables explicativas tienen sobre el regresando. Donde es la interseccin o trmino "constante", las son los parmetros respectivos a cada variable independiente, y es el nmero de parmetros independientes a tener en cuenta en la regresin. La regresin lineal Historia La primera forma de regresiones lineales documentada fue el mtodo de los mnimos cuadrados, el cual fue publicado por Legendre en 1805, y en dnde se inclua una versin del teorema de Gauss-Mrkov.
Etimologa El trmino regresin se utiliz por primera vez en el estudio de variables antropomtricas: al comparar la estatura de padres e hijos, result que los hijos cuyos padres tenan una estatura muy superior al valor medio tendan a igualarse a ste, mientras que aquellos cuyos padres eran muy bajos tendan a reducir su diferencia respecto a la estatura media; es decir, "regresaban" al promedio. 2 La constatacin emprica de esta propiedad se vio reforzada ms tarde con la justificacin terica de ese fenmeno. El trmino lineal se emplea para distinguirlo del resto de tcnicas de regresin, que emplean modelos basados en cualquier clase de funcin matemtica. Los modelos lineales son una explicacin simplificada de la realidad, mucho ms gil y con un soporte terico por parte de la matemtica y la estadstica mucho ms extenso. Pero bien, como se ha dicho, podemos usar el trmino lineal para distinguir modelos basados en cualquier clase de aplicacin. El modelo de regresin Lineal El modelo lineal relaciona la variable dependiente Y con K variables explicativas (k = 1,...K), o cualquier transformacin de stas, que generan un hiperplano de parmetros desconocidos: (2) donde es la perturbacin aleatoria que recoge todos aquellos factores de la realidad no controlables u observables y que por tanto se asocian con el azar, y es la que confiere al modelo su carcter estocstico. En el caso ms sencillo, con una sola variable explicativa, el hiperplano es una recta: (3) El problema de la regresin consiste en elegir unos valores determinados para los parmetros desconocidos , de modo que la ecuacin quede completamente especificada. Para ello se necesita un conjunto de observaciones. En una observacin cualquiera i-sima (i= 1,... I) se registra el comportamiento simultneo de la variable dependiente y las variables explicativas (las perturbaciones aleatorias se suponen no observables). (4) Los valores escogidos como estimadores de los parmetros, , son los coeficientes de regresin, sin que se pueda garantizar que coinciden con parmetros reales del proceso generador. Por tanto, en (5) Los valores son por su parte estimaciones de la perturbacin aleatoria o errores. Hipotesis de modelo de regresin lineal clsico 1. Esperanza matemtica nula.
Para cada valor de X la perturbacin tomar distintos valores de forma aleatoria, pero no tomar sistemticamente valores positivos o negativos, sino que se supone que tomar algunos valores mayores que cero y otros menores, de tal forma que su valor esperado sea cero. 2. Homocedasticidad para todo t Todos los trminos de la perturbacin tienen la misma varianza que es desconocida. La dispersin de cada en torno a su valor esperado es siempre la misma. 3. Incorrelacin. para todo t,s con t distinto de s Las covarianzas entre las distintas pertubaciones son nulas, lo que quiere decir que no estn correlacionadas o autocorrelacionadas. Esto implica que el valor de la perturbacin para cualquier observacin muestral no viene influenciado por los valores de la perturbacin correspondientes a otras observaciones muestrales. 4. Regresores no estocsticos. 5. No existen relaciones lineales exactas entre los regresores. 6. Suponemos que no existen errores de especificacin en el modelo ni errores de medida en las variables explicativas 7. Normalidad de las perturbaciones
Supuestos del modelo de regresin lineal Para poder crear un modelo de regresin lineal, es necesario que se cumpla con los siguientes supuestos: 3
1. La relacin entre las variables es lineal. 2. Los errores en la medicin de las variables explicativas son independientes entre s. 3. Los errores tienen varianza constante. (Homocedasticidad) 4. Los errores tienen una esperanza matemtica igual a cero (los errores de una misma magnitud y distinto signo son equiprobables). 5. El error total es la suma de todos los errores.
Tipos de modelo de regresin lineal Existen diferentes tipos de regresin lineal que se clasifican de acuerdo a sus parmetros: Slo se maneja una variable independiente, por lo que slo cuenta con dos parmetros. Son de la forma: 4
(6) donde es el error asociado a la medicin del valor y siguen los supuestos de modo que (media cero, varianza constante e igual a un y con ). Anlisis Dado el modelo de regresin simple, si se calcula la esperanza (valor esperado) del valor Y, se obtiene: 5
(7)
Derivando respecto a y e igualando a cero, se obtiene: 5
(9) (10) Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solucin para ambos parmetros: 4
(11) (12) La interpretacin del parmetro es que un incremento en Xi de una unidad, Yi incrementar en Regresin lineal mltiple La regresin lineal permite trabajar con una variable a nivel de intervalo o razn. De la misma manera, es posible analizar la relacin entre dos o ms variables a travs de ecuaciones, lo que se denomina regresin mltiple o regresin lineal mltiple. Constantemente en la prctica de la investigacin estadstica, se encuentran variables que de alguna manera estn relacionadas entre s, por lo que es posible que una de las variables pueda relacionarse matemticamente en funcin de otra u otras variables. Maneja varias variables independientes. Cuenta con varios parmetros. Se expresan de la forma: 6
(13) donde es el error asociado a la medicin del valor y siguen los supuestos de modo que (media cero, varianza constante e igual a un y con ).
Rectas de regresin Las rectas de regresin son las rectas que mejor se ajustan a la nube de puntos (o tambin llamado diagrama de dispersin) generada por una distribucin binomial. Matemticamente, son posibles dos rectas de mximo ajuste: 7
La recta de regresin de Y sobre X: (14) La recta de regresin de X sobre Y: (15) La correlacin ("r") de las rectas determinar la calidad del ajuste. Si r es cercano o igual a 1, el ajuste ser bueno y las predicciones realizadas a partir del modelo obtenido sern muy fiables (el modelo obtenido resulta verdaderamente representativo); si r es cercano o igual a 0, se tratar de un ajuste malo en el que las predicciones que se realicen a partir del modelo obtenido no sern fiables (el modelo obtenido no resulta representativo de la realidad). Ambas rectas de regresin se intersecan en un punto llamado centro de gravedad de la distribucin. Anlisis de Regresin Mltiple Dispone de una ecuacin con dos variables independientes adicionales:
Se puede ampliar para cualquier nmero "m" de variables independientes:
Para poder resolver y obtener y en una ecuacin de regresin mltiple el clculo se presenta muy tediosa porque se tiene atender 3 ecuaciones que se generan por el mtodo de mnimo de cuadrados:
Para poder resolver se puede utilizar programas informticos como AD+, SPSS y Minitab y Excel. El error estndar de la regresin mltiple Es una medida de dispersin la estimacin se hace ms precisa conforme el grado de dispersin alrededor del plano de regresin se hace mas pequeo. Para medirla se utiliza la formula:
Y : Valores observados en la muestra : Valores estimados a partir a partir de la ecuacin de regresin n : Nmero de datos m : Nmero de variables independientes El coeficiente de determinacin mltiple Mide la tasa porcentual de los cambios de Y que pueden ser explicados por , y simultneamente.
III.- APLICACION DE REGRESION MULTIPLE Mediante el siguiente problema podremos ilustrar la aplicacin de Regresin Multiple: En la Facultad de Ingeniera de Sistemas y Computo de la Universidad "Inca Garcilaso de la Vega" se quiere entender los factores de aprendizaje de los alumnos que cursan la asignatura de PHP, para lo cual se escoge al azar una muestra de 15 alumnos y ellos registran notas promedios en las asignaturas de Algoritmos, Base de Datos y Programacin como se muestran en el siguiente cuadro. Alumno PHP Algoritmos Base de Datos Programacin 1 13 15 15 13 2 13 14 13 12 3 13 16 13 14 4 15 20 14 16 5 16 18 18 17 6 15 16 17 15 7 12 13 15 11 8 13 16 14 15 9 13 15 14 13 10 13 14 13 10 11 11 12 12 10 12 14 16 11 14 13 15 17 16 15 14 15 19 14 16 15 15 13 15 10 Lo que buscamos es construir un modelo para determinar la dependencia que exista de aprendizaje reflejada en las notas de la asignatura de PHP, conociendo las notas de las asignaturas Algoritmos, Base de Datos y Programacin. Se presentara la siguiente ecuacin a resolver:
Utilizando las formulas de las ecuaciones normales a los datos obtendremos los coeficientes de regresin o utilizando Regresin de Anlisis de datos, en la Hoja de Calculo de Excel podemos calcular tambin los coeficientes de regresin:
Por lo tanto podemos construir la ecuacin de regresin que buscamos:
El Error Estndar de Regresin Mltiple Mediante esta medida de dispersin se hace ms preciso el grado de dispersin alrededor del plano de regresin, se hace ms pequeo. Para calcularla se utiliza la formula siguiente:
En los resultados de Excel se llama error tpico y para explicar la relacin del aprendizaje de PHP que se viene desarrollando es de 0.861 El coeficiente de determinacin mltiple (r2) Utilizaremos para determinar la tasa porcentual de Y para ser explicados las variables mltiples, utilizando la si siguiente formula:
Anlisis de regresin
En trminos generales, el anlisis de Regresin trata sobre el estudio de la dependencia de un fenmeno econmico respecto de una o varias variables explicativas, con el objetivo de explorar o cuantificar la media o valor promedio poblacional de la primera a partir de un conjunto de valores conocidos o fijos de la/s segunda/s.
Estudiar y predecir el valor promedio de una variable sobre la base de valores fijos de otras variables. Existe una asimetra en el tratamiento que se les da a las variables.
La variable dependiente es aleatoria o estocstica: su valor depende de una distribucin de probabilidades.
Las variables independientes tienes valores fijos en muestras repetidas.
La forma ms intuitiva de formarse una primera impresin sobre el tipo de relacin que existe entre dos variables es a travs del Diagrama de Dispersin.
Un diagrama de dispersin es un grfico en el que una de las variables (Xi) se coloca en el eje de las abscisas y la otra (Yi) en el eje de las ordenadas y los pares de puntuaciones de cada sujeto (xi,yi) se representan como una nube de puntos.
FUNCIN DE REGRESIN POBLACIONAL:
Curva que conecta las medias de las subpoblaciones de la variable dependiente que corresponden a los valores dados por la variable independiente.
Poblacin (Universo): un conjunto total de elementos que poseen una o ms caractersticas en comn.
_ Hace referencia al conjunto total de elementos que se desea estudiar. _ Pueden ser finitas, formadas por un nmero finitos de elementos, o infinitas donde el nmero de elementos es infinito.
Dado que es imposible describir con exactitud todas las caractersticas de una poblacin infinita o conformada por un gran nmero de elementos, lo habitual es trabajar con muestras.
Muestra: Es un subconjunto de la poblacin.
_ Suelen ser conjuntos de elementos de tamao reducido.
_ La informacin que contiene permite extraer conclusiones sobre las propiedades de la poblacin, siempre que los elementos que conformen la muestra sean representativos de la poblacin.
FUNCIN DE REGRESIN MUESTRAL:
Son aproximaciones de la funcin de regresin poblacional. Las diferencias con respecto a esta ltima son ocasionadas por las fluctuaciones muestrales. Por lo que se tendran N FRMs para N muestras diferentes y tales FRMs no necesariamente coinciden.
OBJETIVO PRINCIPAL:
Del anlisis de regresin es por tanto estimar la funcin de regresin poblacional (FRP) a partir de la funcin de regresin muestral (FRM).