Вы находитесь на странице: 1из 11

II Regresin Lineal Simple o bivariada Explicacin

Dos variables involucradas en el anlisis (X,Y) Un anlisis de regresin lineal busca encontrar relaciones entre dos variables cuantitativas, un modelo para describir esa relacin y poder con ello predecir valores de Y en funcin de valores de X. Su diagrama Causal es el siguiente:

El punto de partida es explorar si esa relacin entre dos variables realmente existe y qu tipo de relacin es. Para ello, utilizamos dos recursos, el diagrama de dispersin que nos mostrar el patrn de asociacin entre las variables y el coeficiente de correlacin de Pearson para cuantificar la direccin y la fuerza de este patrn1. Siempre es necesario analizar el diagrama de dispersin y el coeficiente de correlacin en conjunto. De esta forma, podemos establecer que existe una legtima razn para realizar el anlisis. Adems de una relacin del tipo lineal, los supuestos de la regresin lineal o condiciones que debemos encontrar para poder realizar el anlisis son que la dispersin de los valores de Y para cada uno de los valores de X sea relativamente normal (homocedasticity) y observar que no existan unidades de anlisis que se distancien demasiado de la lnea recta, o que presenten un comportamiento extremo o desigual (outliers)2. Luego de determinar que estos supuestos se alcanzan para la relacin entre las variable X e Y y podemos continuar con el anlisis de regresin, lo que hacemos es trazar lneas rectas que describan la relacin entre las puntuaciones de las variables. Podramos encontrar muchas lneas distintas. Lo que hacemos entonces es un esfuerzo por encontrar la lnea recta que mejor se ajuste a nuestra data y nos permita tener un modelo para estimar Y en base a X. La funcin que representa la mejor recta es: y = + X +

El coeficiente de correlacin mide cmo X e Y se mueven en conjunto en relacin a sus medias. Toma valores entre -1 y +1. Una correlacin de valor 0 significa que no existe una relacin lineal entre X e Y, aunque pueden estar relacionadas de otra manera, lnea curva por ejemplo. 2 Al analizar el diagrama de dispersin tambin nos podemos encontrar con otros problemas como la formacin de Clusters o grupos dentro de las puntuaciones (que puede deberse a una tercera variable que est interfiriendo en la relacin (por ejemplo edad), lneas paralelas a veces una variable escondida, as como lneas no paralelas nos pueden hablan de efectos de interaccin.

Donde es el punto donde la recta intersecta a Y, es la pendiente de la recta y representa el error del modelo debido al azar3. Conociendo los valores de y , podemos calcular Y. Lo que obtendremos entonces no es el verdadero valor de Y, sino una estimacin (Y-hat o ) o una media de los valores que toma Y basado en los valores observados de X. La diferencia entre Y y es el error del modelo = Y . En la muestra y = a + bX, donde a es y b es en el modelo de la poblacin (=e). a es un coeficiente constante que representa la interseccin de Y o el punto en que la recta cruza el eje de Y. En otras palabras, es el valor de Y cuando X es igual a 0. b conocido como pendiente o coeficiente de regresin, representa el cambio en Y asociado con el crecimiento en una unidad de X. e es el error en la muestra para cada uno de los valores estimados de Y, stos se compensan de tal forma entre ellos que su suma algebraica es siempre igual a 0. Sin embargo, que esta suma sea cero, no es suficiente para afirmar que es sta la mejor recta que podemos encontrar (muchas otras rectas pueden comportarse de esa manera). Necesitamos un criterio adicional, este es el criterio de los mnimos cuadrados o Ordinary Least Square, bajo en cual la suma de los cuadrados de los errores debe ser la mnima4. Esta minimizacin se hace fijando uno de los coeficientes (a o b) cuando el otro es calculado e igualando la ecuacin a cero. Luego de esto obtenemos la mejor frmula para calcular a y b: b= (X-X)(Y-) (X-X)2 a= -b X Es ahora cuando podemos calcular el valor esperado de Y para cada unidad de anlisis al igual que el error o residuales e= Y . Estos residuales o puntuaciones obtenidas (que sumarn cero) tendrn tambin su media (cero) y su desviacin estndar (Se) que nos indicar en qu grado los residuales se encuentran dispersos respecto a la recta de regresin. Si esta desviacin estndar es menor que la desviacin estndar de Y (sy) significa que existe una relacin lineal entre X e Y. La suma de todos los residuales al cuadrado, en tanto, es la menor respecto a cualquier otra funcin lineal que podramos haber encontrado. Esto es producto del criterio OLS o mnimos cuadrados. A continuacin, el anlisis se centra en medir la magnitud de la relacin entre las variables y la proporcin de varianza explicada por el modelo. Esto se realiza mediante el clculo del coeficiente de correlacin y su cuadrado (coeficiente de determinacin) respectivamente. El Coeficiente de determinacin (0 a 1) puede ser interpretado de dos maneras, como una medida de prediccin o como una medida de la varianza explicada (es el mismo valor). Como prediccin lo utilizamos ya que podemos calcular el coeficiente en base al error que obtenemos al utilizar la media como el mejor predictor (cuando no conocemos los valores de X) y el error que obtenemos cuando utilizamos como el mejor predictor (clculo realizado ms arriba, nos
3

El error es agregado al modelo ya que no siempre lo que ocurre en la muestra es generalizable a lo que ocurre en la poblacin, la prediccin de Y no es siempre perfecta, por eso no es modelo determinista sino probabilista. 4 Al ser una suma de cuadrados su adicin ya no resultar en 0 como la suma del error normal ya que los valores no se compensan entre ellos. Tambin tiene un mejor comportamiento que la suma de los errores con valores absolutos.

basamos en X para predecir). Visto y concebido de esta manera, lo interpretamos diciendo que existe una reduccin proporcional de % en la probabilidad de error cuando confiamos en X para predecir Y que cuando no lo hacemos. Como varianza explicada, en tanto, lo que hacemos es entender la varianza de Y como una suma de dos partes, una parte explicada (regresin) y otra no explicada (error) y cuando dividimos la varianza explicada por la varianza total de Y, los que obtenemos es la proporcin de la varianza de Y que es explicada por la variable X. El Coeficiente de correlacin puede ser visto (y calculado) de tres maneras: como la covarianza corregida para las varianzas, como la covarianza de variables estandarizadas (el coeficiente de regresin estandarizado es igual al coeficiente de correlacin) y como la media geomtrica de los coeficientes de regresin (el producto de by1 y b1y es igual al coeficiente de determinacin del cual el coeficiente de correlacin es su raz cuadrada). Otro punto importante de este anlisis es poder generalizar sus resultados desde la muestra a la poblacin estudiada (de b a y de r a ) En general, dos test de significancia pueden ser realizados5: un test para el coeficiente de correlacin (o de determinacin) con la H0: 1y=0; o un test para el coeficiente de regresin con la H0: =0. Existen distintos test de significancia para y . Usaremos el procedimiento de comparacin de modelos (que nos lleva a los mismos resultados y es generalizable para el caso de anlisis multivariado). En este procedimiento, dos modelos son comparados, el modelo restringido (que postula que no se necesita de X para la prediccin de Y, sino ) y el modelo completo en el que X es incluido. Los errores de ambos modelos son comparados (SSEr= (Y-)2 SSEf= (Y- )2), si la diferencia es sustancial, entonces el modelo completo es mejor que el modelo restringido. Agregamos a esta frmula los grados de libertad de ambos modelos6 , obtenemos el valor F para evaluar la significancia de nuestros clculos. Comparamos nuestro valor de F con el de la tabla y de acuerdo a su diferencia aceptamos o rechazamos la H0 (si es mayor al valor de la tabla, rechazamos la hiptesis nula y aceptamos la de investigacin). La frmula para calcular F tambin puede obtenerse en base a los coeficientes de determinacin. Estas formas de obtener F y con sus derivaciones sern aplicadas en el anlisis de regresin mltiple, anlisis de varianza y otros modelos de anlisis multivariado. En resumen, los principales objetivos de la tcnica son: - Buscar una funcin y= a+bX que represente la relacin lineal entre X e Y mejor que cualquier otra funcin. Calculamos el coeficiente de regresin. - Investigar la magnitud de la relacin entre X e Y y qu parte de la varianza de Y es explicada por la varianza de X. Calculamos el coeficiente de correlacin (Pearson) y su cuadrado. - Comprobamos si la relacin entre X e Y encontrada en la muestra puede ser generalizada a la poblacin. Realizamos un test de significancia para la relacin.

5 6

Que en el caso de una regresin bivariada coinciden, no as en anlisis multivariado. Que en el caso del modelo restringido ser n-1, ya que slo hemos estimado = , y para el modelo completo n-2 ya que hemos estimado 0 y 1.

Output en SPSS
Para llevar a cabo una prueba t en SPSS: Analizar Regresin Lineal Aparecer el siguiente cuadro de dilogo:

Seleccionar las variables dependientes y la independiente. Ok.

II Anlisis de Regresin Mltiple Explicacin


Mltiple significa que ahora hay ms de una variable independiente X medida a nivel cuantitativo incluida en el anlisis. El modelo lineal es ahora ms complejo y la representacin grfica ya no es de dos, sino tres dimensiones (para dos X). Siguiendo la lgica de la regresin bivariada, para la poblacin el modelo es el siguiente: Y= 0 + y1.2 X1+ y2.1 X2 + (considerando X1 y X2 en el anlisis). Todos los smbolos son iguales a los del anlisis bivariado excepto el coeficiente de regresin que es ahora un coeficiente de regresin parcial definido como el crecimiento de Y por cada unidad que aumenta X1 cuando X2 es controlada o se mantiene constante. En la representacin grfica ya no tenemos una lnea de regresin sino un plano. Los errores o residuales (Y ) tambin son positivos y negativos y su suma, por tanto y al igual que en caso del anlisis bivariado, es cero. Tal como en su versin bivariada, lo que hacemos ahora es tratar de encontrar el plano ya no la recta - que mejor se ajuste a la relacin entre variables, es decir, aplicamos nuevamente el criterio de los mnimos cuadrados o OLS.

El anlisis de regresin mltiple tambin debe realizarse bajo los supuestos de independencia, linealidad, homoscedasticidad y ausencia de outliers, y adems supone adicin en el modelo y ausencia de multicolinealidad. Estos supuestos, sin embargo, son ms difciles de determinar ya que no pueden ser identificados fcilmente mediante el diagrama de dispersin. El tratamiento geomtrico que utilizaremos es el de considerar a las tres variables como ejes del grfico y a las variables de anlisis como puntos en este espacio (Response Surface Model). El caso contrario, es considerar las unidades como formando los ejes y las tres variables como puntos en este espacio multidimensional (Vector Model).

Lo que hacemos es calcular, de la misma forma que en el caso bivariado, todos las funciones para las posibles relaciones (Y con X1, Y con X2, X1 con X2 y X2 con X1) obteniendo as los coeficientes beta (by1, by2, b12, b21) y de correlacin (ry1, ry2, r12, r21). Podremos esperar que los coeficientes de regresin estandarizados b*12 y b*21 sean iguales a r12 tal como en el caso bivariado. Lo siguiente es calcular los coeficientes de regresin parciales y la interseccin. Un coeficiente parcial (relacin asimtrica entre dos variables controlando una tercera) se obtiene llevando a cabo una regresin bivariada con Y como la variable dependiente y como variable independiente el residual (X-Xhat)7 de X1y X2 removiendo as la relacin lineal entre las variables independientes. De esta forma es como limpiamos o descontaminamos la influencia de X 2 para analizar X1 e Y de una forma pura y viceversa. As obtendremos los coeficientes que, hasta este punto, no nos indican la importancia de cada variable independiente en la explicacin de Y ya que no son comparables. Este contraste puede hacerse nicamente por medio del clculo de los pesos beta b*. A continuacin, estimamos la relacin entre las variables (asociacin lineal entre Y y la combinacin de X1y X2) por medio del coeficiente de correlacin mltiple Ry.12. El cuadrado de este coeficiente es el coeficiente de determinacin mltiple y representa la proporcin de varianza explicada al igual que en el anlisis bivariado. Luego de haber calculado los coeficientes de la funcin, podemos obtener todos los valores de , entonces podemos calcular una correlacin de ceroorden entre Y e : este valor es Ry.12. Su cuadrado ser entonces la proporcin de varianza explicada por la combinacin de las variables independientes. Existen tambin otras maneras de calcular este coeficiente. Tal como en el caso bivariado, la varianza de Y tambin se conforma por una parte explicada y otra no explicada, as el coeficiente de determinacin mltiple es igual a la variacin explicada dividida por la variacin total. Otras formas de obtenerlo, es mediante los coeficientes de correlaciones y los betas o correlaciones parciales. A continuacin, se determina el peso o la importancia relativa de cada variable independiente o predictores para la explicacin de Y. Hasta este punto, los coeficientes de regresin parciales no son comparables. Si lo sern, al estandarizar todas las variables involucradas (y obtener los coeficientes b* o los peso beta) y volver a realizar el anlisis de regresin mltiple. De esta forma

Estos residuales los obtendremos primero llevando a cabo una regresin de X 1 con X2 como independiente y lo mismo al revs para X2

es posible definir qu variable es ms importante o tiene mayor injerencia en el comportamiento de Y8. Finalmente analizamos en qu medida estas observaciones pueden ser generalizadas a la poblacin mediante el test de significancia. En el caso de la regresin mltiple, debemos realizar dos tipos de pruebas: una prueba para el modelo global (en el cual todas las variables independientes estn incluidas) y otra prueba para cada variable independiente por separado. Ambas pruebas pueden ser realizadas mediante el procedimiento de comparacin de modelos (como en el caso bivariado). Prueba para el modelo global: Para esta prueba, consideramos H0: R2y.12= o H0: y1.2 = y2.1 =0. El modelo restringido (Y= 0 + ) es comparado con el modelo completo (Y= 0 + y1.2 X1+ y2.1 X2 + ) incorporando los grados de libertad asociados (un grado perdido en el caso del modelo restringido y uno ms cada beta calculado en caso del modelo completo) y obtendremos el valor de F que debe ser comparado con el valor crtico de F en la tabla para tomar la decisin de aceptar o rechazar la hiptesis nula. Este clculo tambin es posible de realizar va los coeficientes de determinacin. Es muy importante mencionar que en el caso de anlisis que incluyan un gran nmero de variables independientes, es necesario usar una frmula de ajuste para R2 (o R cuadrada ajustada9) ya que si nuevas variables independientes son incorporadas, entonces R2 puede volverse artificialmente grande por un mecanismo de capitalizacin del cambio (o cuando hay pocos casos y muchas variables independientes). Si el modelo global es significante, entonces podemos continuar con una prueba para cada variable por separado. Prueba para cada variable independiente por separado: tradicionalmente, la forma de calcular la significancia para cada variable es mediante una prueba t, que es igual a la raz cuadrada de F. Ac tambin comparamos ambos modelos, pero obtenemos conclusiones por separado y niveles de significancia distintos para cada variable independiente. El trmino constante a o 0 tambin pueden ser testeados y analizar su validez en la poblacin. En resumen, los principales objetivos de la tcnica son cuatro, tres de los cuales son similares a al anlisis bivariado: - Buscar una funcin y= a+ by1.2X1 + by2.1X2 + que represente la relacin lineal entre X1, X2 e Y mejor que cualquier otra funcin. Calculamos los coeficientes de regresin parciales by1.2 y by2.1 adems de a. - Investigar la magnitud de la relacin entre la combinacin lineal entre X1 y X2 por una parte e Y por otra y qu parte de la varianza de Y es explicada por la varianza de X 1 y X2 en conjunto. Calculamos el coeficiente de correlacin mltiple R1.2 y su cuadrado. - Comprobar si las asociaciones encontradas en la muestra pueden ser generalizada a la poblacin. Realizamos pruebas de significancia.

Al contrario de b, estos coeficientes estandarizados nunca pueden ser mayores a 1 (ya que fueron sometidas a estandarizacin). De ser as, es posible que haya un problema de multicolinealidad entre las variables independientes. 9 Es especialmente til para comparar entre modelos con distinta cantidad de variables.

Examinar qu variable independiente es ms importante en la explicacin de Y, es decir, queremos hacer una comparacin de los efectos de X1 sobre Y y de X2 sobre Y. Calculamos los pesos de beta (b*).

Pese a que los cuatro objetivos del anlisis se han realizados, todava hay ciertos pasos inconclusos relacionados con los supuestos que el modelo requiere. 1.- Pruebas para la Aditividad y Linealidad: Para comprobar que la informacin a analizar cumpla con estas condiciones, tambin (tal como en los test de significancia anteriores) utilizaremos el procedimiento de comparacin de modelos. En la regresin mltiple se asume que los efectos de las variables independientes en la explicacin de Y pueden ser sumados. Es decir, una suma ponderada o combinacin lineal de las variables independientes puede ser realizada y en ese caso decimos que es un modelo aditivo. Podramos encontrarnos tambin frente a un modelo en el que el efecto de una VI refuerza a la(s) otra(s) VI en la explicacin de Y, este es un modelo multiplicativo o de interaccin en el que el producto (y ya no la suma) de las VI ofrece una mejor explicacin de Y, en este caso un anlisis de regresin ya no es la tcnica de anlisis adecuada. El procedimiento entonces es comparar ambos modelos: el modelo completo, que en este caso incluir el producto de ambas VI y el modelo restringido, que en este caso ser nuestra ecuacin de regresin que adiciona las VI. El resultado es un valor F que se interpreta siempre de la misma manera. Si F es significativo, entonces el modelo aditivo es inadecuado. Para el caso de la Linealidad, los modelos a comparar sern una funcin parablica (modelo completo) y la funcin lineal (modelo restringido), un valor F es obtenido. Para ello, realizamos dos regresiones, una con los trminos que ya hemos revisado y otra agregando el producto de ambas variables independientes como una variable independiente adicional. 2.- Multicolinealidad: colinealidad se refiere a la correlacin entre dos o ms VI. Si estas estn muy fuertemente correlacionas, el incluirlas en el anlisis no slo es redundante, sino que el clculo de los coeficientes de regresin parcial se vuelven imprecisos y se generan problemas al momento de inferir desde la muestra a la poblacin. Si no estn correlacionadas, ambas - en conjunto pueden hacer un mejor trabajo estimando Y que cada una por si sola. De ah la importancia de testear la existencia de multicolinealidad10. Para demostrarlo, es importante conocer el concepto de tolerancia que es la proporcin de varianza de X1 que no es explicada por la(s) otra(s) VI, es una medida de la ausencia de multicolinealidad. La tolerancia se utiliza para calcular los intervalos de confianza, por tanto, a mayor multicolinealidad, la tolerancia ser menor y con ello aumentar el error estndar y disminuye la precisin.

10

El concepto de multicolinealidad es de naturaleza geomtrica. Si llevamos la relacin entre las variables a un modelo de vectores (donde cada vector representa una variable, comparten su origen y su ngulo es igual al coeficiente de correlacin) y r=1, tendremos que dos variables compartirn la misma lnea o estarn superpuestas y sern, por tanto, intercambiables.

Este problema es relevante en especial si queremos hacer comparaciones entre los efectos de la VI sobre Y. Cmo evitarlo? - La manera ms drstica es eliminar una de las VI del anlisis - Asignarle la varianza comn a una de las VI removindola del resto - Dividir la varianza comn entre las variables - Tratar separadamente a la porcin de varianza compartida - Usar un Anlisis de Factores para reducir el nmero de variables correlacionadas en un nico factor. Finalmente, existe una herramienta para investigar si los supuestos de linealidad, homocedasticidad y ausencia de outliers se cumplen en el modelo, esto es, un anlisis de los residuales. Al examinar los residuos, se recomienda el uso de algn tipo de estandarizacin, para hacerlos comparables directamente. Lo ms usado es la estandarizacin en valores t. Para este anlisis utilizamos un diagrama de dispersin de los residuales con los valores estimados de Y y analizamos su comportamiento. Las violaciones a cada supuesto se pueden identificar a partir patrones especficos en los residuos. En los grficos a continuacin, el primero (null plot) cumple todos los supuestos: se distribuyen aleatoriamente, con similar dispersin en torno a cero, y sin tendencia clara de irse ms hacia arriba o hacia abajo. Tampoco se observan patrones respecto de valores menores o mayores en la VD. Los dems cuadros ilustran violaciones a los distintos supuestos.

Output en SPSS
Para llevar a cabo una prueba t en SPSS: Analizar Regresin Lineal Aparecer el siguiente cuadro de dilogo:

Seleccionar la VD y las VI. Hacer click en estadsticos. Se puede seleccionar Intervalos, Matriz de covarianza, Descriptivos, Cuadro resumen, Durbin Watson11 y Diagnsticos de multicolinealidad12 dependiendo de lo que se quiera revisar. Hacer click en grficos. Seleccionar *ZPRED para Y y *ZREDIS para X para pedir un grfico estandarizado de valores estimados como una funcin de residuos estandarizados. Siguiente. Hacer lo mismo, pero esta vez seleccionar los residuales t (*SDRESID) si se quiere. Se puede pedir un Histograma para los residuos estandarizados. Ok.

Junto a R, R2 y R2 corregida, obtenemos el error o la parte no explicada por la recta de regresin13. El valor del error de la estimacin debera ser menor a un 10% de la media de Y para asegurar la confiabilidad de prediccin del modelo14.

La tabla resumen del Anova, nos informa sobre si existe o no relacin significativa entre la variable dependiente y el conjunto de las variables independientes. F permite contrastar la H0 de que el valor poblacional de R es cero o decidir si el modelo es generalizable a la poblacin. Sig. Representa el nivel de significancia emprica, si es menor que .05 entonces tenemos un resultado significante, rechazamos la H0, ya que la posibilidad de encontrar es valor F en la distribucin muestral F bajo la H0 es muy baja como para aceptarla. O, en otras palabras, es muy improbable (probabilidad .000) que R sea cero en la poblacin cuando en este ejemplo es 0.880, es decir, la relacin entre las variables es significativa.

11

Es una prueba sobre la independencia entre los residuales. Tiene valores entre 0 y 4 siendo 2 la total independencia. Los valores menores a 2 indican una autocorrelacin positiva y mayores a 2 una autocorrelacin negativa. En general, se acepta la independencia cuando DW toma valores entre 1,5 y 2,5. 12 Mientras menor Tolerancia o tolerancia cercana a 0, habr multicolinealidad. 1/tolerancia es el factor de inflacin de la varianza que si toma valores superiores a 4 nos indica una alta multicolinealidad. 13 Aunque valores altos de R usualmente resultan en valores altos de F, el investigador debe evaluar por separado la significacin estadstica de la significacin prctica del modelo. Un modelo con un R bajo (5% o 10%) puede tener de todas maneras un F significativo, pero una cantidad de varianza explicada tan baja no es aceptable para tomar decisiones posteriores, o sostener teoras.
14

Esto a partir del Coeficiente de Variacin (desv. estndar o error/ media)

En este cuadro tendremos toda la informacin necesaria para construir nuestra recta de mnimos cuadrticos. Los coeficientes son la constante de a o 0 y beta. Es importante mencionar que estos coeficientes no son independientes entre s ya que, como hemos visto, son coeficientes parciales y el valor se ajusta considerando la presencia de las otras variables del modelo. Los coeficientes estandarizados en la regresin simple coinciden con r de Pearson. En el caso de la regresin mltiple, permiten valorar la importancia relativa de cada variable dentro del modelo. Los valores de t y sus correspondientes Sig. nos permiten contrastar la hiptesis nula de que los coeficientes de regresin valen cero en la poblacin. En el ejemplo, todas las variables contribuyen de forma significativa a explicar lo que ocurre con la variable dependiente. Informacin complementaria: Intervalos de confianza: Nos informan sobre los lmites que podemos esperar se encuentren los coeficientes en la poblacin. Matriz de covarianza: matriz de covarianzas y correlaciones existentes entre los coeficientes de correlacin parcial. Descriptivos: adems de la informacin general para cada variable, ofrece la matriz de correlaciones entre las variables utilizadas en el modelo. Correlaciones parciales y semiparciales: Un coeficiente de correlacin parcial expresa el grado de relacin existente entre dos variables tras eliminar de ambas el efecto debido a terceras variables. En el contexto de regresin, estos expresan el grado de relacin existente entre cada VI con la VD tras eliminar de ambas el efecto de las otras VI involucradas en el modelo. Un coeficiente de correlacin semiparcial expresa el grado de relacin existente entre dos variables tras eliminar de una de ellas el efecto debido a terceras variables. En el contexto de regresin, estos expresan el grado de relacin existente entre la VD y la parte de cada VI que no est explicada por el resto de las VI.

Вам также может понравиться