Академический Документы
Профессиональный Документы
Культура Документы
Correlaciones y
Anlisis de
Regresin
=1
=
5. Correlaciones y Anlisis de Regresin
=1
=
Como vimos en el tema 1, este coeficiente toma valores entre -1 y 1, con dos informaciones: el
sentido (positivo si es una relacin directa y negativo si es inversa) y la intensidad (de 0 no
relacin o independencia a 1 relacin mxima o perfecta).
1000,0
500,0
0,0
0,000 50,000 100,000
En el tema 1 lo vimos para unos pocos datos y con Excel. El SPSS no slo nos da una estimacin
de ese ndice, sino que nos dice si esa relacin es estadsticamente significativa. Es decir si lo
encontrado para la muestra puede ser extrapolable a la poblacin.
Ho: xy=0
H1: xy0
Como se seal en el tema 3, los estadsticos (referidos a la poblacin) se denotan con una
letra griega, en este caso , mientras que los parmetros (referidos a la muestra) lo hacen
con letras latinas (r).
Lo que en realidad le hemos pedido es que nos calcule las correlaciones variadas de "todas con
todas", es decir la matriz de correlaciones donde nos aparecen las dos pedidas y una tercera
ms.
Nivel socio-
Rendimiento en Rendimiento en econmico de la
Matemticas Lengua familia
Rendimiento en Matemticas Correlacin de Pearson 1 ,680** ,329**
Sig. (bilateral) ,000 ,000
N 6598 6598 6598
Rendimiento en Lengua Correlacin de Pearson ,680** 1 ,338**
Sig. (bilateral) ,000 ,000
N 6598 6598 6598
Nivel socio-econmico de la Correlacin de Pearson ,329** ,338** 1
familia Sig. (bilateral) ,000 ,000
N 6598 6598 6598
**. La correlacin es significativa al nivel 0,01 (bilateral).
Como resultado, nos aparece la llamada "matriz de correlaciones", es decir todas las
correlaciones posibles entre las tres variables (tabla 5.1). Como puede observarse es una
matriz simtrica con unos en la diagonal. La informacin que contiene cada celda es:
Como ya es habitual, comparamos el nivel crtico con nuestro nivel de confianza (). As:
Si Sig > : aceptamos la Hiptesis Nula, luego no hay relacin entre ambas variables.
Si Sig < : rechazamos, la Hiptesis Nula, luego aceptamos la Alterna. Ello implica que
la correlacin es significativa (estadsticamente diferente de 0).
Como hemos sealado, el ndice de correlacin de Pearson exige que las variables sean
cuantitativas, pero tambin que se distribuyan normalmente. Si no se cumplen alguna de las
dos condiciones, o las dos, tenemos dos alternativas:
Tau-b de Kendall. Estima la relacin entre dos variables ordinales. Se interpreta igual
que el ndice de Pearson.
Rho de Sperman, es igual que el coeficiente de correlacin de Pearson, pero tras
transformar las puntuaciones originales en rangos.
En ambos casos, el procedimiento de clculo, las tablas de resultado y su interpretacin son
exactamente igual que en el caso del Coeficiente de Correlacin de Pearson.
e.5.4. Y si restamos el efecto del Nivel Socio-econmico de las familias, sigue influyendo?
El procedimiento es sencillo:
Veamos un poco la lgica del Anlisis de Regresin. Si tenemos dos variables cuantitativas
sobre una misma muestra, podemos representarlas grficamente mediante un grfico de
dispersin (ver figura 5.3). Si, como vimos en el apartado 5.1, estas variables estn
relacionadas, la nube de puntos que se genera tendr una forma alargada. La recta que mejor
se ajusta a esos puntos, que minimiza las distancias, es la llamada Recta de regresin.
Dicha recta, como cualquier recta en el plano, puede escribirse algebraicamente como:
= +
De esta forma, si sabemos la ecuacin de regresin que determina la relacin de una variable
con otra, es posible predecir una variable en funcin de la otra. As, si la ecuacin es "y=3+2x"
y x es 3, y tomar el valor de 9.
Como los puntos no se ajustan completamente a la recta, en realidad habr que considerar ese
elemento como el error. De esta forma, la ecuacin de regresin se denota formalmente:
= 0 + 1 1 +
Variables introducidas/eliminadasb
Variables Variables
Modelo introducidas eliminadas Mtodo
1 Rendimiento en . Introducir
Lenguaa
a. Todas las variables solicitadas introducidas.
b. Variable dependiente: Rendimiento en Matemticas
ANOVAb
Suma de
Modelo cuadrados gl Media cuadrtica F Sig.
1 Regresin 1013537,328 1 1013537,328 5664,751 ,000a
Residual 1180156,464 6596 178,920
Coeficientesa
Coeficientes
Coeficientes no estandarizados tipificados
Modelo B Error tp. Beta t Sig.
1 (Constante) ,583 ,706 ,825 ,409
Tambin se aporta informacin acerca de si los coeficientes de las variables hacen una
aportacin significativa al modelo.
De tal forma que un estudiante que obtenga 50 puntos en Lengua obtendr 39,04 puntos en
Matemticas.
Aunque hemos sealado que uno de los usos del Anlisis de Regresin es la prediccin, hay
ms utilidades:
Ms adelante veremos los supuestos que exige el uso del anlisis de regresin.
= 0 + 1 1 + 2 2 + 3 3 + + +
e.5.5. Estima la ecuacin de regresin mltiple para Rendimiento en Matemticas como variable
dependiente y Nivel socio-econmico de las familias, Actitud hacia las Matemticas y
Satisfaccin con la escuela y Gnero como independientes.
Coeficientes
Coeficientes no estandarizados tipificados
Modelo B Error tp. Beta t Sig.
1 (Constante) 50,555 ,658 76,795 ,000
Nivel socio-econmico de la 5,623 ,205 ,308 27,405 ,000
familia
Actitud hacia las matemticas 3,809 ,210 ,209 18,161 ,000
(en z)
Satisfaccin del estudiante hacia 1,796 ,211 ,098 8,524 ,000
el centro
Gnero del estudiante 1,140 ,412 ,031 2,769 ,006
a. Variable dependiente: Rendimiento en Matemticas
La R2 o varianza explicada por el modelo es de 0,171, es decir estas tres variables explican el
17% de la variabilidad del Rendimiento en Matemticas del estudiante.
La tabla Coeficientes indica, en primer trmino, que todos los coeficientes hacen una
aportacin significativa (todos tiene un nivel crtico menor que nuestro =0,05). Tambin el
valor de esos coeficientes. As, la ecuacin de regresin pedida es:
Veamos cmo se interpreta esta ecuacin de regresin. Con este ejemplo, los datos indican:
FIGURA 5.6. ANLISIS DE REGRESIN LINEAL MLTIPLE CON LAS DIFERENTES ALTERNATIVAS DE MTODOS DE
SELECCIN DE VARIABLES
e.5.6. Estima la ecuacin de regresin mltiple para Rendimiento en Matemticas como variable
dependiente y Nivel socio-econmico de las familias, Actitud hacia las Matemticas y
Satisfaccin con la escuela y Gnero como independientes, con el mtodo Pasos
Sucesivos.
Esta tcnica estadstica, como todas, exige el cumplimiento de una serie de supuestos sin cuyo
cumplimiento los resultados pueden verse seriamente alterados. Aunque este texto no
pretende ser un libro de estadstica, se sealarn por su importancia:
5.6. Ejercicios
e.5.7. Los alumnos ms contentos con la escuela obtiene mejor rendimiento en Lengua? Y si
contralamos el efecto del nivel socio-econmico de las familias?
e.5.8. Cul es la variable que ms varianza del rendimiento en Lengua de los estudiantes
explica? Cunto es?
e.5.9. Con las variables de la base de datos de trabajo, elabora el modelo de regresin lineal que
ms varianza del rendimiento en Matemticas de los estudiantes explique (sin incluir los
otros rendimientos).
e.5.10. Elabora el modelo "lgico" que explique la autoestima de los estudiantes con los datos
que se poseen.
e.5.11. Elabora el mejor modelo de regresin que explique Rendimiento en Ciencia Naturales
con tres variables independientes y verifica el cumplimiento de los supuestos.
1
Los residuos (o residuales) se pueden guardar mediante el cuadro de dilogo Regresin -> Lineal ->
Guardar