You are on page 1of 30

Correlacin

Rosario Collatn Chicana


Universidad Nacional Mayor de San Marcos Ciudad Universitaria, julio de 2013

Las diapositivas constituyen citas textuales de Gravetter y Wallnau, 2008

UNMSM-Fac. CCSS Estadstica para el anlisis sociolgico 2013-1 Prof. Rosario Collatn

Contenido
Introduccin Correlacin Pearson Uso e interpretacin de la correlacin Pearson Test de hiptesis con correlacin Pearson

UNMSM-Fac. CCSS 2013-1 Estadstica para el anlisis sociolgico Prof. Rosario Collatn

Introduccin
Pero muchas situaciones de investigacin no implica comparar grupos
Ej. Se puede analizar la relacin entre dos variables, por ejemplo IQ y creatividad, midiendo ambas variables en un grupo nico de individuos

Estas nuevas situaciones de investigacin plantean preguntas sobre la relacin entre variables y se contina usando una data muestral para hacer inferencias sobre la poblacin. Un grfico puede mostrarnos una relacin clara Pero necesitamos:
Medir la relacin Un test de hiptesis para determinar si es significativa
UNMSM-Fac. CCSS 2013-1 Estadstica para el anlisis sociolgico Prof. Rosario Collatn 4

Relacin entre calificaciones y tiempo empleado para resolver el examen

Fuente: Gravetter y Wallnau, 2008: 510


UNMSM-Fac. CCSS 2013-1 Estadstica para el anlisis sociolgico Prof. Rosario Collatn 5

La correlacin
Es una tcnica estadstica. Se usa para medir y describir la relacin entre dos variables Las variables son simplemente observadas, al natural, no se espera controlar o manipular las variables.
Ejemplo: se toma las notas de los estudiantes para obtener una medida de la performance acadmica de cada estudiante, luego se entrevista cada familia para obtener medidas de los ingresos econmicos. Los datos se usan para determinar si hay una relacin entre el rendimiento escolar y los ingresos familiares. No se manipula ni las notas del estudiante ni los ingresos de las familias, simplemente se observa tal cual ellos ocurren naturalmente.

Se necesita adems los puntajes individual para las dos variables X e Y se hace una grfico con ellos o se le presenta en una tabla el grfico nos permite ver algn patrn o tendencia que existe en la data. La figura muestra una clara relacin entre ingreso familiar y calificaciones, a medida que los ingresos aumentan las calificaciones tambin.

UNMSM-Fac. CCSS 2013-1 Estadstica para el anlisis sociolgico Prof. Rosario Collatn

Grfico

Fuente: Gravetter y Wallnau, 2008: 511


UNMSM-Fac. CCSS 2013-1 Estadstica para el anlisis sociolgico Prof. Rosario Collatn 7

3 caractersticas de la relacin entre x e Y que mide la correlacin


1. La direccin de la relacin. El signo de la correlacin describe la direccin de la relacin 2. La forma de la relacin: puede tener una forma lineal (los puntos en el scatter plot tienden a agruparse alrededor de una lnea recta) como en los ejemplos de venta de bebidas y temperatura. Se dibuja una lnea recta en el centro de los puntos para mostrar la relacin. El uso ms comn de la correlacin es medir relaciones de lnea recta (lineales). Pero existen otras relaciones y existen correlaciones especiales para medirlas.
UNMSM-Fac. CCSS 2013-1 Estadstica para el anlisis sociolgico Prof. Rosario Collatn 8

3 caractersticas de la relacin entre x e Y que mide la correlacin


1. 2. 3. La direccin de la relacin. El signo de la correlacin, positiva (cambio en la misma direccin) o negativa (cambio en direccin opuesta), describe la direccin de la relacin. La forma de la relacin: por ejemplo una forma lineal. La fortaleza o consistencia de la relacin. Para una relacin lineal los puntos pueden fijar perfectamente en una lnea recta. La consistencia de la correlacin se mide con el valor numrico de la correlacin : correlacin perfecta: 1.00 o -1.00. correlacin 0 indica ninguna consistencia, valores intermedios indican el grado de consistencia dibujar una lnea que envuelva los puntos para aproximar la consistencia de la correlacin. El signo (+ o -) y la fuerza de una correlacin son independientes. Una correlacin de 1.00 indica relacin consistente perfecta sea positiva o negativa, y las correlaciones +0.80 y -0.80 son relaciones igualmente consistentes.
UNMSM-Fac. CCSS 2013-1 Estadstica para el anlisis sociolgico Prof. Rosario Collatn 9

Ejemplos de valores diferentes para la correlacin lineal

UNMSM-Fac. CCSS 2013-1 Estadstica para el anlisis sociolgico Prof. Rosario Collatn

10

Correlacin Pearson (r)


La ms comun de las correlaciones es la de Pearson (o correlacin Pearson producto-momento) que mide el grado y la direccin de la relacin lineal entre dos variables. r= (grado en el que X e Y varan juntas))/(grado en el que X e Y varan separadamente) r= (covariabilidad de X e Y)/(variabilidad de X e Y separadamente) Cuando hay una relacin lineal perfecta, todo cambio en X se acompaa de un cambio predecible, correspondiente en Y la covariabilidad (X e Y) es idntica a la variabilidad de X e Y separadamente y la frmula produce una correlacin de 1.00 o -1.00. Lo contrario sucede cuando la correlacin es cero.
UNMSM-Fac. CCSS 2013-1 Estadstica para el anlisis sociolgico Prof. Rosario Collatn 11

Correlacin Pearson: frmula:

UNMSM-Fac. CCSS 2013-1 Estadstica para el anlisis sociolgico Prof. Rosario Collatn

12

Correlacin Pearson: frmula SP


La suma de los productos de las desviaciones mediremos la cantidad de covariabilidad entre dos variables Frmula definicional SP = (X-MX)(Y-MY)
Donde:MX es la media para los scores X y MY la media de los Ys. Se debe:
1. 2. 3. Hallar la desviacin de X y la de Y para cada individuo Hallar el producto de las desviaciones para cada individuo Sumar los productos

Frmula para el clculo SP = XY-((XY)/n) Las dos frmulas producen el mismo SP


UNMSM-Fac. CCSS 2013-1 Estadstica para el anlisis sociolgico Prof. Rosario Collatn 13

Correlacin Pearson: clculo de SP (ejemplo)


Muestra n= 4 MX= 3 MY=5

Fuente: Gravetter y Wallnau, 2008:

UNMSM-Fac. CCSS 2013-1 Estadstica para el anlisis sociolgico Prof. Rosario Collatn

14

Correlacin Pearson: ejemplo


Muestra n= 5 MX= 6 MY= 4

UNMSM-Fac. CCSS 2013-1 Estadstica para el anlisis sociolgico Prof. Rosario Collatn

- El valor positivo de la correlacin indica que los puntos se agrupan alrededor de la lnea que se inclina a la derecha. - El alto valor de la correlacin (cercana a 1.00, indica que los puntos estn muy bien agrupados cerca de la lnea. 15

Uso e interpretacin de la correlacin Pearson: consideraciones


La correlacin simplemente DESCRIBE una relacin entre dos variables. La correlacin NO EXPLICA PORQU las dos variables estn relacionadas no interpretarla como prueba de una relacin causa-efecto entre dos variables. El valor de la correlacin puede estar muy afectada por el rango de puntajes representados en los datos. Uno o dos puntajes extremos, llamados OUTLIERS, pueden tener un efecto dramtico en el valor de una correlacin. Cuando se juzga qu tan buena es una relacin, es tentador centrarse en el valor numrico de la correlacin. Ejemplo: r=+0.5 est a la mitad entre 0 y 1.00, y parece representar un grado de relacin moderada. Sin embargo la correlacin no debe interpretarse como una proporcin. Si bien ua correlacin de 1.00 significa que hay un 100% de relacin perfectamente predecible entre X e Y, una correlacin de 0.5 no significa que pueda hacer una prediccin con 50% de precisin. Para describir qu tan precisamente una variable predice a la otra, se debe elevar al cuadrado la correlacin. Ej: r= 0.05 significa que una variable predice parcialmente la otra, que la porcin predecible es solo r2=0.52 = 0.25 (o 25%) del total de la variabilidad.

UNMSM-Fac. CCSS 2013-1 Estadstica para el anlisis sociolgico Prof. Rosario Collatn

16

Correlacin y causalidad

Fuente: Gravetter y Wallanau, 2008: 522 UNMSM-Fac. CCSS 2013-1 Estadstica para
el anlisis sociolgico Prof. Rosario Collatn

17

Outlier (puntajes extremos)

Fuente: Gravetter y Wallanau, 2008: 524 UNMSM-Fac. CCSS 2013-1 Estadstica para
el anlisis sociolgico Prof. Rosario Collatn

18

El coeficiente de determinacin r2
Para describir qu tan precisamente una variable predice a la otra, se debe elevar al cuadrado la correlacin.
Ej: r= 0.05 significa que una variable predice parcialmente la otra, que la porcin predecible es solo r2=0.52 = 0.25 (o 25%) del total de la variabilidad.

UNMSM-Fac. CCSS 2013-1 Estadstica para el anlisis sociolgico Prof. Rosario Collatn

19

El coeficiente de determinacin r2: definicin


Mide la proporcin de varaiblidad en una variable que puede ser determinado a partir de la relacin con otra variable. Una correlacin de r= 0.80 (o -0.80), significa que r2 = 0.64 (o 64%) de la variabilidad en los puntajes de Y pueden ser predecidos a partir de la relacin con X. El coeficiente r2 mide cunto de la varianza en los puntajes de una de las variables corre a cuenta de la otra variable., o cuanto de la varianza en una variable es DETERMINADA POR SU RELACIN con la otra variable
UNMSM-Fac. CCSS 2013-1 Estadstica para el anlisis sociolgico Prof. Rosario Collatn 20

Correlacin y fuerza de la relacin


La correlacin mide el grado de relacin entre dos variables en una escala de 0 a 1. Este nmero provee una medida del grado de la relacin. Cuando este se eleva al cuadrado se puede usar el valor resultante para medir la fuerza de la relacin. Uso comn: prediccin Si las dos variables estn correlacionadas se puede usar el valor de una para predecir el de la otra La correlacin al cuadrado (r2): mide la proporcin de variabilidad en laos datos que es explicada por la relacin entre X e Y. Se le llama coeficiente de determinacin

UNMSM-Fac. CCSS 2013-1 Estadstica para el anlisis sociolgico Prof. Rosario Collatn

21

Ejemplo
a)r=0 r2= 0 b)r=+0.60 r2= 0.36 c)r=+1.0 r2= 1.00

Fuente: Gravetter y Wallnau, 2008: 299, 525


UNMSM-Fac. CCSS 2013-1 Estadstica para el anlisis sociolgico Prof. Rosario Collatn 22

Test de hiptesis con correlacin Pearson


Pregunta bsica para este test de hiptesis es si existe una correlacin en la poblacin Ej. Hay relacin entre IQ y creatividad? La hiptesis nula es: No. No hay correlacin en la poblacin o la correlacin poblacional es cero. H0: = 0 (No hay una correlacin poblacional) La hiptesis alternativa es: S. Hay una real correlacin no nula en la poblacin. La correlacin poblacional tradicionalmente se representa por (rho) H1: 0 (Hay una verdadera correlacin) Cuando hay una prediccin especfica sobre la direccin de la correlacin es posible hacer una prueba direccional o a una cola
UNMSM-Fac. CCSS 2013-1 Estadstica para el anlisis sociolgico Prof. Rosario Collatn 23

Test de hiptesis direccional con correlacin Pearson


Cuando hay una prediccin especfica sobre la direccin de la correlacin es posible hacer una prueba direccional o a una cola
H0: = 0 (La correlacin poblacional no es positiva) H1: > 0 (La correlacin poblacional es positiva)

UNMSM-Fac. CCSS 2013-1 Estadstica para el anlisis sociolgico Prof. Rosario Collatn

24

Test de hiptesis con correlacin Pearson


Se usa la correlacin muestral para probar hiptesis sobre la correlacin poblacional pero esta no es idntica a la poblacional. Error muestral: discrepancia entre el estadstico de la muestra y el parmetro poblacional. Esto implica que incluso cuando no haya correlacin en la poblacin (=0) es posible obtener un valor diferente de cero para la correlacin muestral Particularmente verdadero para muestras pequeas.
Gravetter y Wallnau, 2008: 528

UNMSM-Fac. CCSS 2013-1 Estadstica para el anlisis sociolgico Prof. Rosario Collatn

25

Test de hiptesis con correlacin Pearson: Grados de libertad para la prueba de correlacin
La prueba de hiptesis para la correlacin Pearson tiene grados de libertad definidos por df = n - 2 Explicacin: una muestra con solo n=2 no tiene grados de libertad Si la muestra solo tiene dos puntajes ellos calzarn perfectamente en una lnea recta y la muestra produce una correlacin perfecta de r = + 1.00. Ya que los primeros dos puntajes producen siempre una correlacin perfecta, la correlacin simple es libre de variar solo cuando los datos contienen ms de dos puntajes. Esto es df = n 2
UNMSM-Fac. CCSS 2013-1 Estadstica para el anlisis sociolgico Prof. Rosario Collatn 26

Valores crticos para la correlacin Pearson

UNMSM-Fac. CCSS 2013-1 Estadstica para el anlisis sociolgico Prof. Rosario Collatn

27

Test de hiptesis con correlacin Pearson: Grados de libertad para la prueba de correlacin
La tabla identifica exactamente qu correlacin muestral es probable obtener para una poblacin con =0 y qu valor es muy improbable. Uso de la tabla:
Conocer el tamao de la muestra (n) y el nivel alfa. Ejemplo: n= 20 nivel alfa 0.05 Para un test a dos colas se localiza df = n- 2 = 18 La tabla muestra un valor de 0.444

Si la hiptesis nula es verdadera y no hay correlacin en la poblacin, entonces la correlacin muestral, de acuerdo a la tabla, debe tener un valor entre +0.444 y -0.444. Si H0 es verdadera, es muy improbable ( = 0.05) obtener una correlacin muestral fuera de este rango. Una correlacin simple ms all de estos valores nos permite rechazar la hiptesis nula. Ah donde dos variables estn consistentemente relacionadas, es posible usar una variable para predecir valores para la segunda variable
UNMSM-Fac. CCSS 2013-1 Estadstica para el anlisis sociolgico Prof. Rosario Collatn 28

Ejercicio

UNMSM-Fac. CCSS 2013-1 Estadstica para el anlisis sociolgico Prof. Rosario Collatn

29

Bibliografa
Gravetter F. J., & Wallnau, L. B. (2008). Statistics for the Behavioral Sciences. Wadsworth Cengage Learning

UNMSM-Fac. CCSS Estadstica para el anlisis sociolgico 2013-1 Prof. Rosario Collatn

30