You are on page 1of 28

ESTADÍSTICA DESCRIPTIVA CON

DOS VARIABLES – CORRELACIÓN


INTRODUCCIÓN
La correlación entre dos variables es el grado de
asociación entre las mismas. Este es expresado por un
único valor llamado coeficiente de correlación (r), el
cual puede tener valores que oscilan entre -1 y +1.
Cuando “r” es negativo, ello significa que una variable
(ya sea “x” o “y”) tiende a decrecer cuando la otra
aumenta (se trata entonces de una “correlación
negativa”, correspondiente a un valor negativo de “b”
en el análisis de regresión).
Cuando “r” es positivo, en cambio, esto significa que una
variable se incrementa al hacerse mayor la otra (lo cual
corresponde a un valor positivo de “b” en el análisis de
regresión).
ESTADÍSTICA DESCRIPTIVA
CON DOS VARIABLES
El procedimiento Correlaciones Bivariadas de SPSS permite
medir el grado de dependencia existente entre dos o más
variables mediante la cuantificación por los denominados
coeficientes de correlación lineal de Pearson, de Spearman
y la Tau-b de Kendall con sus respectivos niveles de
significación.

Antes del cálculo de un coeficiente de correlación, se


inspecciona los datos con el fin de detectar valores atípicos
que puedan producir resultados equívocos.

De entre estos coeficientes, vamos a ver el coeficiente de


correlación lineal de Pearson entre dos variables X e Y.

 Estadísticos: covarianza y correlación


 Gráficos: diagramas de dispersión y rectas de regresión.
− y)
N

ESTADÍSTICA DESCRIPTIVA
r = i =1
(N − 1)⋅ Sx ⋅ Sy

CON DOS VARIABLES


El coeficiente de correlación de Pearson, es una medida
de asociación lineal. Dos variables pueden estar
perfectamente relacionadas, pero si la relación no es
lineal, el coeficiente de correlación de Pearson no será
un estadístico adecuado para medir su grado de
asociación.
Su expresión matemática es la siguiente:

Toma valores que se encuentran dentro del intervalo


cerrado [-1,1], de modo que cuando los valores son
cercanos a 1 en términos absolutos la dependencia
entre las dos variables es estrecha. Un valor 0 indica
que no existe una relación lineal entre ambas
variables.
Representación gráfica de una relación
rendimiento

rendimiento

rendimiento
inteligencia inteligencia inteligencia

Relación lineal Sin Relación lineal


positiva relación negativa
Nota: El coeficiente de correlación de Pearson mide
relación LINEAL.
Representación gráfica de una relación

rendimiento

inteligencia rendimiento inteligencia

Relación lineal Relación no lineal

Nota: El coeficiente de correlación de Pearson mide


relación LINEAL.
Representación gráfica de una relación (3)
rendimiento

rendimiento

rendimiento
inteligencia inteligencia inteligencia

Relación lineal Relación lineal Relación lineal


perfecta (casi perfecta) fuerte/moderada débil
Ahora necesitamos un índice que nos informe tanto del grado en
que X e Y están relacionadas, y si la relación es positiva o negativa
ESTADÍSTICA DESCRIPTIVA
CON DOS VARIABLES
Coeficiente de correlación:
 Pearson. Medida de la asociación lineal entre dos
variables. Los valores del coeficiente de correlación
varían entre -1 a 1. El signo del coeficiente indica la
dirección de la relación y su valor absoluto indica la
fuerza o grado. Los valores mayores indican que la
relación es más estrecha y un valor de 0 indica que no
existe una relación lineal.
 Tau-b de Kendall. Medida no paramétrica de asociación
para variables ordinales o de rangos que tiene en
consideración los empates. El signo del coeficiente
indica ladirección de la relación y su valor absoluto
indica la magnitud de la misma, de tal modo que los
mayores valores absolutos indican relaciones más fuertes.
Los valores posibles varían de -1 a 1, pero un valor de -1 o
+1 sólo se puede obtener a partir de tablas cuadradas.
ESTADÍSTICA DESCRIPTIVA
CON DOS VARIABLES
Coeficiente de correlación:
 Spearman. Se basa en los rangos de los datos en
lugar de hacerlo en los valores reales. Resulta
apropiada para datos ordinales y para datos
agrupados en intervalos que no satisfagan el
supuesto de normalidad. Los valores del
coeficiente varían de -1 a +1. El signo del
coeficiente indica la dirección de la relación y el
valor absoluto del coeficiente de correlación
indica la fuerza de la relación entre las variables.
Los valores absolutos mayores indican que la
relación es mayor.
Para las variables cuantitativas normalmente
distribuidas, se aplica el coeficiente de correlación de
Pearson, si los datos no están normalmente distribuidos
o tienen categorías ordenadas, se aplica la Tau-b de
Kendall o de Spearman.
ESTADÍSTICA DESCRIPTIVA
CON DOS VARIABLES
Coeficiente de correlación:
 Para casos en los que la dirección de la relación
puede ser especificada a priori, se realice un
contraste de hipótesis estadística bilateral o
unilateral. Prueba la hipótesis de que el coeficiente
de correlación sea nulo (r=0), es decir que no exista
relación alguna entre las variables. El estadístico de
contraste se distribuye según una función de
probabilidad t-Student2 con N-2 grados de libertad
siempre y cuando las variables cuya correlación se
mide, se distribuyan normalmente.
 Finalmente, con el objeto de identificar aquellos
coeficientes de correlación que tienen una mayor
significación, se puede seleccionar: Marcar las
correlaciones significativas, opción que marca los
coeficientes de correlación significativos al nivel
0,05 por medio de un solo asterisco y los
significativos al nivel 0,01 con dos.
ESTADÍSTICA DESCRIPTIVA
CON DOS VARIABLES
Para realizar análisis descriptivos bivariantes pueden
usarse los procedimientos siguientes:

- Correlaciones - Regresión lineal -Tabla de contingencia


Índices de Asociación Lineal
Para obtener la covarianza y la correlación de Pearson se
utiliza:
Analizar – Correlaciones – Bivariadas
Se obtiene la matriz
de varianzas y
Se traslada las covarianzas
variables para
obtener el
coeficiente de
correlación lineal

Se puede obtener
3 coeficientes

Sirven para
variables
ordinales
ESTADÍSTICA DESCRIPTIVA
CON DOS VARIABLES
Medias y desviaciones típicas. Si elegimos esta opción, SPSS
calcula para cada una de las variables que se han introducido en el
cuadro de variables la media y la desviación típica. También se
muestra el número de casos que no tienen valores perdidos.
Si seleccionamos esta opción y ejecutamos el procedimiento, la
salida que nos muestra SPSS es la que presentamos a continuación:
ESTADÍSTICA DESCRIPTIVA
CON DOS VARIABLES
De otra parte, en relación con los valores perdidos se pueden
seleccionar las siguientes opciones:

• Excluir casos según pareja. Se excluyen del análisis los


casos con valores perdidos para una o ambas variables de la
pareja que forma un coeficiente de correlación. Debido a que
cada coeficiente está basado en todos los casos válidos para esa
pareja de variables, en cada cálculo se utiliza la mayor cantidad de
información disponible. Esto puede dar como resultado un grupo
de coeficientes basados en un número de casos variables.

• Excluir casos según lista-Se excluyen de todas las correlaciones


los casos con valores perdidos para cualquier variable.
ESTADÍSTICA DESCRIPTIVA
CON DOS VARIABLES
Se obtiene el siguiente resultado:
En esta tabla aparecen
resumidas las matrices de
varianza – covarianza (s) y
correlación (r)

Cada casilla contiene la


correlación y la covarianza
entre el cruce de cada 2
variables (edad con edad, edad
con peso y edad con talla)

Concluimos:
r edad, peso = 0,057; s edad peso= 12,681
r edad, talla = 0,019; s edad talla= 0,27
r peso, talla = 0,813; s peso talla= 0,578

Covarianza:
S2 edad = 455,353
S2 peso = 12,681
S2 Talla = 0,027

** Existe fuerte correlación entre peso y


talla.
ESTADÍSTICA DESCRIPTIVA
CON DOS VARIABLES
Representación Gráfica
Gráficos – Dispersión El resultado obtenido es:
ESTADÍSTICA DESCRIPTIVA
CON DOS VARIABLES
Combinaciones lineales
T = x + y; T = AX + BY
Para ello : Transformar – Calcular
Calculando los descriptivos para las tres
variables se cumplen las propiedades
ESTADÍSTICA DESCRIPTIVA
CON DOS VARIABLES
La covarianza y sus propiedades
 La covarianza es el momento central de orden 1,1 de la
distribución bidimensional.
 Es invariante ante los cambios de origen en cualquiera de las dos
variables. Sin embargo depende de los cambios de unidad. Si se
cambia de unidad de medida en ambas variables la covarianza
se modifica proporcionalmente a ambos cambios.
 Si dos variables son independientes su covarianza es cero.
 La covarianza nos mide la covariación conjunta de dos variables:
Si es positiva nos dará la información de que a valores altos de
una de las variable hay una mayor tendencia a encontrar valores
altos de la otra variable y a valores bajos de una de las variable
,correspondientemente valores bajos. En cambio si la covarianza
es negativa, la covariación de ambas variables será en sentido
inverso: a valores altos le corresponderán bajos, y a valores bajos,
altos. Si la covarianza es cero no hay una covariación clara en
ninguno de los dos sentidos. Sin embargo el hecho de que la
covarianza dependa de las medidas de las variables no permite
establecer comparaciones entre unos casos y otros
ESTADÍSTICA DESCRIPTIVA
CON DOS VARIABLES
Distribución geométrica de la covarianza
Consideremos la nube de puntos formadas por las n parejas de
datos (xi ,yi ). El centro de gravedad de esta nube de puntos
es x, y.
Trasladamos los ejes XY al nuevo centro de coordenadas x,y.
Queda así dividida la nube de puntos en cuatro cuadrantes
Los puntos que se encuentran en el primer y tercer
cuadrante contribuyen positivamente al valor de Sxy, y los
que se encuentran en el segundo y el cuarto lo hacen
negativamente.
EJERCICIO PRÁCTICO

De este modo:

• Si hay mayoría de puntos en el tercer y primer cuadrante,


ocurrirá que , lo que se puede interpretar como que la
variable Y tiende a aumentar cuando lo hace X;

• Si la mayoría de puntos están repartidos entre el segundo y


cuarto cuadrante entonces , es decir, las observaciones Y
tienen tendencia a disminuir cuando las de X aumentan;

• Si los puntos se reparten con igual intensidad alrededor de


(x,y) , entonces se tendrá que Sxy=0.
 Abrimos la base correlación, tenemos las variables
publicidad y ventas y comprobamos la correlación
entre ambas variables.
 Gráficos Dispersión. Introducimos en el eje x la
variable ventas y en la eje y la variable publicidad.
Correlación

 Analizamos el gráfico:

En el gráfico observamos
una correlación fuerte
porque la recta de
regresión esta próximo a
los puntos.
La recta es creciente, es
una correlación positiva
porque al aumentar una
variable también aumenta
la otra.
El contraste de la hipótesis
se hace con el coeficiente
de correlación lineal de
Pearson.
Correlación
 Ho: Los datos siguen una distribución normal.
 H1: Los datos no siguen una distribución normal.
 Como la muestra inferior de 30 casos realizamos el
Test de Shapiro-Wilk
 Analizar – Estadísticos descriptivos – Explorar - Gráficos
y aceptar.
- Si es < 0,005 se rechaza la hipótesis Ho, el conjunto de
datos no sigue una distribución normal.
- Si es > 0,005 se acepta la hipótesis Ho, el conjunto de
datos sigue una distribución normal.
- Entonces, 0,07 >0,005 sigue una distribución normal.
Correlación
 Como las dos variables son cuantitativas debe seguir
una distribución normal.
 Por lo tanto, hay que comprobar que se cumpla las
condiciones de normalidad para los 24 casos de la
muestra.
 Realizamos el cálculo del coeficiente de correlación
de Pearson
 Analizar – Correlaciones – Bivariada, pasamos a la
derecha las dos variables a comprobar y aceptar.
Correlación
 Como las dos variables son cuantitativas debe seguir
una distribución normal.
 Por lo tanto, hay que comprobar que se cumpla las
condiciones de normalidad para los 24 casos de la
muestra.

En conclusión, hemos obtenido un valor diferente de 0,


es decir 0,916 cerca a 1. Podemos decir, que existe
correlación positiva y fuerte.
Correlación
Hipótesis
 Ho: El coeficiente de correlación obtenido procede
de una población cuya correlación es cero, no hay
correlación.
 H1: El coeficiente de correlación obtenido procede
de una población cuya correlación es diferente de
cero, existe correlación.
Ahora nos fijamos en la sig. de la correlación de
Pearson (0,000) que evalúa la probabilidad de que en
la población ambas variables no estén correlacionadas
linealmente y que el coeficiente de correlación sea
cero.

Como es menor que el nivel de significancia α=0,05, se


acepta la H1, por lo que efectivamente es diferente de
cero existe asociación lineal entre las variables
publicidad y ventas.
Correlación
Hipótesis
Para interpretar el coeficiente de correlación utilizamos
la escala siguiente:
Ejercicio
Con la base de datos “temperatura.sav” donde figuran
los datos sobre las temperaturas en dos días diferentes en
una ciudad.
Determinar el tipo de correlación que existe entre ellas
mediante el coeficiente de PEARSON.