Вы находитесь на странице: 1из 19

ANLISIS DE CORRELACIN EMPLEANDO EXCEL

Cuando se estudian en forma conjunta dos caractersticas (variables estadsticas) de


una poblacin o muestra, se dice que estamos analizando una variable estadstica
bidimensional. La correlacin es el grado de relacin que existe entre ambas
caractersticas, y la regresin es la forma de expresar matemticamente dicha relacin.
Dado dos variables, la correlacin permite hacer estimaciones del valor de una de ellas
conociendo el valor de la otra variable.
1) Diagrama de dispersin
Los diagramas de dispersin son planos cartesianos en los que se marcan los puntos
correspondientes a los pares ordenados (X, Y) de los valores de las variables.
2) Clasificacin de la correlacin
2.1) Segn la relacin entre variables
- Correlacin lineal: Se representa mediante una lnea recta.
- Correlacin no lineal: Se representa con una lnea curva.
2.2) Segn el nmero de variables
- Correlacin simple: La variable dependiente acta sobre la variable independiente.
- Correlacin mltiple: Cuando la variable dependiente acta sobre varias variables
independientes.
- Correlacin parcial: Cuando la relacin que existe entre una variable dependiente y
una independiente es de tal forma que los dems factores permanezcan constantes.
2.3) Segn el valor cuantitativo
- Correlacin perfecta: El valor del coeficiente de correlacin es 1
- Correlacin imperfecta: El coeficiente de correlacin es menor a 1 sea en sentido
positivo o negativo.
- Correlacin nula: El coeficiente de correlacin es 0. No existe correlacin entre las
variables.
2.4) Segn el signo
- Correlacin positiva.- Dos variables tiene correlacin positiva cuando al aumentar o
disminuir el valor de una de ellas entonces el valor correspondiente a la otra
aumentar o disminuir respectivamente, es decir, cuando las dos variables aumentan
en el mismo sentido. Ejemplo: La cantidad de carbohidratos que consume y peso de
una persona.
- Correlacin negativa.- Dos variables tiene correlacin negativa cuando al aumentar o
disminuir el valor de una de ellas entonces el valor de la otra disminuir o aumentar
respectivamente, es decir, una variable aumenta y otra disminuye o viceversa.
Ejemplo: Nmero de tems incorrectos y el rendimiento en la evaluacin.

3) Coeficientes de correlacin
Los coeficientes de correlacin son medidas que indican la situacin relativa de los
mismos sucesos respecto a las dos variables, es decir, son la expresin numrica que
nos indica el grado de relacin existente entre las 2 variables y en qu medida se
relacionan. Son nmeros que varan entre los lmites +1 y -1. Su magnitud indica el
grado de asociacin entre las variables; el valor r = 0 indica que no existe relacin entre
las variables; los valores 1 son indicadores de una correlacin perfecta positiva (al
crecer o decrecer X, crece o decrece Y) o negativa (Al crecer o decrecer X, decrece o
crece Y).

No existe correlacin

Correlacin Positiva

Correlacin Negativa

Para interpretar el coeficiente de correlacin utilizamos la siguiente escala:

Valor
-1
-0,9 a -0,99
-0,7 a -0,89
-0,4 a -0,69
-0,2 a -0,39
-0,01 a
-0,19
0
0,01 a 0,19
0,2 a 0,39
0,4 a 0,69
0,7 a 0,89
0,9 a 0,99
1

Significado
Correlacin negativa grande y
perfecta
Correlacin negativa muy alta
Correlacin negativa alta
Correlacin negativa moderada
Correlacin negativa baja
Correlacin negativa muy baja
Correlacin nula
Correlacin positiva muy baja
Correlacin positiva baja
Correlacin positiva moderada
Correlacin positiva alta
Correlacin positiva muy alta
Correlacin positiva grande y perfecta

3.1) COEFICIENTE DE CORRELACIN DE PEARSON


Llamando tambin coeficiente de correlacin producto-momento.
a) Para datos no agrupados se calcula aplicando la siguiente ecuacin:

En donde: r = Coeficiente producto-momento de correlacin lineal

Ejemplo ilustrativo:
Con los datos sobre las temperaturas en dos das diferentes en una ciudad, determinar
el tipo de correlacin que existe entre ellas mediante el coeficiente de Pearson.
X
Y

18 17 15 16 14 12 9 15 16 14 16 18 X =180
13 15 14 13 9
10 8 13 12 13 10 8
Y= 138

Solucin:
Se calcula la media aritmtica

Para X:

Para Y:

Se llena la siguiente tabla:

18
17
15
16
14
12
9
15
16
14
16
18

13
15
14
13
9
10
8
13
12
13
10
8

180

138

3
2
0
1
-1
-3
-6
0
1
-1
1
3

1,5
3,5
2,5
1,5
-2,5
-1,5
-3,5
1,5
0,5
1,5
-1,5
-3,5

Se aplica la frmula:

En consecuencia, existe una correlacin moderada.

9
4
0
1
1
9
36
0
1
1
1
9

4,5
7
0
1,5
2,5
4,5
21
0
0,5
-1,5
-1,5
-10,5

2,25
12,25
6,25
2,25
6,25
2,25
12,25
2,25
0,25
2,25
2,25
12,25

72

28

63

En Excel se calcula de la siguiente manera:


a) En el men Datos/Anlisis de Datos se inserta la funcin COEF.DE.CORREL y
pulsar en Aceptar.

b) En el cuadro de argumentos de la funcin, en el recuadro de la Matriz 1 seleccionar


las celdas de X, y en el recuadro de la Matriz 2 seleccionar las celdas de Y.

c) Al pulsar en Aceptar se obtiene el valor de r.

El diagrama de dispersin en Excel se realiza de la siguiente manera:


a) Seleccionar los datos y en men Insertar/Diagrama de dispersin e insertar
diagrama de dispersin.

b) En diagrama dispersin, escoger el primero.

Para que ver las coordenadas escoger el diseo N 7.

Borrar Serie 1, las lneas horizontales y verticales (haciendo clic y suprimir en cada
objeto).

En ttulo del grfico escribir Diagrama de dispersin.

Clic en el eje x, y luego clic derecho para dar formato al eje.

Poner 2 en la casilla unidad mayor para ver los nmeros de 2 en 2 en el eje x.

c) Clic en Cerrar para culminar la elaboracin del diagrama de dispersin, aunque se le


puede seguir haciendo ms mejoras.

b) Para datos agrupados, el coeficiente de Correlacin de Pearson se calcula


aplicando la siguiente frmula:

Donde:
= nmero de datos.
= frecuencia de celda.
= frecuencia de la variable X.
= frecuencia de la variable Y.
= valores codificados o cambiados para los intervalos de la variable X, procurando
que al intervalo central le corresponda
= 0, para que se hagan ms fciles los
clculos.
= valores codificados o cambiados para los intervalos de la variable X, procurando
que al intervalo central le corresponda
= 0, para que se hagan ms fciles los
clculos.
Ejemplo ilustrativo:
Con los siguientes datos sobre los Coeficientes Intelectuales (X) y de las calificaciones
en una prueba de conocimiento (Y) de 50 estudiantes:
N de
estudiante
1
2
3
4
5
6
7
8
9
10
11

X
76
77
78
79
79
80
80
80
82
82
83

Y
28
24
18
41
43
45
34
18
40
35
30

N de
estudiante
26
27
28
29
30
31
32
33
34
35
36

X
88
88
88
88
89
89
90
90
90
91
92

Y
40
31
35
26
30
24
18
11
15
38
34

12
13
14
15
16
17
18
19
20
21
22
23
24
25

83
83
83
84
84
84
85
85
86
86
86
86
87
88

21
22
23
25
11
15
31
35
26
30
24
16
20
36

37
38
39
40
41
42
43
44
45
46
47
48
49
50

92
93
93
93
94
96
97
98
99
100
101
101
102
102

31
33
35
24
40
35
36
40
33
51
54
55
41
45

1) Elaborar una tabla de dos variables


2) Calcular el coeficiente de correlacin
Solucin:
1) En la tabla de frecuencias de dos variables, cada recuadro de esta tabla se llama una
celda y corresponde a un par de intervalos, y el nmero indicado en cada celda se llama
frecuencia de celda. Todos los totales indicados en la ltima fila y en la ltima columna
se llaman totales marginales o frecuencias marginales, y corresponden,
respectivamente, a las frecuencias de intervalo de las distribuciones de frecuencia
separadas de la variable X y Y.
Para elaborar la tabla se recomienda:

Agrupar las variables X y Y en un igual nmero de intervalos.


Los intervalos de la variable X se ubican en la parte superior de manera horizontal
(fila) y en orden ascendente.
Los intervalos de la variable Y se ubican en la parte izquierda de manera vertical
(columna) y en orden descendente.

Para elaborar los intervalos se procede a realizar los clculos respectivos:


En la variable X:
Calculando el Rango se obtiene:

Calculando el nmero de intervalos se obtiene:

Calculando el ancho se obtiene:

En la variable Y:
Calculando el Rango se obtiene:

Calculando el nmero de intervalos se obtiene:

Calculando el ancho se obtiene:

Nota: Para la variable X se tomar un ancho de intervalo igual a 5 y para la variable Y


un ancho de intervalo igual a 8 para obtener un nmero de intervalos igual a 6 para cada
variable.
Contando las frecuencias de celda para cada par de intervalos de las variables X y Y se
obtiene la siguiente tabla de frecuencias de dos variables:
Coeficientes Intelectuales (X)
76-80 81-85 86-90 91-95 96-100 101-105
51-58
1
2
43-50
2
1
35-42
1
3
3
3
3
1
27-34
2
2
3
3
1
Califcaciones (Y)
19-26
1
4
5
1
11-18
2
2
4
8
11
15
7
5
4

3
3
14
11
11
8
50

Interpretacin:
- El nmero 5 es la frecuencia de la celda correspondiente al par de intervalos 86-90 en
Coeficiente Intelectual y 19-26 en Calificacin obtenida en la prueba de conocimiento.
- El nmero 8 en la fila de fx es el total marginal o frecuencia marginal del intervalo 76-80
en Coeficiente Intelectual.
- El nmero 14 en la columna de fy es el total marginal o frecuencia marginal del intervalo
35-42 en Calificacin obtenida en la prueba de conocimiento.
- El nmero 50 es total de frecuencias marginales y representa al nmero total de
estudiantes.
2) Realizando los clculos respectivos se obtiene la siguiente tabla:

Nota:
Los nmeros de las esquinas de cada celda en la anterior tabla representan el producto
fdxdy, as por ejemplo, para obtener el nmero el nmero -8 de los intervalos 76-80 en
X y 43-50 en Y se obtiene multiplicando 2(-2)(2) = -8. Para obtener el nmero 6 de los
intervalos 96-100 en X y 51-58 en Y se obtiene multiplicando 123 = 6.
Los nmeros de la ltima columna (24, -2, 7, 0, 5 y 12) se obtienen sumando los
nmeros de las esquinas en cada fila, as por ejemplo, para obtener el nmero 24 se
suma 6 + 18 = 24.
Los nmeros de la ltima fila (0, 5, 0, 2, 12 y 27) se obtienen sumando los nmeros de
las esquinas en cada columna, as por ejemplo, para obtener el nmero 27 se suma 18
+ 6 + 3 = 27.
Para obtener el nmero 2 de la antepenlmina columna se obtiene sumando los
resultados de fydy, es decir, representa la fydy
Para obtener el nmero 2 de la antepenlmina fila se obtiene sumando los resultados de
fxdx, es decir, representa la fydy
Para obtener el nmero 96 de la penltima columna se obtiene sumando los resultados
de
, es decir, representa
Para obtener el nmero 106 de la penltima fila se obtiene sumando los resultados de
, es decir, representa
Para obtener ltimo nmero de la ltima columna se obtiene sumando los resultados de
la ltima columna (46=24-2+7+0+5+12), es decir, representa fdxdy.
Para obtener ltimo nmero de la ltima fila se obtiene sumando los resultados de la
ltima fila (46=0+5+0+2+12+27), y tiene que ser igual al ltimo nmero de la ltima
columna como comprobacin que los clculos de la tabla han sido correctos.
Observando los datos en la tabla anterior se reemplaza los valores en la ecuacin del
Coeficiente de Correlacin de Pearson para datos agrupados, obtenindose:

Existe una correlacin positiva moderada


Nota: Evidentemente, resulta ms fcil hacer los anlisis pertinentes a travs de tablas
no agrupadas
3.2) COEFICIENTE DE CORRELACIN POR RANGOS DE SPEARMAN
Este coeficiente se emplea cuando una o ambas escalas de medidas de las variables
son ordinales, es decir, cuando una o ambas escalas de medida son posiciones.
Ejemplo: Orden de llegada en una carrera y peso de los atletas.
Se calcula aplicando la siguiente ecuacin:

rs 1

6 d 2

n n 2 1

rs = Coeficiente de correlacin por rangos de Spearman


d = Diferencia entre los rangos (X menos Y) [Rango: posicin]
n = Nmero de datos
Nota: Los datos hay que traducirlos u ordenarlos, de mayor a menor, en rangos. A los
puntajes ms elevados le asignamos el rango 1 al siguiente el rango 2 y as
sucesivamente. Si se repiten dos puntajes o ms se calculan las medias aritmticas.
Ejemplo ilustrativo N 1: La siguiente tabla muestra el rango u orden obtenido en la
primera evaluacin (X) y el rango o puesto obtenido en la segunda evaluacin (Y) de 8
estudiantes universitarios en la asignatura de Estadstica. Realizar el diagrama de
dispersin y calcular el coeficiente de correlacin por rangos de Spearman.
Estudiante
Diana
Elizabeth
Mario
Orlando
Matas
Josu
Anita
Luca

1
2
3
4
5
6
7
8

3
4
1
5
6
2
8
7

Nota: Observar que la tabla ya describe los rangos correspondientes a cada variable.
Solucin:
El diagrama de dispersin hecho en Excel se muestra en la siguiente figura:

Para calcular el coeficiente de correlacin por rangos de Spearman de se llena la


siguiente tabla:
Estudiante
Diana
Elizabeth
Mario
Orlando
Matas
Josu
Anita
Luca

1
2
3
4
5
6
7
8

3
4
1
5
6
2
8
7

-2
-2
2
-1
-1
4
-1
1

4
4
4
1
1
16
1
1

Se aplica la frmula:

Por lo tanto existe una correlacin positiva moderada entre la primera y segunda
evaluacin de los 8 estudiantes.

En Excel se calcula de la siguiente manera:

a) Se inserta la funcin COEF.DE.CORREL y pulsar en Aceptar.

b) En el cuadro de argumentos de la funcin, en el recuadro de la Matriz 1 seleccionar las


celdas de X, y en el recuadro de la Matriz 2 seleccionar las celdas de Y.

c) Pulsar en Aceptar.

Ejemplo ilustrativo N 2
La siguiente tabla muestra las calificaciones de 8 estudiantes universitarios en las
asignaturas de Matemtica y Estadstica. Calcular el coeficiente de correlacin por
rangos de Spearman y realizar el diagrama de dispersin.
N
1
2
3
4
5
6
7
8

Estudiante Matemtica Estadstica


Diana
10
8
Elizabeth
9
6
Mario
8
10
Orlando
7
9
Matas
7
8
Josu
6
7
Anita
6
6
Luca
4
9

Nota: La tabla, a diferencia del ejemplo anterior, brinda puntuaciones directas para cada
estudiante.
Solucin:
Para calcular el coeficiente de correlacin por rangos de Spearman se procede a
clasificar u ordenar los datos en rangos (X para Matemtica y Y para Estadstica)
tomando en cuenta las siguientes observaciones:
En la asignatura de Matemtica se observa:

Diana tiene la ms alta calificacin, ocupando el primer puesto, por lo que su rango es
1
Elizabeth ocupa el segundo puesto, por lo que su rango es 2
Mario se encuentra ubicado en el tercer lugar, por lo que su rango es 3
Orlando y Matas ocupan el cuarto y quinto puesto, por lo que su rango es la media
aritmtica de 4 y 5 que da por resultado 4,5

Josu y Anita ocupan el sexto y sptimo lugar, por lo que su rango es la media
aritmtica de 6 y 7 que da por resultado 6,5
Luca se encuentra ubicada en el octavo lugar, por lo que su rango es 8

En la asignatura de Estadstica se observa:


Mario tiene la ms alta calificacin, ocupando el primer puesto, por lo que su rango
es 1
Orlando y Luca ocupan el segundo y tercer puesto, por lo que su rango es la media
aritmtica de 2 y 3 que da por resultado 2,5
Diana y Matas ocupan el cuarto y quinto puesto, por lo que su rango es la media
aritmtica de 4 y 5 que da por resultado 4,5
Josu se encuentra ubicado en el sexto lugar, por lo que su rango es 6
Elizabeth y Anita ocupan el sptimo y octavo lugar, por lo que su rango es la media
aritmtica de 7 y 8 que da por resultado 7,5
Los rangos X y Y se presentan en la siguiente tabla:
N
1
2
3
4
5
6
7
8
Calculando
N
1
2
3
4
5
6
7
8

Estudiante Matemtica Estadstica


Diana
10
8
Elizabeth
9
6
Mario
8
10
Orlando
7
9
Matas
7
8
Josu
6
7
Anita
6
6
Luca
4
9

X
1
2
3
4,5
4,5
6,5
6,5
8

Y
4,5
7,5
1
2,5
4,5
6
7,5
2,5

Y
4,5
7,5
1
2,5
4,5
6
7,5
2,5

d= X-Y
-3,5
-5,5
2
2
0
0,5
-1
5,5

se obtiene los siguientes resultados:

Estudiante Matemtica Estadstica


Diana
10
8
Elizabeth
9
6
Mario
8
10
Orlando
7
9
Matas
7
8
Josu
6
7
Anita
6
6
Luca
4
9

X
1
2
3
4,5
4,5
6,5
6,5
8

Aplicando la frmula se obtiene:

Por lo tanto existe una correlacin positiva muy baja


Nota: Con Excel habra que actuar sobre las columnas X e Y (en los rangos).

d2=(X-Y)2
12,25
30,25
4
4
0
0,25
1
30,25
d2= 82

4) COEFICIENTE DE DETERMINACIN
Revela qu porcentaje del cambio en Y se explica por un cambio en X. Se calcula
elevando al cuadrado el coeficiente de correlacin.

r = Coeficiente de correlacin de Pearson


De donde coeficiente de determinacin = R = r2
Ejemplo ilustrativo
Con los datos de la tabla sobre las temperaturas (ejemplo anteriormente resuelto),
calcular el coeficiente de determinacin.
X
Y

18 17 15 16 14 12 9 15 16 14 16 18
13 15 14 13 9
10 8 13 12 13 10 8

Solucin:
Se sabe que coeficiente de Pearson es r = 0,416
Elevando al cuadrado coeficiente de Pearson queda calculado el coeficiente de
determinacin.
Coeficiente de determinacin =
Esto establece que 17% de los cambios en la variable Y puede ser explicado a travs
de los cambios en la variable X.
Nota:
El valor

tiene significado slo para las relaciones lineales. Dos variables pueden tener
y sin embargo estar relacionadas en sentido curvilneo. El valor de
no se
interpreta como si la variable Y fuera causado por un cambio de la variable X, ya que la
correlacin no significa causa.
En Excel se calcula elevando al cuadrado el coeficiente de correlacin o insertando la
funcin =COEFICIENTE.R2 como muestra la siguiente figura:

Вам также может понравиться