Вы находитесь на странице: 1из 10

UNED

Introduccin al anlisis de datos

TEMA 4

Caso
1
2
...
99
100

ANLISIS CONJUNTO DE DOS


VARIABLES

2010

Centro Asociado A Coru


Corua

Carmen Voces

Cuando se dispone de los datos de dos variables cualitativas (nominales dicotmicas o


politmicas o variables categorizadas) para todos los sujetos de una muestra se puede
elaborar la denominada Tabla de Contingencia.

40
35
30
25
20
15
10
5
0

35
30
25

10

Varn

Mujer
S

2010

No

Sexo (X)

Var
Varn
Mujer

Nombre
Francisco
Luc
Luca
...
In
Ins
David

Gnero (X)
Var
Varn
Mujer
...
Mujer
Var
Varn

Estr
Estrs
S
No
...
S
S

Asociacin y/o Relacin: dos variables estn relacionadas entre s, cuando ciertos
valores, de una de las variables, se asocian con ciertas valores de la otra variable.
En el ejemplo si sucede que cuando se tiene el valor varn en la variable gnero, hay
una incidencia mayor del valor s en la variable de estrs, y adems, cuando se tiene el
valor mujer en la variable gnero, hay una incidencia mayor del valor no en la variable
estrs, decimos que las variables gnero y estrs estn relacionadas. La asociacin o
relacin entre las variables gnero y estrs tambin podra ser al revs: los varones
tienden a no tener estrs y las mujeres tienden a tenerlo.
An existe otra opcin posible que puede darse en esta situacin: tanto los hombres
como las mujeres pueden estar equiparados en el estrs o no estrs. As, no existira
asociacin y/o relacin entre las variables consideradas

UNED
Introducci
TEMA 4
Introduccin al an
anlisis de datos
DOS VARIABLES CUALITATIVAS: TABLAS DE CONTINGENCIA

100 sujetos, para cada uno de los cuales se


han recogido el valor de la variable gnero (X)
y estrs (Y). A partir de la informacin de toda
la muestra, contabilizamos los cuatro casos
posibles: Varn S; Varn No; Mujer S y
Mujer No y elaboramos la Tabla de
Contingencia

TEMA 4

Ejemplo: Hemos recogido los datos de una muestra de 100 sujetos con dos variables, X,
representa el gnero o sexo e Y el grado de estrs con dos categoras (s padece estrs o no
padece estrs). Se presenta a continuacin el principio y el fin del conjunto de datos

Estr
Estrs (Y)
S
No
30
10
25
35
55
45

40
60
100

Observando la Tabla de Contingencia o el


Diagrama de Barras, podremos ver que:
El grupo de varones tiene una incidencia
mayor de padece estrs que el grupo de
mujeres
El grupo de varones tiene una incidencia
menor de no padece estrs que el grupo
de mujeres

2010

UNED

Introducci
TEMA 4
Introduccin al an
anlisis de datos
DOS VARIABLES CUALITATIVAS: ESTAD
ESTADSTICO X2

El estadstico X2 permite determinar si dos variables estn relacionadas o son independientes.


As, X2 se define en funcin de las frecuencias empricas (ne) y las frecuencias tericas
(nt). Las frecuencias tericas se calculan asumiendo que ambas variables son independientes
o no relacionadas. Las frecuencias tericas, nt, sern el producto del total de su fila por el
total de su columna dividido por la frecuencia total, n.

Total fila Total columna


nt =
n

S
Sexo (X)
Var
Varn
Mujer

ne
30
25
55

2010

No
nt
22
33

ne
10
35

nt
18
27
45

nt(VarnS ) =

40 55
= 22
100

nt(VarnNo ) =

40 45
= 18
100

nt( Mujer S ) =

60 55
= 33
100

nt( Mujer No ) =

60 45
= 27
100

Calculadas las frecuencias tericas, a


continuacin
se
pueden
calcular
las
diferencias entre frecuencias empricas
menos frecuencias tericas: ne nt

Estr
Estrs (Y)

Existe alguna relacin entre la variable


gnero y padecer o no padecer estrs? o,
son independientes?

Frecuencias
tericas

UNED

Introducci
Introduccin al an
anlisis de datos
CONCEPTOS PREVIOS

40
60
100

Sexo (X)
Var
Varn
Mujer

Estr
Estrs (Y)
S
No
-8
8
-8
8

UNED

Introducci
TEMA 4
Introduccin al an
anlisis de datos
DOS VARIABLES CUALITATIVAS: ESTAD
ESTADSTICO X2

UNED
Introducci
TEMA 4
Introduccin al an
anlisis de datos
DOS VARIABLES CUALITATIVAS: Coeficiente de contingencia, C
El coeficiente de contingencia, C, toma valores 0 C < 1. Su frmula es la siguiente:

El estadstico X2 se calcula como:

X2 =

(ne nt )2

C=

nt

X2
X2 + n

10,78
= 0,312
10,78 + 100

En el ejemplo: C =

ne es la frecuencia emprica (o frecuencia conjunta observada)


nt es la frecuencia terica (o frecuencia conjunta esperada)
En el ejemplo:

X2 =

(30 22)2 + (10 18)2 + (25 33)2 + (35 27 )2


22

18

33

Sexo (X)
Var
Varn
Mujer

ne
30
25

No
nt
22
33

ne
10
35

= 10,78

Uno de los inconvenientes del estadstico X2


es su difcil interpretacin puesto que
desconocemos su lmite superior. Slo
sabemos que tiene valor cero, cuando no
hay relacin entre las variables, es decir,
cuando las frecuencias empricas y tericas
son iguales en todos los casos. Por ello, las
variables son independientes.

Estr
Estrs (Y)
S

27

El valor de C obtenido se puede comparar, dado que la Tabla de Contingencia tiene igual
nmero de filas que de columnas (k), con un C mximo definido como:

nt
18
27

Para resolver el problema que conlleva la interpretacin de la relacin entre dos variables, de
acuerdo al valor obtenido de X2, se ha definido el ndice o Coeficiente de Contingencia, C.
2010

UNED

Introducci
Introduccin al an
anlisis de datos
DOS VARIABLES CUALITATIVAS

TEMA 4

UNED

Y ( N
Nmero de aciertos en la identificaci
identificacin de
olores)
0

18

42

54

12

126

54

30

30

120

72

43

17

12

144

78

97

65

84

54

12

390

21
= 0,707
2

En el ejemplo, para k = 2: C mx =

Hemos considerado la asociacin entre dos variables cualitativas pero slo con dos valores
cada una de ellas. Las tablas de datos han sido de 2 x 2.
2010

Ejemplo: hemos recogido los datos de estas muestra de 390 sujetos con dos variables: X,
representa tres grupos de deterioro cognitivo (grupo control, deterioro leve y pacientes de
Alzheimer) e Y el nmero de aciertos en la identificacin de olores, con valores desde 0 a 5
aciertos.

k 1
k

Nuestro valor obtenido, C = 0,312, comparado con 0,707 (el C mximo) es casi la mitad. En
cuanto a la relacin, sta es cercana al tipo medio.

Relacin entre dos variables cualitativas cada una de ellas con ms de dos categoras.

Grupo control
X (Grupo
de deterioro Deterioro leve
cognitivo)
Alzheimer

C mx =

Introducci
Introduccin al an
anlisis de datos
DOS VARIABLES CUALITATIVAS

TEMA 4

Relacin entre dos variables cualitativas cada una de ellas con ms de dos categoras.
Y ( N
Nmero de aciertos en la identificaci
identificacin de olores)
0

X (Deterioro
cognitivo)

ne

nt

ne

nt

ne

nt

ne

nt

ne

nt

ne

nt

Grupo control

25,2

31,3

18

21,0

42

27,1

54

17,5

12

3,9

126

Deterioro leve

24,0

54

29,9

30

20,0

30

25,9

16,6

3,7

120

Alzheimer

72

24,8

43

35,8

17

24,0

12

31,0

19,9

4,4

144

78

X2 =

97

65

(ne nt )2 = (0 25,2)2 + ... + (0 4,4)2


nt

25,2

4,4

84

= 322,05 C =

54

X2
=
X2 + n

12

390

322,05
= 0,673
322,05 + 390

Ambos estadsticos indican que existe una relacin significativa entre los Grupos de deterioro
Cognitivo y el Nmero de Aciertos en la Identificacin de Olores. El Grupo control tiene el mayor
nmero de aciertos y no tiene ningn sujeto con menos de 2 aciertos. Los grupos con deterioro
no tienen ningn sujeto con ms de tres aciertos.
2010

2010

UNED
Introducci
TEMA 4
Introduccin al an
anlisis de datos
DOS VARIABLES CUALITATIVAS: Coeficiente de contingencia C
CARACTERSTICAS DEL COEFICIENTE C:
-

Cuanto mayor es el valor C, mayor es la relacin entre las dos variables, y al revs, cuanto
menor es el valor de C, menor es la relacin entre las dos variables. Si queremos utilizar el valor de
C para comparar la relacin entre las mismas variables, cuyos datos tenemos en dos tablas de
contingencia diferentes y son resultado de dos investigaciones distintas, tenemos que vigilar que ambas
tablas de contingencia tengan el mismo nmero de filas y de columnas y aproximadamente el mismo
nmero de datos. Si no tienen el mismo nmero de filas, de columnas, y aproximadamente el mismo
nmero de datos, los valores de C no permiten una comparacin vlida de la relacin de las variables en
ambas investigaciones

Otro aspecto ms complejo es fundamentar la causalidad en un coeficiente de contingencia.


Cuando existe un valor elevado en nuestro coeficiente de contingencia, no se puede afirmar que
una de las variables es causa de la otra. Hay cantidad de variables que se relacionan entre s, porque
existe otra variable ajena que tiene una relacin clara con ambas. Un ejemplo de esto es la influencia que
aparece en muchos casos entre zona geogrfica y la correccin en la forma de hablar. Esto no implica
que la correccin en la forma de hablar sea causada por la geografa, sino, tal vez, por la influencia de
diferentes procesos educativos.

Introducci
Introduccin al an
anlisis de datos
EJEMPLOS

19. Para los datos de la tabla 2, si las variables X e Y fueran independientes, cu


cul ser
sera
la frecuencia de los que no fuman y est
estn muy satisfechos con la protecci
proteccin
medioambiental?:
a) 9,92
b) 7,08
c) 13,43

Y
Las frecuencias tericas, nt, sern
el producto del total de su fila por el
total de su columna dividido por la
frecuencia total, n.
nt =

Total fila Total columna


n

Se puede estimar, en casos en que la tabla de contingencia tenga igual nmero de filas que de
columnas, un valor mximo que puede alcanzar C.

2010

UNED

Introducci
Introduccin al an
anlisis de datos
EJEMPLOS

2010

TEMA 4

UNED

2003 SEPTIEMBRE (MODELO A)

Tabla 2. Variable X: Fumar; 0 = No fuma, 1 = Fuma. Variable Y: Satisfaccin con


proteccin medio ambiente; 1 = insatisfecho, 2 = normal, 3 = muy satisfecho

1
2
3
insatisfecho normal muy satisfecho

nt =
2010

ni.

0 (No fuma)

13

10

12

35

1 (Fuma)

10

10

25

23

20

17

60

n.j

Total fila Total columna


n

13

10

12

10

10

Tabla 2.
Variable X: Fumar; 0 = No fuma, 1 = Fuma.
Variable Y: Satisfaccin con proteccin medio
ambiente; 1 = insatisfecho, 2 = normal, 3 = muy
satisfecho

10

Introducci
Introduccin al an
anlisis de datos
EJEMPLOS

TEMA 4

10. Con los datos de la Tabla 2, si analizamos la relaci


relacin entre ambas variables, el ndice
chichi-cuadrado es igual a:
a) 7,25
b) 0
c) 4,17

Aceptaci
Aceptacin
del
tratamiento

1
0

2010 SEPTIEMBRE (MODELO C)

19. Para los datos de la tabla 2, si las variables X e Y fueran independientes, cu


cul ser
sera
la frecuencia de los que no fuman y est
estn muy satisfechos con la protecci
proteccin
medioambiental?:
a) 9,92
b) 7,08
c) 13,43

TEMA 4

2003 SEPTIEMBRE (MODELO A)

El coeficiente de contingencia, C, puede asumir valores mayores o iguales a cero y menores


que 1. El valor 0 se alcanza cuando X2 = 0 e indica que las dos variables no tienen relacin entre
ellas y, adems, las frecuencias empricas coinciden con las frecuencias tericas. El valor uno, slo
se consigue si n = 0, lo que implica que no hay observaciones, por lo que nunca se puede dar.

UNED

nterica _ 13 =

X2 =

nt

Depresin

Trastorno de
personalidad

36

44

No

16

Tabla 2.
En una investigacin se estudi la aceptacin o
no del tratamiento psicolgico por parte de
pacientes que presentaban dos tipos de
trastornos psicolgicos. En la tabla de doble de
entrada se muestra la distribucin conjunta de
frecuencias absolutas de ambas variables

35 17
= 9,916
60
11

(ne nt )2

Trastorno psicolgico

2010

12

UNED

Introducci
Introduccin al an
anlisis de datos
EJEMPLOS

TEMA 4

UNED

Introducci
Introduccin al an
anlisis de datos
EJEMPLOS

TEMA 4

2010 SEPTIEMBRE (MODELO C)

2010 SEPTIEMBRE (MODELO B)

10. Con los datos de la Tabla 2, si analizamos la relaci


relacin entre ambas variables, el ndice
chichi-cuadrado es igual a:

18. Con los datos de la Tabla 1, hemos obtenido un valor de X2, Chi cuadrado, igual a
6,352. El coeficiente C de Contingencia est
est comprendido entre:

a) 7,25
b) 0
c) 4,17

X2 =

(ne nt )2
nt

Trastorno de
personalidad

Depresin
ne

nt

ne

(4080)/10

32

48

32

8
Total

(36 32 )
32

(2060)/100

(44 48)
48

(4 8)

20

12

(16 12)

Divorciados

Nmero
de hijos

No

20

10

40

10

2 o ms

10

10

Tabla 1. Se ha tomado una muestra aleatoria de 100


parejas, que se casaron en Madrid en el ao 2000.
Se ha tomado nota del nmero de hijos y de si las
parejas se han divorciado o no

100
2

12

X2
X2 + n

80

60
2

C=

Total

48

12

8
40

nt
(8060)/100

(2040)/100

No

= 4,166 4,17

2010

13

UNED

a) 0,7 y 1
b) 0,4 y 0,7
c) 0,1 y 0.4

Trastorno psicolgico

Aceptacin
del
tratamiento

2 =

Introducci
Introduccin al an
anlisis de datos
EJEMPLOS

2010

14

TEMA 4

UNED

Introduccin al anlisis de datos

TEMA 4

2010 SEPTIEMBRE (MODELO B)

18. Con los datos de la Tabla 1, hemos obtenido un valor de X2, Chi cuadrado, igual a
6,352. El coeficiente C de Contingencia est
est comprendido entre:

2 PARTE
Asociacin entre dos variables
cuantitativas

a) 0,7 y 1
b) 0,4 y 0,7
c) 0,1 y 0.4

C=

C=

X2
X2 + n

Divorciados

Nmero
de hijos

No

20

10

40

10

2 o ms

10

10

Tabla 1. Se ha tomado una muestra


6,352
= 0,0597 = 0,24
aleatoria de 100 parejas, que se
6,352 + 100
casaron en Madrid en el ao 2000. Se
ha tomado nota del nmero de hijos y
de si las parejas se han divorciado o no

2010

15

En el caso de dos variables cuantitativas, X e Y, utilizaremos la tabla de datos


conjuntos. Elaboraremos el diagrama de dispersin como representacin
grfica; aprenderemos a calcular la covarianza y el coeficiente de correlacin
de Pearson como los dos ndices fundamentales para el anlisis de la relacin
lineal entre ellas. Finalmente, si dos variables cuantitativas estn relacionadas
linealmente podemos utilizar una de ellas para efectuar predicciones o
pronsticos sobre la otra. La recta de regresin ser el instrumento adecuado
para ello.
2010

Centro Asociado A Coru


Corua

Carmen Voces

UNED
Introducci
TEMA 4
Introduccin al an
anlisis de datos
DOS VARIABLES CUANTITATIVAS: Diagrama de Dispersi
Dispersin

UNED

Ejemplo: Sea una variable X la puntuacin obtenida en un test de razonamiento numrico y


sea la variable Y la calificacin obtenida en la asignatura de matemticas. Para un grupo de 5
nios hemos obtenido los resultados recogidos en la siguiente Tabla de Datos.
Ni
Nio
1
2
3
4
5

X
4
8
10
12
16

Y
6
4
7
8
10

En primer lugar, vamos a considerar la


representacin
grfica
de
dos
variables
cuantitativas. Se trata del diagrama de dispersin
o nube de puntos, que es la representacin grfica
ms utilizada por la informacin que facilita.

S XY =

Ni
Nio
1
2
3
4
5

Y (Calificacin en m atem ticas)

10

Vamos a estudiar dos ndices,


relacionados entre s, que permiten
cuantificar la relacin lineal que pueda
haber entre dos variables cuantitativas.

9
8
7
6
5
4
3
2
1
0
0

10

11

12

13

14

15

16

17

17

Introducci
Introduccin al an
anlisis de datos
DOS VARIABLES CUANTITATIVAS: Covarianza

9
8
7

2,5

2
1,5

4
3

0,5

TEMA 4

X=

X
4
8
10
12
16
50

X = 50 = 10

i i

i =1

Y
6
4
7
8
10
35

XY
24
32
70
96
160
382

Y = 35 = 7
n

i =1

S XY =

Y =

X Y

XY

X Y

i i

S XY =

i =1

XY =

382
(10 7 ) = 6,4
5

El signo, positivo o negativo, de la


covarianza nos indica si la relacin lineal
entre ambas variables es directa o inversa,
respectivamente.
En nuestro caso existe una relacin directa
entre la puntuacin en el test (X) y la
calificacin en matemticas (Y).
18

La correlacin de Pearson es el segundo ndice que nos permite estudiar la posible relacin
lineal entre X e Y. El coeficiente de correlacin de Pearson entre dos variables X e Y, que
designaremos por rXY, viene definido de la siguiente manera.

rXY =

S XY
S X SY

rXY =

nXY XY
nX 2 ( X ) 2 nY 2 ( Y ) 2

El coeficiente de correlacin de Pearson es el cociente entre la covarianza entre X e Y (SXY)


y el producto de la desviacin tpica de X (SX) y la desviacin tpica de Y (SY).

1
0,5
0
0

COV ( X ,Y ) = S xy = 2

COV ( X ,Y ) = S xy = 3,6

COV ( X ,Y ) = S xy = 0

Signo positivo: relacin directa

Signo negativo: relacin inversa

Valor 0: relacin nula

La covarianza presenta un grave problema, al igual que habamos visto para el coeficiente X2
(con variables cualitativas), desconocemos el rango de la covarianza. En este caso son los
valores mximos y mnimos que puede tener. Para evitar este problemas disponemos del
Coeficiente de Correlacin de Pearson, rXY.
2010

UNED
Introducci
TEMA 4
Introduccin al an
anlisis de datos
DOS VARIABLES CUANTITATIVAS: Correlaci
Correlacin de Pearson

2,5

)(

X Yi Y

3,5

4
3,5

1,5

2010

Podemos definir que la relacin lineal directa es la que asume que a valores mayores en una
de las variables, corresponden tambin valores mayores en la otra, y los valores menores en
una variable se corresponden con los valores menores en la otra.
Igualmente, definimos que la relacin lineal inversa es la que asume que a valores mayores
en una de las variables, corresponden valores menores en la otra variable y viceversa.
4,5

(X

X (Test de razonam iento num rico)

2010

TEMA 4

La covarianza es el primer ndice que nos permite estudiar la posible relacin lineal entre X e
Y. El trmino covarianza hace referencia a la variacin conjunta de dos variables, y tanto por
su definicin como por su clculo, es un ndice que cuantifica la variabilidad conjunta de dos
variables. Se designa por Cov(X,Y), o por SXY.

11

En la representacin grfica puede


apreciarse que existe cierta relacin
lineal en las variables X e Y. En
general, a medida que aumentan las
puntuaciones en el test (variable X)
aumentan tambin las calificaciones en
matemticas (variable Y).

UNED

Introducci
Introduccin al an
anlisis de datos
DOS VARIABLES CUANTITATIVAS: Covarianza

19

Ni
Nio
1
2
3
4
5

X
4
8
10
12
16
50

Y
6
4
7
8
10
35

X = 10

Y =7

S XY = 6,4

2010

XY
24
32
70
96
160
382

(X X )

SX =

=4

rXY =

(Y Y )

S XY
6,4
=
= 0,8
S X SY 4 2

SY =

=2

20

UNED
Introducci
TEMA 4
Introduccin al an
anlisis de datos
DOS VARIABLES CUANTITATIVAS: Correlaci
Correlacin de Pearson

UNED
Introducci
TEMA 4
Introduccin al an
anlisis de datos
DOS VARIABLES CUANTITATIVAS: Correlaci
Correlacin de Pearson
Relacin directa

Propiedades:
-1 rXY 1. Slo toma valores comprendidos entre -1 y 1. Valdr 0 cuando no exista
relacin lineal entre X e Y.

Relacin inversa

rXY = 1, si una variable es una transformacin lineal de la otra

Para interpretar los resultados que se obtienen con el coeficiente de correlacin de Pearson
hay que tener en cuenta,
a) En primer lugar, el valor absoluto del coeficiente, cuanto mayor es el valor absoluto
ms fuerte es la relacin lineal entre las dos variables
b)

En segundo lugar, hay que tener en cuenta el signo del coeficiente de correlacin de
Pearson:
i.

ii.

2010

Figura 1. rxy prximo a +1

Figura 2. rxy prximo a -1

Cuando el signo es positivo, indica que a valores mayores de la variable X


tienden a corresponder, en media, valores mayores de la variable Y, y a valores
menores de la variable X tienden a corresponder, en media, valores menores de
la variable Y. Esta es una relacin directa.

Relacin nula

Cuando el signo es negativo, indica que a valores mayores de la variable X


tienden a corresponder, en media, valores menores de la variable Y, y a valores
menores de la variable X tienden a corresponder, en media, valores mayores de
la variable Y. Esta es una relacin inversa.
21

X Figura 3. rxy prximo a 0


2010

22

UNED
Introducci
TEMA 4
Introduccin al an
anlisis de datos
DOS VARIABLES CUANTITATIVAS: Correlaci
Correlacin de Pearson

UNED
Introducci
TEMA 4
Introduccin al an
anlisis de datos
DOS VARIABLES CUANTITATIVAS: Correlaci
Correlacin de Pearson

Un coeficiente de correlacin lineal cercano a cero, indica que no existe relacin lineal entre
las variables, pero no excluye la posibilidad de que las variables tengan otras relaciones
entre s de carcter no lineal (por ejemplo, una relacin curvilnea).

Otro aspecto ms complejo es fundamentar la causalidad en un coeficiente de correlacin.


Cuando existe un coeficiente de correlacin elevado entre dos variables, no se puede afirmar
que una de las variables es causa de la otra. Hay cantidad de variables que evolucionan
conjuntamente. El nmero de televisores y el nmero de neveras, por ejemplo, en una muestra
de ciudades. Las ciudades con ms televisores, suelen tener ms neveras y las ciudades con
menos televisores, suelen tener ms neveras y las ciudades con menos televisores suelen
tener menos neveras. En realidad, existe la variable de nivel de vida de la ciudad, que lleva a
que haya ms televisores y neveras, cuando el nivel de vida de la ciudad aumenta.

Para analizar los valores de los coeficientes de correlacin de Pearson que elaboremos,
tenemos que tener en cuenta que no tienen una comparacin directa entre resultados de
estudios diferentes. Sabemos que rXY = 1 indica la correlacin lineal perfecta en cualquier
caso, y que rXY = 0 indica la ausencia total de correlacin lineal.
Es menos clara la situacin, cuando nos encontramos con un valor intermedio cualquiera, por
ejemplo, 0,55. No se puede afirmar que ese valor indica correlacin alta o baja. Depende del
tipo de datos que estemos analizando. Ser baja, si se trata de dos test similares, que
estemos aplicando a los mismos sujetos, o si tenemos pocos sujetos. Podra ser alta, si se
trata de test bastante diferenciados entre s, o si tenemos muchos sujetos. Un nmero grande
de sujetos en la muestra pueden tender a bajar el valor de los coeficientes de correlacin que
se obtienen. Los resultados de otros investigadores, con variables similares y muestras
equivalentes, son los que nos sirven de comparacin para evaluar los resultados que
obtengamos con nuestros datos. El coeficiente de correlacin evaluado ser bajo, si los
coeficientes de correlacin que obtienen otros investigadores en circunstancias similares, son
mucho ms altos. Y lo mismo se puede afirmar en la direccin contraria. Si nosotros
obtenemos unos coeficientes de correlacin mucho mayores que los encontrados por otros
investigadores en circunstancias similares, los nuestros sern muy elevados.
2010

23

Otro caso real, que sirve para ver la complejidad de deducir la causalidad entre dos variables,
cuando el coeficiente de correlacin es elevado. Por ejemplo, si se encuentra una alta
correlacin negativa entre el nmero de nios por mujer y los aos de escolarizacin de la
mujer en distintos pases. No se puede afirmar que la causa del tener menos hijos es que la
mujer tiene muchos aos de escolarizacin. No tiene que existir una relacin causal en la
correlacin. Puede existir una variable interviniente entre el nmero de hijos por mujer y los
aos de escolarizacin de ella. Una variable interviniente podra ser el tener las mujeres una
mayor libertad. Hay que ser muy cuidadoso en este aspecto para no afirmar como relaciones
causales las relaciones entre variables.

2010

24

UNED

Introducci
Introduccin al an
anlisis de datos
EJEMPLOS

TEMA 4

UNED

Introducci
Introduccin al an
anlisis de datos
EJEMPLOS

TEMA 4

2010 FEBRERO (MODELO C)

2010 FEBRERO (MODELO C)

11. Con los datos de la tabla 3, cu


cul es la covarianza entre X e Y?:

11. Con los datos de la tabla 3, cu


cul es la covarianza entre X e Y?:

a) 7,3
b) 9,6
c) 12,8

a) 7,3
b) 9,6
c) 12,8

(X

)(

X Yi Y

i =1

S XY =

i i

S XY =

i =1

XY

Y = 70

XY = 1528

X2 = 4640

Y2 = 530

Tabla 3.
Datos de las puntuaciones de 10 alumnos en
un test de autoestima (X) y la calificacin final
del curso (Y)

X Y

X
X = 200

XY

2010

UNED

Introducci
Introduccin al an
anlisis de datos
EJEMPLOS

XY

X = 200

Y = 70

XY = 1528

X2 = 4640

Y2 = 530

X Y

i i

S XY =

S xy

i =1

XY

1528
=
20 7 = 12,8
10

25

2010

TEMA 4

UNED

Tabla 3.
Datos de las puntuaciones de 10 alumnos en
un test de autoestima (X) y la calificacin final
del curso (Y)

26

Introducci
Introduccin al an
anlisis de datos
EJEMPLOS

TEMA 4

2010 FEBRERO (MODELO B)

2010 FEBRERO (MODELO B)

16. Seg
Segn los datos de la situaci
situacin 1, el coeficiente de correlaci
correlacin de Pearson entre X e Y es:

16. Seg
Segn los datos de la situaci
situacin 1, el coeficiente de correlaci
correlacin de Pearson entre X e Y es:

a) -0,9
b) 0,9
c) 13,5

rXY =

S XY
S X SY

Situacin 1. A un grupo de 100 nios


se les administr un test de inteligencia
espacial (X) y se evalu (de 0 a 10) su
rendimiento en la asignatura de
matemticas (Y).

a) -0,9
b) 0,9
c) 13,5

rXY =

Algunos datos obtenidos son:


X = 3000
Y = 600

X =

X = 3000 = 30

Y =

Y = 600 = 6

X2 = 92500
SY = 3

S XY

XY = 19350

2010

100

100

XY
19350
=
XY =
30 6 = 193,5 180 = 13,5
n
100

rXY =
27

S XY
S X SY

2010

13,5
S XY
=
= 0,9
S X SY 5 3

Situacin 1. A un grupo de 100 nios


se les administr un test de inteligencia
espacial (X) y se evalu (de 0 a 10) su
rendimiento en la asignatura de
matemticas (Y).
Algunos datos obtenidos son:
X = 3000
Y = 600
X2 = 92500
SY = 3
XY = 19350

28

UNED

Introducci
TEMA 4
Introduccin al an
anlisis de datos
DOS VARIABLES CUANTITATIVAS: Regresi
Regresin Lineal

Cuando existe una relacin lineal podemos utilizar la denominada recta de regresin para
efectuar pronsticos de los valores de una variable a partir de la otra variable. La ecuacin
general de una recta es de la forma: Y = a + bX. Donde b es la pendiente y a es la ordenada en
el origen.

UNED

EJEMPLO: Sea una variable X la puntuacin obtenida en un test de razonamiento numrico y


sea la variable Y la calificacin obtenida en la asignatura de matemticas. Para un grupo de 5
nios hemos obtenido los resultados recogidos en la siguiente Tabla de Datos.
Ni
Nio
1
2
3
4
5

La ecuacin de regresin de Y sobre X, es decir, la que sirve para pronosticar las


puntuaciones en Y a partir de las puntuaciones en X, es la siguiente:

Yi = a + bXi

a, denominada ordenada en el origen o intercepto, es el valor que toma Y cuando X es


igual a cero

a = Y bX

b, denominada pendiente o tasa de cambio, indica la variaci


variacin que se produce en Y
cuando X var
vara una unidad

b=

X
4
8
10
12
16
50

Y
6
4
7
8
10
35

X2
16
64
100
144
256
580

XY
24
32
70
96
160
382

b=

nXY XY 5 382 50 35 160


=
=
= 0,4
400
nX 2 ( X ) 2
5 580 502

a = Y bX = 7 0,4 10 = 3

YY
i ==aa++bbX
Xi ==330,4
Xi
0,4
0,4X
i
i
i

12

nXY XY
n X 2 ( X ) 2

Y (Calificacin en matemticas)

Introducci
TEMA 4
Introduccin al an
anlisis de datos
DOS VARIABLES CUANTITATIVAS: Regresi
Regresin Lineal

10

Yi = 3 0,4Xi

Esta recta pasa por el punto (X, Y), cuyas


coordenadas son (10, 7).

6
4
2
0
0

10

15

20

X (Test de razonamiento numrico)

2010

UNED

29

Introducci
TEMA 4
Introduccin al an
anlisis de datos
DOS VARIABLES CUANTITATIVAS: Regresi
Regresin Lineal

2010

UNED

30

Introducci
TEMA 4
Introduccin al an
anlisis de datos
DOS VARIABLES CUANTITATIVAS: Regresi
Regresin Lineal

A las puntuaciones, Yi, obtenidas mediante la recta de regresin las denominamos


puntuaciones pronosticadas. A la diferencia entre la puntuacin real o verdadera, Yi, y
su pronstico, Yi, la llamamos error y lo representamos por Ei.

12

Nio
1
2
3
4
5

X
4
8
10
12
16
50

Y (Calificacin en matemticas)

Propiedades:
Puntuacin Puntuacin
Error
real
pronosticada
Y
Y=3 + 0,4X E = Y Y
6
4,6
1,4
4
6,2
-2,2
7
7,0
0,0
8
7,8
0,2
10
9,4
0,6
35
35
0,0

- La media de los errores es 0:


E=

E = (Y Y ) = 0
i

'
i

- La media de las puntuaciones


pronosticadas coincide con la
media de las verdaderas
puntuaciones en Y:
Y '= Y

- La varianza de las puntuaciones en Y (S2Y) es igual a la suma de la varianza de los


pronsticos (S2Y), ms la varianza de los errores, que representaremos por S2E o
S2YX
SY2 = SY2 ' + SY2 X

2010

31

10
8

Yi

Residuo i

Yi
2
0
0

E i = Yi Yi'
2010

10

15

20

X (Test de razonamiento numrico)

32

UNED

Introducci
TEMA 4
Introduccin al an
anlisis de datos
DOS VARIABLES CUANTITATIVAS: Regresi
Regresin Lineal

UNED

Por otra lado se puede comprobar que:

COMPROBACIN DE LA TERCERA PROPIEDAD:


(S2

- La varianza de las puntuaciones en Y


Y) es igual a la suma de la varianza de los
pronsticos (S2Y), ms la varianza de los errores, que representaremos por S2E o
S2YX.
2
2
2

1.

Nio
1
2
3
4
5

Y =

X
4
8
10
12
16
50

(Y Y )

(Y Y)2
1
9
0
1
9
20

Y
6
4
7
8
10
35

35
=7
5

SY2 ' =

2
(Y 'Y ')

SY2 =

Puntuacin
Error
pronosticada
Y
Y Y
E = Y Y
E-E
5,76
1,96
4,6
1,4
0,64
4,84
6,2
-2,2
0
0
7,0
0,0
0,64
0,04
7,8
0,2
5,76
0,36
9,4
0,6
12,8
7,2
35
0,0

(E E )

12,8
= 2,56
5

2
SY2 = SY2 ' + SYX

La pendiente de la recta de regresin es: b = rXY

2.

r2XY nos explica que podemos tomar el cuadrado del coeficiente de correlacin de Pearson
como el tanto por uno de varianza explicada (o proporcin de varianza explicada)
2 =
rXY

3.

20
=4
5

SY2 X =

2 =
1 rXY

4 = 2 , 56 + 1, 44

7,2
= 1,44
5

2010

UNED

Introducci
Introduccin al an
anlisis de datos
EJEMPLOS

SY2 '
SY2

1 r2XY nos explica que podemos tomar el resto a uno del cuadrado del coeficiente de
correlacin de Pearson como el tanto por uno, de la varianza no explicada en la regresin
lineal
2

SY
SX

El signo del coeficiente de correlacin de Pearson nos dice si la relacin lineal entre
variables es directa, inversa, pues el signo del coeficiente de X en la frmula de regresin
es el mismo del coeficiente de correlacin de Pearson. Las desviaciones tpica siempre son
positivas

SY = SY ' + SYX

Puntuacin real

Introducci
TEMA 4
Introduccin al an
anlisis de datos
DOS VARIABLES CUANTITATIVAS: Regresi
Regresin Lineal

33

2010

TEMA 4

UNED

SY X
SY2

34

Introducci
Introduccin al an
anlisis de datos
EJEMPLOS

TEMA 4

2010 FEBRERO (MODELO A)

2010 FEBRERO (MODELO A)

12. La recta de regresi


regresin para pronosticar las puntuaciones en la asignatura a partir de
las puntuaciones en el test, teniendo en cuenta los datos de la Tabla 1 es:

12. La recta de regresi


regresin para pronosticar las puntuaciones en la asignatura a partir de
las puntuaciones en el test, teniendo en cuenta los datos de la Tabla 1 es:

a) Y
Y = -3 + 0,8X
b) Y
Y = -17 + 0,24X
c) Y
Y = 0,24X 10

a) Y
Y = -3 + 0,8X
b) Y
Y = -17 + 0,24X
c) Y
Y = 0,24X 10

Media

YY
i ==aa++bbX
Xi
i
i
b = rXY

SY
SX

a = Y bX

2010

Desviacin Covarianza
tpica

100

10

Media

YY
i ==aa++bbX
Xi ==--17
17 ++0,24
Xi
0,24
0,24X
i

24

rXY

Tabla 1.
Para estudiar la relacin entre las puntuaciones
en un test (X) y el rendimiento obtenido en una
asignatura (Y) se utiliza una muestra de 500
nios (n = 500), obtenindose los siguientes
resultados
35

S
24
= XY =
= 0,08
S X SY 10 3

b = rXY

SY
3
= 0,8 = 0,24
SX
10

a = Y bX = 7 0,24 100 = 17
2010

Desviacin Covarianza
tpica

100

10

24

Tabla 1.
Para estudiar la relacin entre las puntuaciones
en un test (X) y el rendimiento obtenido en una
asignatura (Y) se utiliza una muestra de 500
nios (n = 500), obtenindose los siguientes
resultados
36

UNED

Introducci
Introduccin al an
anlisis de datos
EJEMPLOS

TEMA 4

UNED

Introducci
Introduccin al an
anlisis de datos
EJEMPLOS

TEMA 4

2010 FEBRERO (MODELO C)

2010 FEBRERO (MODELO C)

12. Con los datos de la tabla 3, la proporci


proporcin de la varianza de la calificaci
calificacin final del
curso explicada por el test de autoestima vale:

12. Con los datos de la tabla 3, la proporci


proporcin de la varianza de la calificaci
calificacin final del
curso explicada por el test de autoestima vale:

a) 0,80
b) 0,64
c) 0,89
2
rXY

= XY
S
S
X Y

a) 0,80
b) 0,64
c) 0,89
2

XY

X = 200

Y = 70

XY = 1528

X2 = 4640

Y2 = 530

Tabla 3.
Datos de las puntuaciones de 10 alumnos en
un test de autoestima (X) y la calificacin final
del curso (Y)

2010

UNED

Introducci
Introduccin al an
anlisis de datos
EJEMPLOS

2
rXY

S
= XY
S X SY

12,8
=
= 0,802 = 0,64

82

S X2 =

X 2
n

X = 64

SY2 =

Y 2
n

Y = 4

37

2010

TEMA 4

UNED

XY

X = 200

Y = 70

XY = 1528

X2 = 4640

Y2 = 530

Tabla 3.
Datos de las puntuaciones de 10 alumnos en
un test de autoestima (X) y la calificacin final
del curso (Y)

38

Introducci
Introduccin al an
anlisis de datos
EJEMPLOS

TEMA 4

2010 FEBRERO (MODELO C)

2010 FEBRERO (MODELO C)

13. Con los datos de la tabla 3, la pendiente de la recta de regresi


n que permite
regresi
pronosticar la calificaci
calificacin final (Y) a partir de la autoestima (X) es

13. Con los datos de la tabla 3, la pendiente de la recta de regresi


n que permite
regresi
pronosticar la calificaci
calificacin final (Y) a partir de la autoestima (X) es

a) 0,50
b) 1,05
c) 0,20

a) 0,50
b) 1,05
c) 0,20

nXY XY
b=
n X 2 ( X ) 2

X = 200

Y = 70

X2 = 4640

Y2 = 530

XY
XY = 1528

Tabla 3.
Datos de las puntuaciones de 10 alumnos en
un test de autoestima (X) y la calificacin final
del curso (Y)

2010

39

nXY XY
b=
n X 2 ( X ) 2

b=

10 1528 200 70
10 4640 (200 )

b = 0,20

2010

1280
6400

XY

X = 200

Y = 70

XY = 1528

X2 = 4640

Y2 = 530

Tabla 3.
Datos de las puntuaciones de 10 alumnos en
un test de autoestima (X) y la calificacin final
del curso (Y)

40