Вы находитесь на странице: 1из 26

TEMA 7: RELACIONES ENTRE VARIABLES: VARIABLES

CONTINUAS

El objetivo de este tema es estudiar los procedimientos que

nos permiten analizar si existe relacin entre dos variables

continuas.

Distribucin conjunta de frecuencias

Ser anlogo a lo visto en el tema anterior para las

variables cualitativas y discretas, con la diferencia de que

en las variables continuas tendremos que agrupar sus

valores en clases, que no vienen dadas de forma natural.

Como ya vimos en el tema anterior:

1
Frecuencia absoluta conjunta: nij recibe el nombre de

frecuencia absoluta conjunta de la clase ij y representa el

nmero de datos que pertenecen a la clase i-sima de X y a

la categora j-sima de Y. La suma de las frecuencias

absolutas conjuntas es igual a N.

n ij
Frecuencia relativa conjunta: f i j recibe el nombre de
N
frecuencia relativa conjunta de la clase ij y representa la

proporcin de datos que pertenecen a la clase i-sima de X

y a la categora j-sima de Y. La suma de las frecuencias

relativas conjuntas es igual a 1.

Distribuciones marginales

Al igual que vimos para las variables cualitativas y

discretas, son las distribuciones individuales de cada una

de las variables.

2
Recordemos que se pueden calcular de forma sencilla a

partir de la distribucin conjunta sumando por filas y

columnas:

- Las distribuciones marginales absolutas se obtienen a

partir de la distribucin absoluta conjunta. La

distribucin marginal absoluta de X ser n i .


j1
n i j y la

k
distribucin marginal absoluta de Y ser n . j i1
n ij .

- Anlogamente, las distribuciones marginales relativas

se obtienen a partir de la distribucin relativa

m k
conjunta y son la de X f i .
j1
f i j y la de Y f . j f ij .
i1

3
Ejemplo: (ver Tabla 8.1 de Pea y Romo)

Distribuciones conjunta y marginales absolutas de X=estatura

padre(en cm) e Y=estatura hijo (en cm)

HIJOS
menos 160 a 165 a 170 a 175 a 180 a 185 a ms
PADRES 160 164 169 174 179 184 189 190 ni.
menos 160 4 4 1 0 0 0 0 0 9
160 a 164 2 7 10 3 0 0 0 0 22
165 a 169 0 3 20 25 9 4 0 0 61
170 a 174 0 4 18 26 30 19 1 0 98
175 a 179 0 0 2 17 22 20 4 1 66
180 a 184 0 0 0 5 15 17 8 2 47
185 a 189 0 0 0 0 1 4 2 1 8
Ms 190 0 0 0 0 0 0 1 0 1
n.j 6 18 51 76 77 64 16 4 312

Distribuciones conjunta y marginales relativas

HIJOS
menos 160 a 165 a 170 a 175 a 180 a 185 a ms
PADRES 160 164 169 174 179 184 189 190 fi.
Menos 160 0,013 0,013 0,003 0 0 0 0 0 0,029
160 a 164 0,006 0,022 0,032 0,009 0 0 0 0 0,069
165 a 169 0 0,009 0,064 0,080 0,029 0,013 0 0 0,195
170 a 174 0 0,013 0,057 0,083 0,096 0,061 0,003 0 0,313
175 a 179 0 0 0,006 0,054 0,070 0,064 0,013 0,003 0,21
180 a 184 0 0 0 0,016 0,048 0,054 0,025 0,006 0,149
185 a 189 0 0 0 0 0,003 0,013 0,006 0,003 0,025
Ms 190 0 0 0 0 0 0 0,003 0 0,003
f.j 0,019 0,057 0,162 0,242 0,246 0,205 0,05 0,012 1

4
Distribuciones condicionadas

Como ya vimos, se trata de estudiar la distribucin de una

variable para un nivel dado de la otra. Por ejemplo, la

distribucin de la altura de los hijos para los padres de una

determinada altura.

Las frecuencias absolutas condicionadas son la fila (o

columna) de la tabla de distribucin conjunta

correspondiente a la condicin que establecemos. Por

ejemplo, la distribucin de estatura de los hijos cuando el

padre mide de 165 a 169 es la tercera fila de la tabla de

distribucin absoluta conjunta:

HIJOS
menos 160 a 165 a 170 a 175 a 180 a 185 a ms
PADRES 160 164 169 174 179 184 189 190 ni.
165 a 169 0 3 20 25 9 4 0 0 61

5
Las frecuencias relativas condicionadas se obtienen

dividiendo la frecuencia conjunta (absoluta o relativa)

entre la marginal (absoluta o relativa) de la variable que

condiciona. En el ejemplo, la distribucin de la altura de

los hijos con padres de 165 a 169 ser:

HIJOS
185
menos 165 a 170 a 175 a 180 a ms
PADRES 160
160 a 164
169 174 179 184
a
190
189
165 a 169 0 3/61=0,049 0,328 0,410 0,148 0,065 0 0

La suma de las frecuencias condicionadas (para un valor

fijo de la variable que condiciona) es 1

(0,049+0,328+0,41+0,148+0,065=1).

Recordemos que dos variables X e Y son independientes

cuando la distribucin de X condicionada a que Y tome un

valor yj es la misma para todos los valores de yj y coincide

con su distribucin marginal.

6
En nuestro ejemplo, la distribucin de la altura de los hijos

con padres de 180 a 184 ser:

HIJOS
185
menos 160 a 165 a 175 a 180 a ms
PADRES 160 164 169
170 a 174
179 184
a
190
189
180 a 184 0 0 0 5/47=0,106 0,32 0,362 0,17 0,042

Que es diferente de la condicionada a padres de 165 a 169 y

de la marginal de la estatura de los hijos y por tanto la

estatura de los hijos no es independiente de la de los

padres.

7
Diagrama de dispersin

Se emplea para representar grficamente la distribucin

conjunta de dos variables.

Se representa cada variable en un eje. Cada elemento se

representa por un punto cuyas coordenadas sobre los ejes

son los valores que toma ese elemento en cada variable.

Es frecuente que al estudiar la relacin entre dos variables

pueda considerarse que una causa a la otra. Por ejemplo:

la estatura de los padres causa la de los hijos.

Llamaremos variable exgena o independiente a la causa

(X) y variable endgena o dependiente al efecto (Y).

Se representa en el eje horizontal la variable X (por

ejemplo, estatura de los padres) y en el eje vertical la

variable Y (por ejemplo, estatura de los hijos).

8
Ejemplo: (Ejercicio 8.6 de Pea y Romo)

Datos de edad (X) y salario (Y) de 12 licenciados:

X 28 28 32 35 38 44 49 52 58 62 66 70
Y 2,2 2,2 3,8 4,2 4,2 5,3 7,3 6,4 6,7 5,3 6 5,1

8
(49;7,3)

6
(70;5,1)
SALARIO

(28;2,2)
2
20 30 40 50 60 70 80

EDAD

El diagrama de dispersin nos proporciona informacin

sobre cmo es la relacin entre las variables. En la Figura

8.2 de Pea y Romo, se presentan los 4 casos ms

frecuentes: lineal positiva, lineal negativa, independencia y

no lineal)

9
La covarianza

La covarianza es una medida numrica de la asociacin

lineal entre dos variables.

Llamaremos covarianza entre X e Y a:

i 1 x i x y i y i 1 x i y i
N N

cov(x,y) xy
N N

La covarianza ser:

- cero o prxima a cero: cuando no exista relacin entre

las variables o cuando la relacin que exista no sea

lineal.

- positiva: si existe una relacin positiva

- negativa: si existe una relacin negativa

La covarianza depende de las unidades de medida de las

variables.

10
Ejemplo: (Ejercicio 8.1 de Pea y Romo)

Se tienen los siguientes datos de dos variables X e Y:

X: 2 3 4 5 6

Y: 5 7 8 13 14

El diagrama de dispersin ser:

16

14

12

10
Y

4
1 2 3 4 5 6 7

y:
N N

x i x y i x xiyi
cov(x,y) i1
i1
xy
N N

11
xi yi xi x yi y ( x i x ) x( y i y ) xi yi
2 5 -2 -4,4 8,8 10
3 7 -1 -2,4 2,4 21
4 8 0 -1,4 0 32
5 13 1 3,6 3,6 65
6 14 2 4,6 9,2 84
20 47 24 212

N N

xi
20 yi
47
x i1
4 y i1
9 ,4
N 5 N 5

luego:

24 212
cov(x,y) 4 9 ,4 4 ,8
5 5

Existe una relacin positiva entre x e y

Si transformamos linealmente las variables x e y en

u a x b y v c y d la covarianza ser:

co v (u ,v ) a c co v ( x , y )

12
El coeficiente de correlacin

La covarianza depende de las unidades de medida de las

variables, por lo que no tiene sentido decir que si la

covarianza es grande la relacin es ms fuerte.

El coeficiente de correlacin supera este inconveniente de

la covarianza, ya que nos proporciona una medida de la

relacin lineal entre las variables que no depende de las

unidades de medida.

El coeficiente de correlacin se define como:

cov(x,y)
r r(x,y)
S xS y

Tiene el signo de la covarianza (ya que las desviaciones

tpicas siempre son positivas), luego si:

- r positivo: la relacin es positiva

- r negativo: la relacin es negativa

- r es cero (o prximo): no existe relacin o si existe no

es lineal.

13
El coeficiente de correlacin es siempre un valor entre 1 y

1, es decir, 1 r ( x , y ) 1 .

Cuando las variables estn relacionadas linealmente de

forma exacta el coeficiente de correlacin ser, en valor

absoluto, igual a 1.

r ( x , y ) 1 relacin lineal exacta positiva

r ( x , y ) 1 relacin lineal exacta negativa

Cuanto ms prximo est el coeficiente de correlacin en

valor absoluto a la unidad, mayor ser el grado de relacin

lineal entre las variables.

El coeficiente de correlacin no depende del orden en que

se consideren las variables, es decir, r ( x , y ) r ( y , x ) .

El coeficiente no cambia al transformar linealmente las

variables, es decir, r ( a x b , c y d ) r ( y , x ) , siempre que a

y c sean del mismo signo, sino r ( a x b , c y d ) r ( y , x ) .

14
Ejemplo: (continuacin Ejercicio 8.1 de Pea y Romo)

Hemos calculado antes la covarianza de:

X: 2 3 4 5 6

Y: 5 7 8 13 14

c o v ( x , y ) 4 , 8 as como x 4 e y 9 ,4 .

cov(x,y)
Para calcular r r ( x , y ) , necesitamos las desviaciones
S xS y

tpicas:

xi yi x i2 y i2
2 5 4 25
3 7 9 49
4 8 16 64
5 13 25 169
6 14 36 196
20 47 90 503

x i2
90
Sx i1
x 2
4 2
1 ,4 1 4 1
N 5

y i2
503
Sy i1
y 2
9 ,4 2
3 ,4 9 8 6
N 5

cov(x,y) 4 ,8
r(x,y) 0 ,9 7 relacin lineal
S xS y 1 ,4 1 4 1 3 ,4 9 8 6

positiva alta

15
Conviene combinar la informacin que proporciona el

coeficiente de correlacin con la del grfico de dispersin,

para evitar obtener conclusiones errneas en el caso de

tener elementos heterogneos:

- La presencia de un dato atpico nos puede cambiar el

signo de la correlacin (Figura 8.5.(a) de Pea y

Romo).

- Tenemos dos grupos de observaciones con

comportamiento distinto y aunque para cada grupo

haya relacin, el coeficiente de correlacin puede ser

casi cero (Figura 8.5.(b) de Pea y Romo).

Un coeficiente de correlacin alto entre dos variables indica

que en nuestros datos toman valores relacionados entre s,

pero no se puede concluir que exista una relacin causa-

efecto entre ellas.

16
Correlacin espuria: correlacin entre variables debida a

que ambas estn relacionadas con otra variable, pero no a

la existencia de una relacin entre ellas.

Ejemplos:

- n de matrimonios al mes en Madrid y temperatura

media al mes. Ambas estn relacionadas con el

verano.

- Asistencia a la iglesia y delitos en los barrios de Nueva

York. Ambas son mayores en los barrios ms pobres.

- Presupuesto en educacin y salidas al extranjero en

Espaa. Ambas aumentan al aumentar la renta.

Si no observamos correlacin, tampoco podemos concluir

que no exista relacin lineal entre las variables. Puede ser

por los datos que tenemos o porque existan ms variables

que influyan en la relacin.

Ejemplo: relacin entre salario y nivel educativo si slo

tomamos datos de diplomados y licenciados.

17
La recta de regresin

La recta de regresin es otra forma, alternativa a r(x,y), de

expresar la relacin lineal entre dos variables continuas.

La recta de regresin resume la informacin de la relacin

entre las dos variables: es la recta que describe la situacin

de los datos. De todas las posibles rectas que pasan por la

nube de puntos queremos la que mejor describa la

relacin.

Cmo se calcula la recta de regresin a partir de un

conjunto de datos?

Representaremos la ecuacin de la recta como:

y b 0 b 1 x

Esta ecuacin depende de dos constantes o parmetros ( b 0

y b 1 ) que calcularemos a partir de los datos observados.

18
- b 1 : es la pendiente de la recta. Nos dice cmo vara en

media la variable dependiente (y) al variar la variable

explicativa (x) en una unidad.

- b 0 : es la ordenada en el origen.

Para ver cmo se calculan b 0 y b 1 a partir de los datos,

vamos a definir el residuo o error de prediccin:

residuo=error de prediccin= y i y i y i b 0 b 1 x i

(Ver Figura 9.2 de Pea y Romo)

La recta se calcula minimizando la suma de los residuos al

cuadrado. Este criterio para determinar b 0 y b 1 se denomina

de mnimos cuadrados ordinarios (MCO).

19
Como resultado de aplicar este criterio tenemos:

cov(x,y) S y cov(x,y) S y
b1 r
S x2 S y S x2 S x

b0 y b1x

- Cuando b 1 0 no existe relacin lineal entre las

variables.

- A diferencia del coeficiente de correlacin que slo

variaba entre 0 y 1, b 1 puede tomar cualquier valor,

dependiendo de las unidades de medida de las

variables.

- La recta pasa por el punto ( x , y ) .

20
Ejemplo: Ejercicio 9.8 de Pea y Romo (cont. Del ejercicio

8.6)

Datos de edad (X) y salario (Y) de 12 licenciados:

X 28 28 32 35 38 44 49 52 58 62 66 70
Y 2,2 2,2 3,8 4,2 4,2 5,3 7,3 6,4 6,7 5,3 6 5,1

Para los que se obtiene:


N N

xi
562 yi
5 8 ,7
x i1
4 6 ,8 3 y i1
4 ,8 9
N 12 N 12

x i2
28766
Sx i1
x 2
4 6 ,8 3 2 1 4 ,2 9
N 12

y i2
3 1 6 ,7 3
Sy i1
y 2
4 ,8 9 2
1 ,5 7
N 12

( xi x )( yi y )
1 9 6 ,1 8 3 4
cov(x,y) i1
1 6 ,3 5
N 12

cov(x,y) 1 6 ,3 5
r 0 ,7 3
S xS y 1 4 , 2 9 1 ,5 7

21
Luego:

cov(x,y) S y 1 6 ,3 5 1 ,5 7
b1 r 0 ,7 3 0 ,0 8
S x2 S x 1 4 ,2 9 2
1 4 ,2 9

b 0 y b 1 x 4 , 8 9 0 , 0 8 4 6 , 8 3 1 ,1

La recta de regresin ser:

y i 1 , 1 0 , 0 8 x i

6
SALARIO

1,1+0,08x

1-
20 40 60 80

EDAD

22
Con estos datos, la prediccin del salario para un licenciado

de 25 aos ser:

y 1 , 1 0 , 0 8 2 5 3 , 1

mientras que para licenciados de 30 y 40 aos ser,

respectivamente:

y 1 , 1 0 , 0 8 3 0 3 , 5

y 1 , 1 0 , 0 8 4 0 4 , 3

La desviacin tpica residual

Es una medida de la variabilidad de los puntos respecto a

la recta de regresin.

Se define como:

( y i y i ) 2
Sr i1
N

y representa la variabilidad media de los datos entorno a la

recta de regresin.

23
Ejemplo: (continuacin salario-edad)

y i 1 , 1 0 , 0 8 x i Residuo= y i y i ( y i y i ) 2
1 ,1 0 , 0 8 2 8 3 , 3 4 2 , 2 3 , 3 4 1 ,1 4 1,2996
1 ,1 0 , 0 8 2 8 3 , 3 4 2 , 2 3 , 3 4 1 ,1 4 1,2996
1 ,1 0 , 0 8 3 2 3 , 6 6 3 , 8 3 , 6 6 0 ,1 4 0,0196
1 ,1 0 , 0 8 3 5 3 , 9 0 4 ,2 3 ,9 0 0 ,3 0,09
1 ,1 0 , 0 8 3 8 4 ,1 4 4 , 2 4 ,1 4 0 , 0 6 0,0036
1 ,1 0 , 0 8 4 4 4 , 6 2 5 ,3 4 ,6 2 0 ,6 8 0,4624
1 ,1 0 , 0 8 4 9 5 , 0 2 7 ,3 5 ,0 2 2 ,2 8 5,1984
1 ,1 0 , 0 8 5 2 5 , 2 6 6 , 4 5 , 2 6 1 ,1 4 1,2996
1 ,1 0 , 0 8 5 8 5 , 7 4 6 ,7 5 ,7 4 0 ,9 6 0,9216
1 ,1 0 , 0 8 6 2 6 , 0 6 5 ,3 6 ,0 6 0 ,7 6 0,5776
1 ,1 0 , 0 8 6 6 6 , 3 8 6 6 ,3 8 0 ,3 8 0,1444
1 ,1 0 , 0 8 7 0 6 , 7 5 ,1 6 , 7 1 , 6 2,56
13,8764

( y i y i ) 2
1 3 ,8 7 6 4
Sr i1
1 ,1
N 12

El error medio es de aproximadamente 1,1 millones.

24
Como se cumple que:

S r
1 r 2

S y

si consideramos que Sr nos da el error medio cometido al

predecir y empleando informacin sobre x (la recta de

regresin) y que Sy nos da el error medio cometido al

predecir y con su media, entonces, el r2 est relacionado

con la mejora en la prediccin de y al emplear la recta de

regresin.

Ejemplo:

S
Si r=0,7, tendremos que
r
1 0 ,7 2
0 , 7 1 por lo que
S y

podemos decir que al predecir y con la recta de regresin el

error cometido es el 71% del que se cometera sin emplear

x.

25
Ntese que mientras que en el clculo del coeficiente de

correlacin ambas variables son tratadas igual (y no

importa el orden), esto no es as en la recta de regresin.

No es igual en la recta de regresin que la variable

dependiente sea y o sea x, es decir, si la variable dependiente

fuera x sera:

x c 0 c 1 y con:

cov(x,y) S cov(x,y) S y
c1 r x
b1 r
S y2 S y S x2 S x

c0 x c1y b0 y b1x

Slo si ambas variables estuvieran tipificadas (media cero

y desviacin tpica 1) coincidiran:

c1 b1 r y c0 b0 0

26

Вам также может понравиться