Академический Документы
Профессиональный Документы
Культура Документы
1
Qué vamos a estudiar
En este capítulo vamos a tratar diferentes formas de describir
la relación entre dos variables cuando estas son numéricas.
Estudiar si hay relación entre la altura y el peso.
Haremos mención de pasada a otros casos:
Alguna de las variables es ordinal.
Estudiar la relación entre el sobrepeso y el dolor de espalda
(ordinal)
Hay más de dos variables relacionadas.
¿Conocer el peso de una persona conociendo su altura y
contorno de cintura?
El estudio conjunto de dos variables cualitativas lo aplazamos
hasta que veamos contrastes de hipótesis (X2).
¿Hay relación entre fumar y padecer enfermedad de pulmón?
2
Diagramas de dispersión o nube de puntos
100
90
80 Pesa 76 kg.
70
30
140 150 160 170 180 190 200
Bioestadística. U. Málaga. Tema 3: Estadística bivariante 5
a
ltur
100
a
90 o n la
nt ac
e
aum
80
70 l p eso
e
60 e que
r ec
50
Pa
40
30
140 150 160 170 180 190 200
Bioestadística. U. Málaga. Tema 3: Estadística bivariante 6
3
Predicción de una variable en función de la otra
Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... o sea,
el peso aumenta en una unidad por cada unidad de altura.
100
90
80
70
10 kg.
60
50
40 10 cm.
30
140 150 160 170 180 190 200
Bioestadística. U. Málaga. Tema 3: Estadística bivariante 7
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
4
¿Cuándo es bueno un modelo de regresión?
r= 0.415 Lo adecuado del modelo depende de la
420
La dispersión de Y condicionada a X
380
360
r^2 = 0.969
380
La distribución de Y,
independientemente del valor de X, se
370
150 160
Bioestadística. U. Málaga.170 180 190 Tema 3: Estadística bivariante 9
5
Coef. de correlación lineal de Pearson
La coeficiente de correlación lineal de Pearson de
dos variables, r, nos indica si los puntos tienen una
tendencia a disponerse alineadamente
(excluyendo rectas horizontales y verticales).
Propiedades de r
Es adimensional
Sólo toma valores en [-1,1]
Las variables son incorreladas r=0
Relación lineal perfecta entre dos variables r=+1 o r=-1
Excluimos los casos de puntos alineados horiz. o verticalmente.
Cuanto más cerca esté r de +1 o -1 mejor será el grado de
relación lineal.
Siempre que no existan observaciones anómalas.
Relación
inversa Relación
perfecta directa
Variables
casi
incorreladas
perfecta
-1 0 +1
Bioestadística. U. Málaga. Tema 3: Estadística bivariante 12
6
Entrenando el ojo: correlaciones positivas
330 130
120
280 110
230 100
90
180 80
70
130 60
80 50
r=0,1 40
r=0,4
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
100 100
90 90
80 80
70 70
60 60
50 50
40 r=0,8 40 r=0,99
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
80 80
70 70
60 60
50 50
40 40
30 30
20 20
10 r=-0,95 10 r=-0,999
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
7
Animación: Evolución de r y diagrama de dispersión
Preguntas frecuentes
¿Si r=0 eso quiere decir que no las variables son
independientes?
En la práctica, casi siempre sí, pero no tiene
por qué ser cierto en todos los casos.
Lo contrario si es cierto: Independencia
implica incorrelación.
8
Otros coeficientes de correlación
Regresión
9
Regresión
b1 (pendiente de la recta)
10
En el ejemplo de Pearson y las alturas, él encontró:
Ŷ = b 0 + b 1X
b0=85 cm (No interpretar como altura de un hijo cuyo padre mide
0 cm ¡Extrapolación salvaje!
b1=0,5 (En media el hijo gana 0,5 cm por cada cm del padre.)
180
150 b1=0,5
120
90
60
b0=85 cm
30
0
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
160
170
180
190
200
210
220
Bioestadística. U. Málaga. Tema 3: Estadística bivariante 21
180
150 b1=0,5
120
90
60
b0=85 cm
30
0
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
160
170
180
190
200
210
220
11
El modelo lineal de regresión se construye utilizando la técnica de
estimación mínimo cuadrática:
Buscar b0, b1 de tal manera que se minimice la cantidad
Σi ei2
SY
b1 = r b0 = y − b1x
SX
Se obtiene además unas ventajas “de regalo”
El error residual medio es nulo
La varianza del error residual es mínima para dicha estimación.
12
Que el error medio de las Cometió un error
predicciones sea nulo no quiere de -30 en su
última predicción
decir que las predicciones sean
buenas.
13
Interpretación de la variabilidad en Y
14
Bondad de un ajuste
Resumiendo: Y
S e2
R = 1− 2
2
SY
Se2 < SY2
Bioestadística. U. Málaga. Tema 3: Estadística bivariante 29
15
Resumen sobre bondad de un ajuste
16
Modelos de análisis de regresión
Simple Múltiple
14
10
12
8
10
8 6
6
4
17
En el diagrama de dispersión se aprecie una clara relación lineal directa.
¿Aprecias regresión a la media en el sentido de Galton en la gráfica?
190
b0=89,985
La bondad del ajuste es de R2=0,577= 57,7% 150 160 170 180 190 200
18