Академический Документы
Профессиональный Документы
Культура Документы
estadísticos en MVZ
Regresión y correlación lineal
1
Objetivo:
2
OBJETIVO
OBJETIVO:
Reconocer si hay relación entre las variables, de
qué tipo es la relación,
relación y si es posible predecir el
valor de una de ellas en función de la otra.
3
Estudio conjunto de dos variables
4
Diagramas de dispersión
Tenemos las alturas y los pesos de 30 individuos representados en un
diagrama de dispersión.
100
90
80 Pesa 76 kg.
70
30
140 150 160 170 180 190 200
Estatura (cm) 5
Relación entre variables.
100
90
80
70
60
50
40
30
140 150 160 170 180 190 200
6
Cómo reconocer una buena o mala relación
330 100
230
o80 directa.
180
70 o
60
130 o 50 o
80 40
30 o30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
Dado un valor de X no podemos decir gran •Conocido X, sabemos que (Y) se incrementa
cosa sobre Y. Mala relación. Independencia. en cierta relación. Buena relación directa.
80
70 Cierta relación
60 inversa
50 Para los valores de X mayores que
40 la media le corresponden valores de
30
20 Y menores. Esto es relación inversa
10
0
o decreciente.
140 150 160 170 180 190 200
7
Grado de relación entre dos variables X e Y :
covarianza
L covarianza
La i entre
t dos
d variables,
i bl Sxy, nos indica
i di sii lla posible
ibl
relación entre dos variables es directa o inversa.
Positiva: Sxyy >0
Positiva:
Negativa:: Sxy <0
Negativa
1
No relacionadas:
relacionadas: Sxy =0 COV xy
n 1 i
( xi x )( yi y )
8
Grado de relación:
relación:
coeficiente
fi i t d de correlación
l ió lilineall d
de P
Pearson
( x)( y)
xy i
n
i
r xy i
x 2 y
2
x
y
2 2
i
i
n n
i i
10
Ejercicio: Datos:
estatura 162
162, 154
154, 180
180, 158
158, 171
171, 169
169, 166
166, 176
176, 163
peso 61, 60, 78, 62, 66, 60, 54, 84, 68.
Σ x y = 99 216
R = 0.70 R2 = 0.49
Propiedades de r
Es
E adimensional
di i l
Sólo toma valores en [-
[-1,1]
Las variables son no correlacionadas r=0
Relación lineal perfecta entre dos variables r=+1 o r=
r=--1
Relación
inversa Relación
perfecta di t
directa
Variables no
casi
correlacionadas
perfecta
-1 0 +1
12
Entrenando el ojo: casi perfectas y positivas
100 100
90 90
80 80
70 70
60 60
50 50
40 r=0,9 40 r=0,99
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
100
90
80
70
60
50
40 r=1
30
140 150 160 170 180 190 200
13
Entrenando el ojo: correlaciones negativas
90 80
80 70
70 60
60 50
50
40
40
30
30
20 20
10 r=-0,5 10 r=-0,7
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
80 80
70 70
60 60
50 50
40 40
30 30
20 20
10 r=-0,95 10 r=-0,999
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
14
Coeficiente de determinación (r2)
((r )
17
Otros coeficientes de correlación
τ (‘tau’) de Kendall
19
Antecedentes:
El término regresión fue introducido por Galton en
su libro “Natural
“Natural inheritance”
inheritance” (1889) refiriéndose a
la “ley de la regresión universal”:
20
Resultados obtenidos por Pearson
• Si ell padre
d mide
id 120 cm ¿cuánto
á t mide
id ell hij
hijo?
?
Se espera (predice) 85 + 0,5x120=145 cm.
• Bajo, pero no tanto como el padre. Regresa a la media.
22
Modelo de regresión lineal simple
En el modelo de regresión lineal simple,
simple, se tiene dos variables
Y (dependiente)
X (independiente,
(independiente explicativa)
explicativa)
23
En el ejemplo de Pearson y las alturas, él encontró:
Ŷ = b0 + b1X
• b0=85 cm (No interpretar como altura de un hijo cuyo padre mide 0 cm
¡Extrapolación salvaje!
• b1=0.5
=0 5 (En media el hijo gana 0
0.5
5 cm por cada cm del padre
padre.))
180
150 b1=0,5
120
90
60
b0=85 cm
30
0
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
160
170
180
190
200
210
220
Estatura 24
La relación entre las variables no es exacta. Es natural
preguntarse
t entonces:
t
Cuál es la mejor recta que sirve para predecir los valores de Y en
función de los de X
Q é error cometemos
Qué t con dicha
di h aproximación
i ió (residual).
( id l)
180
150 b1=0,5
120
90
60
b0=85 cm
30
0
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
160
170
180
190
200
210
220
25
El modelo lineal de regresión se construye utilizando la
técnica de estimación mínimo cuadrática:
S XY
b1 b0 y b1 x
SC X
26
Coeficientes de la ecuación de
regresión
( x)( y)
xy i
n
i
b i
xy 2
x
x 2
i
n
i
b0 y b1 x
27
Ejercicio: Datos:
estatura 162
162, 154
154, 180
180, 158
158, 171
171, 169
169, 166
166, 176
176, 163
peso 61, 60, 78, 62, 66, 60, 54, 84, 68.
Σ x y = 99 216
b1 = 0.80 b0 = 0.49
Que el error medio de las Cometió un error
predicciones sea nulo no quiere de -30 en su
decir que las predicciones sean última predicción
buenas.
29
Bondad de un ajuste
Resumiendo: Y
2
S
R 1
2 e
2
S Y
2
S
e S 2
Y
30
Varianza del error en la regresión ( Se 2 )
V i
Varianza d 1 [ SCy – (b12 ) SC
dell error = n -1 SCx]]
n-2
31
Resumen sobre bondad de un ajuste
C
Cuando
d un ajuste
j t es bueno,
b R2 será
á cercano a uno.
¿por qué?
32
Otros modelos de regresión
El estudio
t di ddescriptivo
i ti univariante
i i t de d ambas
b variables
i bl por
separado no revela nada sobre una posible relación.
16 12
14
10
12
8
10
8 6
6
4
Correlaciones
36