Curso Regresion

Métodos
estadísticos en MVZ
Regresión y correlación lineal
1
Objetivo:
 En este capítulo se describe la relación entre dos

variables numéricas.
 Por ejemplo. Estudiar si hay relación entre la

estatura y el peso.
 Medir el grado de relación entre las variables

aleatorias mediante el coeficiente de correlación.
 D
Describir
ibi lla relación
l ió entre
t variables
i bl mediante
di t una
ecuación lineal simple.
2
OBJETIVO
OBJETIVO:
Reconocer si hay relación entre las variables, de
qué tipo es la relación,
relación y si es posible predecir el
valor de una de ellas en función de la otra.
3
Estudio conjunto de dos variables
 A la derecha tenemos una posible manera de recoger Estatura Peso en

los datos obtenidos observando dos variables en varios en cm. Kg.
individuos de una muestra.
162 61
154 60
 En cada fila tenemos los datos de un individuo 180 78
158 62
 Cada columna representa los valores que toma 171 66
una variable sobre los mismos. 169 60
166 54
 Las individuos no se muestran en ningún orden 176 84
particular.
163 68
... ...
 Dichas observaciones pueden ser representadas en un
diagrama de dispersión (‘scatterplot’). En ellos, cada
individuos es un punto cuyas coordenadas son los
valores de las variables
variables.
4
Diagramas de dispersión
Tenemos las alturas y los pesos de 30 individuos representados en un
diagrama de dispersión.
100
90
80 Pesa 76 kg.
70
Mide 187 cm.

60
Pesa 50 kg.
50
40 Mide 161 cm.
30
140 150 160 170 180 190 200
Estatura (cm) 5
Relación entre variables.
Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de

dispersión.
100
90
80
70
60
50
40
30
140 150 160 170 180 190 200
6
Cómo reconocer una buena o mala relación
330 100
280 Poca relación 90 Fuerte relación
230
o80 directa.
180
70 o
60
130 o 50 o
80 40
30 o30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
Dado un valor de X no podemos decir gran •Conocido X, sabemos que (Y) se incrementa
cosa sobre Y. Mala relación. Independencia. en cierta relación. Buena relación directa.
80
70 Cierta relación
60 inversa
50 Para los valores de X mayores que
40 la media le corresponden valores de
30
20 Y menores. Esto es relación inversa
10
0
o decreciente.
140 150 160 170 180 190 200
7
Grado de relación entre dos variables X e Y :
covarianza
 L covarianza
La i entre
t dos
d variables,
i bl Sxy, nos indica
i di sii lla posible
ibl
relación entre dos variables es directa o inversa.
 Positiva: Sxyy >0
Positiva:
 Negativa:: Sxy <0
Negativa
1
 No relacionadas:
relacionadas: Sxy =0 COV xy  
n 1 i
( xi  x )( yi  y )
 El signo de la covarianza nos dice si la relación entre las

variables es positiva, negativa o son independientes pero no nos
di nada
dice d sobre
b ell gradod d
de relación
l ió entre
t las
l variables.
i bl
8
Grado de relación:
relación:
coeficiente
fi i t d de correlación
l ió lilineall d
de P
Pearson
 El coeficiente de correlación lineal de Pearson

de dos variables, r, nos indica que los puntos
tienen una tendencia de una relación lineal.
 tiene el mismo signo que Sxy por tanto de su

signo obtenemos el que la posible relación sea
directa o inversa.
S xy
 El coeficiente (r ) es útil para determinar si r
hay relación lineal entre dos variables, pero no SxS y
servirá
i á para otros
t ti
tipos d relaciones
de l i
(cuadrática, logarítmica,...)
9
Coeficiente de correlación
(  x)(  y)
 xy  i
n
i
r xy  i
  x  2    y 
2 

 x  
 y 
2 2
 i
 i
 n   n 
 i   i 
10
Ejercicio: Datos:
estatura 162
162, 154
154, 180
180, 158
158, 171
171, 169
169, 166
166, 176
176, 163
peso 61, 60, 78, 62, 66, 60, 54, 84, 68.
N=9 Σ x = 1 499 Σ y = 593
Σ x2 = 250 227 Σ y2 = 39 801
Σ x y = 99 216
R = 0.70 R2 = 0.49
Propiedades de r
 Es
E adimensional
di i l
 Sólo toma valores en [-
[-1,1]
 Las variables son no correlacionadas  r=0
 Relación lineal perfecta entre dos variables  r=+1 o r=
r=--1
 Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación

lineal.
 Siempre que no existan observaciones extremas.
Relación
inversa Relación
perfecta di t
directa
Variables no
casi
correlacionadas
perfecta
-1 0 +1
12
Entrenando el ojo: casi perfectas y positivas
100 100
90 90
80 80
70 70
60 60
50 50
40 r=0,9 40 r=0,99
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
100
90
80
70
60
50
40 r=1
30
140 150 160 170 180 190 200
13
Entrenando el ojo: correlaciones negativas
90 80
80 70
70 60
60 50
50
40
40
30
30
20 20
10 r=-0,5 10 r=-0,7
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
80 80
70 70
60 60
50 50
40 40
30 30
20 20
10 r=-0,95 10 r=-0,999
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
14
Coeficiente de determinación (r2)
((r )
“Es la proporción de la variación de

la variable (y ) que es explicada por
la variable (x)”.
Este coeficiente sirve para comparar el

ajuste de modelos de regresión.
Preguntas frecuentes
 ¿Si r=0 eso quiere decir que las variables son
independientes?
 E la
En l práctica,
á ti casii siempre
i sí,
í pero no titiene
por qué ser cierto en todos los casos.
 Lo contrario si es cierto: Independencia
implica no correlación.
 Me ha salido r=1.2 ¿la relación es “super lineal”?

 ¿Super qué? Eso es un error de cálculo. Siempre debe tomar un
valor
l entre
t -1 y +1.
1
 ¿A partir de qué valores se considera que hay “buena

relación lineal”?
lineal ?
 Es difícil dar un valor concreto (mira los gráficos anteriores).
Para este curso digamos que si |r|>0,7 hay buena relación lineal
y que si |r|>0,4 hay cierta relación (por decir algo... la cosa es
un poco más á complicada:
li d observaciones
b i anómalas,...)
ó l )
17
Otros coeficientes de correlación
 Cuando las variables en vez de ser numéricas

son ordinales, es posible preguntarse sobre si
hay algún tipo de correlación entre ellas.
Charles Edward Spearman
 Disponemos para estos casos de dos

estadísticos, aunque no los usaremos en
clase:
 ρ (‘ro’) de Spearman
 τ (‘tau’) de Kendall
Maurice George Kendall

18
Análisis de regresión
 El análisis de regresión sirve para predecir una
variable en función de otra (o varias) variables.
 Y = Variable dependiente
• predicha
• explicada
 X = Variable independiente
• predictora
• explicativa
 ¿Es posible descubrir una relación?
• Y = f(X) + error
 f es una función de un tipo determinado ( lineal )

 el error es aleatorio, pequeño, y no depende de X
19
Antecedentes:
 El término regresión fue introducido por Galton en
su libro “Natural
“Natural inheritance”
inheritance” (1889) refiriéndose a
la “ley de la regresión universal”:
 “Cada peculiaridad en un hombre es

compartida por sus descendientes, pero en
promedio,
di en un grado d menor.””
• Regresión a la media
 Su trabajo
j se centraba en la descripción
p de los Francis Galton
rasgos físicos de los descendientes (una •Primo de Darwin
•Estadístico y aventurero
variable) a partir de los de sus padres (otra •Fundador (con otros) de
variable). la estadística moderna
para explicar
li llas tteorías
í
 Pearson (un amigo suyo) realizó un estudio con de Darwin.
más de 1000 registros de grupos familiares
observando una relación del tipo:
20
Resultados obtenidos por Pearson
Altura del hijo = 85cm + 0,5 altura del

padre (aprox.)
Conclusión: los padres muy altos tienen
tendencia a tener hijos que heredan parte
de esta altura
altura, aunque tienen tendencia a
acercarse (regresar) a la media. Lo
mismo puede decirse de los padres muy
b j
bajos.
Hoy en día el sentido de regresión es el
d predicción
de di ió d de una medida
did
basándonos en el conocimiento de otra.
Predicción mediante la ecuación
de Regresión
g
 El ejemplo del estudio de la altura en grupos familiares de
Pearson es del tipo que desarrollaremos en el resto del tema.
 Altura del hijo = 85cm + 0.5 altura del padre (Y = 85 + 0.5 X)
• Si el padre mide 200cm ¿cuánto mide el hijo?

 Se espera (predice) 85 + 0,5x200=185 cm.
cm.
• Alto, pero no tanto como el padre. Regresa a la media.
media.
• Si ell padre
d mide
id 120 cm ¿cuánto
á t mide
id ell hij
hijo?
?
 Se espera (predice) 85 + 0,5x120=145 cm.
• Bajo, pero no tanto como el padre. Regresa a la media.
 Es decir, nos interesaremos por modelos de regresión lineal

simple.
22
Modelo de regresión lineal simple
 En el modelo de regresión lineal simple,
simple, se tiene dos variables
 Y (dependiente)
 X (independiente,
(independiente explicativa)
explicativa)
 Se busca encontrar una función de X muy simple (lineal) que

nos permita aproximar
apro imar Y mediante
 Ŷ = b0 + b1X
• b0 (ordenada en el origen
origen, constante)
• b1 (pendiente de la recta)
 Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo

de regresión. A la cantidad
 e=Y--Ŷ se le denomina residuo o error residual.
e=Y residual.
23
 En el ejemplo de Pearson y las alturas, él encontró:
 Ŷ = b0 + b1X
• b0=85 cm (No interpretar como altura de un hijo cuyo padre mide 0 cm
¡Extrapolación salvaje!
• b1=0.5
=0 5 (En media el hijo gana 0
0.5
5 cm por cada cm del padre
padre.))
180
150 b1=0,5
120
90
60
b0=85 cm
30
0
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
160
170
180
190
200
210
220
Estatura 24
 La relación entre las variables no es exacta. Es natural
preguntarse
t entonces:
t
 Cuál es la mejor recta que sirve para predecir los valores de Y en
función de los de X
 Q é error cometemos
Qué t con dicha
di h aproximación
i ió (residual).
( id l)
180
150 b1=0,5
120
90
60
b0=85 cm
30
0
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
160
170
180
190
200
210
220
25
 El modelo lineal de regresión se construye utilizando la
técnica de estimación mínimo cuadrática:
 Buscar b0, b1 de tal manera que se minimice la

cantidad
Σi ei2
 Se comprueba que para lograr dicho resultado basta con

elegir:
S XY
b1  b0  y  b1 x
SC X
26
Coeficientes de la ecuación de
regresión
(  x)(  y)
 xy  i
n
i
b  i

xy 2
 x 

 x 2
 

i
n


i  
 
b0  y  b1 x
27
Ejercicio: Datos:
estatura 162
162, 154
154, 180
180, 158
158, 171
171, 169
169, 166
166, 176
176, 163
peso 61, 60, 78, 62, 66, 60, 54, 84, 68.
N=9 Σ x = 1 499 Σ y = 593
Σ x2 = 250 227 Σ y2 = 39 801
Σ x y = 99 216
b1 = 0.80 b0 = 0.49
 Que el error medio de las Cometió un error
predicciones sea nulo no quiere de -30 en su
decir que las predicciones sean última predicción
buenas.
 Hay que encontrar un medio de

expresar lla bondad
b d dd dell ajuste
j t
(bondad de la predicción)
No importa. Con los dos

últimos clientes me
equivoqué en +10 y +20.
En término medio el error
es cero.
29
Bondad de un ajuste
Resumiendo: Y
• La dispersión del error residual será una fracción

de la dispersión original de Y
•Cuanto menor sea la dispersión del error residual

mejor será el ajuste de regresión.
Eso hace que definamos como medida de

bondad de un ajuste de regresión,
regresión
o coeficiente de determinación a:
2
S
R  1
2 e
2
S Y
2
S
e  S 2
Y
30
Varianza del error en la regresión ( Se 2 )
V i
Varianza d 1 [ SCy – (b12 ) SC
dell error = n -1 SCx]]
n-2
Prueba de hipótesis para b1

t = ( b1 ) / sb
gl = n-2
31
Resumen sobre bondad de un ajuste
 La bondad de un ajuste de un modelo de regresión se mide usando el

coeficiente de determinación R2
 R2 es una cantidad adimensional que sólo puede tomar valores en [0, 1]

 Para el alumno astuto: ¿por qué?
 C
Cuando
d un ajuste
j t es bueno,
b R2 será
á cercano a uno.
 ¿por qué?
 Cuando un ajuste es malo R2 será cercano a cero.

 ¿por qué?
 A R2 también se le denomina porcentaje de variabilidad explicado por el

modelo de regresión.
 ¿por qué? Difícil.
 R2 puede ser pesado de calcular en modelos de regresión general, pero en el

modelo lineal simple, la expresión es de lo más sencilla: R2=r2
32
Otros modelos de regresión
 Se pueden considerar otros tipos ¿recta o parábola?

d modelos,
de d l en ffunción
ió ddell aspecto
t
que presente el diagrama de
dispersión (regresión no lineal)
 Incluso se puede considerar el que

una variable dependa de varias
140 150 160 170 180 190 200
(regresión múltiple).
¿recta o cúbica?
140 150 160 170 180 190 200
Bioestadística. U. Málaga. Tema 3: Estadística bivariante 33

Ejemplo con SPSS
 A continuación vamos a analizar un ejemplo realizado con datos
simulados, de lo que podría parecer el estudio sobre alturas de
hijos y padres, realizado con SPSS.
 Suponemos que hemos recogido la altura de 60 varones, junto a

las de su padre.
 El estudio
t di ddescriptivo
i ti univariante
i i t de d ambas
b variables
i bl por
separado no revela nada sobre una posible relación.
16 12
14
10
12
8
10
8 6
6
4
Desv. típ. = 8,64 2 Desv. típ. = 5,30

2
Media = 173,3 Media = 170,8
0 N = 59,00
, 0 N = 59,00
59 00
155,0 165,0 175,0 185,0 195,0 160,0 165,0 170,0 175,0 180,0
160,0 170,0 180,0 190,0 162,5 167,5 172,5 177,5 182,5
Altura del Padre Altura del hijo

Bioestadística. U. Málaga. Tema 3: Estadística bivariante 34
 En el diagrama de dispersión se aprecie una clara relación lineal directa.
directa.
• ¿Aprecias regresión
g a la media en el sentido de Galton en la gráfica?
g
 La tabla de correlaciones nos muestra que r=0.759 190
• ¿Por qué se ven algunos r=1?

 El modelo de regresión lineal simple es 180
 Altura hijo = b0 + b1 Altura del padre

170
• b0=89.985
• b1=0.466
• ¿Aprecias regresión a la media?
Altura del hijo

160
 La bondad del ajuste es de R2=0.577= 57.7%

150
• ¿Eso significa que el 57% de las predicciones del modelo son correctas?
150 160 170 180 190 200
• ¿Cómo lo interpretas? Altura del Padre
Correlaciones
Altura del Coeficientesa

Altura del hijo Padre
Correlación de Pearson Altura del hijo 1,000 ,759 Coeficientes no
estandarizados
Altura del Padre ,759 1,000
Modelo B Error típ.
Resumen del modelo
1 (
(Constante) ) 89,985
, 9,180
,
R cuadrado Error típ. de la Altura del Padre ,466 ,053
Modelo R R cuadrado corregida estimación a. Variable dependiente: Altura del hijo
1 ,759a ,577 ,569 3,480
Bioestadística.
a. Variables U.(Constante),
predictoras: Málaga. Altura del Padre 35
¿Qué hemos visto?
 Relación entre variables
 Diagrama de dispersión
 Covarianza
 Relación directa, inversa o no correlación
 Correlación lineal
 Relación directa, inversa o no correlación
 Grado de relación lineal entre variables
 Regresión, predicción
 Variable dependiente
 Variable(s)
( ) independientes
p
 Modelo lineal de regresión
• Ordenada en el origen
• Pendiente o coeficiente de regresión
 Residuo o error
 Bondad del ajuste, coeficiente determinación
• En el modelo lineal simple: r2
36

Curso Regresion

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Curso Regresion

Загружено:

Авторское право:

Доступные форматы

Métodos

 En este capítulo se describe la relación entre dos

 Por ejemplo. Estudiar si hay relación entre la

 Medir el grado de relación entre las variables

 A la derecha tenemos una posible manera de recoger Estatura Peso en

Mide 187 cm.

Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de

280 Poca relación 90 Fuerte relación

 El signo de la covarianza nos dice si la relación entre las

 El coeficiente de correlación lineal de Pearson

 tiene el mismo signo que Sxy por tanto de su

N=9 Σ x = 1 499 Σ y = 593

Σ x2 = 250 227 Σ y2 = 39 801

 Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación

“Es la proporción de la variación de

Este coeficiente sirve para comparar el

 Me ha salido r=1.2 ¿la relación es “super lineal”?

 ¿A partir de qué valores se considera que hay “buena

 Cuando las variables en vez de ser numéricas

 Disponemos para estos casos de dos

Maurice George Kendall

 f es una función de un tipo determinado ( lineal )

 “Cada peculiaridad en un hombre es

Altura del hijo = 85cm + 0,5 altura del

 Altura del hijo = 85cm + 0.5 altura del padre (Y = 85 + 0.5 X)

• Si el padre mide 200cm ¿cuánto mide el hijo?

 Es decir, nos interesaremos por modelos de regresión lineal

 Se busca encontrar una función de X muy simple (lineal) que

 Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo

 Buscar b0, b1 de tal manera que se minimice la

 Se comprueba que para lograr dicho resultado basta con

N=9 Σ x = 1 499 Σ y = 593

Σ x2 = 250 227 Σ y2 = 39 801

 Hay que encontrar un medio de

No importa. Con los dos

• La dispersión del error residual será una fracción

•Cuanto menor sea la dispersión del error residual

Eso hace que definamos como medida de

Prueba de hipótesis para b1

 La bondad de un ajuste de un modelo de regresión se mide usando el

 R2 es una cantidad adimensional que sólo puede tomar valores en [0, 1]

 Cuando un ajuste es malo R2 será cercano a cero.

 A R2 también se le denomina porcentaje de variabilidad explicado por el

 R2 puede ser pesado de calcular en modelos de regresión general, pero en el

 Se pueden considerar otros tipos ¿recta o parábola?

 Incluso se puede considerar el que

140 150 160 170 180 190 200

Bioestadística. U. Málaga. Tema 3: Estadística bivariante 33

 Suponemos que hemos recogido la altura de 60 varones, junto a

Desv. típ. = 8,64 2 Desv. típ. = 5,30

Altura del Padre Altura del hijo

• ¿Por qué se ven algunos r=1?

 Altura hijo = b0 + b1 Altura del padre

Altura del hijo

 La bondad del ajuste es de R2=0.577= 57.7%

• ¿Cómo lo interpretas? Altura del Padre

Altura del Coeficientesa

Вам также может понравиться