Вы находитесь на странице: 1из 37

Métodos

estadísticos en MVZ
Regresión y correlación lineal

1
Objetivo:

 En este capítulo se describe la relación entre dos


variables numéricas.

 Por ejemplo. Estudiar si hay relación entre la


estatura y el peso.

 Medir el grado de relación entre las variables


aleatorias mediante el coeficiente de correlación.
 D
Describir
ibi lla relación
l ió entre
t variables
i bl mediante
di t una
ecuación lineal simple.

2
OBJETIVO
OBJETIVO:
Reconocer si hay relación entre las variables, de
qué tipo es la relación,
relación y si es posible predecir el
valor de una de ellas en función de la otra.

3
Estudio conjunto de dos variables

 A la derecha tenemos una posible manera de recoger Estatura Peso en


los datos obtenidos observando dos variables en varios en cm. Kg.
individuos de una muestra.
162 61
154 60
 En cada fila tenemos los datos de un individuo 180 78
158 62
 Cada columna representa los valores que toma 171 66
una variable sobre los mismos. 169 60
166 54
 Las individuos no se muestran en ningún orden 176 84
particular.
163 68
... ...
 Dichas observaciones pueden ser representadas en un
diagrama de dispersión (‘scatterplot’). En ellos, cada
individuos es un punto cuyas coordenadas son los
valores de las variables
variables.

4
Diagramas de dispersión
Tenemos las alturas y los pesos de 30 individuos representados en un
diagrama de dispersión.

100
90
80 Pesa 76 kg.

70

Mide 187 cm.


60
Pesa 50 kg.
50
40 Mide 161 cm.

30
140 150 160 170 180 190 200
Estatura (cm) 5
Relación entre variables.

Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de


dispersión.

100
90
80
70
60
50
40
30
140 150 160 170 180 190 200
6
Cómo reconocer una buena o mala relación
330 100

280 Poca relación 90 Fuerte relación

230
o80 directa.

180
70 o
60
130 o 50 o
80 40
30 o30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

Dado un valor de X no podemos decir gran •Conocido X, sabemos que (Y) se incrementa
cosa sobre Y. Mala relación. Independencia. en cierta relación. Buena relación directa.

80
70 Cierta relación
60 inversa
50 Para los valores de X mayores que
40 la media le corresponden valores de
30
20 Y menores. Esto es relación inversa
10
0
o decreciente.
140 150 160 170 180 190 200
7
Grado de relación entre dos variables X e Y :
covarianza

 L covarianza
La i entre
t dos
d variables,
i bl Sxy, nos indica
i di sii lla posible
ibl
relación entre dos variables es directa o inversa.
 Positiva: Sxyy >0
Positiva:
 Negativa:: Sxy <0
Negativa
1
 No relacionadas:
relacionadas: Sxy =0 COV xy  
n 1 i
( xi  x )( yi  y )

 El signo de la covarianza nos dice si la relación entre las


variables es positiva, negativa o son independientes pero no nos
di nada
dice d sobre
b ell gradod d
de relación
l ió entre
t las
l variables.
i bl

8
Grado de relación:
relación:
coeficiente
fi i t d de correlación
l ió lilineall d
de P
Pearson

 El coeficiente de correlación lineal de Pearson


de dos variables, r, nos indica que los puntos
tienen una tendencia de una relación lineal.

 tiene el mismo signo que Sxy por tanto de su


signo obtenemos el que la posible relación sea
directa o inversa.
S xy
 El coeficiente (r ) es útil para determinar si r
hay relación lineal entre dos variables, pero no SxS y
servirá
i á para otros
t ti
tipos d relaciones
de l i
(cuadrática, logarítmica,...)
9
Coeficiente de correlación

(  x)(  y)
 xy  i
n
i

r xy  i
  x  2    y 
2 

 x  
 y 
2 2
 i
 i
 n   n 
 i   i 

10
Ejercicio: Datos:
estatura 162
162, 154
154, 180
180, 158
158, 171
171, 169
169, 166
166, 176
176, 163
peso 61, 60, 78, 62, 66, 60, 54, 84, 68.

N=9 Σ x = 1 499 Σ y = 593

Σ x2 = 250 227 Σ y2 = 39 801

Σ x y = 99 216

R = 0.70 R2 = 0.49
Propiedades de r
 Es
E adimensional
di i l
 Sólo toma valores en [-
[-1,1]
 Las variables son no correlacionadas  r=0
 Relación lineal perfecta entre dos variables  r=+1 o r=
r=--1

 Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación


lineal.
 Siempre que no existan observaciones extremas.

Relación
inversa Relación
perfecta di t
directa
Variables no
casi
correlacionadas
perfecta

-1 0 +1
12
Entrenando el ojo: casi perfectas y positivas

100 100
90 90
80 80
70 70
60 60
50 50
40 r=0,9 40 r=0,99
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

100
90
80
70
60
50
40 r=1
30
140 150 160 170 180 190 200

13
Entrenando el ojo: correlaciones negativas

90 80
80 70
70 60
60 50
50
40
40
30
30
20 20
10 r=-0,5 10 r=-0,7
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200

80 80
70 70
60 60
50 50
40 40
30 30
20 20
10 r=-0,95 10 r=-0,999
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200

14
Coeficiente de determinación (r2)
((r )

“Es la proporción de la variación de


la variable (y ) que es explicada por
la variable (x)”.

Este coeficiente sirve para comparar el


ajuste de modelos de regresión.
Preguntas frecuentes
 ¿Si r=0 eso quiere decir que las variables son
independientes?
 E la
En l práctica,
á ti casii siempre
i sí,
í pero no titiene
por qué ser cierto en todos los casos.
 Lo contrario si es cierto: Independencia
implica no correlación.

 Me ha salido r=1.2 ¿la relación es “super lineal”?


 ¿Super qué? Eso es un error de cálculo. Siempre debe tomar un
valor
l entre
t -1 y +1.
1

 ¿A partir de qué valores se considera que hay “buena


relación lineal”?
lineal ?
 Es difícil dar un valor concreto (mira los gráficos anteriores).
Para este curso digamos que si |r|>0,7 hay buena relación lineal
y que si |r|>0,4 hay cierta relación (por decir algo... la cosa es
un poco más á complicada:
li d observaciones
b i anómalas,...)
ó l )

17
Otros coeficientes de correlación

 Cuando las variables en vez de ser numéricas


son ordinales, es posible preguntarse sobre si
hay algún tipo de correlación entre ellas.
Charles Edward Spearman

 Disponemos para estos casos de dos


estadísticos, aunque no los usaremos en
clase:
 ρ (‘ro’) de Spearman

 τ (‘tau’) de Kendall

Maurice George Kendall


18
Análisis de regresión
 El análisis de regresión sirve para predecir una
variable en función de otra (o varias) variables.
 Y = Variable dependiente
• predicha
• explicada
 X = Variable independiente
• predictora
• explicativa
 ¿Es posible descubrir una relación?
• Y = f(X) + error

 f es una función de un tipo determinado ( lineal )


 el error es aleatorio, pequeño, y no depende de X

19
Antecedentes:
 El término regresión fue introducido por Galton en
su libro “Natural
“Natural inheritance”
inheritance” (1889) refiriéndose a
la “ley de la regresión universal”:

 “Cada peculiaridad en un hombre es


compartida por sus descendientes, pero en
promedio,
di en un grado d menor.””
• Regresión a la media
 Su trabajo
j se centraba en la descripción
p de los Francis Galton
rasgos físicos de los descendientes (una •Primo de Darwin
•Estadístico y aventurero
variable) a partir de los de sus padres (otra •Fundador (con otros) de
variable). la estadística moderna
para explicar
li llas tteorías
í
 Pearson (un amigo suyo) realizó un estudio con de Darwin.
más de 1000 registros de grupos familiares
observando una relación del tipo:

20
Resultados obtenidos por Pearson

Altura del hijo = 85cm + 0,5 altura del


padre (aprox.)
Conclusión: los padres muy altos tienen
tendencia a tener hijos que heredan parte
de esta altura
altura, aunque tienen tendencia a
acercarse (regresar) a la media. Lo
mismo puede decirse de los padres muy
b j
bajos.
Hoy en día el sentido de regresión es el
d predicción
de di ió d de una medida
did
basándonos en el conocimiento de otra.
Predicción mediante la ecuación
de Regresión
g
 El ejemplo del estudio de la altura en grupos familiares de
Pearson es del tipo que desarrollaremos en el resto del tema.

 Altura del hijo = 85cm + 0.5 altura del padre (Y = 85 + 0.5 X)

• Si el padre mide 200cm ¿cuánto mide el hijo?


 Se espera (predice) 85 + 0,5x200=185 cm.
cm.
• Alto, pero no tanto como el padre. Regresa a la media.
media.

• Si ell padre
d mide
id 120 cm ¿cuánto
á t mide
id ell hij
hijo?
?
 Se espera (predice) 85 + 0,5x120=145 cm.
• Bajo, pero no tanto como el padre. Regresa a la media.

 Es decir, nos interesaremos por modelos de regresión lineal


simple.

22
Modelo de regresión lineal simple
 En el modelo de regresión lineal simple,
simple, se tiene dos variables
 Y (dependiente)
 X (independiente,
(independiente explicativa)
explicativa)

 Se busca encontrar una función de X muy simple (lineal) que


nos permita aproximar
apro imar Y mediante
 Ŷ = b0 + b1X
• b0 (ordenada en el origen
origen, constante)
• b1 (pendiente de la recta)

 Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo


de regresión. A la cantidad
 e=Y--Ŷ se le denomina residuo o error residual.
e=Y residual.

23
 En el ejemplo de Pearson y las alturas, él encontró:
 Ŷ = b0 + b1X
• b0=85 cm (No interpretar como altura de un hijo cuyo padre mide 0 cm
¡Extrapolación salvaje!
• b1=0.5
=0 5 (En media el hijo gana 0
0.5
5 cm por cada cm del padre
padre.))

180
150 b1=0,5
120
90
60
b0=85 cm
30
0
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
160
170
180
190
200
210
220
Estatura 24
 La relación entre las variables no es exacta. Es natural
preguntarse
t entonces:
t
 Cuál es la mejor recta que sirve para predecir los valores de Y en
función de los de X
 Q é error cometemos
Qué t con dicha
di h aproximación
i ió (residual).
( id l)

180
150 b1=0,5
120
90
60
b0=85 cm
30
0
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
160
170
180
190
200
210
220
25
 El modelo lineal de regresión se construye utilizando la
técnica de estimación mínimo cuadrática:

 Buscar b0, b1 de tal manera que se minimice la


cantidad
Σi ei2

 Se comprueba que para lograr dicho resultado basta con


elegir:

S XY
b1  b0  y  b1 x
SC X
26
Coeficientes de la ecuación de
regresión

(  x)(  y)
 xy  i
n
i

b  i


xy 2
 x 

 x 2
 

i
n


i  
 
b0  y  b1 x

27
Ejercicio: Datos:
estatura 162
162, 154
154, 180
180, 158
158, 171
171, 169
169, 166
166, 176
176, 163
peso 61, 60, 78, 62, 66, 60, 54, 84, 68.

N=9 Σ x = 1 499 Σ y = 593

Σ x2 = 250 227 Σ y2 = 39 801

Σ x y = 99 216

b1 = 0.80 b0 = 0.49
 Que el error medio de las Cometió un error
predicciones sea nulo no quiere de -30 en su
decir que las predicciones sean última predicción
buenas.

 Hay que encontrar un medio de


expresar lla bondad
b d dd dell ajuste
j t
(bondad de la predicción)

No importa. Con los dos


últimos clientes me
equivoqué en +10 y +20.
En término medio el error
es cero.

29
Bondad de un ajuste
Resumiendo: Y

• La dispersión del error residual será una fracción


de la dispersión original de Y

•Cuanto menor sea la dispersión del error residual


mejor será el ajuste de regresión.

Eso hace que definamos como medida de


bondad de un ajuste de regresión,
regresión
o coeficiente de determinación a:

2
S
R  1
2 e
2
S Y
2
S
e  S 2
Y
30
Varianza del error en la regresión ( Se 2 )

V i
Varianza d 1 [ SCy – (b12 ) SC
dell error = n -1 SCx]]
n-2

Prueba de hipótesis para b1


t = ( b1 ) / sb
gl = n-2

31
Resumen sobre bondad de un ajuste

 La bondad de un ajuste de un modelo de regresión se mide usando el


coeficiente de determinación R2

 R2 es una cantidad adimensional que sólo puede tomar valores en [0, 1]


 Para el alumno astuto: ¿por qué?

 C
Cuando
d un ajuste
j t es bueno,
b R2 será
á cercano a uno.
 ¿por qué?

 Cuando un ajuste es malo R2 será cercano a cero.


 ¿por qué?

 A R2 también se le denomina porcentaje de variabilidad explicado por el


modelo de regresión.
 ¿por qué? Difícil.

 R2 puede ser pesado de calcular en modelos de regresión general, pero en el


modelo lineal simple, la expresión es de lo más sencilla: R2=r2

32
Otros modelos de regresión

 Se pueden considerar otros tipos ¿recta o parábola?


d modelos,
de d l en ffunción
ió ddell aspecto
t
que presente el diagrama de
dispersión (regresión no lineal)

 Incluso se puede considerar el que


una variable dependa de varias
140 150 160 170 180 190 200
(regresión múltiple).
¿recta o cúbica?

140 150 160 170 180 190 200

Bioestadística. U. Málaga. Tema 3: Estadística bivariante 33


Ejemplo con SPSS
 A continuación vamos a analizar un ejemplo realizado con datos
simulados, de lo que podría parecer el estudio sobre alturas de
hijos y padres, realizado con SPSS.

 Suponemos que hemos recogido la altura de 60 varones, junto a


las de su padre.

 El estudio
t di ddescriptivo
i ti univariante
i i t de d ambas
b variables
i bl por
separado no revela nada sobre una posible relación.

16 12

14
10

12

8
10

8 6

6
4

Desv. típ. = 8,64 2 Desv. típ. = 5,30


2
Media = 173,3 Media = 170,8
0 N = 59,00
, 0 N = 59,00
59 00
155,0 165,0 175,0 185,0 195,0 160,0 165,0 170,0 175,0 180,0
160,0 170,0 180,0 190,0 162,5 167,5 172,5 177,5 182,5

Altura del Padre Altura del hijo


Bioestadística. U. Málaga. Tema 3: Estadística bivariante 34
 En el diagrama de dispersión se aprecie una clara relación lineal directa.
directa.
• ¿Aprecias regresión
g a la media en el sentido de Galton en la gráfica?
g
 La tabla de correlaciones nos muestra que r=0.759 190

• ¿Por qué se ven algunos r=1?


 El modelo de regresión lineal simple es 180

 Altura hijo = b0 + b1 Altura del padre


170
• b0=89.985
• b1=0.466
• ¿Aprecias regresión a la media?

Altura del hijo


160

 La bondad del ajuste es de R2=0.577= 57.7%


150
• ¿Eso significa que el 57% de las predicciones del modelo son correctas?
150 160 170 180 190 200

• ¿Cómo lo interpretas? Altura del Padre

Correlaciones

Altura del Coeficientesa


Altura del hijo Padre
Correlación de Pearson Altura del hijo 1,000 ,759 Coeficientes no
estandarizados
Altura del Padre ,759 1,000
Modelo B Error típ.
Resumen del modelo
1 (
(Constante) ) 89,985
, 9,180
,
R cuadrado Error típ. de la Altura del Padre ,466 ,053
Modelo R R cuadrado corregida estimación a. Variable dependiente: Altura del hijo
1 ,759a ,577 ,569 3,480
Bioestadística.
a. Variables U.(Constante),
predictoras: Málaga. Altura del Padre 35
¿Qué hemos visto?
 Relación entre variables
 Diagrama de dispersión
 Covarianza
 Relación directa, inversa o no correlación
 Correlación lineal
 Relación directa, inversa o no correlación
 Grado de relación lineal entre variables
 Regresión, predicción
 Variable dependiente
 Variable(s)
( ) independientes
p
 Modelo lineal de regresión
• Ordenada en el origen
• Pendiente o coeficiente de regresión
 Residuo o error
 Bondad del ajuste, coeficiente determinación
• En el modelo lineal simple: r2

36

Вам также может понравиться