Академический Документы
Профессиональный Документы
Культура Документы
Modelos
Estadísticos
L. Villarroel
Objetivos de la sesión
• Introducción a los modelos estadísticos
• Modelos de Regresión Lineal.
• Modelos de Regresión Logística.
• Otros modelos estadísticos.
1
24-10-2016
2
24-10-2016
Ejemplo. Se determinó que la edad (X1), paridad (X2) y años de estudio (X3)
se asocian con Ca de mama (Y). Sin embargo, la paridad y años de estudio
aumentan con la edad, por lo que no es seguro contar con 3 variables
explicatorias.
3
24-10-2016
4
24-10-2016
5
24-10-2016
6
24-10-2016
Chatterjee S, Hadi AS. Regression Analysis by Example 4th Ed. Wiley 2006
7
24-10-2016
Yi xi i
8
24-10-2016
9
24-10-2016
Significancia de β̂
10
24-10-2016
Coeficiente de Determinación R2
Permite determinar qué tan bien se ajusta el modelo a los
datos observados. En regresión lineal simple, R2 es igual al
cuadrado del r de Pearson. Es decir R2 = r2.
3.0
400 500
0.8
2.5
2.0
0.6
300
1.5
0.4
200
1.0
0.2
100
0.5
0.0
0
5 10 15 20 25 5 10 15 20 25 5 10 15 20 25
11
24-10-2016
Inverso Exponencial
140
y = 97.8 + 1.1x - 0.02x 2
120 (R 2 = 0.947)
Mortalidad (x1000 NV)
100
80
60
40
20
0
0 20 40 60 80 100 120
Alfabetización (%)
12
24-10-2016
Y 1 x1 2 x2 ... k xk
13
24-10-2016
SSR 16082640
R2 0.103 (10.3%)
SST 155445096
14
24-10-2016
R2 Ajustado
El R2 siempre aumenta al incluir una variable en el modelo. Se prefiere
el R2 ajustado, que aumenta cuando al incluir una variable aumenta la
predicción o disminuye en caso contrario.
n 1
R 2 ajustado 1 (1 R 2 )
nk
904 1
R 2 ajustado 1 (1 0.103) 0.101 (10.1%)
904 3
15
24-10-2016
El modelo para explicar el peso al nacer incluye el peso materno al inicio del
embarazo (paso 1) y la estatura materna (paso 2).
16
24-10-2016
17
24-10-2016
0 sin la enfermedad
Y
1 con la enfermedad
p P(Y 1) y 1 p P(Y 0)
p
logito ( p ) log
1 p
p
log x
1 p
Donde X es una variable explicatoria categórica o numérica.
18
24-10-2016
p e x
log x p
1 p 1 e x
eˆ x
ˆ
pˆ
1 eˆ x
ˆ
OR
a (a b) b (a b) p1 (1 p1)
c (c d) d (c d) p2 (1 p2 )
p p
log x e x
1 p 1 p
19
24-10-2016
p odds e 1
e
odds x e x
x 1
1 p
odds ex 0
0
e
odds1 e
OR e
odds0 e
odds2 e x2
OR x1 e ( x2 x1 )
odds1 e
20
24-10-2016
21
24-10-2016
p
log 1 x1 p x p
1 p
Para peso RN, OR = e1.123 = 3.074 indica que hay 3 veces más riesgo de
obesidad por cada kilo adicional de peso al nacer, ajustado por talla y EG.
22
24-10-2016
E = 62.3%
S = 52.9%
23
24-10-2016
Usando las propiedades del “logito”, es posible construir un score, que facilita
la predicción.
24
24-10-2016
Score S E
≥ 400 100.0 0.0
≥ 450 100.0 11.3
≥ 500 94.3 33.6
≥ 550 90.0 49.4 Si a S y E se les da la misma
≥ 600 88.8 74.9
importancia, se puede elegir
≥ 650 86.1 91.2
la suma S + E más alta. O sea,
≥ 700 72.5 93.2
≥ 750 51.3 96.7
un score ≥ 650.
≥ 800 30.5 98.9
≥ 850 13.9 100.0
≥ 900 0.0 100.0
25
24-10-2016
El área bajo la curva ROC es igual a 0.918, con IC95% igual a (0.84 , 0.99).
La misma área se obtiene usando la probabilidad estimada del modelo.
Bibliografía
• Villarroel L. Métodos Bioestadísticos. Ediciones UC 2013.
• Le C. Introductory Biostatistics. Wiley 2003
• Chatterjee S, Hadi A. Regression Analysis by Example 4th Ed. Wiley 2006
• Weinsberg S. Applied Linear Regression. Wiley 2005
26
24-10-2016
27