Вы находитесь на странице: 1из 27

24-10-2016

P. UNIVERSIDAD CATÓLICA DE CHILE


FACULTAD DE MEDICINA
DEPARTAMENTO DE SALUD PÚBLICA

Modelos
Estadísticos
L. Villarroel

Objetivos de la sesión
• Introducción a los modelos estadísticos
• Modelos de Regresión Lineal.
• Modelos de Regresión Logística.
• Otros modelos estadísticos.

1
24-10-2016

Introducción a los Modelos Estadísticos


Ejemplo. En base a información de 904 partos atendidos en un
hospital de la RM, se quiere determinar variables asociadas al peso
al nacer.

V. Explicatorias (X) V. Explicada (Y)

Introducción a los Modelos Estadísticos


La correlación de Pearson entre Peso RN y cada variable explicatoria
fue significativa.
Correlación
con Peso RN Valor p
Edad 0.101 0.002
Peso materno inicio embarazo 0.309 <0.001
Estatura materna 0.187 <0.001
IMC inicio embarazo 0.240 <0.001
Peso materno preparto 0.401 <0.001
Peso materno postparto 0.335 <0.001

• Si buscamos variables asociadas al peso RN, ¿hay X redundantes?


• Si queremos predecir el peso RN, ¿todas las X pueden usarse en el
modelo?

2
24-10-2016

Introducción a los Modelos Estadísticos


Los modelos estadísticos buscan relacionar una o más variables
explicatorias X1, X2, …, Xk con una variable respuesta Y.

Los motivos por los que se ajusta un modelo suelen ser:


• Para buscar variables asociadas en forma conjunta e independiente
con una variable respuesta.
• Para controlar el efecto de variables confundentes sobre la variable
respuesta.
• Para construir un modelo predictivo de la variable respuesta.

Introducción a los Modelos Estadísticos


Cuando se buscan variables asociadas en forma conjunta e
independiente con Y, se quiere identificar las explicatorias que
sean significativas y a la vez que no sean redundantes.

Ejemplo. Se determinó que la edad (X1), paridad (X2) y años de estudio (X3)
se asocian con Ca de mama (Y). Sin embargo, la paridad y años de estudio
aumentan con la edad, por lo que no es seguro contar con 3 variables
explicatorias.

El objetivo es determinar cuáles variables se asocian en forma conjunta e


independiente con Ca de mama.

3
24-10-2016

Introducción a los Modelos Estadísticos


Controlar el efecto de una variable confundente, en la
asociación de X e Y, significa que podría existir una tercera
variable Z, asociada tanto con X como con Y, que podría ser la
verdadera causante de la relación X – Y.

Ejemplo. Se encontró una asociación significativa entre infarto al miocardio


(Y) y consumo de alcohol (X), con mayor proporción de infartos en los
consumidores de alcohol. Sin embargo, ambas variables se asocian con
hábito tabáquico, el cual podría ser el verdadero causante de los infartos.

El objetivo es determinar la asociación de X e Y controlando el efecto del


hábito tabáquico.

Introducción a los Modelos Estadísticos


Para construir un modelo predictivo, no es suficiente determinar
variables no redundantes y significativas (asociación). Se
requiere que los valores estimados por el modelo sean similares
a los valores observados en los datos (concordancia).

Ejemplo. Interesa determinar factores que predigan sobrevida a 10 años de


pacientes sometidos a trasplante cardíaco. Para esto, para 68 trasplantados
se tiene la edad (X1), edad del donante (X2), presencia de diabetes pre cirugía
(X3) y presencia de infecciones en primeros 6 meses post cirugía (X4).

El objetivo es construir un modelo predictivo, por lo que no es suficiente


evaluar la significancia de cada X, sino la bondad de ajuste del modelo.

4
24-10-2016

Introducción a los Modelos Estadísticos


El tipo al que pertenecen X e Y determina el tipo de modelo.
Algunos modelos de uso frecuente son:

Si la Y es… Y las X son… El modelo es…


Continua (Intervalar) Continuas y/o binarias Regresión Lineal
Continua (Intervalar) Categóricas Análisis de la Varianza (ANOVA)
Continua (Intervalar) Continuas y categóricas Análisis de la Covarianza (ANCOVA)
Continua (discreta) Continuas y/o categóricas Regresión Poisson
Binaria Continuas y/o categóricas Regresión Logística Binaria
Ordinal Continuas y/o categóricas Regresión Logística Ordinal
Categórica (>2 niveles) Continuas y/o categóricas Análisis Discriminante
Tiempo hasta un evento Continuas y/o categóricas Riesgos Proporcionales de Cox

Modelos de Regresión Lineal

5
24-10-2016

Modelos de Regresión Lineal


Un modelo de regresión lineal permite analizar la relación entre
una variable explicada numérica (Y) y una o más variables
explicatorias numéricas y/o dicotómicas (X1,..., Xk).
Ejemplo. Relación de peso al nacer e incremento de peso (% respecto al peso
al nacer) entre el día 70 y 100 de vida.

Fuente. Le C. Introductory Biostatistics. Wiley 2003

Modelos de Regresión Lineal


Además de identificar variables asociadas e intentar predecir la
variable Y, un modelo de regresión lineal permite estimar el cambio
que se produce en la variable explicada, que corresponde a un
cambio dado en las variable explicatorias

Ejemplo. Relación de peso al nacer e


incremento (%) respecto al peso al
nacer entre el día 70 y 100 de vida.

Por cada 100 gramos más de peso al


nacer, el peso se incrementa un 6.1%
menos a los 70-100 días.

6
24-10-2016

Modelos de Regresión Lineal


Es importante hacer un gráfico de dispersión para observar la
relación de Y con cada variable explicatoria X.

(a). Hay relación (b). La relación


lineal directa entre X e Y no
entre X e Y. es lineal.

(c). La relación (d). Regresión


entre X e Y se ve lineal no es
distorsionada adecuada: X no
por un outlier. es numérica.

Chatterjee S, Hadi AS. Regression Analysis by Example 4th Ed. Wiley 2006

Modelos de Regresión Lineal


Los modelos de regresión lineal se pueden dividir en dos grupos,
según el número de variables explicatorias:

• Modelos de regresión lineal simple. En que se analiza la


relación entre la variable explicada Y con sólo una variable
explicatoria X.

• Modelos de regresión lineal múltiple. En que se analiza la


relación de la variable explicada Y con dos o más variables
explicatorias X1, ... Xk.

7
24-10-2016

Regresión Lineal Simple


Un modelo de regresión lineal simple es de la forma:

Yi     xi   i

El modelo representa la recta de regresión.  y  son los parámetros


o coeficientes de la ecuación;  es el intercepto con el eje Y y  es la
pendiente.

, el error, es la distancia a la que un resultado particular Y se


encuentra de la recta de regresión  + X.

Regresión Lineal Simple


Los modelos de regresión lineal simple tienen relación directa
con la correlación de Pearson.
Correlación de Pearson Regresión Lineal Simple
Si r > 0, hay asociación lineal La pendiente de la recta de
directa entre X e Y. regresión es positiva.

Si r < 0, hay asociación lineal La pendiente de la recta de


inversa entre X e Y. regresión es negativa.

Si r = 0, no hay asociación lineal La pendiente de la recta de


entre X e Y. regresión es cercana a cero.

El valor p del r Pearson indica si El valor p de la pendiente es el


es significativa. valor p del r de Pearson.

8
24-10-2016

Regresión Lineal Simple Country Literacy Infant Mortality


Argentina 95 25.6
Ejemplo. relación de alfabetización (%) y Australia 100 7.3

mortalidad infantil (x1000 nacidos vivos)


Austria 99 6.7
Bangladesh 35 106
para n=25 países (datos del año 1995). Bolivia
Brazil
78
81
75
66
Bulgaria 93 12
Burkina Faso 18 118
140
Canada 97 6.8
M o rta lid a d in fa n til (x 1 0 0 0 n a c. v iv o s)

120 Chile 93 14.6


100
China 78 52
Cuba 94 10.2
80 Denmark 99 6.6
60 France 99 6.7
Haiti 53 109
40
India 52 79
20 Indonesia 77 68
Japan 99 4.4
0
Kenya 69 74
0 20 40 60 80 100 120
Mexico 87 35
Alfabetización (%)
Netherlands 99 6.3

Correlación de Pearson: r= -0.931


Peru 85 54
Spain 95 6.9
USA 97 8.1
Uruguay 96 17

Regresión Lineal Simple


Modelo de regresión lineal simple para explicar Mortalidad Infantil en
función de Alfabetización usando SPSS:

Luego, el modelo es:


Mortalidad = 171.8 - 1.605*Alfabetización

9
24-10-2016

Regresión Lineal Simple


El intercepto α=171.8 es la mortalidad media para alfabetización=0%.
La pendiente β = -1.6 indica que por cada punto porcentual de
alfabetización, la mortalidad disminuye 1.6 x mil nacidos vivos.

Mortalidad = 171.8 - 1.605*Alfabetización

Regresión Lineal Simple


La pendiente es el coeficiente más importante, ya que =0 equivale a
plantear que X no hace un aporte significativo para explicar Y.

Luego, la hipótesis de interés es: H0: =0 versus H1: 0

Significancia de β̂

La pendiente tiene un valor p< 0.001. Se concluye que la Alfabetización


hace un aporte muy significativo para explicar Mortalidad Infantil.

10
24-10-2016

Coeficiente de Determinación R2
Permite determinar qué tan bien se ajusta el modelo a los
datos observados. En regresión lineal simple, R2 es igual al
cuadrado del r de Pearson. Es decir R2 = r2.

• Como r ϵ (-1,1), entonces R2 ϵ (0,1). Si R2=1, todos los datos muestrales


caen sobre la recta. Si R2=0, no hay relación lineal entre X e Y.
• R2 también se interpreta como el porcentaje de la variabilidad de Y que
es explicada por el modelo ajustado.

Ejemplo. En el modelo para Mortalidad, R2=(-0.931)2=0.867. Luego, el


86.7% de la variabilidad de Y es explicada por el modelo.

Transformaciones (Círculo de Potencias)


En ocasiones, un gráfico de dispersión muestra una asociación entre
X e Y que no es lineal.

Cuadrático Inverso Logarítmico


1.0
600

3.0
400 500

0.8

2.5
2.0
0.6
300

1.5
0.4
200

1.0
0.2
100

0.5
0.0
0

5 10 15 20 25 5 10 15 20 25 5 10 15 20 25

Para ajustar un modelo lineal, se debe transformar X o Y de modo que


la nueva relación sea lineal, y luego modelar los datos transformados.

11
24-10-2016

Transformaciones (Círculo de Potencias)


El círculo de potencias permite elegir una transformación adecuada,
observando en qué cuadrante se encuentra la función X – Y y luego
elegir la transformación de X o Y que corresponda.
Logarítmico Cuadrático

Inverso Exponencial

Transformaciones (Círculo de Potencias)


Al agregar un término cuadrático al modelo para Mortalidad infantil,
se obtiene un mejor ajuste que con un modelo lineal simple.

Ajuste de Función Cuadrática de Alfabetización


para explicar Mortalidad Infantil

140
y = 97.8 + 1.1x - 0.02x 2
120 (R 2 = 0.947)
Mortalidad (x1000 NV)

100
80
60
40
20
0
0 20 40 60 80 100 120
Alfabetización (%)

12
24-10-2016

Regresión Lineal Múltiple


Un modelo de regresión lineal múltiple es de la forma:

Y    1 x1   2 x2  ...   k xk  

Donde  es el intercepto (o constante) y 1,.., k son las


pendientes asociadas a cada variable explicatoria.
El error ε simboliza la variabilidad de Y que no es explicada
por el modelo.

Regresión Lineal Múltiple


Ejemplo. Regresión lineal múltiple para explicar el peso al nacer (en
gramos) en función de la edad, peso materno al inicio del embarazo y
estatura materna, para 904 partos atendidos en un hospital de la RM.

Correlaciones de Pearson Modelo de Regresión múltiple

El peso (p<0.001) y estatura (p=0.005) maternas se asocian en forma


significativa con el peso al nacer, pero la edad materna (p=0.816) no
es significativa.

13
24-10-2016

Regresión Lineal Múltiple


La interpretación de cada parámetro en una regresión múltiple
debe hacerse considerando la presencia de las otras variables en el
modelo.

El efecto de la edad materna


no es significativo (p=0.816),
ajustado por peso y estatura
materna.

El peso RN aumenta 12.7 grs. El efecto del peso al inicio del


por cada kilo de peso adicional embarazo es significativo
al inicio del embarazo, ajustado (p<0.001), ajustado por edad y
por edad y estatura materna. estatura materna.

R2 en Regresión Lineal Múltiple


En regresión múltiple el R2 no se calcula como el r de Pearson al
cuadrado. Se usa la Tabla ANOVA, que muestra la variabilidad de Y
(SS Total) que es explicada por el modelo (SS Regresión) y el error
(SS Error).

Luego, el R2 es el porcentaje en que SS Regresión explica SS Total:

SSR 16082640
R2    0.103 (10.3%)
SST 155445096

14
24-10-2016

R2 Ajustado
El R2 siempre aumenta al incluir una variable en el modelo. Se prefiere
el R2 ajustado, que aumenta cuando al incluir una variable aumenta la
predicción o disminuye en caso contrario.
n 1
R 2 ajustado 1  (1  R 2 ) 
nk

Donde n es el tamaño muestral y k el número de explicatorias en el modelo.

Ejemplo. En el modelo para peso al nacer, n=904, k=3 y R2=0.103. Luego:

904  1
R 2 ajustado 1  (1  0.103)   0.101 (10.1%)
904  3

Métodos de Selección de Modelos


Un modelo debiera incluir solo variables significativas para explicar
la respuesta Y. ¿Cómo decidir cuáles deben estar en el modelo y
cuáles dejar fuera?

• Una estrategia es ajustar todos los modelos posibles y elegir el


mejor (poco práctico si hay muchas variables explicatorias).
• La alternativa más usada es usar un método paso-a-paso.
 Hacia adelante (forward)
 Hacia atrás (backward)
 Stepwise (mezcla de forward y backward)

15
24-10-2016

Métodos de Selección de Modelos


FORWARD. Comienza sin variables en el modelo. Paso1: se incluye la X más
asociada con Y entre las “candidatas” (p<0.05). Paso2 y sgtes.: se incluye la
que hace el aporte más significativo en presencia de la ingresada en paso
anterior. Final: cuando ninguna de las variables fuera del modelo hace un
aporte significativo.

BACKWARD. Comienza con todas las variables en el modelo. Paso1 y sgtes:


se excluye sucesivamente la menos significativa para explicar Y (p≥0.05).
Final: cuando todas de las variables en el modelo son significativas.

STEPWISE. Parte como Forward. En cada paso se evalúan las variables


dentro y fuera del modelo (algunos pasos pueden ser forward y otros
backward), hasta tener solo variables significativas en el modelo (p<0.05).

Métodos de Selección de Modelos


Ejemplo. Modelo paso-a-paso (forward) para peso al nacer en función de
variables maternas, para 904 partos atendidos en un hospital de la RM.

Asociación inicial Modelo paso-a-paso (forward)


Correlación
con Peso RN Valor p
Edad 0.101 0.002
Peso materno inicial 0.309 <0.001
Estatura materna 0.187 <0.001
IMC inicio embarazo 0.240 <0.001

El modelo para explicar el peso al nacer incluye el peso materno al inicio del
embarazo (paso 1) y la estatura materna (paso 2).

Peso RN = 1628.8 + 12.8*Peso Mat. + 7.09*Talla Mat.

16
24-10-2016

Modelos de Regresión Logística

Modelos de Regresión Logística


Un modelo de regresión logística permite analizar la relación
entre una variable explicada binaria (Y) y una o más variables
explicatorias numéricas y/o categóricas (X1,..., Xk).

Ejemplo. En un estudio sobre estado nutricional de 1550 escolares de Puente Alto,


interesa analizar el efecto de las variables al nacer sobre obesidad a los 10-12 años.

17
24-10-2016

Modelos de Regresión Logística


Supongamos que interesa estudiar los factores asociados a la presencia
de una enfermedad. Sea Y la variable dicotómica definida como:

0 sin la enfermedad
Y 
1 con la enfermedad

Llamemos p a la probabilidad de que la enfermedad esté presente:

p  P(Y  1) y 1  p  P(Y  0)

Problema. La variable respuesta (Y) y la probabilidad de enfermar (p)


toman valores en un rango muy acotado para construir un modelo.

Modelos de Regresión Logística


Dado que no podemos usar Y (que es dicotómica) o p (que varía entre
0 y 1), Se define una función de p, llamada el logito de p, para tener
una variable respuesta que tome valores en los números reales.

 p 
logito ( p )  log 
1 p 

Lo que permite plantear el modelo de regresión logística

 p 
log     x
1 p 
Donde X es una variable explicatoria categórica o numérica.

18
24-10-2016

Modelos de Regresión Logística


Al despejar la probabilidad p en el modelo logístico, se tiene:

 p  e   x
log     x p
 1 p  1  e   x

Al estimar los parámetros  y , se puede estimar la probabilidad de


que la enfermedad esté presente, para un determinado valor de X.

eˆ  x
ˆ
pˆ 
1  eˆ  x
ˆ

Estimación de Odds Ratio (OR)


Recordemos que en una tabla de 2x2 el OR se puede calcular como:

OR
a (a  b) b (a b)  p1 (1 p1)
c (c  d) d (c  d) p2 (1 p2 )

El numerador y denominador del OR son chances de la forma p/(1-p),


las cuales podemos obtener también en el modelo logístico:

 p  p
log     x  e  x
1 p  1 p

19
24-10-2016

Estimación de Odds Ratio (OR)


Luego, si X es la exposición a un factor (1=Expuesto, 0=No Expuesto),
para X=1 la razón p/(1-p) representa la chance de enfermar cuando el
factor está presente y para X=0 es la chance cuando X está ausente.

p odds  e  1
e  

odds x   e  x
x 1

1 p
odds  ex 0
  0
e 

Y la razón de chances (OR) es:

odds1 e  
OR     e
odds0 e

Estimación de Odds Ratio (OR)


Si X es numérica, eβ se puede interpretar como el riesgo adicional de
enfermar por cada unidad de aumento de la variable X.

Por ejemplo, si X se mueve de un valor x1 a un nuevo valor x2, entonces:

odds2 e  x2
OR     x1  e  ( x2  x1 )
odds1 e

La relación entre la pendiente β y el OR se puede resumir como:


Si … Entonces … Y la variable X es…
β>0 OR > 1 Factor de riesgo
β<0 OR < 1 Factor protector
β=0 OR = 1 No produce efecto

20
24-10-2016

Estimación de Odds Ratio (OR)


Ejemplo 1. En el estudio sobre estado nutricional de 1550 escolares de
Puente Alto, se analiza si nacer prematuro (EG < 37 semanas) está
asociado con obesidad a los 10-12 años.

La variable Prematuro es un factor de riesgo (ya que β>0), pero no es


significativa (p=0.223). El riesgo de ser obeso para un prematuro es
e0.332 = 1.394.

Estimación de Odds Ratio (OR)


Ejemplo 2. En el mismo estudio sobre estado nutricional, se analiza el
efecto del peso al nacer (en kilos) sobre la obesidad a los 10-12 años.

El peso al nacer es factor de riesgo de obesidad en escolares (β > 0) y


su efecto es muy significativo (p<0.001).
El OR es e0.507 = 1.66. Luego, por cada kilo adicional de peso al nacer, el
riesgo se incrementa en un 66%.

21
24-10-2016

Regresión Logística Múltiple


Un modelo de regresión logística múltiple es de la forma:

 p 
log     1 x1     p x p
1 p 

Donde α es el intercepto o constante y los βi son las pendientes


asociadas a cada variable explicatoria X.
Como en regresión lineal múltiple, la interpretación de cada
parámetro debe hacerse considerando la presencia de las otras
variables en el modelo.

Regresión Logística Múltiple


Ejemplo. En el estudio de estado nutricional, se analiza el efecto del
peso y talla al nacer y edad gestacional sobre obesidad a los 10-12 años.

El peso al nacer es factor de riesgo y talla y EG son protectoras. Las


3 variables hacen un aporte significativo para explicar la obesidad.

Para peso RN, OR = e1.123 = 3.074 indica que hay 3 veces más riesgo de
obesidad por cada kilo adicional de peso al nacer, ajustado por talla y EG.

22
24-10-2016

Regresión Logística paso-a-paso


Como en regresión lineal, se pueden usar métodos paso-a-paso para
seleccionar variables a incluir en el modelo: forward, backward y
stepwise.

Ejemplo. Modelo paso-a-paso (forward) para obesidad en función de


variables perinatales y maternas.

Asociación inicial Modelo paso-a-paso (forward)


Variable Valor p Test
Edad materna 0.552 t Student
Número de hijos 0.048 t Student
Peso RN <0.001 t Student
Talla RN 0.286 t Student
Edad Gestacional 0.458 t Student
Prematuro 0.221 Chi-cuadrado

Bondad de Ajuste del Modelo


Con el modelo ajustado, se puede estimar la probabilidad de obesidad para
cada escolar:
e
ˆ  ˆ1 x1  ˆ p x p
pˆ 
1 e
ˆ  ˆ1 x1  ˆ p x p

Y se elige el mejor punto de corte para evaluar su capacidad de predecir


obesidad. Por ejemplo, si se elige p≥0.15:

E = 62.3%

S = 52.9%

Como S y E son bajas, se concluye que no es un buen modelo predictivo.

23
24-10-2016

Construcción de Scores y Curvas ROC


Cuando se ajusta un modelo de regresión logística con el objetivo de predecir
un fenómeno de interés (como la presencia o ausencia de una enfermedad),
una desventaja es la dificultad de hacer predicciones usando la probabilidad
estimada, la cual se considera difícil de calcular.

Usando las propiedades del “logito”, es posible construir un score, que facilita
la predicción.

Posteriormente, una alternativa muy utilizada para evaluar la capacidad


predictiva de un modelo logístico (ya sea usando las probabilidades estimadas
o el score) son las curvas ROC.

Construcción de Scores y Curvas ROC


Ejemplo. Se quiere construir un modelo predictivo de infección en una UCI,
con información de 47 pacientes con infección y 18 sin infección. Las
variables incluidas en el modelo son Edad, PCR (test precoz de infección) y
Recuento de glóbulos blancos (RCTOGB).

Al ajustar un modelo de regresión logística para la probabilidad de infección,


se obtuvo el siguiente resultado:

24
24-10-2016

Construcción de Scores y Curvas ROC


La probabilidad estimada de infección es:

exp 7.253  0.153 EDAD  0.259 PCR  0.00019 RGB


pˆ 
1  exp 7.253  0.153 EDAD  0.259 PCR  0.00019 RGB

Como p aumenta o disminuye directamente con el predictor lineal, en vez de


usar p como predictor se podría usar el score dado por:

puntaje  7.253  0.153  EDAD  0.259  PCR  0.00019  RGB

O bien, podríamos aproximar los parámetros estimados y excluir la constante:

SCORE = 15*EDAD + 26*PCR – 0.02*RCTOGB

Construcción de Scores y Curvas ROC


¿Cuál es el mejor punto de corte en el score, que arroja la mayor sensibilidad y
especificidad?

Score S E
≥ 400 100.0 0.0
≥ 450 100.0 11.3
≥ 500 94.3 33.6
≥ 550 90.0 49.4 Si a S y E se les da la misma
≥ 600 88.8 74.9
importancia, se puede elegir
≥ 650 86.1 91.2
la suma S + E más alta. O sea,
≥ 700 72.5 93.2
≥ 750 51.3 96.7
un score ≥ 650.
≥ 800 30.5 98.9
≥ 850 13.9 100.0
≥ 900 0.0 100.0

25
24-10-2016

Construcción de Scores y Curvas ROC


Finamente, se puede construir un gráfico de S en función de 1-E, llamada
Curva ROC.

El área bajo la curva ROC es igual a 0.918, con IC95% igual a (0.84 , 0.99).
La misma área se obtiene usando la probabilidad estimada del modelo.

Bibliografía
• Villarroel L. Métodos Bioestadísticos. Ediciones UC 2013.
• Le C. Introductory Biostatistics. Wiley 2003
• Chatterjee S, Hadi A. Regression Analysis by Example 4th Ed. Wiley 2006
• Weinsberg S. Applied Linear Regression. Wiley 2005

26
24-10-2016

27

Вам также может понравиться