5 +Modelos+Estadísticos

24-10-2016
P. UNIVERSIDAD CATÓLICA DE CHILE

FACULTAD DE MEDICINA
DEPARTAMENTO DE SALUD PÚBLICA
Modelos
Estadísticos
L. Villarroel
Objetivos de la sesión
• Introducción a los modelos estadísticos
• Modelos de Regresión Lineal.
• Modelos de Regresión Logística.
• Otros modelos estadísticos.
1
24-10-2016
Introducción a los Modelos Estadísticos

Ejemplo. En base a información de 904 partos atendidos en un
hospital de la RM, se quiere determinar variables asociadas al peso
al nacer.
V. Explicatorias (X) V. Explicada (Y)

La correlación de Pearson entre Peso RN y cada variable explicatoria
fue significativa.
Correlación
con Peso RN Valor p
Edad 0.101 0.002
Peso materno inicio embarazo 0.309 <0.001
Estatura materna 0.187 <0.001
IMC inicio embarazo 0.240 <0.001
Peso materno preparto 0.401 <0.001
Peso materno postparto 0.335 <0.001
• Si buscamos variables asociadas al peso RN, ¿hay X redundantes?

• Si queremos predecir el peso RN, ¿todas las X pueden usarse en el
modelo?
2
24-10-2016

Los modelos estadísticos buscan relacionar una o más variables
explicatorias X1, X2, …, Xk con una variable respuesta Y.
Los motivos por los que se ajusta un modelo suelen ser:

• Para buscar variables asociadas en forma conjunta e independiente
con una variable respuesta.
• Para controlar el efecto de variables confundentes sobre la variable
respuesta.
• Para construir un modelo predictivo de la variable respuesta.

Cuando se buscan variables asociadas en forma conjunta e
independiente con Y, se quiere identificar las explicatorias que
sean significativas y a la vez que no sean redundantes.
Ejemplo. Se determinó que la edad (X1), paridad (X2) y años de estudio (X3)
se asocian con Ca de mama (Y). Sin embargo, la paridad y años de estudio
aumentan con la edad, por lo que no es seguro contar con 3 variables
explicatorias.
El objetivo es determinar cuáles variables se asocian en forma conjunta e

independiente con Ca de mama.
3
24-10-2016

Controlar el efecto de una variable confundente, en la
asociación de X e Y, significa que podría existir una tercera
variable Z, asociada tanto con X como con Y, que podría ser la
verdadera causante de la relación X – Y.
Ejemplo. Se encontró una asociación significativa entre infarto al miocardio

(Y) y consumo de alcohol (X), con mayor proporción de infartos en los
consumidores de alcohol. Sin embargo, ambas variables se asocian con
hábito tabáquico, el cual podría ser el verdadero causante de los infartos.
El objetivo es determinar la asociación de X e Y controlando el efecto del

hábito tabáquico.

Para construir un modelo predictivo, no es suficiente determinar
variables no redundantes y significativas (asociación). Se
requiere que los valores estimados por el modelo sean similares
a los valores observados en los datos (concordancia).
Ejemplo. Interesa determinar factores que predigan sobrevida a 10 años de

pacientes sometidos a trasplante cardíaco. Para esto, para 68 trasplantados
se tiene la edad (X1), edad del donante (X2), presencia de diabetes pre cirugía
(X3) y presencia de infecciones en primeros 6 meses post cirugía (X4).
El objetivo es construir un modelo predictivo, por lo que no es suficiente

evaluar la significancia de cada X, sino la bondad de ajuste del modelo.
4
24-10-2016

El tipo al que pertenecen X e Y determina el tipo de modelo.
Algunos modelos de uso frecuente son:
Si la Y es… Y las X son… El modelo es…

Continua (Intervalar) Continuas y/o binarias Regresión Lineal
Continua (Intervalar) Categóricas Análisis de la Varianza (ANOVA)
Continua (Intervalar) Continuas y categóricas Análisis de la Covarianza (ANCOVA)
Continua (discreta) Continuas y/o categóricas Regresión Poisson
Binaria Continuas y/o categóricas Regresión Logística Binaria
Ordinal Continuas y/o categóricas Regresión Logística Ordinal
Categórica (>2 niveles) Continuas y/o categóricas Análisis Discriminante
Tiempo hasta un evento Continuas y/o categóricas Riesgos Proporcionales de Cox
Modelos de Regresión Lineal
5
24-10-2016

Un modelo de regresión lineal permite analizar la relación entre
una variable explicada numérica (Y) y una o más variables
explicatorias numéricas y/o dicotómicas (X1,..., Xk).
Ejemplo. Relación de peso al nacer e incremento de peso (% respecto al peso
al nacer) entre el día 70 y 100 de vida.
Fuente. Le C. Introductory Biostatistics. Wiley 2003

Además de identificar variables asociadas e intentar predecir la
variable Y, un modelo de regresión lineal permite estimar el cambio
que se produce en la variable explicada, que corresponde a un
cambio dado en las variable explicatorias
Ejemplo. Relación de peso al nacer e

incremento (%) respecto al peso al
nacer entre el día 70 y 100 de vida.
Por cada 100 gramos más de peso al

nacer, el peso se incrementa un 6.1%
menos a los 70-100 días.
6
24-10-2016

Es importante hacer un gráfico de dispersión para observar la
relación de Y con cada variable explicatoria X.
(a). Hay relación (b). La relación

lineal directa entre X e Y no
entre X e Y. es lineal.
(c). La relación (d). Regresión

entre X e Y se ve lineal no es
distorsionada adecuada: X no
por un outlier. es numérica.
Chatterjee S, Hadi AS. Regression Analysis by Example 4th Ed. Wiley 2006

Los modelos de regresión lineal se pueden dividir en dos grupos,
según el número de variables explicatorias:
• Modelos de regresión lineal simple. En que se analiza la

relación entre la variable explicada Y con sólo una variable
explicatoria X.
• Modelos de regresión lineal múltiple. En que se analiza la

relación de la variable explicada Y con dos o más variables
explicatorias X1, ... Xk.
7
24-10-2016
Regresión Lineal Simple

Un modelo de regresión lineal simple es de la forma:
Yi     xi   i
El modelo representa la recta de regresión.  y  son los parámetros

o coeficientes de la ecuación;  es el intercepto con el eje Y y  es la
pendiente.
, el error, es la distancia a la que un resultado particular Y se

encuentra de la recta de regresión  + X.

Los modelos de regresión lineal simple tienen relación directa
con la correlación de Pearson.
Correlación de Pearson Regresión Lineal Simple
Si r > 0, hay asociación lineal La pendiente de la recta de
directa entre X e Y. regresión es positiva.
Si r < 0, hay asociación lineal La pendiente de la recta de

inversa entre X e Y. regresión es negativa.
Si r = 0, no hay asociación lineal La pendiente de la recta de

entre X e Y. regresión es cercana a cero.
El valor p del r Pearson indica si El valor p de la pendiente es el

es significativa. valor p del r de Pearson.
8
24-10-2016
Regresión Lineal Simple Country Literacy Infant Mortality

Argentina 95 25.6
Ejemplo. relación de alfabetización (%) y Australia 100 7.3
mortalidad infantil (x1000 nacidos vivos)

Austria 99 6.7
Bangladesh 35 106
para n=25 países (datos del año 1995). Bolivia
Brazil
78
81
75
66
Bulgaria 93 12
Burkina Faso 18 118
140
Canada 97 6.8
M o rta lid a d in fa n til (x 1 0 0 0 n a c. v iv o s)
120 Chile 93 14.6

100
China 78 52
Cuba 94 10.2
80 Denmark 99 6.6
60 France 99 6.7
Haiti 53 109
40
India 52 79
20 Indonesia 77 68
Japan 99 4.4
0
Kenya 69 74
0 20 40 60 80 100 120
Mexico 87 35
Alfabetización (%)
Netherlands 99 6.3
Correlación de Pearson: r= -0.931

Peru 85 54
Spain 95 6.9
USA 97 8.1
Uruguay 96 17

Modelo de regresión lineal simple para explicar Mortalidad Infantil en
función de Alfabetización usando SPSS:
Luego, el modelo es:

Mortalidad = 171.8 - 1.605*Alfabetización
9
24-10-2016

El intercepto α=171.8 es la mortalidad media para alfabetización=0%.
La pendiente β = -1.6 indica que por cada punto porcentual de
alfabetización, la mortalidad disminuye 1.6 x mil nacidos vivos.
Mortalidad = 171.8 - 1.605*Alfabetización

La pendiente es el coeficiente más importante, ya que =0 equivale a
plantear que X no hace un aporte significativo para explicar Y.
Luego, la hipótesis de interés es: H0: =0 versus H1: 0
Significancia de β̂
La pendiente tiene un valor p< 0.001. Se concluye que la Alfabetización

hace un aporte muy significativo para explicar Mortalidad Infantil.
10
24-10-2016
Coeficiente de Determinación R2
Permite determinar qué tan bien se ajusta el modelo a los
datos observados. En regresión lineal simple, R2 es igual al
cuadrado del r de Pearson. Es decir R2 = r2.
• Como r ϵ (-1,1), entonces R2 ϵ (0,1). Si R2=1, todos los datos muestrales

caen sobre la recta. Si R2=0, no hay relación lineal entre X e Y.
• R2 también se interpreta como el porcentaje de la variabilidad de Y que
es explicada por el modelo ajustado.
Ejemplo. En el modelo para Mortalidad, R2=(-0.931)2=0.867. Luego, el

86.7% de la variabilidad de Y es explicada por el modelo.
Transformaciones (Círculo de Potencias)

En ocasiones, un gráfico de dispersión muestra una asociación entre
X e Y que no es lineal.
Cuadrático Inverso Logarítmico

1.0
600
3.0
400 500
0.8
2.5
2.0
0.6
300
1.5
0.4
200
1.0
0.2
100
0.5
0.0
0
5 10 15 20 25 5 10 15 20 25 5 10 15 20 25
Para ajustar un modelo lineal, se debe transformar X o Y de modo que

la nueva relación sea lineal, y luego modelar los datos transformados.
11
24-10-2016

El círculo de potencias permite elegir una transformación adecuada,
observando en qué cuadrante se encuentra la función X – Y y luego
elegir la transformación de X o Y que corresponda.
Logarítmico Cuadrático
Inverso Exponencial

Al agregar un término cuadrático al modelo para Mortalidad infantil,
se obtiene un mejor ajuste que con un modelo lineal simple.
Ajuste de Función Cuadrática de Alfabetización

para explicar Mortalidad Infantil
140
y = 97.8 + 1.1x - 0.02x 2
120 (R 2 = 0.947)
Mortalidad (x1000 NV)
100
80
60
40
20
0
0 20 40 60 80 100 120
Alfabetización (%)
12
24-10-2016
Regresión Lineal Múltiple

Un modelo de regresión lineal múltiple es de la forma:
Y    1 x1   2 x2  ...   k xk  
Donde  es el intercepto (o constante) y 1,.., k son las

pendientes asociadas a cada variable explicatoria.
El error ε simboliza la variabilidad de Y que no es explicada
por el modelo.

Ejemplo. Regresión lineal múltiple para explicar el peso al nacer (en
gramos) en función de la edad, peso materno al inicio del embarazo y
estatura materna, para 904 partos atendidos en un hospital de la RM.
Correlaciones de Pearson Modelo de Regresión múltiple
El peso (p<0.001) y estatura (p=0.005) maternas se asocian en forma

significativa con el peso al nacer, pero la edad materna (p=0.816) no
es significativa.
13
24-10-2016

La interpretación de cada parámetro en una regresión múltiple
debe hacerse considerando la presencia de las otras variables en el
modelo.
El efecto de la edad materna

no es significativo (p=0.816),
ajustado por peso y estatura
materna.
El peso RN aumenta 12.7 grs. El efecto del peso al inicio del

por cada kilo de peso adicional embarazo es significativo
al inicio del embarazo, ajustado (p<0.001), ajustado por edad y
por edad y estatura materna. estatura materna.
R2 en Regresión Lineal Múltiple

En regresión múltiple el R2 no se calcula como el r de Pearson al
cuadrado. Se usa la Tabla ANOVA, que muestra la variabilidad de Y
(SS Total) que es explicada por el modelo (SS Regresión) y el error
(SS Error).
Luego, el R2 es el porcentaje en que SS Regresión explica SS Total:
SSR 16082640
R2    0.103 (10.3%)
SST 155445096
14
24-10-2016
R2 Ajustado
El R2 siempre aumenta al incluir una variable en el modelo. Se prefiere
el R2 ajustado, que aumenta cuando al incluir una variable aumenta la
predicción o disminuye en caso contrario.
n 1
R 2 ajustado 1  (1  R 2 ) 
nk
Donde n es el tamaño muestral y k el número de explicatorias en el modelo.
Ejemplo. En el modelo para peso al nacer, n=904, k=3 y R2=0.103. Luego:
904  1
R 2 ajustado 1  (1  0.103)   0.101 (10.1%)
904  3
Métodos de Selección de Modelos

Un modelo debiera incluir solo variables significativas para explicar
la respuesta Y. ¿Cómo decidir cuáles deben estar en el modelo y
cuáles dejar fuera?
• Una estrategia es ajustar todos los modelos posibles y elegir el

mejor (poco práctico si hay muchas variables explicatorias).
• La alternativa más usada es usar un método paso-a-paso.
 Hacia adelante (forward)
 Hacia atrás (backward)
 Stepwise (mezcla de forward y backward)
15
24-10-2016

FORWARD. Comienza sin variables en el modelo. Paso1: se incluye la X más
asociada con Y entre las “candidatas” (p<0.05). Paso2 y sgtes.: se incluye la
que hace el aporte más significativo en presencia de la ingresada en paso
anterior. Final: cuando ninguna de las variables fuera del modelo hace un
aporte significativo.
BACKWARD. Comienza con todas las variables en el modelo. Paso1 y sgtes:

se excluye sucesivamente la menos significativa para explicar Y (p≥0.05).
Final: cuando todas de las variables en el modelo son significativas.
STEPWISE. Parte como Forward. En cada paso se evalúan las variables

dentro y fuera del modelo (algunos pasos pueden ser forward y otros
backward), hasta tener solo variables significativas en el modelo (p<0.05).

Ejemplo. Modelo paso-a-paso (forward) para peso al nacer en función de
variables maternas, para 904 partos atendidos en un hospital de la RM.
Asociación inicial Modelo paso-a-paso (forward)

Correlación
con Peso RN Valor p
Edad 0.101 0.002
Peso materno inicial 0.309 <0.001
Estatura materna 0.187 <0.001
IMC inicio embarazo 0.240 <0.001
El modelo para explicar el peso al nacer incluye el peso materno al inicio del
embarazo (paso 1) y la estatura materna (paso 2).
Peso RN = 1628.8 + 12.8*Peso Mat. + 7.09*Talla Mat.
16
24-10-2016
Modelos de Regresión Logística

Un modelo de regresión logística permite analizar la relación
entre una variable explicada binaria (Y) y una o más variables
explicatorias numéricas y/o categóricas (X1,..., Xk).
Ejemplo. En un estudio sobre estado nutricional de 1550 escolares de Puente Alto,

interesa analizar el efecto de las variables al nacer sobre obesidad a los 10-12 años.
17
24-10-2016

Supongamos que interesa estudiar los factores asociados a la presencia
de una enfermedad. Sea Y la variable dicotómica definida como:
0 sin la enfermedad
Y 
1 con la enfermedad
Llamemos p a la probabilidad de que la enfermedad esté presente:
p  P(Y  1) y 1  p  P(Y  0)
Problema. La variable respuesta (Y) y la probabilidad de enfermar (p)

toman valores en un rango muy acotado para construir un modelo.

Dado que no podemos usar Y (que es dicotómica) o p (que varía entre
0 y 1), Se define una función de p, llamada el logito de p, para tener
una variable respuesta que tome valores en los números reales.
 p 
logito ( p )  log 
1 p 
Lo que permite plantear el modelo de regresión logística
 p 
log     x
1 p 
Donde X es una variable explicatoria categórica o numérica.
18
24-10-2016

Al despejar la probabilidad p en el modelo logístico, se tiene:
 p  e   x
log     x p
 1 p  1  e   x
Al estimar los parámetros  y , se puede estimar la probabilidad de

que la enfermedad esté presente, para un determinado valor de X.
eˆ  x
ˆ
pˆ 
1  eˆ  x
ˆ
Estimación de Odds Ratio (OR)

Recordemos que en una tabla de 2x2 el OR se puede calcular como:
OR
a (a  b) b (a b)  p1 (1 p1)
c (c  d) d (c  d) p2 (1 p2 )
El numerador y denominador del OR son chances de la forma p/(1-p),

las cuales podemos obtener también en el modelo logístico:
 p  p
log     x  e  x
1 p  1 p
19
24-10-2016

Luego, si X es la exposición a un factor (1=Expuesto, 0=No Expuesto),
para X=1 la razón p/(1-p) representa la chance de enfermar cuando el
factor está presente y para X=0 es la chance cuando X está ausente.
p odds  e  1
e  
odds x   e  x
x 1
1 p
odds  ex 0
  0
e 
Y la razón de chances (OR) es:
odds1 e  
OR     e
odds0 e

Si X es numérica, eβ se puede interpretar como el riesgo adicional de
enfermar por cada unidad de aumento de la variable X.
Por ejemplo, si X se mueve de un valor x1 a un nuevo valor x2, entonces:
odds2 e  x2
OR     x1  e  ( x2  x1 )
odds1 e
La relación entre la pendiente β y el OR se puede resumir como:

Si … Entonces … Y la variable X es…
β>0 OR > 1 Factor de riesgo
β<0 OR < 1 Factor protector
β=0 OR = 1 No produce efecto
20
24-10-2016

Ejemplo 1. En el estudio sobre estado nutricional de 1550 escolares de
Puente Alto, se analiza si nacer prematuro (EG < 37 semanas) está
asociado con obesidad a los 10-12 años.
La variable Prematuro es un factor de riesgo (ya que β>0), pero no es

significativa (p=0.223). El riesgo de ser obeso para un prematuro es
e0.332 = 1.394.

Ejemplo 2. En el mismo estudio sobre estado nutricional, se analiza el
efecto del peso al nacer (en kilos) sobre la obesidad a los 10-12 años.
El peso al nacer es factor de riesgo de obesidad en escolares (β > 0) y

su efecto es muy significativo (p<0.001).
El OR es e0.507 = 1.66. Luego, por cada kilo adicional de peso al nacer, el
riesgo se incrementa en un 66%.
21
24-10-2016
Regresión Logística Múltiple

Un modelo de regresión logística múltiple es de la forma:
 p 
log     1 x1     p x p
1 p 
Donde α es el intercepto o constante y los βi son las pendientes

asociadas a cada variable explicatoria X.
Como en regresión lineal múltiple, la interpretación de cada
parámetro debe hacerse considerando la presencia de las otras
variables en el modelo.
Regresión Logística Múltiple

Ejemplo. En el estudio de estado nutricional, se analiza el efecto del
peso y talla al nacer y edad gestacional sobre obesidad a los 10-12 años.
El peso al nacer es factor de riesgo y talla y EG son protectoras. Las

3 variables hacen un aporte significativo para explicar la obesidad.
Para peso RN, OR = e1.123 = 3.074 indica que hay 3 veces más riesgo de
obesidad por cada kilo adicional de peso al nacer, ajustado por talla y EG.
22
24-10-2016
Regresión Logística paso-a-paso

Como en regresión lineal, se pueden usar métodos paso-a-paso para
seleccionar variables a incluir en el modelo: forward, backward y
stepwise.
Ejemplo. Modelo paso-a-paso (forward) para obesidad en función de

variables perinatales y maternas.
Asociación inicial Modelo paso-a-paso (forward)

Variable Valor p Test
Edad materna 0.552 t Student
Número de hijos 0.048 t Student
Peso RN <0.001 t Student
Talla RN 0.286 t Student
Edad Gestacional 0.458 t Student
Prematuro 0.221 Chi-cuadrado
Bondad de Ajuste del Modelo

Con el modelo ajustado, se puede estimar la probabilidad de obesidad para
cada escolar:
e
ˆ  ˆ1 x1  ˆ p x p
pˆ 
1 e
ˆ  ˆ1 x1  ˆ p x p
Y se elige el mejor punto de corte para evaluar su capacidad de predecir

obesidad. Por ejemplo, si se elige p≥0.15:
E = 62.3%
S = 52.9%
Como S y E son bajas, se concluye que no es un buen modelo predictivo.
23
24-10-2016
Construcción de Scores y Curvas ROC

Cuando se ajusta un modelo de regresión logística con el objetivo de predecir
un fenómeno de interés (como la presencia o ausencia de una enfermedad),
una desventaja es la dificultad de hacer predicciones usando la probabilidad
estimada, la cual se considera difícil de calcular.
Usando las propiedades del “logito”, es posible construir un score, que facilita
la predicción.
Posteriormente, una alternativa muy utilizada para evaluar la capacidad

predictiva de un modelo logístico (ya sea usando las probabilidades estimadas
o el score) son las curvas ROC.

Ejemplo. Se quiere construir un modelo predictivo de infección en una UCI,
con información de 47 pacientes con infección y 18 sin infección. Las
variables incluidas en el modelo son Edad, PCR (test precoz de infección) y
Recuento de glóbulos blancos (RCTOGB).
Al ajustar un modelo de regresión logística para la probabilidad de infección,

se obtuvo el siguiente resultado:
24
24-10-2016

La probabilidad estimada de infección es:
exp 7.253  0.153 EDAD  0.259 PCR  0.00019 RGB

pˆ 
1  exp 7.253  0.153 EDAD  0.259 PCR  0.00019 RGB
Como p aumenta o disminuye directamente con el predictor lineal, en vez de

usar p como predictor se podría usar el score dado por:
puntaje  7.253  0.153  EDAD  0.259  PCR  0.00019  RGB
O bien, podríamos aproximar los parámetros estimados y excluir la constante:
SCORE = 15*EDAD + 26*PCR – 0.02*RCTOGB

¿Cuál es el mejor punto de corte en el score, que arroja la mayor sensibilidad y
especificidad?
Score S E
≥ 400 100.0 0.0
≥ 450 100.0 11.3
≥ 500 94.3 33.6
≥ 550 90.0 49.4 Si a S y E se les da la misma
≥ 600 88.8 74.9
importancia, se puede elegir
≥ 650 86.1 91.2
la suma S + E más alta. O sea,
≥ 700 72.5 93.2
≥ 750 51.3 96.7
un score ≥ 650.
≥ 800 30.5 98.9
≥ 850 13.9 100.0
≥ 900 0.0 100.0
25
24-10-2016

Finamente, se puede construir un gráfico de S en función de 1-E, llamada
Curva ROC.
El área bajo la curva ROC es igual a 0.918, con IC95% igual a (0.84 , 0.99).
La misma área se obtiene usando la probabilidad estimada del modelo.
Bibliografía
• Villarroel L. Métodos Bioestadísticos. Ediciones UC 2013.
• Le C. Introductory Biostatistics. Wiley 2003
• Chatterjee S, Hadi A. Regression Analysis by Example 4th Ed. Wiley 2006
• Weinsberg S. Applied Linear Regression. Wiley 2005
26
24-10-2016
27

5 +Modelos+Estadísticos

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

5 +Modelos+Estadísticos

Загружено:

Авторское право:

Доступные форматы

24-10-2016

P. UNIVERSIDAD CATÓLICA DE CHILE

Introducción a los Modelos Estadísticos

V. Explicatorias (X) V. Explicada (Y)

Introducción a los Modelos Estadísticos

• Si buscamos variables asociadas al peso RN, ¿hay X redundantes?

Introducción a los Modelos Estadísticos

Los motivos por los que se ajusta un modelo suelen ser:

Introducción a los Modelos Estadísticos

El objetivo es determinar cuáles variables se asocian en forma conjunta e

Introducción a los Modelos Estadísticos

Ejemplo. Se encontró una asociación significativa entre infarto al miocardio

El objetivo es determinar la asociación de X e Y controlando el efecto del

Introducción a los Modelos Estadísticos

Ejemplo. Interesa determinar factores que predigan sobrevida a 10 años de

El objetivo es construir un modelo predictivo, por lo que no es suficiente

Introducción a los Modelos Estadísticos

Si la Y es… Y las X son… El modelo es…

Modelos de Regresión Lineal

Modelos de Regresión Lineal

Fuente. Le C. Introductory Biostatistics. Wiley 2003

Modelos de Regresión Lineal

Ejemplo. Relación de peso al nacer e

Por cada 100 gramos más de peso al

Modelos de Regresión Lineal

(a). Hay relación (b). La relación

(c). La relación (d). Regresión

Modelos de Regresión Lineal

• Modelos de regresión lineal simple. En que se analiza la

• Modelos de regresión lineal múltiple. En que se analiza la

Regresión Lineal Simple

El modelo representa la recta de regresión.  y  son los parámetros

, el error, es la distancia a la que un resultado particular Y se

Regresión Lineal Simple

Si r < 0, hay asociación lineal La pendiente de la recta de

Si r = 0, no hay asociación lineal La pendiente de la recta de

El valor p del r Pearson indica si El valor p de la pendiente es el

Regresión Lineal Simple Country Literacy Infant Mortality

mortalidad infantil (x1000 nacidos vivos)

120 Chile 93 14.6

Correlación de Pearson: r= -0.931

Regresión Lineal Simple

Luego, el modelo es:

Regresión Lineal Simple

Mortalidad = 171.8 - 1.605*Alfabetización

Regresión Lineal Simple

Luego, la hipótesis de interés es: H0: =0 versus H1: 0

La pendiente tiene un valor p< 0.001. Se concluye que la Alfabetización

• Como r ϵ (-1,1), entonces R2 ϵ (0,1). Si R2=1, todos los datos muestrales

Ejemplo. En el modelo para Mortalidad, R2=(-0.931)2=0.867. Luego, el

Transformaciones (Círculo de Potencias)

Cuadrático Inverso Logarítmico

Para ajustar un modelo lineal, se debe transformar X o Y de modo que

Transformaciones (Círculo de Potencias)

Transformaciones (Círculo de Potencias)

Ajuste de Función Cuadrática de Alfabetización

Regresión Lineal Múltiple

Donde  es el intercepto (o constante) y 1,.., k son las

Regresión Lineal Múltiple

Correlaciones de Pearson Modelo de Regresión múltiple

El peso (p<0.001) y estatura (p=0.005) maternas se asocian en forma

Regresión Lineal Múltiple

El efecto de la edad materna

Peso RN = 1628.8 + 12.8Peso Mat. + 7.09Talla Mat.

SCORE = 15EDAD + 26PCR – 0.02*RCTOGB