Вы находитесь на странице: 1из 40

Modelos lineales generalizados

y mixtos con R

Día 1
Modelos lineales generales
Profesores: Adriana Pérez, Gerardo Cueto
Auxiliares: M. Soledad Fernández, Julieta Filloy, Martín
Graziano, José Crespo, Adelia González Arzac , Nicolás Flaibani
Departamento de Ecología, Genética y Evolución
Facultad de Ciencias Exactas y Naturales
Universidad de Buenos Aires
2018
Cronograma (tentativo…)
Fecha Tema
Jueves 1 Modelos lineales generales

Viernes 2 Métodos de estimación


Modelado de heterocedasticidad
Martes 6 Modelos con efectos aleatorios: DBA, diseños anidados,
diseños de medidas repetidas
Miércoles 7 Modelos lineales generalizados: distribución Poisson,
Bernoulli y binomial. Sobredispersión
Viernes 9 Modelos lineales generalizados y mixtos

Lunes 12 Examen
2
Según si posee
Modelos determinísticos componente
aleatorio
vs modelos estadísticos
E (Y )   0  1 X i
Yi   0  1 X i
Yi   0  1 X i   i

Modelo determinístico: Dado un valor Modelo estadístico: Dado un valor de


de X,Y queda determinada X, la esperanza de Y queda
unívocamente determinada unívocamente. Existe
variación aleatoria (error) que
responde a una distribución de
3 probabilidades
Modelo estadístico Y~X

 Es una expresión matemática que indica cómo una variable


respuesta aleatoria (VR,Y), con una distribución de probabilidades
dada, se relaciona con una o más variables explicatorias (VE, X),
aleatorias o no, cuanti o cualitativas, consideradas en el diseño
experimental
VR parámetros VE

Yi   0  1 xi   i
Error aleatorio

i  NID (0, 2)

Dado un valor de X, la esperanza de Y (su valor medio)


queda determinada unívocamente. Existe variación
aleatoria (error)
4
Según
tipo de

Modelos lineales vs no lineales función

 Modelos lineales en los parámetros: los parámetros aparecen


sumando; ningún parámetro aparece como exponente o multiplicado o dividido
por otro parámetro. La VR es una combinación lineal de las VE

Yi   0  1 X i  ....   i
Yi   0  1 X i   2 X i ....   i
2

 Modelos no lineales: los parámetros aparecen la ecuación en forma no-


lineal
1 X i
y   0e  i
La estimación de los parámetros es por iteración

5
Modelos lineales generales vs
modelos lineales generalizados Según la
distribución de
probabilidades
de la VR
Modelo lineal general
✓ VR cuantitativa continua con distribución normal, varianza constante y observaciones
independientes
✓ Estimación de los parámetros por cuadrados mínimos  i  NID(0,  2 )
▪ Anova, regresión lineal y polinómica, ancova
Modelos lineales generalizados (GLM)
✓ VR cualitativa o cuantitativa discreta o cuantitativa continua con distribución de
probabilidades de la familia exponencial
 Regresión logística: VR dicotómica (Si/No), distribución Bernoulli
 Regresión binomial: VR discreta (cantidad de éxitos en una muestra n)
 Regresión de Poisson : VR discreta (conteos)
 Regresión beta: VR es cociente de dos continuas; entre 0 y 1
 Otras: distribución normal (el modelo lineal general es un caso particular de los GLM);
distribución gamma, etc
✓ Estimación de los parámetros por máxima verosimilitud
Según las
características de
Variables explicatorias las VE

Según la cantidad
 Modelos simples: una VE (Regresión lineal simple, anova de un factor):
 Modelos múltiples: más de una VE (Regresión lineal múltiple, anova factorial, etc)
Según el tipo
 cuantitativa o cualitativa. Si es cuali se puede tratar como categórica (factor) o se
puede transformar en cuantitativa (v.indicadora o dummy). No interesa su
distribución de probabilidades (si la tuviese)
Según su naturaleza
 efectos fijos: los valores o rango de la VE son elegidos deliberadamente por el
investigador, porque le interesa comparar el efecto de esos valores en particular
 de efectos aleatorios: los valores de la VE son elegidos al azar por el investigador de
una población mayor de valores de interés. No informativos. En general son cuali

Modelos de efectos fijos: todas las VE son de efectos fijos


Modelos mixtos: contienen VE de efectos fijos y aleatorios
7
Efecto de la exposición postnatal a etanol
sobre el volumen del cerebro en ratones
 La exposición intrauterina al etanol causa alteraciones cognitivas y
conductuales persistentes
 Se desea estudiar los efectos neuroestructurales asociados a esta
exposición en ratones
 30 ratones de 7 días (equivalente al 3er trimestre de gestación en
humanos) fueron divididos en 3 grupos de igual tamaño. A cada
grupo se le aplicó uno de los siguientes tratamientos: a) Solución
salina, b) Etanol 1 g/kg, c) Etanol 2 g/kg. A los 82 días se
determinó el volumen cerebral por resonancia magnética
 UE
 VR (Y)
Modelo?
 VE (X)
8  Réplicas
Parametrización del modelo
VR parámetros VE  El componente determinístico
describe el valor esperado de la VR
Yi   0  1 xi   i dadas las VE (Esperanza condicional
determinístico estocástico µY/X)
i  NID (0, 2)  El componente estocástico
contempla todas las fuentes de
variabilidad adicional:
 Proceso aleatorio inherente
 Efecto de otras VE no incluidas en el
modelo
 Error de medición
Y se le asigna una distribución de
probabilidades
9
Anova vs Regresión lineal
Yi    i   i Yi   0  1 xi   i

µ
µ2
µ3
µ1

✓ En Anova las VP se denominan factores y se las trata como cualitativas.


Se comparan medias
✓ En Regresión las VP pueden ser cuantitativas o cualitativas (indicadoras
o dummy). El objetivo es ajustar funciones y predecir la VR
VR DISTRIBUCION VP MODELO
DE PB DE LA VR
Altura de la planta normal Tipo de fertilizante
(N, P, Control)
Altura de la planta normal Dosis de fertilizante
(0-100g/planta)
Cantidad de hojas por Dosis de fertilizante
planta a los 30 días (0-100g/planta)

Cantidad de semillas Estrés hídrico (con o


germinadas de 100 sin)
Cantidad de semillas Estrés hídrico (con o
germinadas de 100 sin)
Lote de terreno
Planta viva/muerta Nivel de ataque por
plaga (0=sin; 1=bajo;
2=medio; 4=alto)
Peso parte aérea / Peso Dosis de riego
total de la planta Dosis de fertilizante
✓ Puede incluirse más de una VP, lo que determina la posibilidad
9
de incluir interacciones
Efecto de la exposición postnatal a etanol
sobre el volumen del cerebro en ratones
 Modelo: Yi   0  1 xi   i
 Supuestos:  ijk  NID (0,  2 )
 Observaciones (errores) independientes
 Igual varianza en todos los niveles de X (homocedasticidad)

D0  2 0 0 0
 
D1  0  2 0 0
 Matriz ∑ de varianzas y covarianzas
D2  0 0 2 0 
 2
D4  0 0 0  

 Distribución normal de los errores

12
Desempeño de dos especies vegetales para fitorremediar
suelos empetrolados con hidrocarburos
Estación Experimental Chubut, INTA Trelew
 Suelo extraído de la zona petrolera de Cdro Rivadavia, al que se le
agregaron hidrocarburos (HC) a 4.1% (4,1g/100 g suelo seco)
 Especies vegetales perennes:
 Charcao (Senecio filaginoides) nativa
 Agropiro alargado (Thynopiron ponticum) exótica
 Testigo sin vegetación
 Fertilización:
 Fósforo-nitrógeno
 Testigo sin fertilización
 30 Macetas; una planta (o ninguna) por maceta, diseño balanceado
 A los 350 días se midió el contenido en suelo de HC totales de
petróleo (g/100 g suelo seco), si la planta sobrevivió o no, y si
sobrevivió, su altura)
13
 UE
 VR
 VP Especie

 Tratamientos (Combinaciones)
Fertilización Testigo Charcao Agropiro
no

 Réplicas sí

 Diseño • 6 tratamientos
 Modelo • 5 macetas por tratamiento
• 30 observaciones

yijk     i   j   ij   ijk (formato anova)

Los factores A y B están cruzados cuando cada nivel de


A está observado en cada nivel de B y viceversa
14
14
¿Y si en cada maceta ubicamos
cuatro plantas en vez de una?
Especie

 VR: altura de cada planta Fertilización


no
Testigo Charcao Agropiro

• 6 tratamientos
• 5 macetas por tratamiento
• 4 plantas por maceta
• 6x5x4 = 120 observaciones

yijk     i   j  ij   k ( ij )   ijkm

Un factor está anidado en otro (o en una


combinación de otros) cuando cada nivel de ese
15
15 factor está observado en un solo nivel del otro
¿Y si medimos la altura de cada
planta mensualmente a lo largo
del año? Especie
Fertilización Testigo Charcao Agropiro
no
 VR: altura de cada planta sí

• 6 tratamientos
• 5 macetas por tratamiento
• 4 plantas por maceta
• 12 observaciones por planta
• 6x5x4x12 = 1440 observaciones
yijk     i   j  ij   k ( ij )   t  it   jt   ijt   ijktm

Medidas repetidas: mediciones sucesivas o a


16
16 lo largo del tiempo de un mismo individuo
Supuestos del modelo lineal general
 ijk  NID (0, ) 2

•Varianza constante
heterocedasticidad
•Observaciones independientes
correlación temporal, espacial, anidamiento
•Distribución normal
otras distribuciones

Las estimaciones de los parámetros siguen siendo


insesgadas, pero los errores estándares no, por lo
que los valores p y los IC no son confiables
17
Y además tenemos el karma del
desbalanceo
 Las estimaciones por cuadrados mínimos dejan de ser
insesgadas en diseños desbalanceados
 Pérdida de ortogonalidad en las SC
 Parches:
 Forzar el balanceo
 Reemplazar dato faltante
 Ajustar la SC: SC tipo II, III, IV…

Y ni hablar de celdas vacías!

18
Modelos múltiples

19
Valores de referencia para
pruebas de función pulmonar
 La ventilación voluntaria máxima (VVM) es el máximo volumen que puede ser
ventilado dentro y fuera de los pulmones en un intervalo de 10 a 15 seg mediante
esfuerzo voluntario (en litros)
 Se desea establecer valores de referencia de VVM en función de la edad para la
población sana
 Se sospecha que la relación entre VVM y edad puede diferir entre hombres y
mujeres
 Participaron 100 individuos sanos, no fumadores (50 hombres y 50 mujeres), de
entre 20 y 80 años de edad

 ¿Observacional o experimental?
 VR?
 VE? Tipo?

20
Datos

VVM.txt

21
Regresión con variables indicadoras o
dummies
 Las v. cualitativas deben ser codificadas para poder ser incluidas en la
regresión
 Entonces, una variable varón (0/1) y otra mujer (0/1)
 Si la variable cualitativa tiene sólo dos categorías se la puede codificar
utilizando una única variable cuantitativa que tome valores 0 o 1 –
presencia/ausencia (aunque puede ser cualquier valor numérico). La
categoría que toma el valor 0 es la de referencia
 En nuestro ejemplo, creamos la variable auxiliar varón Sexo Varón
0: mujer 1:varón varón 1
mujer 0

22
Modelo de regresión múltiple con dos VE, una continua y
otra categórica con dos categorías e interacción

E (VVM )   0  1 X 1   2 X 2   3 X 1 X 2
E (VVM )   0  1 Edad   2Varón   3 Edad  Varón

Para Mujeres(Varón  0) : E( VVM )   0  1 Edad


Para Varones(Varón  1) : E( VVM )  (  0   2 )  ( 1   3 ) Edad

 β0 es el valor esperado de Y cuando X1 y X2 valen 0


 β1 es el cambio esperado en Y por cada aumento unitario en X1
 β2 es el cambio esperado en β0 cuando X2=1
 β3 es el cambio esperado en β1 cuando X2=1

23
modelo3<-lm(vvm ~ edad*sexo, VVM)

Modelo con 2 VE e interacción (máximo)

 Ho1: 0= 0
Ecuaciones para hombres y mujeres?
 Ho2: 1= 0
 Ho3: 2= 0 Prueba de igualdad de ordenada al origen
 Ho3: 3= 0 Prueba de igualdad de pendientes (paralelismo)
24
 2  3  0 3  0

2  0

E (Y )   0  1 X 1   2 X 2   3 X 1 X 2

Schabenberger, 2002
¿Y si a cada valor de edad le restamos 20 años (la edad mínima para la que se desean
efectuar predicciones)?
modelo4<-lm(vvm ~ edad_c*sexo, VVM)

¿Qué cambia?
modelo3<-lm(vvm ~ edad*sexo, VVM)
Centrado de X
 Cuando cero está fuera del rango de X, la ordenada al origen no tiene
interpretación en contexto
 El centrado de X consiste en restar a los valores de X una constante (promedio,
mínimo o cualquier otro valor con sentido para X)
 La ordenada al origen β0 se interpreta después del centrado como el valor
esperado de Y cuando X es igual a la constante
 Si hay interacción significativa, β2 se interpreta como la diferencia en el valor
esperado de Y con respecto a la categoría de referencia cuando X es igual a la
constante
 Además evita problemas de colinealidad cuando se incluyen interacciones
 Para leer más: Afshartous, D., & Preston, R. A. (2011). Key results of
interaction models with centering. Journal of Statistics Education, 19(3), 1-24.

27
Selección de modelos
Principio de parsimonia: dado un conjunto de explicaciones igualmente buenas para un
fenómeno, la explicación más simple es la correcta. Este principio aplicado a selección
de modelos implica:
▪ Los modelos deben tener la menor cantidad posible de parámetros
▪ Los modelos con relaciones más simples (por ej lineales) son preferibles a los
más complejos (por ej no lineales)
▪ Los modelos deben ser reducidos hasta encontrar el mínimo adecuado

Métodos secuenciales: Existen métodos “automáticos” para la selección de variables:


▪ Método de incorporación progresiva (forward)
▪ Método de eliminación progresiva (backward)
▪ Método de selección paso a paso (stepwise)

Todos los modelos posibles: y luego ordenarlos según algún criterio


Criterios para seleccionar el mejor modelo
 Mínima varianza residual (S2e , CM error)
 Máximo R2 ajustado
 Mínimo Criterio de información de Akaike (AIC)/Bayesiano
 Retener variables con coeficientes significativos
 Retener variables que provoquen una reducción significativa de la SC residual

29
Varianza residual
n n

  yi  yˆ   ei
2 2

se2  i 1
¨ i 1
n p n p

 En la tabla de anova es el CMerror o residual


 Es el cuadrado del error estándar residual
 Mide la variabilidad en la VR no explicada por las predictoras
 Cuanto más elevada, peor el ajuste del modelo

30
Coeficiente de determinación ajustado
 Cuantas más VE se agreguen al modelo, mayor será R2 (se explica más variabilidad de Y)
=> no sirve para comparar modelos con distinta cantidad de VE => R2ajustado

n
 y ˆ
y 
 i i /(n  p)

2

ˆ mode
2
R 2 aj  1  i 1
 1  2 lo
n
ˆ nulo
 i
(
 El R2ajust penaliza la incorporación
y  y
i 1 de VE
) 2
/(n  1)

 Se utiliza para comparar modelos con distinta cantidad de VE

31
Criterio de información de Akaike
o Resumen la información de un modelo, teniendo en cuenta la falta de ajuste
(verosimilitud) y la cantidad de parámetros (parsimonia)

AIC  2 log L( )  2 p


o Como la verosimilitud L es un producto de probabilidades, depende de la cantidad de
datos. Por lo tanto AIC puede utilizarse para comparar cualquier par de modelos
siempre y cuando se estimen sobre los mismos datos
o Cuanto menor, mejor el modelo
o Idem BIC

32
Pruebas de hipótesis
 Ho: i= 0
 Equivale a comparar modelos anidados:

Modelo 2 yi   o  1 x1   2 x2   ijk a parámetros


Modelo 1 yi   o  1 x1   ijk b parámetros

El modelo 1 está anidado en el modelo 2 si todas las VE que se encuentran en el


modelo 1 se incluyen en el modelo 2 , es decir, el conjunto de VE en el modelo 1 es
un subconjunto del conjunto
b<a, el modelo de VE en
1 (más simple, el modelo
reducido) 2 anidado en el modelo 2
está
El criterio para establecer si una o un conjunto de VE deben ser retenida en
un modelo con k VE es determinar la significación de la reducción en la
SC residual

( SCres1  SCres2 ) /(GL1  GL2 ) anova (modelo1, modelo 2)


F
33 SCres2 / GL2
Selección de modelos

Johnson, J. B., & Omland, K. S. (2004). Model selection in ecology and evolution. Trends in ecology &
evolution, 19(2), 101-108.
Validación del modelo
 Predichos vs observados

r =0.8937

35
Predicciones de VVM

Para Mujeres(Varón  0) :
VVM  144,95  0,69 Edad
Para Varones(Varón  1) :
VVM  (144,95  50,61)  (0,69  0,37) Edad 
 195,56  1,06 Edad

¿Cuál es el VVM esperado para un hombre de 50 años?


nuevo = data.frame(sexo="varón", edad=50)
predict(modelo3, nuevo, interval="predict")

36
Algunos comentarios
 Si existen más de dos categorías se deben generar tantas v. dummy como categorías
menos 1 (todas las dummy tomaran el valor 0 para la categoría de referencia)
 Por ejemplo, si hubiese tres categorías de nivel de actividad física:
▪ Baja (referencia)
D1 D2
▪ Moderada moderada alta
▪ Alta baja 0 0

moderada 1 0

alta 0 1

 No es correcto asignar valores crecientes (por ejemplo 1, 2 y 3) ya que la escala de la


variable es ordinal y se la convierte en cuantitativa, asignándole una métrica que no
posee
 Al igual que en anova pueden realizarse contrastes
Bibliografía (1)
Quinn, G. P., & Keough, M. J. (2002).
Experimental design and data analysis for
biologists. Cambridge University Press

38
Bibliografía (2)
 Pinheiro J.C., Bates D.M. 2004. Mixed-Effects Models in S and S-PLUS.
Springer, New York
 Zuur, A., Ieno, E.N., Walker, N., Saveliev, A.A., Smith, G.M. 2009. Mixed
Effects Models and Extensions in Ecology with R. Springer, New York
 Zuur AF, Hilbe JM and Ieno EN. 2013. Beginner's Guide to GLM and GLMM
with R . Highland Statistics Ltd
 Agresti, A. (2013). Categorical data analysis. Wiley.

39
Bibliografía (3)

40