Вы находитесь на странице: 1из 55

Dr.

Mario Piscoya Daz IME - UFG

Introduccin Notacin y representacin grfica. Ventajas y complicaciones. Consecuencias de ignorar la estructura longitudinal y tratarla como cross-section. Anlisis de datos Modelos lineales mixtos.

Existen dos tipos de datos


Datos de Transversales (cross-section) Datos Longitudinales

Los datos longitudinales siguen al mismo individuo durante un determinado perodo de tiempo, por lo que medimos las variables respuesta y explicativa (caso de modelos de regresin) por lo menos en 2 oportunidades.

Algunos ejemplos:
Estudios sobre mercado de trabajo
Variable respuesta puede ser: Empleado/No Empleado Las variables explicativas pueden ser ms complejas, por ejemplo: Nmero de limitaciones fsicas.

Algunos ejemplos
Estudios en el rea de zootecnia
Variable respuesta: Peso de un determinado animal Variable explicativa: Cantidad de racin (en gramos) consumida.

Algunos Ejemplos
En el rea de los estudios de poblacin (Violencia domstica y prevalencia de ETS).
Variable dependiente: diagnostico de ETS. Presencia/ausencia de

Variable independiente: Nmero de episodios de violencia domstica reportados por la mujer.

Algunos ejemplos
Epidemiologia/Estudios de Poblacin El consumo de cigarros durante el embarazo y su impacto en el peso del recin nacido.

Es importante sealar que existen caractersticas que no cambian durante el tiempo, por ejemplo: Sexo, raza, etc.

Objetivo
Discutir brevemente las complicaciones estadsticas que surgen al trabajar con informaciones repetidas en el tiempo. Mostrar algunas de las ventajas de la inferencia causal en el anlisis de algn problema demogrfico, econmico o epidemiolgico.

Cul es la ventaja de trabajar con datos longitudinales?


Las medidas repetidas en el tiempo nos ayudan a entender como las variables explicativas se asocian con la variable respuesta. La variacin observada en las variables explicativas nos ayuda a entender mejor la variacin observada en la variable respuesta.

Desventajas

Tiempo Costo Tcnicas de anlisis ms complicadas

Variable respuesta continua: Usaremos extensiones de los modelos de regresin linear.


Extensiones para Modelos Lineales Generalizados (No sern abordados en esta presentacin)

En Brasil:
Pesquisa Mensal de Emprego. Proyecto Bambui

En Per
ENAHO 2004 2006 (Panel)

En otros pases
Health and Retirement Study (USA) Panel of Income Dynamics (USA) SHARE (similar a la HRS, slo que en Europa) Programa de Encuestas DHS (algunas tienen datos de panel)

Tambin es posible crear nuestra propia base de datos longitudinales, por ejemplo
Recolectar datos para construir una serie histrica sobre tasas de participacin femenina para diversos pases (Case & Mammen) Estudios sobre uso de alcohol y drogas ilcitas. Donde pretende estimarse la incidencia de consumo de alcohol (para quien nunca consumi) en el periodo de un ao.

Pasamos a tener un vector de respuestas de dimensin 1xn para la variable dependiente de cada uno de los m individuos en la muestra.
Osea, cada uno de esos individuos tendr su propia estructura de variancia covariancia. Ms detalles de la notacin, pueden ser encontrados en Diggle et al (2002)

Mtodos de Regresin Lineal


Focalizan como la variable independiente (X) afecta a la variable dependiente (Y).

O sea, como las variables explicativas se asocian con la variable dependiente.


Cul es el problema de ignorar la estructura longitudinal en los modelos lineales?

Al tomar ms de una medida para un mismo individuo me impide asumir que todas las observaciones son independientes. De alguna forma, la inferencia estadstica es ms simple cuando las observaciones son independientes.

Entonces, es importante considerar que existe una variancia entre los individuos y una variancia intra-individuos. La correlacin entre las observaciones repetidas va a estar dada por la siguiente expresin:

2 2 e

Explorando un conjunto de datos longitudinales.


Como todo anlisis exploratorio de datos, buscamos, a partir de tcnicas graficas, encontrar un patrn en los datos. No existe una regla estndar para realizar una anlisis exploratoria de datos, pero podemos seguir algunos puntos bsicos:

Mostrar al mximo la mayor cantidad de datos brutos.


Identificar patrones agregados de inters. Identificar patrones transversales y longitudinales. Identificar outliers

Puesto que los datos longitudinales muestran la relacin de una variable dependiente con una explicativa en relacin al tiempo, entonces un grafico scatter-plot es la solucin ms simple. Sin embargo, dependiendo del tamao de la base de datos, tal vez este tipo de grfico no sea muy informativo.

Por ejemplo:
Consideremos los datos del estudio realizado por la Universidad de California para pacientes portadores del VIH (Highly Active Anti-Retroviral Therapy). Participaron 483 individuos, de quienes se colecto informaciones sobre clulas CD4 durante el perodo 1996 -2000.

El nmero de mediciones longitudinales estuvo entre 11 y 89.

list id cd4 vl500 if etime>=0 +----------------------+ | id cd4 vl500 | |----------------------| | 1 45 500 | | 1 119 166740 | | 1 113 . | | 1 74 159160 | | 1 95 . | |----------------------| | 1 120 . | | 1 209 . | |-----------------------|

1. 2. 3. 4. 5. 6. 7.

Sintaxis STATA ( Todos los datos) xtline cd4, overlay i(id) t(etime) ytitle(Conteo de CD4) ttitle(Tiempo desde HAART) legend(off) Figura 1: Evolucin del conteo de clulas CD4 para 483 individuos portadores de VIH, EUA 1996 - 2000
2000 500 0
0

1000

1500

500 1000 Tiempo desde HAART

1500

Sintaxis STATA (Muestra 5% de las observaciones) capture drop rr capture drop pp capture drop mnrr sort id etime by id: gen rr = uniform() if _n==1 egen pp = pctile(rr), p(5) egen mnrr = mean(rr), by(id) overlay cd4 etime if mnrr < pp, by(id) connect(l) symbol(o)
cd4

1992

996

0 0 750 etime 1500

Cuando consideramos una muestra de 20 individuos, observamos que el resultado es mejor, pues nos permite visualizar algunos patrones en los datos.

1992

cd4

996

0 0 750 etime 1500

Otra forma es asumir que existe un determinado comportamiento funcional en los valores de las observaciones de los individuos. Por ejemplo, podra pensarse que la cantidad de CD4 sigue una tendencia lineal en el tiempo para cada individuo del conjunto de datos.

Entonces para el i-esimo individuo tenemos:

E[Yij | Tij ] 0 i 1iTij

Figura 4: Evolucin del conteo de clulas CD4 para 2 individuos portadores de VIH, EUA 1996 2000. Resultados presentando una lnea de tendencia.
800 200 0
0

CD4 400

600

500 time(days)

1000

1500

Smooth CD4

Otra forma de suavizar la serie de datos es a travs de los estimadores de ncleo (Hardle, 1990)

200

250

300

350

500 time(days)

1000

1500

Para identificar el comportamiento entre el cambio en la variable independiente y el cambio en la variable dependiente simplemente es necesario crear nuevas variables y realizar los graficos.

Y Yij Yi ( j 1)
* ij

X X ij X i ( j 1)
* ij

Efecto Longitudinal
100 200 300 400 500

Efecto Transversal
1000

-500 -400 -300 -200 -100

200

400

600

800

-4

-2

0 Change in log10(viral load)

5 Log10 Viral Load

Modelo de efectos mixtos


Dos tipos de efectos: Aleatorios y Fijos. Efecto Fijo: Todos los niveles de las variables existen para todos los individuos en la poblacin. Efectos aleatorios: Los efectos de las variables son diferentes para todos los individuos de la poblacin, osea existe heterogeneidad.

Cul es la razn de usar estos modelos?


El modelo implica la existencia de correlacin entre las observaciones de un mismo individuo. Nos permite identificar la estructura de correlacin as como la posibilidad de modelar heterocedasticidad. Los coeficientes estimados me van a proporcionar la asociacin del efecto fijo. Adems, obtendr estimaciones sobre la variancia entre y dentro de los individuos.

La estimacin de los parmetros de estos modelos es realizada por Mnimos Cuadrados Ponderados. Presupone que debemos conocer la forma de la matriz de covariancia V. Es ah que comienzan los problemas!!

Forma general de la matriz de variancia Covariancia.

Modelo de Correlacin Uniforme

Cuando las observaciones estn igualmente espaciadas en el tiempo, se puede asumir que la correlacin entre cada par de observaciones es la misma.

Ecuacin bsica de un modelo mixto (el ms simple)

Yij 0 0i eij
0i ~ N (0, )
2

eij ~ N (0, )
2 e

La ecuacin de un modelo ms complejo

Yij ( 0 0i ) ( 1 1i ) xij eij

0i ~ N (0, )
2

1i ~ N (0, )
2

eij ~ N (0, )
2 e

Anlisis del peso de cerdos


Observado durante 9 semanas en 48 cerdos. Los datos se encuentran en formato Wide, es necesario convertirlos a formato Long para poder analizarlos en STATA. En este ejercicio, modelaremos el peso de los cerdos como una funcin del tiempo

Para este ejercicio, reconocemos que existen dos fuentes de variacin:


Entre los cerdos (Between): existe cierta heterogeneidad en las medidas de los cerdos, tal vez por la presencia de un efecto de seleccin biolgico. Entre las medidas de cada cerdo (Within): Una variacin aleatoria en el proceso de medicin. Por ejemplo, un cerdo puede presentar un peso diferente en un determinado da dependiendo del equipo con el que es medido el peso, o tal vez por la presencia de pequeas variaciones en el peso observadas en el da.

Los datos

01. 02. 03. 04. 05. 06. 07. 08. 09. 10.

idporco peso1 peso2 peso3 peso4 peso5 | 1 24 32 39 42.5 48 | 2 22.5 30.5 40.5 45 51 | 3 22.5 28 36.5 41 47.5 | 4 24 31.5 39.5 44.5 51 | 5 24.5 31.5 37 42.5 48 | 6 23 30 35.5 41 48 | 7 22.5 28.5 36 43.5 47 | 8 23.5 30.5 38 41 48.5 | 9 20 27.5 33 39 43.5 | 10 25.5 32.5 39.5 47 53 |---------------------------------------------

reshape long peso, i(idporco) j(semana)

1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11.

+-------------------------+ | idporco semana peso | |-------------------------| | 1 1 24 | | 1 2 32 | | 1 3 39 | | 1 4 42.5 | | 1 5 48 | |-------------------------| | 1 6 54.5 | | 1 7 61 | | 1 8 65 | | 1 9 72 | | 2 1 22.5 | |-------------------------| | 2 2 30.5 |

Anlisis exploratoria
1
20 40 60 80

8
20 40 60 80

10

11

12

13

14

15
20 40 60 80

16

17

18

19

20

21

peso (Kg)

22
20 40 60 80

23

24

25

26

27

28

29
20 40 60 80

30

31

32

33

34

35

36
20 40 60 80

37

38

39

40

41

42

10

43
20 40 60 80

44

45

46

47

48

10

10

10

10

10

10

Semana
Graphs by idporco

Anlisis exploratoria
100

75

50

25

0 0 3 Semana 6 9

Con base en los grficos observados, cul ser el mejor modelo a ser ajustado?

Modelo 1: Modelo 2:

Pesoij 0 0i 1Semana eij

Pesoij 0 0i ( 1 1i ) Semana eij

xtreg peso semana, i(idporco) re Random-effects GLS regression Group variable: idporco R-sq: within = 0.0000 between = 0.0000 overall = 0.9305 Number of obs Number of groups = = 432 48 9 9.0 9 25271.50 0.0000

Obs per group: min = avg = max = Wald chi2(1) Prob > chi2 = =

Random effects u_i ~ Gaussian corr(u_i, X) = 0 (assumed)

-----------------------------------------------------------------------------peso | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------semana | 6.209896 .0390633 158.97 0.000 6.133333 6.286458 _cons | 19.35561 .603139 32.09 0.000 18.17348 20.53774 -------------+---------------------------------------------------------------sigma_u | 3.8912528 sigma_e | 2.0963561 rho | .77505203 (fraction of variance due to u_i) -----------------------------------------------------------------------------.

. xtmixed peso semana || idporco: Performing EM optimization: Performing gradient-based optimization: Iteration 0: Iteration 1: log restricted-likelihood = -1016.8984 log restricted-likelihood = -1016.8984

Computing standard errors: Mixed-effects REML regression Group variable: idporco Number of obs Number of groups = = 432 48 9 9.0 9 25271.50 0.0000

Obs per group: min = avg = max = Wald chi2(1) Prob > chi2 z 158.97 32.09 P>|z| 0.000 0.000 = =

Log restricted-likelihood = -1016.8984 peso semana _cons Coef. 6.209896 19.35561 Std. Err. .0390633 .603139

[95% Conf. Interval] 6.133333 18.17348 6.286458 20.53774

Random-effects Parameters idporco: Identity sd(_cons) sd(Residual)

Estimate 3.891253 2.096356

Std. Err. .4143198 .0757444

[95% Conf. Interval] 3.158334 1.953034 4.794252 2.250195

LR test vs. linear regression: chibar2(01) = .

473.15 Prob >= chibar2 = 0.0000

Una estimacin de los interceptos aleatrios para cada cerdo (ver Stata)

Qu sucede cuando ignoramos longitudinal de los datos?


Source Model Residual Total peso semana _cons SS df MS

la

estructura

111060.882 1 111060.882 8294.72677 430 19.2900622 119355.609 431 276.927167 Coef. Std. Err. 6.209896 .0818409 19.35561 .4605447 t P>|t|

Number of obs = 432 F( 1, 430) = 5757.41 Prob > F = 0.0000 R-squared = 0.9305 Adj R-squared = 0.9303 Root MSE = 4.392 [95% Conf. Interval] 6.049038 18.45041 6.370754 20.26081

75.88 0.000 42.03 0.000

Error Standard Semana Constante

Longitudinal 0,0390633 0,603139

Transversal 0,0818409 0,4605447

Los datos longitudinales son una herramienta que va ms all de encontrar una simple asociacin entre variables, sino que sirve para establecer causalidad.
Los mtodos presentados aqu son muy bsicos, pero el estudio de estos modelos requiere un background terico en modelos lineales generalizados y series de tiempo.

Вам также может понравиться