Академический Документы
Профессиональный Документы
Культура Документы
Introduccin Notacin y representacin grfica. Ventajas y complicaciones. Consecuencias de ignorar la estructura longitudinal y tratarla como cross-section. Anlisis de datos Modelos lineales mixtos.
Los datos longitudinales siguen al mismo individuo durante un determinado perodo de tiempo, por lo que medimos las variables respuesta y explicativa (caso de modelos de regresin) por lo menos en 2 oportunidades.
Algunos ejemplos:
Estudios sobre mercado de trabajo
Variable respuesta puede ser: Empleado/No Empleado Las variables explicativas pueden ser ms complejas, por ejemplo: Nmero de limitaciones fsicas.
Algunos ejemplos
Estudios en el rea de zootecnia
Variable respuesta: Peso de un determinado animal Variable explicativa: Cantidad de racin (en gramos) consumida.
Algunos Ejemplos
En el rea de los estudios de poblacin (Violencia domstica y prevalencia de ETS).
Variable dependiente: diagnostico de ETS. Presencia/ausencia de
Algunos ejemplos
Epidemiologia/Estudios de Poblacin El consumo de cigarros durante el embarazo y su impacto en el peso del recin nacido.
Es importante sealar que existen caractersticas que no cambian durante el tiempo, por ejemplo: Sexo, raza, etc.
Objetivo
Discutir brevemente las complicaciones estadsticas que surgen al trabajar con informaciones repetidas en el tiempo. Mostrar algunas de las ventajas de la inferencia causal en el anlisis de algn problema demogrfico, econmico o epidemiolgico.
Desventajas
En Brasil:
Pesquisa Mensal de Emprego. Proyecto Bambui
En Per
ENAHO 2004 2006 (Panel)
En otros pases
Health and Retirement Study (USA) Panel of Income Dynamics (USA) SHARE (similar a la HRS, slo que en Europa) Programa de Encuestas DHS (algunas tienen datos de panel)
Tambin es posible crear nuestra propia base de datos longitudinales, por ejemplo
Recolectar datos para construir una serie histrica sobre tasas de participacin femenina para diversos pases (Case & Mammen) Estudios sobre uso de alcohol y drogas ilcitas. Donde pretende estimarse la incidencia de consumo de alcohol (para quien nunca consumi) en el periodo de un ao.
Pasamos a tener un vector de respuestas de dimensin 1xn para la variable dependiente de cada uno de los m individuos en la muestra.
Osea, cada uno de esos individuos tendr su propia estructura de variancia covariancia. Ms detalles de la notacin, pueden ser encontrados en Diggle et al (2002)
Al tomar ms de una medida para un mismo individuo me impide asumir que todas las observaciones son independientes. De alguna forma, la inferencia estadstica es ms simple cuando las observaciones son independientes.
Entonces, es importante considerar que existe una variancia entre los individuos y una variancia intra-individuos. La correlacin entre las observaciones repetidas va a estar dada por la siguiente expresin:
2 2 e
Puesto que los datos longitudinales muestran la relacin de una variable dependiente con una explicativa en relacin al tiempo, entonces un grafico scatter-plot es la solucin ms simple. Sin embargo, dependiendo del tamao de la base de datos, tal vez este tipo de grfico no sea muy informativo.
Por ejemplo:
Consideremos los datos del estudio realizado por la Universidad de California para pacientes portadores del VIH (Highly Active Anti-Retroviral Therapy). Participaron 483 individuos, de quienes se colecto informaciones sobre clulas CD4 durante el perodo 1996 -2000.
list id cd4 vl500 if etime>=0 +----------------------+ | id cd4 vl500 | |----------------------| | 1 45 500 | | 1 119 166740 | | 1 113 . | | 1 74 159160 | | 1 95 . | |----------------------| | 1 120 . | | 1 209 . | |-----------------------|
1. 2. 3. 4. 5. 6. 7.
Sintaxis STATA ( Todos los datos) xtline cd4, overlay i(id) t(etime) ytitle(Conteo de CD4) ttitle(Tiempo desde HAART) legend(off) Figura 1: Evolucin del conteo de clulas CD4 para 483 individuos portadores de VIH, EUA 1996 - 2000
2000 500 0
0
1000
1500
1500
Sintaxis STATA (Muestra 5% de las observaciones) capture drop rr capture drop pp capture drop mnrr sort id etime by id: gen rr = uniform() if _n==1 egen pp = pctile(rr), p(5) egen mnrr = mean(rr), by(id) overlay cd4 etime if mnrr < pp, by(id) connect(l) symbol(o)
cd4
1992
996
Cuando consideramos una muestra de 20 individuos, observamos que el resultado es mejor, pues nos permite visualizar algunos patrones en los datos.
1992
cd4
996
Otra forma es asumir que existe un determinado comportamiento funcional en los valores de las observaciones de los individuos. Por ejemplo, podra pensarse que la cantidad de CD4 sigue una tendencia lineal en el tiempo para cada individuo del conjunto de datos.
Figura 4: Evolucin del conteo de clulas CD4 para 2 individuos portadores de VIH, EUA 1996 2000. Resultados presentando una lnea de tendencia.
800 200 0
0
CD4 400
600
500 time(days)
1000
1500
Smooth CD4
Otra forma de suavizar la serie de datos es a travs de los estimadores de ncleo (Hardle, 1990)
200
250
300
350
500 time(days)
1000
1500
Para identificar el comportamiento entre el cambio en la variable independiente y el cambio en la variable dependiente simplemente es necesario crear nuevas variables y realizar los graficos.
Y Yij Yi ( j 1)
* ij
X X ij X i ( j 1)
* ij
Efecto Longitudinal
100 200 300 400 500
Efecto Transversal
1000
200
400
600
800
-4
-2
La estimacin de los parmetros de estos modelos es realizada por Mnimos Cuadrados Ponderados. Presupone que debemos conocer la forma de la matriz de covariancia V. Es ah que comienzan los problemas!!
Cuando las observaciones estn igualmente espaciadas en el tiempo, se puede asumir que la correlacin entre cada par de observaciones es la misma.
Yij 0 0i eij
0i ~ N (0, )
2
eij ~ N (0, )
2 e
0i ~ N (0, )
2
1i ~ N (0, )
2
eij ~ N (0, )
2 e
Los datos
01. 02. 03. 04. 05. 06. 07. 08. 09. 10.
idporco peso1 peso2 peso3 peso4 peso5 | 1 24 32 39 42.5 48 | 2 22.5 30.5 40.5 45 51 | 3 22.5 28 36.5 41 47.5 | 4 24 31.5 39.5 44.5 51 | 5 24.5 31.5 37 42.5 48 | 6 23 30 35.5 41 48 | 7 22.5 28.5 36 43.5 47 | 8 23.5 30.5 38 41 48.5 | 9 20 27.5 33 39 43.5 | 10 25.5 32.5 39.5 47 53 |---------------------------------------------
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11.
+-------------------------+ | idporco semana peso | |-------------------------| | 1 1 24 | | 1 2 32 | | 1 3 39 | | 1 4 42.5 | | 1 5 48 | |-------------------------| | 1 6 54.5 | | 1 7 61 | | 1 8 65 | | 1 9 72 | | 2 1 22.5 | |-------------------------| | 2 2 30.5 |
Anlisis exploratoria
1
20 40 60 80
8
20 40 60 80
10
11
12
13
14
15
20 40 60 80
16
17
18
19
20
21
peso (Kg)
22
20 40 60 80
23
24
25
26
27
28
29
20 40 60 80
30
31
32
33
34
35
36
20 40 60 80
37
38
39
40
41
42
10
43
20 40 60 80
44
45
46
47
48
10
10
10
10
10
10
Semana
Graphs by idporco
Anlisis exploratoria
100
75
50
25
0 0 3 Semana 6 9
Con base en los grficos observados, cul ser el mejor modelo a ser ajustado?
Modelo 1: Modelo 2:
xtreg peso semana, i(idporco) re Random-effects GLS regression Group variable: idporco R-sq: within = 0.0000 between = 0.0000 overall = 0.9305 Number of obs Number of groups = = 432 48 9 9.0 9 25271.50 0.0000
Obs per group: min = avg = max = Wald chi2(1) Prob > chi2 = =
-----------------------------------------------------------------------------peso | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------semana | 6.209896 .0390633 158.97 0.000 6.133333 6.286458 _cons | 19.35561 .603139 32.09 0.000 18.17348 20.53774 -------------+---------------------------------------------------------------sigma_u | 3.8912528 sigma_e | 2.0963561 rho | .77505203 (fraction of variance due to u_i) -----------------------------------------------------------------------------.
. xtmixed peso semana || idporco: Performing EM optimization: Performing gradient-based optimization: Iteration 0: Iteration 1: log restricted-likelihood = -1016.8984 log restricted-likelihood = -1016.8984
Computing standard errors: Mixed-effects REML regression Group variable: idporco Number of obs Number of groups = = 432 48 9 9.0 9 25271.50 0.0000
Obs per group: min = avg = max = Wald chi2(1) Prob > chi2 z 158.97 32.09 P>|z| 0.000 0.000 = =
Log restricted-likelihood = -1016.8984 peso semana _cons Coef. 6.209896 19.35561 Std. Err. .0390633 .603139
Una estimacin de los interceptos aleatrios para cada cerdo (ver Stata)
la
estructura
111060.882 1 111060.882 8294.72677 430 19.2900622 119355.609 431 276.927167 Coef. Std. Err. 6.209896 .0818409 19.35561 .4605447 t P>|t|
Number of obs = 432 F( 1, 430) = 5757.41 Prob > F = 0.0000 R-squared = 0.9305 Adj R-squared = 0.9303 Root MSE = 4.392 [95% Conf. Interval] 6.049038 18.45041 6.370754 20.26081
Los datos longitudinales son una herramienta que va ms all de encontrar una simple asociacin entre variables, sino que sirve para establecer causalidad.
Los mtodos presentados aqu son muy bsicos, pero el estudio de estos modelos requiere un background terico en modelos lineales generalizados y series de tiempo.