Вы находитесь на странице: 1из 10

QUESTES METODOLGICAS METHODOLOGICAL ISSUES 691

Uso de la herramienta Google Trends para


estimar la incidencia de enfermedades tipo
influenza en Argentina

Using Google Trends to estimate the incidence of


influenza-like illness in Argentina

Uso da ferramenta Google Trends para estimar a


incidncia de sndrome gripal na Argentina

Pablo Wenceslao Orellano 1

Julieta Itat Reynoso 2


Julin Antman 3
Osvaldo Argibay 3

Abstract Resumen

1 Instituto Nacional de The aim of this study was to find a model to esti- El objetivo del presente estudio fue hallar un mo-
Tecnologa Industrial,
Rosario, Argentina.
mate the incidence of influenza-like illness (ILI) delo para estimar la incidencia de enfermedades
2 Hospital Interzonal General from the Google Trends (GT) related to influen- tipo influenza (ETI), a partir de los trminos de
de Agudos "San Felipe", za. ILI surveillance data from 2012 through 2013 bsqueda relacionados recolectados por el Goo-
Buenos Aires, Argentina.
3 Direccin de Epidemiologa, were obtained from the National Health Surveil- gle Trends (GT). Los datos de vigilancia de ETI
Ministerio de Salud de lance System, Argentina. Internet search data para los aos 2012 y 2013 se obtuvieron del Siste-
la Nacin, Buenos Aires,
were downloaded from the GT search engine da- ma Nacional de Vigilancia de la Salud de Argen-
Argentina.
tabase using 6 influenza-related queries: flu, fe- tina. Las bsquedas de Internet se obtuvieron de
Correspondencia ver, cough, sore throat, paracetamol, and ibupro- la base de datos del GT, usando 6 trminos: gripe,
P. W. Orellano
fen. A Poisson regression model was developed to fiebre, tos, dolor de garganta, paracetamol e ibu-
Instituto Nacional de
Tecnologa Industrial. compare surveillance data and internet search profeno. Se desarroll un modelo de regresin de
Esmeralda y Ocampo, trends for the year 2012. The models results were Poisson a partir de datos del ao 2012, y se vali-
Rosario, Santa F 2000,
Argentina.
validated using surveillance data for the year d con datos del 2013 y resultados de la herra-
porellano@gmail.com 2013 and results of the Google Flu Trends (GFT) mienta Google Flu Trends (GFT). La incidencia
tool. ILI incidence from the surveillance system de ETI del sistema de vigilancia present fuertes
showed strong correlations with ILI estimates correlaciones con las estimaciones de ETI del GT
from the GT model (r = 0.927) and from the GFT (r = 0,927) y del GFT (r = 0,943). Sin embargo, el
tool (r = 0.943). However, the GFT tool overesti- GFT sobreestim el pico de incidencia por casi el
mates (by nearly twofold) the highest ILI inci- doble, mientras que el modelo basado en el GT
dence, while the GT model underestimates the subestim el pico de incidencia por un factor de
highest incidence by a factor of 0.7. These results 0,7. Estos resultados demuestran la utilidad del
demonstrate the utility of GT to complement in- GT como un complemento para la vigilancia de
fluenza surveillance. la influenza.

Human Influenza; Epidemiologic Models; Influenza Humana; Modelos Epidemiolgicos;


Incidence Incidencia

http://dx.doi.org/10.1590/0102-311X00072814 Cad. Sade Pblica, Rio de Janeiro, 31(4):691-700, abr, 2015


692 Orellano PW et al.

Introduccin el ao 2008 un nuevo instrumento para estimar


los casos de ETI a nivel de pas y regin 11. Es-
De acuerdo a la Organizacin Mundial de la Salud ta herramienta, denominada Google Flu Trends
(OMS), las enfermedades respiratorias constitu- (GFT) (http://www.google.org/flutrends/) est
yen importantes causas de morbilidad y mortali- basada en algoritmos propios que utilizan 45
dad a nivel mundial 1, con 300 a 500 mil muertes trminos de bsqueda, y una correlacin con el
anuales asociadas a la influenza 2. En Argentina, porcentaje de consultas mdicas por influenza,
la pandemia de influenza H1N1 2009 provoc basada en aos previos 12. En aos recientes se
una carga importante de enfermedad a lo largo han realizado diversos estudios que validan el
del pas, con 1,3 millones de casos de enferme- uso del GFT como complemento de la vigilancia
dades tipo influenza, 10 mil hospitalizaciones y epidemiolgica, con resultados que demuestran
990 fallecimientos 3, sobre un total de 40 millones su utilidad 13,14,15. Sin embargo, tambin se han
de habitantes 4. En general, los patrones globales detectado errores substanciales en las estimacio-
de influenza estn caracterizados por picos de nes, sobre todo durante la pandemia de influen-
actividad focalizados en la estacin invernal, con za H1N1 2009 y en el brote 2012/2013 de Estados
mayor duracin de epidemias en los trpicos 5. Unidos, con subestimacin y sobreestimacin de
La vigilancia epidemiolgica de la dinmica tem- casos respectivamente 11,16. Estos errores dieron
poral de la influenza juega un rol de importancia lugar a sucesivos ajustes en la parametrizacin
en el monitoreo y control de la enfermedad. Es- del modelo 17, incluyendo una revisin y ajuste
ta puede estar dirigida a la presentacin clni- posterior a la pandemia del ao 2009 11. Debi-
ca, a travs de las enfermedades tipo influenza do a estos problemas, y tomando en considera-
(ETI), o a la vigilancia de casos confirmados por cin que no es posible acceder a los trminos de
laboratorio virolgico. Debido a que la vigilancia bsqueda y algoritmos utilizados en el GFT, los
epidemiolgica se lleva adelante en forma pasi- cuales no han sido divulgados por la compaa
va, y depende de los registros mdicos de todos 10,11,18, en el presente trabajo se prefiri utilizar

los centros de salud, es pasible de demoras en los resultados de bsqueda de trminos del GT
la notificacin, as como de posibles subestima- para desarrollar un modelo local, sin recurrir a
ciones 6. Por esta causa, el sistema de vigilancia los resultados del GFT. Otras dos razones moti-
debe ser continuamente evaluado, mientras que varon la eleccin del uso del GT para desarrollar
paralelamente se ensayan nuevas herramientas un modelo propio: (i) la necesidad de adaptar de
complementarias para estimar la incidencia de forma constante los modelos 16 y (ii) la conve-
la influenza de forma indirecta, y mejorar la sen- niencia de obtener parmetros que relacionen
sibilidad del registro. Un ejemplo es la utilizacin las bsquedas de trminos a nivel de pas con los
de sistemas de monitoreo basados en Internet, casos de ETI 19. Siguiendo esta lnea de accin,
con diseos generados para participacin volun- el objetivo del presente trabajo fue obtener un
taria de la poblacin 7. Una forma ms general modelo para estimar los casos de ETI, a partir de
para el monitoreo indirecto de la incidencia de los trminos de bsquedas en Internet provistos
ETI es a travs del monitoreo de las bsquedas de por el GT, y validar los resultados comparando el
trminos relacionados a la enfermedad a travs presente modelo y los resultados del GFT con los
de Internet 8. Esta experiencia se ha realizado con casos de ETI informados por el Sistema Nacional
buscadores como Yahoo 9. Una herramienta ge- de Vigilancia de la Salud de Argentina (SNVS).
nrica de amplio uso para el monitoreo de trmi-
nos ms buscados en Internet es Google Trends
(GT), disponible en el sitio http://www.google. Mtodos
com.ar/trends/. En este sitio, los usuarios pueden
consultar de forma gratuita el volumen de bs- Datos de vigilancia de la salud
queda de cualquier trmino (gripe, por ejemplo),
obteniendo un resultado normalizado de la fre- Los datos para el clculo de parmetros del
cuencia relativa de bsqueda de ese trmino en modelo y para su validacin se obtuvieron de
el perodo considerado 10. Esta herramienta est registros de casos de ETI notificados al SNVS.
disponible para bsquedas desde el ao 2004, a Este sistema releva de forma semanal los casos
nivel de pas o regin, y con una base semanal o de ETI que son registrados por centros de salud
mensual. La forma de utilizar estos datos es rea- pblicos y privados de toda Argentina, mediante
lizar regresiones entre los datos de vigilancia y un sistema de carga on-line de datos. Las ETI
los trminos buscados, y utilizar los coeficientes son entidades clnicas, sin confirmacin de la-
calculados para estimar los casos de ETI, a partir boratorio, definidas por la presencia de fiebre
de los trminos de bsqueda. A partir de la he- (temperatura > 38C) acompaada de tos u odi-
rramienta GT, la compaa Google desarroll en nofagia, en ausencia de otros diagnsticos. Se

Cad. Sade Pblica, Rio de Janeiro, 31(4):691-700, abr, 2015


USO DEL GOOGLE TRENDS PARA ESTIMAR LA INCIDENCIA DE ENFERMEDADES 693

consider la incidencia de ETI por cada 100 mil ble autocorrelacionada 17, es decir, la incidencia
habitantes. de casos de una determinada semana puede ser
dependiente de la incidencia de la semana pre-
Datos de bsqueda de trminos en Internet via, se utiliz un modelo de ecuaciones de esti-
macin generalizadas (EEG) 22, considerando el
La frecuencia relativa de bsquedas de trminos agrupamiento de semanas en cada mes. De esta
relacionados a las ETI en Internet se obtuvo a manera se obtuvieron 12 grupos (uno por cada
travs de la herramienta GT. Por medio de la mis- mes del ao 2012), con 4 a 5 observaciones (se-
ma puede consultarse cuntas bsquedas se han manas) cada uno. La estructura de la matriz de
realizado en la pgina de Google (https://www. correlacin del modelo de EEG se asumi como
google.com.ar/) sobre un trmino especfico, se- autoregresiva, por tratarse de medidas repetidas
gn el pas o la regin. En el presente trabajo se en el tiempo. Se analiz un modelo de regresin
utiliz el total de bsquedas de la Argentina. La completo y se compar con modelos reducidos
escala temporal de las bsquedas fue semanal, anidados. En el modelo completo se intent ma-
y coincidente con el comienzo y finalizacin de nejar la mayor cantidad de informacin posible
las semanas epidemiolgicas consideradas por para controlar por potenciales sesgos, y por lo
el sistema de vigilancia de la salud de Argentina. tanto los 6 trminos de bsqueda fueron man-
El resultado de las bsquedas para cada trmino tenidos como variables independientes. Para
es sometido a un ajuste por parte del grupo desa- hallar los modelos reducidos, se utiliz un pro-
rrollador del GT 10. Los datos son escalados utili- cedimiento paso a paso hacia atrs, eliminando
zando como denominador el total de bsquedas una a la vez las variables de prediccin. El mejor
durante el perodo considerado para la misma conjunto de variables de prediccin se determi-
regin geogrfica. En este trabajo, la bsqueda n mediante el criterio de cuasi-verosimilitud,
fue restringida a un ao, para cada perodo (2012 bajo el modelo de independencia (QIC, por sus
y 2013). Por lo tanto, para cada ao el valor se- siglas en ingls).
manal de bsquedas por trmino estuvo com- Los coeficientes de regresin, calculados para
prendido en un rango de 0-100. La eleccin de los el ao 2012, se utilizaron para estimar la inciden-
trminos se bas en las bsquedas ms comunes cia de ETI de los aos 2012 y 2013, a partir de los
realizadas vinculadas a la enfermedad, los snto- resultados de los trminos de bsqueda del mis-
mas y el tratamiento sintomtico de las ETI, to- mo ao. La incidencia de casos de ETI, estimada
mando en cuenta la relacin observada entre las por los modelos basados en el GT y por el GFT, se
ventas de medicamentos y la incidencia de ETI 20. compar por medio de una correlacin de Pear-
Los trminos utilizados fueron gripe, fiebre, tos, son con la incidencia notificada al SNVS del ao
dolor de garganta, paracetamol e ibuprofeno. 2013. Se calcularon los coeficientes de correla-
cin para las tres comparaciones, con el objetivo
Datos del GFT de realizar la validacin del modelo.
Los clculos se realizaron mediante el pro-
Las estimaciones de incidencia de ETI cada 100 grama R (The R Foundation for Statistical Com-
mil habitantes, provenientes del GFT, se obtuvie- puting, Viena, Austria; http://www.r-project.
ron desde la pgina del buscador (http://www. org), una plataforma de cdigo abierto para an-
google.org/flutrends/), seleccionando el total de lisis estadstico. Las ecuaciones de estimacin
Argentina para el ao 2013. generalizada se confeccionaron con el paquete
geepack 23, y el QIC se estim con el paquete
Anlisis estadstico MuMIn, de la misma plataforma.

Se realizaron correlaciones simples de Pearson


entre los datos de incidencia de ETI del SNVS y Resultados
las bsquedas de cada trmino relacionado con
las ETI para el ao 2012, considerando tres posi- La incidencia de casos de ETI registrados por el
bilidades: (i) sin considerar retraso en la notifica- SNVS fue 2.795 y 2.913 por cada 100 mil habitan-
cin; (ii) considerando una semana de retraso y tes para los aos 2012 y 2013, respectivamente.
(iii) considerando dos semanas de retraso. Luego, En la Figura 1 se presenta la incidencia obser-
estas variables de prediccin se utilizaron para vada de ETI por semana, en conjunto con la
estimar los parmetros segn un modelo de re- frecuencia porcentual de bsquedas de los dos
gresin de Poisson. Este modelo es til cuando trminos ms relevantes para el modelo estima-
la variable de resultado es numrica y discreta 21. do: tos y dolor de garganta. Durante el ao 2012
Debido a que es probable que el nmero de casos estos trminos de bsqueda presentaron un
semanales de ETI se presente como una varia- mximo en las semanas 25 y 41 respectivamen-

Cad. Sade Pblica, Rio de Janeiro, 31(4):691-700, abr, 2015


694 Orellano PW et al.

Figura 1

Incidencia de enfermedades tipo influenza (ETI) y frecuencia porcentual de trminos tos y dolor de garganta.

SNVS: Sistema Nacional de Vigilancia de la Salud.


Fuentes: Direccin de Epidemiologa, Ministerio de Salud de la Nacin (Argentina), y Google Trends (http://www.google.com.ar/trends/).

te, mientras que la incidencia de ETI observada fue superior al modelo completo de acuerdo a
tiene su mximo en la semana 37. Este desplaza- la comparacin de valores del QIC. Sin embar-
miento ocurre en un ao en que no se observa go, se utiliz un modelo reducido manteniendo
un pico estacional marcado en la incidencia de las variables de prediccin ms significativas,
las ETI. Sin embargo, para el ao 2013 los mxi- tos y dolor de garganta, para realizar la compa-
mos de bsqueda de estos trminos coinciden racin de resultados entre modelos. En el mo-
temporalmente con la mxima incidencia de ETI delo reducido, la variable tos present un coe-
observada, con una diferencia de slo una se- ficiente de regresin de 100,9 (p < 0,01) y la va-
mana. Debe tomarse en cuenta que el ao 2013 riable dolor de garganta present un coeficiente
presenta una estacionalidad ms marcada. En la de 23,4 (p = 0,17).
Tabla 1 se pueden observar los coeficientes de La Figura 2 presenta los resultados de la co-
correlacin de Pearson entre cada variable de rrelacin para la validacin de los modelos com-
prediccin y los casos de ETI observados, para pleto y reducido basados en el GT y del modelo
los diferentes retrasos temporales. Las mejores GFT. En el primero, se observa un valor de r =
correlaciones se observan cuando no se consi- 0,927, en el segundo un valor de r = 0,86, mien-
dera un retraso entre la semana de bsqueda del tras que para la validacin del GFT se observa
trmino y la semana de notificacin de los casos, un valor de r = 0,943. La Figura 3 representa la
y las peores ocurren cuando se considera un re- evolucin temporal de los valores observados y
traso de dos semanas. estimados de incidencia de ETI, para el ao 2012
Los coeficientes, obtenidos por el modelo (etapa de ajuste) y el ao 2013 (etapa de valida-
completo de regresin de Poisson, se presentan cin). En el ao 2013, la incidencia mxima esti-
en la Tabla 2 con errores estndar y valores de mada por el modelo basado en el GT subestima
p. Los coeficientes correspondientes a las bs- a la incidencia mxima real por un factor de 0,7,
quedas de tos y dolor de garganta fueron signifi- aunque acompaa a la dinmica temporal. Los
cativos, mientras que los otros trminos no pre- resultados del GFT presentan una marcada so-
sentaron significacin estadstica considerando breestimacin a lo largo de todo el ao, con casi
un = 0,05. Ninguno de los modelos reducidos el doble de incidencia mxima estimada respecto

Cad. Sade Pblica, Rio de Janeiro, 31(4):691-700, abr, 2015


USO DEL GOOGLE TRENDS PARA ESTIMAR LA INCIDENCIA DE ENFERMEDADES 695

Tabla 1

Coeficientes de correlacin de Pearson entre los casos de enfermedades tipo influenza (ETI) notificados al Sistema Nacional
de Vigilancia de la Salud de Argentina (SNVS) y la frecuencia de bsqueda de cada trmino, considerando diferentes retrasos.

Trmino Sin retraso 1 semana de retraso 2 semanas de retraso

Valor de la correlacin (IC95%)

Gripe 0,50 (0,26; 0,68) 0,49 (0,25; 0,67) 0,51 (0,27; 0,69)
Fiebre 0,18 (-0.09; 0,43) 0,17 (-0,11; 0,43) 0,10 (-0,18; 0,37)
Tos 0,92 (0,87; 0,96) 0,92 (0,86; 0,95) 0,90 (0,82; 0,94)
Dolor de garganta 0,69 (0,51; 0,81) 0,65 (0,45; 0,78) 0,57 (0,35; 0,73)
Paracetamol 0,67 (0,49; 0,80) 0,69 (0,51; 0,81) 0,63 (0,42; 0,77)
Ibuprofeno 0,58 (0,36; 0,73) 0,58 (0,36; 0,74) 0,58 (0,37; 0,74)

IC95%: intervalo de confianza del 95%.

Tabla 2

Coeficientes de regresin con sus errores estndar y valor de p para el modelo de regresin de Poisson estimado.

Variable Coeficiente de regresin () Error estndar (S) Valor de p

Interseccin -9.510,5 3.999,4 0,017


Gripe 17,5 27,8 0,530
Fiebre -8,7 32,2 0,787
Tos 321,6 27,2 < 0,001
Dolor de garganta 90,2 19,4 < 0,001
Paracetamol 27,4 20,2 0,175
Ibuprofeno 20,4 38,6 0,596

a la real, aunque tambin acompaan la dinmi- mejor control de potenciales sesgos 26. De hecho,
ca temporal. El modelo reducido basado en el GT aunque en este estudio no presentaron asocia-
se presenta como poco sensible para acompaar cin significativa, los trminos referidos al tra-
la incidencia de casos notificados al SNVS, con tamiento presentaron buenas correlaciones en
ligeras variaciones en la incidencia estimada a lo otros trabajos, por ejemplo el Tamiflu 19. En este
largo de los dos aos. estudio no se utilizaron trminos tan especficos
como influenza o Tamiflu, ya que stos son ms
utilizados por los mdicos y no por la poblacin
Discusin general. De todas maneras, para representar en
forma ms exacta el pensamiento del pblico,
En el presente trabajo se ha observado que los respecto a los trminos de bsqueda usados a
trminos de bsqueda en Internet ms relacio- nivel de pas, es imprescindible realizar una en-
nados con la incidencia de ETI fueron los rela- cuesta poblacional o una encuesta a pacientes 19.
tivos a los sntomas ms comunes: tos y dolor de Tanto los modelos basados en los trminos
garganta. Esto coincide con las fuertes correla- del GT, como el GFT, presentaron fuertes corre-
ciones halladas en estudios realizados en Corea laciones con los datos de ETI del SNVS. Debe
de Sur, China y Espaa para trminos relaciona- observarse que estas correlaciones correspon-
dos con los sntomas como fiebre, tos y dolor de den a resultados de la validacin externa de los
garganta, en sus respectivos idiomas 19,24,25. Los modelos, o sea, del desempeo frente a datos de
restantes trminos, vinculados a la definicin de un ao diferente a la obtencin de los parme-
la enfermedad y al tratamiento, no fueron signi- tros. En otros estudios de validacin del GFT se
ficativos en el modelo de regresin, aunque fue- han observado tambin altas correlaciones, en
ron conservados en el modelo completo para un diversas regiones de Estados Unidos 12,13,27. Sin

Cad. Sade Pblica, Rio de Janeiro, 31(4):691-700, abr, 2015


696 Orellano PW et al.

Figura 2

Correlaciones entre la incidencia de enfermedades tipo influenza (ETI), la incidencia estimada por los modelos basados en el Google Trends (GT) y la estimada
por el Google Flu Trends (GFT) para el ao 2013.

Figura 3

Incidencia de enfermedades tipo influenza (ETI) por semana notificados al Sistema Nacional de Vigilancia de la Salud (SNVS) de Argentina, y estimacin de la
incidencia segn los modelos basados en el Google Trends (GT) y el Google Flu Trends (GFT).

Cad. Sade Pblica, Rio de Janeiro, 31(4):691-700, abr, 2015


USO DEL GOOGLE TRENDS PARA ESTIMAR LA INCIDENCIA DE ENFERMEDADES 697

embargo, aunque las correlaciones fueron fuer- como en Canad y en Espaa, se han observado
tes, stas describen la dinmica de unos datos mejores correlaciones cuando se toman en cuen-
respecto de otros, en lugar de comparar las mag- ta retrasos 14,25,29, mientras que en otras regiones
nitudes absolutas de las incidencias estimadas y de Corea del Sur, China, Estados Unidos y Nueva
las observadas. Se debe tomar en consideracin Zelanda la ausencia de retraso produjo las mejo-
que las correlaciones simples pueden ser inade- res correlaciones 19,24,27,28. En el presente modelo
cuadas para caracterizar el desempeo de estos no se consider el retraso temporal, debido a que
modelos, y deben utilizarse en forma comple- la enfermedad tiene un desarrollo corto y abrup-
mentaria medidas de la intensidad de los bro- to, por lo cual se asumi que las bsquedas en
tes y el acople temporal entre los modelos y los Internet no deberan preceder por muchos das a
datos de vigilancia 11. En este sentido, el GFT ha la consulta mdica. Esta suposicin fue reforzada
presentado inexactitudes respecto a las inciden- por el anlisis de las correlaciones simples para
cias observadas, tanto sobreestimando como distintos retrasos temporales, ya que las mejores
subestimando la incidencia real de la influenza, correlaciones se observaron cuando no se con-
la ocurrencia temporal de los picos de inciden- sider el retraso temporal. Aun as, esta suposi-
cia y la aparicin de patrones propios del GFT cin debera ser puesta a prueba nuevamente en
no reflejados en los datos observados 11,16,17,28. futuros estudios. Otras mejoras que pueden ser
En el presente estudio, el GFT presenta una gran introducidas para optimizar el uso de modelos
sobreestimacin respecto a los casos observados basados en trminos de bsqueda son la apli-
notificados al SNVS, con casi el doble estimado cacin de modelos de regresin multinivel, en
respecto al observado durante el pico de inciden- lugar de ecuaciones de estimacin generalizada,
cia. Por otro lado, el modelo completo basado regresin con modelos de series temporales con-
en el GT presenta valores ms cercanos a la inci- siderando estacionalidad 17, la incorporacin de
dencia real. El modelo reducido basado en el GT variables meteorolgicas de ajuste 30, modelos se
resulta poco sensible, sobreestimando y subesti- simulacin 31, el anlisis de outliers 18, etc.
mando la incidencia observada durante todo el El presente estudio demuestra el uso de la he-
perodo considerado. Esto refuerza la decisin rramienta GT como complemento a la vigilancia
de incluir variables de prediccin relevantes, de casos de ETI. Esta herramienta, disponible a
aun las que no presentan asociacin significati- travs de Google, es de acceso gratuito. Adems,
va individualmente. Son varios los factores que el desarrollo del modelo no requiere grandes re-
pueden contribuir al mejor desempeo de un cursos, y no precisa una capacitacin avanzada
modelo confeccionado a partir de datos de bs- en metodologa estadstica y epidemiologa. Por
queda local de trminos en Internet. Por ejemplo, consiguiente, los costos asociados al uso de la
el impacto diferencial de los medios de comuni- herramienta son bajos. En contraste, su utilidad
cacin en las diferentes sociedades, los perodos puede ser considerable. Un aspecto que no se
de difusin de alertas y reportes, la diferencia en ha explorado en este estudio sobre los modelos
las incidencias relativas entre pases, diferentes relacionados al GT es la realizacin de prons-
comportamientos de bsqueda de los pacientes, ticos futuros de incidencia. Debido a la menor
etc. Adems, los parmetros del modelo GFT se precisin de estas herramientas frente a los m-
actualizan en forma permanente y se redefinen todos tradicionales de vigilancia, se estima que
los algoritmos, en pos de un mejor ajuste 17. En los mejores pronsticos seran las proyecciones
este sentido, el desarrollo de un modelo local basadas en los datos observados por estos lti-
permite una actualizacin ms dinmica, y un mos, aun tomando en cuenta un retraso de hasta
mecanismo ms transparente en el manejo de 3 semanas 17. Por lo tanto, se prefiri utilizar el GT
los modelos y los parmetros que relacionan los para estimar incidencias en tiempo presente, sin
trminos de bsqueda y las incidencias obser- ensayar pronsticos futuros.
vadas. Justamente para mejorar esta dinmica, Son varias las limitaciones del presente estu-
en el presente modelo se utiliz solamente un dio. Por un lado, la falta de precisin en cuanto
ao previo para la estimacin de los parmetros, a la definicin de las ETI, la cual incluye a la in-
en lugar de varios aos. En el futuro se deber fluenza y a otras enfermedades febriles agudas.
estudiar la conveniencia de utilizar uno o ms Esta falta de precisin es propia de la utilizacin
aos para la obtencin de los parmetros del mo- de estas herramientas, ya que las bsquedas en
delo. Por otro lado, en el presente modelo no se Internet estn dirigidas naturalmente a trminos
consider un retraso temporal entre las bsque- inespecficos, como la tos. A su vez, la eleccin
das de los trminos en Internet y las incidencias de estos trminos complica an ms la precisin
observadas. En otros estudios se han utilizado del mtodo. Los sntomas, por ejemplo, son co-
con distinto xito retrasos de una o dos semanas. munes a muchas otras enfermedades, incluso
Tanto en algunas regiones de Estados Unidos, algunas sin ninguna relacin con la influenza. Lo

Cad. Sade Pblica, Rio de Janeiro, 31(4):691-700, abr, 2015


698 Orellano PW et al.

mismo ocurre con algunos medicamentos pa- GT utiliza al mismo SNVS para ser parametriza-
ra aliviar los sntomas, como el ibuprofeno. En do, y por lo tanto es consistente con los resulta-
este trabajo no se llev adelante ningn estudio dos de vigilancia observados, los cuales podran
sobre la asociacin entre los trminos elegidos y presentar fuertes subregistros. Si esta limitacin
las bsquedas de la poblacin respecto a la in- es tomada en cuenta, el GFT podra ser un mejor
fluenza. Se deberan realizar estudios cualitativos indicador de la incidencia real, mientras que el
que permitan describir cuales son los trminos modelo basado en el GT sera un mejor indica-
que los pacientes buscan para cada enfermedad, dor de las notificaciones registradas en el sistema
en particular para la influenza, de acuerdo a las de vigilancia.
realidades locales. En este estudio se tom en En conclusin, el presente es el primer estu-
cuenta para la regresin la autocorrelacin entre dio en analizar el uso de herramientas de bs-
las semanas. Es posible que los datos de inciden- queda de trminos en Internet a travs de Google
cia de los meses hayan presentado algn nivel en Argentina. Los resultados muestran la utilidad
de autocorrelacin tambin, ya que la inciden- de esta herramienta para estimar la incidencia
cia de un mes podra influir en la incidencia del de las ETI sobre una base semanal, presentando
mes siguiente. Si bien la relacin entre semanas altos valores de correlacin entre los casos esti-
contiguas debera ser mucho mayor, no debera mados y los observados por el sistema de vigi-
descartarse una relacin tambin entre meses lancia, y una moderada relacin en las inciden-
subsiguientes. Por ltimo, el SNVS tiene una ma- cias absolutas. En el futuro, es esperable que la
yor representacin del sistema de salud pblico aplicacin de mtodos de modelado superiores,
(70% de establecimientos cubiertos) respecto del y el estudio de la relacin entre la influenza y los
privado (6% de establecimientos cubiertos) 32. En trminos de bsqueda en Internet por parte de la
este sentido, los casos sobreestimados por el GFT poblacin, puedan mejorar el uso de este potente
podran ser en realidad casos de ETI que consul- instrumento para su utilizacin como apoyo a la
taron en el sistema privado y no fueron notifica- vigilancia epidemiolgica de esta enfermedad.
dos al SNVS. En contraste, el modelo basado en el

Resumo

O objetivo deste estudo foi encontrar um modelo para de 2013 e comparado com os resultados da ferramen-
estimar a incidncia da sndrome gripal com base nos ta Google Flu Trends (GFT). A incidncia de sndrome
termos de busca relacionados recolhidos pelo Google gripal mostrou uma forte correlao com estimativas
Trends (GT). Os dados de monitoramento de sndrome do GT (r = 0,927) e GFT (r = 0,943). No entanto, o GFT
gripal entre 2012 e 2013 foram obtidos no Sistema Na- superestimou o pico de incidncia por quase o dobro, e
cional de Vigilncia de Sade da Argentina. As pesqui- o modelo baseado no GT subestimou o pico de incidn-
sas na Internet foram feitas baseando-se no banco de cia por um fator de 0,7. Esses resultados demonstram a
dados do GT usando 6 termos: gripe, febre, tosse, dor de utilidade do GT como um suplemento para a vigilncia
garganta, paracetamol e ibuprofeno. Um modelo de re- da influenza.
gresso de Poisson foi desenvolvido valendo-se de dados
de 2012. O modelo foi ajustado e validado com dados Gripe Humana; Modelos Epidemiolgicos; Incidncia

Cad. Sade Pblica, Rio de Janeiro, 31(4):691-700, abr, 2015


USO DEL GOOGLE TRENDS PARA ESTIMAR LA INCIDENCIA DE ENFERMEDADES 699

Colaboradores Agradecimientos

P. W. Orellano particip de la idea y diseo del estudio, A los revisores annimos por las sugerencias aportadas
procesamiento y anlisis de los datos, redaccin del tra- para la mejora del manuscrito desde su versin original.
bajo original. J. I. Reynoso colabor en el anlisis de los
datos y redaccin del trabajo original. J. Antman y O.
Argibay colaboraron en el procesamiento de los datos y
revisin final del trabajo original.

Referencias

1. Souza MF, Widdowson MA, Alencar AP, Gaw- 5. Bloom-Feshbach K, Alonso WJ, Charu V, Tamerius
ryszewski VP, Aziz-Baumgartner E, Palekar R, et J, Simonsen L, Miller MA, et al. Latitudinal varia-
al. Trends in mortality from respiratory disease in tions in seasonal activity of influenza and respi-
Latin America since 1998 and the impact of the ratory syncytial virus (RSV): a global comparative
2009 influenza pandemic. Bull World Health Organ review. PLoS One 2013; 8:e54445.
2013; 91:525-32. 6. Lindblade KA, Johnson AJ, Arvelo W, Zhang X, Jor-
2. Bonveh PE, Istriz RE, Labarca JA, Rttimann RW, dan HT, Reyes L, et al. Low usage of government
Vidal EI, Vilar-Compte D. Influenza among adults healthcare facilities for acute respiratory infec-
in Latin America, current status, and future direc- tions in Guatemala: implications for influenza sur-
tions: a consensus statement. Rev Panam Salud veillance. BMC Public Health 2011; 11:885.
Pblica 2012; 31:506-12. 7. Vandendijck Y, Faes C, Hens N. Eight years of the
3. Azziz-Baumgartner E, Cabrera AM, Chang L, Cal- Great Influenza Survey to monitor influenza-like
li R, Kusznierz G, Baez C, et al. Mortality, severe illness in Flanders. PLoS One 2013; 8:e64156.
acute respiratory infection, and influenza-like ill- 8. Eysenbach G. Infodemiology: tracking flu-related
ness associated with influenza A(H1N1)pdm09 in searches on the web for syndromic surveillance.
Argentina, 2009. PLoS One 2012; 7:e47540. AMIA Annu Symp Proc 2006; 2006:244-8.
4. Instituto Nacional de Estadsticas y Censos. Es- 9. Polgreen PM, Chen Y, Pennock DM, Nelson FD.
timaciones y proyecciones de poblacin: total Using internet searches for influenza surveillance.
del pas, 1950-2015: poblacin por sexo y grupos Clin Infect Dis 2008; 47:1443-8.
quinquenales de edad. (Serie Anlisis Demogr- 10. Carneiro HA, Mylonakis E. Google trends: a web-
fico, 30). http://estadisticas.tierradelfuego.gov. based tool for real-time surveillance of disease
ar/wp-content/uploads/2013/11/Estimaciones_ outbreaks. Clin Infect Dis 2009; 49:1557-64.
Proyecciones_Pas_1950_2015.pdf (accedido el 11/
Abr/2014).

Cad. Sade Pblica, Rio de Janeiro, 31(4):691-700, abr, 2015


700 Orellano PW et al.

11. Olson DR, Konty KJ, Paladini M, Viboud C, Si- 22. Hardin JW, Hilbe JM. Generalized estimating equa-
monsen L. Reassessing Google Flu Trends data tions. New York: Chapman & Hall/CRC; 2003.
for detection of seasonal and pandemic influ- 23. Hjsgaard S, Halekoh U, Yan J. The R package gee-
enza: a comparative epidemiological study at pack for generalized estimating equations. J Stat
three geographic scales. PLoS Comput Biol 2013; Soft 2006; 1:1-11.
9:e1003256. 24. Kang M, Zhong H, He J, Rutherford S, Yang F. Using
12. Ginsberg J, Mohebbi MH, Patel RS, Brammer L, Google Trends for influenza surveillance in South
Smolinski MS, Brilliant L. Detecting influenza China. PLoS One 2013; 8:e55205.
epidemics using search engine query data. Nature 25. Valdivia A, Monge-Corella S. Diseases tracked
2009; 457:1012-4. by using Google Trends, Spain. Emerg Infect Dis
13. Cook S, Conrad C, Fowlkes AL, Mohebbi MH. As- 2010; 16:168.
sessing Google Flu Trends performance in the 26 Kleinbaum DG, Klein M. Logistic regression: a self
United States during the 2009 influenza virus A learning text. 3rd Ed. New York: Springer; 2010.
(H1N1) pandemic. PLoS One 2011; 6:e23610. 27. Dugas AF, Hsieh YH, Levin SR, Pines JM, Marein-
14. Malik MT, Gumel A, Thompson LH, Strome T, iss DP, Mohareb A, et al. Google Flu Trends: cor-
Mahmud SM. Google Flu Trends and emer- relation with emergency department influenza
gency department triage data predicted the 2009 rates and crowding metrics. Clin Infect Dis 2012;
pandemic H1N1 waves in Manitoba. Can J Public 54:463-9.
Health 2011; 102:294-7. 28. Wilson N, Mason K, Tobias M, Peacey M, Huang
15. Valdivia A, Lopez-Alcalde J, Vicente M, Pichi- QS, Baker M. Interpreting Google Flu Trends data
ule M, Ruiz M, Ordobas M. Monitoring influ- for pandemic H1N1 influenza: the New Zealand
enza activity in Europe with Google Flu Trends: experience. Euro Surveill 2009; 14:pii:19386.
comparison with the findings of sentinel physi- 29. Ortiz JR, Zhou H, Shay DK, Neuzil KM, Fowlkes
cian networks results for 2009-10. Euro Surveill AL, Goss CH. Monitoring influenza activity in the
2010; 15:pii:19621. United States: a comparison of traditional surveil-
16. Butler D. When Google got flu wrong. Nature lance systems with Google Flu Trends. PLoS One
2013; 494:155-6. 2011; 6:e18687.
17. Lazer D, Kennedy R, King G, Vespignani A. Big 30. Dugas AF, Jalalpour M, Gel Y, Levin S, Torcaso F,
data. The parable of Google Flu: traps in big data Igusa T, et al. Influenza forecasting with Google Flu
analysis. Science 2014; 343:1203-5. Trends. PLoS One 2013; 8:e56176.
18. Ortiz JR, Zhou H, Shay DK, Neuzil KM, Fowlkes 31. Nsoesie E, Mararthe M, Brownstein J. Forecast-
AL, Goss CH. Monitoring influenza activity in the ing peaks of seasonal influenza epidemics. PLoS
United States: a comparison of traditional surveil- Currents 2013; 5:ecurrents.outbreaks.bb1e-
lance systems with Google Flu Trends. PLoS One 879a23137022ea79a8c508b030bc.
2011; 6:e18687. 32. Giovanella L, Feo O, Faria M, Tobar S. Sistemas
19. Cho S, Sohn CH, Jo MW, Shin SY, Lee JH, Ryoo SM, de Salud en Suramrica: desafos para la univer-
et al. Correlation between national influenza sur- salidad, la integralidad y la equidad. Ro de Ja-
veillance data and google trends in South Korea. neiro: Instituto Suramericano de Gobierno en
PLoS One 2013; 8:e81422. Salud; 2012.
20. Patwardhan A, Bilkovski R. Comparison: flu pre-
scription sales data from a retail pharmacy in Recibido el 08/May/2014
the US with Google Flu trends and US ILINet Versin final presentada el 03/Nov/2014
(CDC) data as flu activity indicator. PLoS One Aprobado el 08/Dic/2014
2012; 7:e43611.
21. Myers RH, Montgomery DC, Geoffrey Vining G.
Generalized linear models: with applications in
engineering and the sciences. 2nd Ed. New Jersey:
Wiley and Sons; 2010.

Cad. Sade Pblica, Rio de Janeiro, 31(4):691-700, abr, 2015

Вам также может понравиться