Академический Документы
Профессиональный Документы
Культура Документы
epidemiologia
The use of big data in healthcare in Brazil: perspectives for the near future
Alexandre Dias Porto Chiavegatto Filho
Universidade de So Paulo, Faculdade de Sade Pblica, So Paulo-SP, Brasil
Resumo
O uso de big data tem crescido em todas as reas da cincia nos ltimos anos. Existem trs reas auspiciosas para o uso
de big data em sade: medicina de preciso (precision medicine); pronturios eletrnicos do paciente; e internet das coisas
(internet of things). Entre as linguagens de programao mais utilizadas em big data, duas tm se destacado nos ltimos
anos: R e Python. Em relao s novas tcnicas estatsticas, espera-se que tcnicas de machine learning (principalmente as
rvores de classificao e regresso), metodologias para controlar por associaes esprias (como a correo de Bonferroni
e a taxa de falsas descobertas) e metodologias para a reduo da dimenso dos dados (como a anlise de componentes
principais e o propensity score matching) sejam cada vez mais utilizadas. A questo da privacidade ser tambm cada vez
mais importante na anlise de dados. O uso de big data na rea da sade trar importantes ganhos em termos de dinheiro,
tempo e vidas e precisa ser ativamente defendido por cientistas de dados e epidemiologistas.
Palavras-Chave: Big Data; Metodologia; Estatstica e Dados Numricos; Brasil.
Abstract
The use of big data has increased in recent years in all scientific areas. There are currently three promising areas
for the use of big data in healthcare: precision medicine, electronic medical records and the internet of things. Two
programming languages have gained momentum in data science: R and Python. Regarding the statistical techniques,
it is expected that machine learning (especially classification and regression trees), methodologies for controlling spurious associations (such as Bonferroni correction and false discovery rate) and methodologies for dimension reduction
(such as principal components analysis and propensity scores) will be increasingly used. Privacy is an issue that will
become ever more important in data analysis. The use of big data in healthcare will bring enormous gains in terms of
costs, time and lives saved, and needs to be actively defended by data scientists and epidemiologists.
Key words: Big Data; Methodology; Statistics and Numerical Data; Brazil.
* Artigo baseado na disciplina Introduo a Big Data em Sade, ministrada pelo autor como curso de vero na Faculdade de
Sade Pblica da Universidade de So Paulo (FSP-USP). Mais informaes esto disponveis em: http://www.fsp.usp.br/alexandre.
325
Introduo
Ao observar os avanos da cincia nos ltimos anos,
possvel encontrar fortes indcios de que a prxima
grande fronteira da epidemiologia ser a anlise de
grandes bancos de dados (big data). O crescimento
do nmero de estudos multicntricos e a presso pela
transparncia dos gastos pblicos tm aumentado a
quantidade de dados disponveis e criado uma demanda
por novas formas de anlise de dados complexos e
desestruturados um conjunto de tcnicas conhecido
como data mining.
Essa demanda por especialistas da rea de big data
pode trazer enormes oportunidades para os epidemiologistas, os profissionais com experincia em anlise
de dados em sade. Caso os epidemiologistas acolham
de braos abertos essa oportunidade, estaro em uma
posio privilegiada para liderarem projetos de pesquisa
em todas as reas da sade e dominarem o debate sobre
as polticas pblicas em sade principalmente em
questes puramente quantitativas, como anlises de
custo-benefcio e de impacto dos programas de sade.
No Brasil, algumas das oportunidades de anlise de big
data mais imediatas incluem o linkage dos bancos
de dados mantidos pelo Ministrio da Sade, como o
Sistema de Informaes sobre Nascidos Vivos (Sinasc),
o Sistema de Informaes sobre Mortalidade (SIM), o
carto SUS, entre outros, alm da colaborao entre
centros de pesquisa nacionais e internacionais para o
desenvolvimento de pesquisas multicntricas.
326
327
328
sim pr-natal>=67,0% no
CMI abaixo
1580/2422
analfabetismo<8,1%
CMI abaixo
219/336
CMI abaixo
1811/2807
Variveis
Previso
Acertos/Total
1580/2422
219/336
1811/2807
Grfico 1 rvore de classificao para o coeficiente de mortalidade infantil, municpios brasileiros, 2008-2012
Trata-se obviamente de uma rvore de classificao
extremamente simples, com apenas duas variveis preditoras. Modelos mais elaborados j tm comeado a
aparecer em revistas internacionais da rea da sade.
Uma anlise recente, por exemplo, utilizou os dados
do World Mental Health de 24 pases para construir
20 grupos de risco para transtornos de estresse ps-traumtico (TEPT) com tcnicas de machine learning.8
Apesar de a prevalncia na amostra total ter sido de
apenas 4,0%, no grupo de maior risco 56,3% dos
indivduos apresentaram TEPT.
As metodologias mais populares de machine learning apresentam vrias limitaes, principalmente
o problema do sobreajuste e o possvel aumento no
nmero de associaes esprias (pois na maioria dos
casos no h um embasamento terico na formulao
dos modelos), mas a expectativa para o futuro que,
com o seu acolhimento pela epidemiologia, esses
329
Na equao, h o nmero de testes de hiptese testados. Assim, todos os testes de hipteses (previamente
ordenados) situados at k sero rejeitados, ou seja,
sero considerados significantes. Matematicamente
possvel provar que a FDR dessa anlise ser sempre
menor do que .
A abordagem de Storey um pouco menos conservadora que a anterior, pois permite um maior nmero de
rejeies da hiptese nula. parecida com a BH, exceto
pelo fato de que introduz no modelo a proporo das
associaes para as quais a hiptese nula verdadeira
(0), um valor que no diretamente conhecido, mas
que pode ser inferido utilizando-se diferentes tcnicas:
Como 0 sempre igual ou menor do que 1, o nmero de testes de hiptese rejeitados ser maior que
no caso da BH. Quando 0 for igual a 1, o resultado
final ser exatamente igual ao anterior.
Reduo da dimenso dos dados
330
331
Referncias
1. Oxford English Dictionary [Internet]. Oxford: Oxford
University Press; 2015. Big Data; [cited 2015 Apr 17];
[1 paragraph]. Available from: http://www.oed.com/
view/Entry/18833
2. Ruff CT, Giugliano RP, Braunwald E, Hoffman EB,
Deenadayalu N, Ezekowitz MD, et al. Comparison
of the efficacy and safety of new oral anticoagulants
with warfarin in patients with atrial fibrillation: a
meta-analysis of randomised trials. Lancet. 2014
Mar;383(9921):955-62.
3. Cneo PK, Rondina JM. Pronturio eletrnico
do paciente: conhecendo as experincias de
sua implantao. J Health Inform. 2014 abrjun;6(2):67-71.
332