Вы находитесь на странице: 1из 8

Aplicaes da

epidemiologia

Uso de big data em sade no Brasil: perspectivas para um


futuro prximo*
doi: 10.5123/S1679-49742015000200015

The use of big data in healthcare in Brazil: perspectives for the near future
Alexandre Dias Porto Chiavegatto Filho
Universidade de So Paulo, Faculdade de Sade Pblica, So Paulo-SP, Brasil

Resumo

O uso de big data tem crescido em todas as reas da cincia nos ltimos anos. Existem trs reas auspiciosas para o uso
de big data em sade: medicina de preciso (precision medicine); pronturios eletrnicos do paciente; e internet das coisas
(internet of things). Entre as linguagens de programao mais utilizadas em big data, duas tm se destacado nos ltimos
anos: R e Python. Em relao s novas tcnicas estatsticas, espera-se que tcnicas de machine learning (principalmente as
rvores de classificao e regresso), metodologias para controlar por associaes esprias (como a correo de Bonferroni
e a taxa de falsas descobertas) e metodologias para a reduo da dimenso dos dados (como a anlise de componentes
principais e o propensity score matching) sejam cada vez mais utilizadas. A questo da privacidade ser tambm cada vez
mais importante na anlise de dados. O uso de big data na rea da sade trar importantes ganhos em termos de dinheiro,
tempo e vidas e precisa ser ativamente defendido por cientistas de dados e epidemiologistas.
Palavras-Chave: Big Data; Metodologia; Estatstica e Dados Numricos; Brasil.

Abstract

The use of big data has increased in recent years in all scientific areas. There are currently three promising areas
for the use of big data in healthcare: precision medicine, electronic medical records and the internet of things. Two
programming languages have gained momentum in data science: R and Python. Regarding the statistical techniques,
it is expected that machine learning (especially classification and regression trees), methodologies for controlling spurious associations (such as Bonferroni correction and false discovery rate) and methodologies for dimension reduction
(such as principal components analysis and propensity scores) will be increasingly used. Privacy is an issue that will
become ever more important in data analysis. The use of big data in healthcare will bring enormous gains in terms of
costs, time and lives saved, and needs to be actively defended by data scientists and epidemiologists.
Key words: Big Data; Methodology; Statistics and Numerical Data; Brazil.

* Artigo baseado na disciplina Introduo a Big Data em Sade, ministrada pelo autor como curso de vero na Faculdade de
Sade Pblica da Universidade de So Paulo (FSP-USP). Mais informaes esto disponveis em: http://www.fsp.usp.br/alexandre.

Epidemiol. Serv. Sade, Braslia, 24(2): 325-332, abr-jun 2015

325

Uso de big data em sade no Brasil: perspectivas para um futuro prximo

Introduo
Ao observar os avanos da cincia nos ltimos anos,
possvel encontrar fortes indcios de que a prxima
grande fronteira da epidemiologia ser a anlise de
grandes bancos de dados (big data). O crescimento
do nmero de estudos multicntricos e a presso pela
transparncia dos gastos pblicos tm aumentado a
quantidade de dados disponveis e criado uma demanda
por novas formas de anlise de dados complexos e
desestruturados um conjunto de tcnicas conhecido
como data mining.
Essa demanda por especialistas da rea de big data
pode trazer enormes oportunidades para os epidemiologistas, os profissionais com experincia em anlise
de dados em sade. Caso os epidemiologistas acolham
de braos abertos essa oportunidade, estaro em uma
posio privilegiada para liderarem projetos de pesquisa
em todas as reas da sade e dominarem o debate sobre
as polticas pblicas em sade principalmente em
questes puramente quantitativas, como anlises de
custo-benefcio e de impacto dos programas de sade.
No Brasil, algumas das oportunidades de anlise de big
data mais imediatas incluem o linkage dos bancos
de dados mantidos pelo Ministrio da Sade, como o
Sistema de Informaes sobre Nascidos Vivos (Sinasc),
o Sistema de Informaes sobre Mortalidade (SIM), o
carto SUS, entre outros, alm da colaborao entre
centros de pesquisa nacionais e internacionais para o
desenvolvimento de pesquisas multicntricas.

Atualmente, define-se big data


como uma quantidade de dados
suficientemente grande que leve a uma
mudana nas formas tradicionais de
anlise de dados.
O primeiro desafio definir o que exatamente big
data. No se trata de um problema de soluo fcil,
j que a quantidade de dados usada pelas pesquisas
aumenta a cada ano. Na metade do sculo passado,
encontrar os parmetros de uma regresso linear com
500 observaes era uma tarefa que levava alguns
dias. Hoje, so necessrios tambm alguns dias para
rodar modelos bayesianos com centenas de milhares
de observaes. Em vez de definir big data por meio

326

de uma quantidade especfica de bytes, ou pelo tempo


necessrio para a anlise, uma melhor soluo enfatizar
a necessidade de mudana de processos. Atualmente,
define-se big data como uma quantidade de dados
suficientemente grande que leve a uma mudana nas
formas tradicionais de anlise de dados.1
Novas reas para a anlise de big data
em sade
Apesar de a revoluo do big data na sade estar
apenas comeando, j possvel identificar trs reas
auspiciosas para os prximos anos: a medicina de
preciso, os pronturios eletrnicos do paciente e a
internet das coisas.
Medicina de preciso
A maioria dos conhecimentos cientficos ainda baseada em grandes mdias. Por exemplo, uma metanlise
recente verificou que o uso de novos anticoagulantes
orais diminui o risco de acidentes vasculares cerebrais
(AVC) e eventos emblicos sistmicos em 19%.2 O
problema aqui que ningum teve o risco diminudo
em 19%. Algumas pessoas tiveram o risco diminudo
em 100% (no tiveram um desses eventos) e as outras
em 0% (tiveram um desses eventos).
Ou seja, sabemos apenas que o uso dos anticoagulantes
orais diminui a presena dos eventos para a populao
como um todo o resultado foi estatisticamente significativo com p<0,0001 , mas no sabemos exatamente
para quem. No referido estudo, os anticoagulantes orais
no tiverem o efeito desejado para muitos pacientes:
dos 29.312 indivduos que receberam o medicamento,
911 tiverem um AVC ou evento emblico sistmico.
Quem so as pessoas para as quais o medicamento
no funciona? Talvez no funcione para mulheres com
mais de 60 anos, com histrico de tabagismo, que
tiveram pelo menos um filho, que tm uma mutao
no gene G20210A e que moram em um bairro com
concentrao de material particulado inalvel (MP10)
abaixo de 36 g/m. A verdade que no sabemos.
A medicina de preciso (precision medicine) tem
como objetivo ajudar a resolver esse problema. Em vez
de prescrever o mesmo anticoagulante oral para todos
os pacientes, espera-se que um dia seja possvel indic-lo
apenas para indivduos para os quais o medicamento
verdadeiramente funcione. claro que ser muito difcil

Epidemiol. Serv. Sade, Braslia, 24(2): 325-332, abr-jun 2015

Alexandre Dias Porto Chiavegatto Filho

atingir a preciso de 100%, devido multicausalidade


das doenas, mas se conseguirmos dobrar a eficcia
atual de todas as intervenes de sade o nmero de
vidas salvas ser inestimvel.
Para que a medicina de preciso seja um dia de
fato uma realidade, o mais importante ser aumentar o
tamanho das amostras das pesquisas. Isso ser possvel
por meio de incentivos a novos estudos multicntricos
que usem a mesma metodologia e pelo linkage de
dados pblicos j existentes. A digitalizao de todos
os dados dos pacientes pelos servios de sade tambm ser fundamental para estimular novas anlises
e aumentar o tamanho das amostras. De especial
importncia ser a universalizao do uso integrado
do pronturio eletrnico do paciente.
Pronturio eletrnico do paciente
A realidade brasileira ainda a dos pronturios
especficos para cada unidade de sade, digitalizados
ou, em muitos casos, em papel. Assim como as prescries em papel, os pronturios em papel dificultam
a transferncia, a atualizao e a compreenso das
informaes. Alm disso, o espao fsico necessrio para
o seu armazenamento tem gerado problemas logsticos
aos sistemas de sade e incentivado negativamente a
introduo de novas informaes.
Existe uma forte tendncia para a universalizao da
digitalizao dos pronturios no Brasil, principalmente
nos grandes centros urbanos.3 Apesar de necessria,
essa novidade j chega defasada. A digitalizao sem
dvidas traz mudanas positivas, mas o fato de esses
pronturios no poderem ser acessados por profissionais de outros centros de sade traz perdas de tempo,
dinheiro e vidas.
Uma soluo o uso integrado do pronturio eletrnico do paciente (PEP), que permitiria o uso remoto
do mesmo pronturio por todos os estabelecimentos
de sade. Alguns dos benefcios do uso integrado
do PEP so o ganho de tempo no preenchimento,
a diminuio do vis de memria/esquecimentos, a
completitude das informaes e o seu potencial para
uso em pesquisas cientficas.
O uso do PEP j universal na ateno primria
no Reino Unido, o que tem possibilitado um grande
nmero de pesquisas cientficas.4 No caso do Brasil,
cujo sistema de sade possui uma atuao mais forte
do sistema privado, a implantao dos PEPs ser neces-

sariamente mais complexa. Uma posio de liderana


do SUS nessa questo ser fundamental para garantir
o uso integrado dos PEPs no futuro prximo.
Internet das coisas
Das trs perspectivas para o uso de big data, a
internet das coisas (internet of things) no momento
a realidade mais distante, apesar de alguns avanos
recentes. A promessa que um dia a maioria dos objetos de uso dirio estar de alguma forma conectada
internet. Por exemplo, a geladeira, o chuveiro e at
a porta das casas estaro conectados entre si pela internet. O sensor da porta poder identificar quando o
morador chega suando e informar automaticamente a
geladeira, que prepara uma gua gelada, e o chuveiro,
que liga a gua em uma temperatura morna.
As possibilidades de uso na rea especfica da sade
so imensas. No caso de idosos, por exemplo, se o
cho da casa tiver um sensor conectado internet,
uma queda brusca de um corpo poder gerar um
alerta automtico para os cuidadores do idoso e, em
situaes crticas, para o prprio sistema de sade.
Outra possiblidade promissora ser o uso de wearables,
objetos eletrnicos conectados ao corpo que podero
identificar a iminncia de infartos e acidentes vasculares
antes mesmo do prprio indivduo.
A quantidade de dados gerados pela internet das
coisas ser imensamente til aos epidemiologistas, j
que permitir identificar todos os passos imediatos e
distantes que levaram ao aparecimento das doenas
ou ao bito. Enquanto atualmente ainda dependemos
de pesquisas ativas, no futuro o desafio da cincia ser
convencer as pessoas a fornecerem os dados que j foram
automaticamente coletados pela internet das coisas.
As vrias linguagens de programao
para anlise de dados: a busca por um
consenso
A grande quantidade de linguagens e softwares
disponveis para a anlise de dados Stata, SAS, SPSS,
R, JMP, MATLAB, Julia, Python, entre outros tem
dificultado o compartilhamento de resultados e o
desenvolvimento de novas anlises. O uso de terminais
para anlise de dados por via remota em pesquisas
multicntricas tem significado que o software estatstico
utilizado precisa ser o mesmo para todos os cientistas

Epidemiol. Serv. Sade, Braslia, 24(2): 325-332, abr-jun 2015

327

Uso de big data em sade no Brasil: perspectivas para um futuro prximo

que participam da pesquisa. A escolha do software de


anlise de dados passa ento a ser fundamental e deve
ser decidida por meio de um consenso entre todos os
pesquisadores do grupo.
Duas linguagens de programao tm conquistado
o apoio crescente dos cientistas na ltima dcada: R e
Python.5 A expectativa que essas duas linguagens passem a ser dominantes tambm entre epidemiologistas.
Ambas so open source, gratuitas e tm uma comunidade
de programadores e cientistas extremamente ativa, o
que significa que novas metodologias estatsticas so
rapidamente incorporadas pelos usurios por meio de
pacotes e bibliotecas.
A vantagem do Python ser uma linguagem de
programao geral, enquanto a base do R a anlise de dados. Originalmente o R era mais completo
em relao ao nmero de metodologias estatsticas
disponveis, mas cada vez mais o Python tem se aproximado do R, principalmente graas ao crescimento
do Pandas, uma biblioteca do Python especializada em
anlise de dados. A escolha entre aprender uma ou
outra linguagem no to fcil, uma vez que depende
dos objetivos do cientista, mas atualmente existe um
movimento em direo a um consenso sobre o uso
de uma dessas duas linguagens em anlise de dados.
importante, entretanto, mencionar que a linguagem
Julia tem crescido rapidamente nos ltimos dois anos,
o que torna o futuro do atual consenso incerto.
As duas linguagens tm se adaptado ao crescimento
do uso de big data, com a introduo de pacotes especficos. No R, por exemplo, o pacote big memory
permite o uso mais eficiente da memria RAM por meio
da linguagem C++, e o pacote ff cria uma estrutura
de dados que funciona como se estivesse na memria
RAM, apesar de salvos no disco rgido. No Python, o
NumPy permite o uso de matrizes multidimensionais na
linguagem C, o que aumenta a velocidade da anlise de
dados. O fato de o R e o Python terem uma comunidade
ativa de programadores uma garantia de que sero
desenvolvidas solues para os novos problemas de
big data no futuro.
Metodologias para big data
O crescimento da quantidade e complexidade dos
dados tem tambm gerado alguns desafios em relao escolha da metodologia estatstica. As tcnicas
tradicionais de anlise de dados apresentam algumas

328

limitaes para big data, principalmente em relao


aos dados com muitas dimenses e no caso da presena
de correlaes esprias. Alm disso, o crescimento do
nmero de profissionais de tecnologia da informao
(TI) na rea de anlise de dados tem aumentado o
interesse em machine learning.
Machine learning
Desde o incio da Revoluo Industrial, sempre
se colocou a possibilidade de as mquinas chegarem
um dia a ter iniciativa prpria. Na rea da anlise de
dados, isso significa a elaborao de algoritmos que
respondam e se adaptem automaticamente aos dados
sem a necessidade de interveno humana contnua.
A metodologia de machine learning atualmente
mais utilizada em anlise de dados so as rvores de
deciso (decision trees), que podem ser usadas quando
a varivel dependente assume valores finitos (rvore de
classificao) ou valores contnuos (rvore de regresso).
Analisemos aqui um exemplo bastante simples do uso
de rvore de classificao, em que o objetivo prever
o fato de um municpio brasileiro ter um coeficiente de
mortalidade infantil (CMI) abaixo da mdia nacional
(14,7 bitos para cada 1.000 nascidos vivos).
Como o CMI tem alta variabilidade anual em municpios pequenos, utilizou-se o perodo de 2008 a
2012 para garantir a estabilidade dos resultados. Por
questo de simplicidade, sero includas apenas duas
caractersticas dos municpios brasileiros: proporo
de nascimentos com 7 ou mais consultas de pr-natal
e taxa de analfabetismo, ambas referentes a 2010.
Os dados das trs variveis para cada um dos 5.565
municpios brasileiros foram retirados do Datasus.6
Para a anlise de rvore de regresso, foi utilizado o
pacote rpart do R.7 Os resultados podem ser replicados
utilizando-se o cdigo-fonte a seguir:
ML <- read.csv(https://sites.google.com/site/
alexandrechiave/mlexemplo/mlexemplo.csv)
CMI <- ML$CMI
CMI[CMI==0] <- CMI abaixo
CMI[CMI==1] <- CMI acima
prenatal<- ML$prenatal
analfabet<- ML$analfabet
install.packages (rpart)
install.packages (rpart.plot)
library (rpart)
library(rpart.plot)

Epidemiol. Serv. Sade, Braslia, 24(2): 325-332, abr-jun 2015

Alexandre Dias Porto Chiavegatto Filho

model.rpart <- rpart (CMI ~ prenatal + analfabet)


rpart.plot (model.rpart, type=0, extra=2, varlen=10)
png (CMI.png)
rpart.plot (model.rpart, type=0, extra=2, varlen=10)
graphics.off()
Sem a necessidade de interveno humana explcita, o
algoritmo identificou dois pontos preditivos (conhecidos

como os ns da rvore): 1) proporo de mulheres


com 7 consultas de pr-natal acima ou igual a 67,0%; e
2) taxa de analfabetismo menor que 8,1%. O grfico a
seguir indica que o algoritmo, utilizando apenas duas
variveis, conseguiu identificar a posio correta dos
municpios brasileiros em relao mdia nacional
em 64,9% dos casos (3.610 de 5.565).

sim pr-natal>=67,0% no

CMI abaixo
1580/2422

analfabetismo<8,1%

CMI abaixo
219/336

CMI abaixo
1811/2807

Variveis

7 ou mais consultas pr-natal 67,0%


7 ou mais consultas pr-natal < 67,0%
Taxa de analfabetismo < 8,1%
Taxa de analfabetismo 8,1%

Previso

Acertos/Total

CMI abaixo da mdia

1580/2422

CMIa abaixo da mdia


CMIa acima da mdia

219/336
1811/2807

a) CMI = Coeficiente de mortalidade infantil

Grfico 1 rvore de classificao para o coeficiente de mortalidade infantil, municpios brasileiros, 2008-2012
Trata-se obviamente de uma rvore de classificao
extremamente simples, com apenas duas variveis preditoras. Modelos mais elaborados j tm comeado a
aparecer em revistas internacionais da rea da sade.
Uma anlise recente, por exemplo, utilizou os dados
do World Mental Health de 24 pases para construir
20 grupos de risco para transtornos de estresse ps-traumtico (TEPT) com tcnicas de machine learning.8
Apesar de a prevalncia na amostra total ter sido de
apenas 4,0%, no grupo de maior risco 56,3% dos
indivduos apresentaram TEPT.
As metodologias mais populares de machine learning apresentam vrias limitaes, principalmente
o problema do sobreajuste e o possvel aumento no
nmero de associaes esprias (pois na maioria dos
casos no h um embasamento terico na formulao
dos modelos), mas a expectativa para o futuro que,
com o seu acolhimento pela epidemiologia, esses

problemas sejam confrontados e novas solues


apaream.
Associaes esprias
A grande quantidade de variveis utilizadas em big
data tem como limitao o aumento do nmero de associaes esprias. O uso do valor de 0,05 para critrio
de significncia de certo modo adequado para uma
nica comparao. No caso de centenas ou milhares
de testes de hiptese ao mesmo tempo, a possibilidade
de uma associao aleatria ser considerada como
significante enorme. Uma soluo simples evitar a
realizao de testes de hiptese para todas as variveis
disponveis, limitando-se apenas quelas para as quais
existe uma fundamentao terica para a associao
(em epidemiologia, isso significa jamais utilizar metodologias stepwise). O problema dessa estratgia

Epidemiol. Serv. Sade, Braslia, 24(2): 325-332, abr-jun 2015

329

Uso de big data em sade no Brasil: perspectivas para um futuro prximo

que em alguns casos, como as anlises epigenticas, o


embasamento terico simplesmente ainda no existe.
Algumas metodologias tm sido historicamente utilizadas em pesquisas genticas e epigenticas para evitar
associaes esprias, sendo as principais a correo
de Bonferroni e a taxa de falsas descobertas. Com o
crescimento do uso de big data na rea de sade, essas
duas metodologias tm sido rapidamente incorporadas
pela epidemiologia.
A correo de Bonferroni a metodologia mais
simples e mais tradicional para tentar diminuir o
nmero de associaes esprias, com o objetivo de
evitar a presena de um grande nmero de falsos
positivos (ou seja, de rejeitar a hiptese nula quando
ela verdadeira). A metodologia estabelece um novo
critrio de significncia, obtido pela diviso do valor
original pelo nmero de hipteses a serem testadas. No
caso de serem feitos 8 testes de hiptese (h), o novo
critrio de significncia ser:

Na equao, h o nmero de testes de hiptese testados. Assim, todos os testes de hipteses (previamente
ordenados) situados at k sero rejeitados, ou seja,
sero considerados significantes. Matematicamente
possvel provar que a FDR dessa anlise ser sempre
menor do que .
A abordagem de Storey um pouco menos conservadora que a anterior, pois permite um maior nmero de
rejeies da hiptese nula. parecida com a BH, exceto
pelo fato de que introduz no modelo a proporo das
associaes para as quais a hiptese nula verdadeira
(0), um valor que no diretamente conhecido, mas
que pode ser inferido utilizando-se diferentes tcnicas:

Como 0 sempre igual ou menor do que 1, o nmero de testes de hiptese rejeitados ser maior que
no caso da BH. Quando 0 for igual a 1, o resultado
final ser exatamente igual ao anterior.
Reduo da dimenso dos dados

A correo de Bonferroni tem como limitao o fato


de ser ultraconservadora, dado que fica cada vez mais
improvvel encontrar valores significativos medida
que o nmero de testes de hiptese aumenta. Uma
metodologia alternativa, em uso crescente em gentica
e epigentica, a taxa de falsas descobertas (false
discovery rate, ou FDR). O objetivo nesse caso
controlar a proporo esperada de falsos positivos.
Entre as hipteses nulas rejeitadas pela pesquisa, a FDR
a proporo esperada de resultados falsos:

Na equao, V o nmero de falsos positivos e E o


nmero de positivos verdadeiros (e, portanto, V + S o
nmero total de resultados considerados significantes).
Existem alguns mtodos para se controlar a FDR, sendo
os mais comuns as abordagens de Benjamini-Hochberg
(BH) e a de Storey.9 No primeiro caso, so calculados os
p-valores para todos os testes de hiptese e ordenados
de forma crescente. Para o caso de a FDR de interesse
ser , necessrio encontrar o maior k para o qual:

330

O objetivo da reduo da dimenso dos dados


permitir uma melhor visualizao dos dados, diminuir
a quantidade de memria RAM necessria para rodar
os modelos e diminuir a quantidade de associaes
esprias. Duas metodologias estatsticas conhecidas
em epidemiologia tm recebido ateno recente em
big data: anlise de componentes principais e propensity score.
O objetivo da anlise de componentes principais
transformar muitas variveis semelhantes em apenas
alguns componentes principais linearmente no correlacionados. O primeiro componente principal ser
aquele que contm a maior quantidade de variao
explicada pelos dados, seguido de outros componentes
principais com menor. A quantidade de componentes
principais selecionados depender do limite determinado
pelo cientista para os autovalores (eingenvalues) da
matriz de varincia-covarincia do modelo, normalmente igual a 1. O uso de componentes principais j
frequente em anlises de big data, principalmente
em estudos genticos.
O propensity score tambm permite reduzir o nmero de variveis, s que utilizando a probabilidade
condicional de exposio (ou tratamento). utilizado
para garantir o balanceamento das variveis entre os

Epidemiol. Serv. Sade, Braslia, 24(2): 325-332, abr-jun 2015

Alexandre Dias Porto Chiavegatto Filho

expostos e no expostos, permitindo a comparao de


indivduos dos dois grupos com igual probabilidade
de exposio. Formalmente igual a:
Na equao, Z a exposio e x o vetor de variveis independentes, sendo calculado por meio de
uma regresso logstica. Propensity scores tm sido
utilizados principalmente em estudos epidemiolgicos,10
mas o aumento do seu uso em outros estudos de big
data tem sido defendido por outros pesquisadores.11

A metodologia mais simples para controlar pelo vis da


amostra a adio de pesos de acordo com a representatividade de cada indivduo em relao populao
de interesse. Assim, indivduos menos representativos
tero peso e efeito menores nos resultados finais. Outra opo realizar uma amostragem estratificada da
prpria amostra, considerando-se a distribuio das
caractersticas da populao de interesse. Como nos
outros exemplos, o crescimento do uso de big data em
pesquisas cientficas deve acelerar o desenvolvimento de
novas e mais complexas metodologias de amostragem.

Muitos dados dados bons

Desafios para o futuro

Conseguir diferenciar entre a importncia da quantidade e da qualidade dos dados no to simples.


possvel identificar aqui trs grupos: indivduos sem
conhecimento de estatstica, indivduos com um pouco de conhecimento de estatstica e indivduos que
trabalham com estatstica. O primeiro grupo costuma
achar que a soluo para todos os problemas das
pesquisas cientficas aumentar o nmero de dados
(costumam ser aqueles que acham que os erros das
pesquisas de inteno de voto ocorrem por terem
sido pesquisados apenas 2.000 eleitores). Indivduos
com pouco conhecimento de estatstica tm uma viso
exatamente oposta sobre big data: acham que a grande
quantidade de dados torna a anlise cientfica invlida
devido a problemas de amostragem. O terceiro grupo
j entende que lidar com amostras enviesadas sempre
ocupou boa parte do tempo do cientista, mesmo antes
da existncia de big data, e que j existem algumas
solues para o problema e muitas novas aparecero.
De fato, o uso de big data implica que em muitos
casos as amostras disponveis no sero representativas
de toda a populao. Por exemplo, dados de smartphones ou wearables sero provenientes majoritariamente
de pessoas de alta renda e a adoo dos pronturios
mdicos depender do conhecimento tecnolgico dos
profissionais de sade. Isso com certeza traz limitaes
s pesquisas, mas claramente tambm no as inviabiliza. Desde sempre, pesquisas epidemiolgicas muito
raramente utilizam uma amostra aleatria da populao
por questes de tempo e custo, sendo mais comum o
uso de tcnicas de amostragem, como estratificao
e seleo de multiestgio.
Metodologias tradicionais j esto sendo incorporadas
em big data para lidar com o problema de amostragem.

Existe um consenso de que o grande desafio do


uso de big data nos prximos anos ser a questo
da privacidade. O risco de uma grande quantidade
de dados confidenciais ser roubado e divulgado ser
cada vez mais real. A soluo para o problema ser
a conscientizao dos cientistas sobre a importncia
da privacidade e o desenvolvimento de protocolos de
segurana cada vez mais rgidos. Por exemplo, cada
vez mais comum a anlise de dados exclusivamente
dentro de um terminal de acesso restrito. Novas tcnicas para garantir o sigilo dos dados, possivelmente
utilizando tcnicas de criptografia, sero cada vez mais
incorporadas em pesquisas cientficas.
Entretanto, a realidade que certamente aparecero
escndalos de vazamento de dados sigilosos, seja por
descuido de alguns cientistas ou por invases propositais.
Alm de fazer de tudo para que isso jamais acontea,
papel do cientista tambm informar a populao
sobre os imensos ganhos de tempo, dinheiro e vidas
que a anlise de big data traz para a sociedade. Esses
escndalos, apesar de certamente prejudiciais para as
vtimas, no podem ser utilizados para a restrio de
pesquisas com big data.
A anlise de big data encontra-se em um ponto de
acelerao, que se tornou possvel pela confluncia de
dois fatores: a presso pela divulgao de resultados de
pesquisas pblicas e o desenvolvimento computacional
necessrio para as anlises estatsticas. O potencial da
anlise de big data est apenas comeando a virar uma
realidade na rea da sade, e epidemiologistas esto na
posio ideal para liderarem essa nova rea. Apesar de
existirem algumas limitaes metodolgicas e problemas
de privacidade, a era do big data traz imensas oportunidades para o avano do conhecimento em sade.

Epidemiol. Serv. Sade, Braslia, 24(2): 325-332, abr-jun 2015

331

Uso de big data em sade no Brasil: perspectivas para um futuro prximo

Referncias
1. Oxford English Dictionary [Internet]. Oxford: Oxford
University Press; 2015. Big Data; [cited 2015 Apr 17];
[1 paragraph]. Available from: http://www.oed.com/
view/Entry/18833
2. Ruff CT, Giugliano RP, Braunwald E, Hoffman EB,
Deenadayalu N, Ezekowitz MD, et al. Comparison
of the efficacy and safety of new oral anticoagulants
with warfarin in patients with atrial fibrillation: a
meta-analysis of randomised trials. Lancet. 2014
Mar;383(9921):955-62.
3. Cneo PK, Rondina JM. Pronturio eletrnico
do paciente: conhecendo as experincias de
sua implantao. J Health Inform. 2014 abrjun;6(2):67-71.

6. Ministrio da Sade (BR). Departamento de


Informtica do SUS. Informaes de Sade (BI)
[Internet]. Braslia: Ministrio da Sade; 2015
[citado 2015 abr 14]. Disponvel em: http://www2.
datasus.gov.br/DATASUS/index.php?area=04
7. Varian HR. Big data: new tricks for econometrics. J
Econ Perspect;28(2):3-28.
8. Kessler RC, Rose S, Koenen KC, Karam EG, Stang PE,
Stein DJ, et al. How well can post-traumatic stress
disorder be predicted from pre-trauma risk factors?
An exploratory study in the WHO World Mental Health
Surveys. World Psychiatry. 2014 Oct;13(3):265-74.
9. Storey JD. A direct approach to false discovery rates. J
R Statist Soc B. 2002 Ago;64(3):479-98.

4. Williams H, Spencer K, Sanders C, Lund D, Whitley


EA, Kaye J, et al. Dynamic consent: a possible
solution to improve patient confidence and trust in
how electronic patient records are used in medical
research. JMIR Med Inform. 2015 Jan-Mar;3(1):e3.

10. Chiavegatto Filho ADP, Kawachi I, Gotlieb SL.


Propensity score matching approach to test the
association of income inequality and mortality in So
Paulo, Brazil. J Epidemiol Community Health. 2012
Jan;66(1):14-7.

5. King J, Magoulas R. 2014 Data science salary survey:


tools, trends, what pays (and what doesnt) for data
professionals. Sebastopol: OReilly; 2014.

11. Grimmer J. We are all social scientists now: how big


data, machine learning, and causal inference work
together. PS. 2015 Jan;48(1):80-3.

332

Epidemiol. Serv. Sade, Braslia, 24(2): 325-332, abr-jun 2015

Вам также может понравиться