Вы находитесь на странице: 1из 6

C O M P U T A O

18 | CINCIAHOJE | 306 | VOL. 51


Computao para uma sociedade
conectada e digitalizada
BIG DATA
Uma cmera registra
a placa de um carro.
Algum paga uma conta com o carto
de crdito, aluga um lme na TV
a cabo ou posta uma mensagem
em uma rede social...
A cada transao,
dados vo sendo guardados.
A digitalizao e conexo total
de nossa sociedade resultam na
criao e no armazenamento de uma
quantidade enorme de dados.
Uma variedade de informaes gerada
no s por cientistas, empresas
e governos, como acontecia antes,
mas tambm pela populao
em geral, por meio de equipamentos
como cmeras digitais ou programas
como as redes sociais.
Essa informao pode ser til?
Pode ser correlacionada?
Geraldo Xexo
Departamento de Cincia
da Computao,
Instituto de Matemtica
e Programa de Engenharia
de Sistemas e Computao (Coppe),
Universidade Federal do Rio de Janeiro
>>>
B
ig Data descreve um conjunto de problemas e
suas solues tecnolgicas em computao apli-
cada com caractersticas que tornam seus dados
difceis de tratar. H consenso de que trs des-
sas caractersticas, as iniciadas pelos trs Vs,
so as principais: volume, velocidade e variedade. Ape sar de
Big Data ser uma expresso criada para ter impacto merca-
dolgico, acabou denindo uma nova rea de pesquisa.
Como o termo Big Data faz supor, um dos desaos a
enorme quantidade de dados, ou seja, seu volume. Os sis-
temas tradicionais atuais no esto preparados para tratar
certas colees de dados que j temos ou vamos obter nos
prximos anos. A previso que passaremos da faixa de
muitos gigabytes (bilhes de bytes) ou poucos terabytes (tri-
lhes) para a faixa de petabytes (milhares de trilhes) ou
at mesmo exabytes (milhes de trilhes).
Para dar uma ideia, um disco rgido comum tem atual-
mente em torno de 1 terabyte. O LHC, o maior acelerador
de partculas do mundo, no Centro Europeu de Pesquisas
Nucleares (CERN), na Sua, armazena 15 petabytes por
ano de dados na forma original. o equivalente a 15 mil
discos rgidos cheios. Ao longo do tempo, os dados j somam
100 petabytes.
Velocidade signica que esses dados so enviados aos
nossos sistemas com uma taxa de bytes por intervalo de tem-
po muito alta, to grande que no temos como armazen-los
todos. Assim, muitas vezes, somos obrigados a escolher da-
dos para guardar e outros para descartar. Para armazenar
aqueles 15 petabytes por ano, o CERN escolhe dados rele-
vantes entre 15 petabytes gerados por segundo de operao
do LHC.
Como saber o que guardar e guardar cada vez mais r-
pido o desao.
Mais trs Vs Variedade signica que os dados aparecem
em formas diferentes. Nossos sistemas tradicionais so oti-
mizados para processar dados que podem ser facilmente
descritos na forma de tabelas, como uma planilha eletrni-
ca, onde cada coluna tem tamanho constante ou previs-
vel, mesmo que a quantidade de linhas seja muito gran-
de. Entretanto, muitos dos novos tipos de dados tm for-
matos mais livres (textos, imagens etc.) ou com estruturas
especcas (redes, por exemplo).
CINCIAHOJE | 306 | AGOSTO 2013 | 19
C O M P U T A O
A partir desses trs Vs, diversos autores propem
ainda outros conceitos, como veracidade, variabilidade
ou valor. So outras preocupaes importantes, como
garantir que o dado seja verdadeiro e ainda vlido no
tempo.
Outra maneira de entender Big Data est na forma
como os dados acabam sendo usados muitas vezes,
no planejada desde sua criao. A prtica de guardar
informao qualquer que seja permite que, mais
tarde, exista uma disponibilidade que pode ser apro-
veitada em uma oportunidade no identicada previa-
mente. No jargo da rea, modelamos ou remodelamos
os dados depois de obt-los.
Basicamente, com a diminuio do custo de armazena-
mento de dados causada pela reduo do preo dos discos
rgidos e das tas magnticos, guarda-se tudo que pos-
svel e, mais tarde, descobre-se como usar. Vale lembrar
aqui que o preo de armazenar 1 megabyte em mdia mag-
ntica caiu de US$ 30 (cerca de R$ 60), em 1980, para
menos de US$ 0,0001 (cerca de R$ 0,00005) neste ano.
Muitos desses dados esto ou podem ser relacionados,
mesmo que criados de forma independente. Por exem-
plo, mensagens que so enviadas por redes sociais j fo-
ram cruzadas com os movimentos das bolsas de valores
e com a evoluo geogrca da gripe.
Essas caractersticas geraram novos desaos tecnol-
gicos na computao e exigem novos tipos de sistemas,
seja de equipamentos, seja de programas.
Mercado e empregos Esses dados realmente
existem? So to comuns? A resposta armativa para
as duas questes.
Portanto, resta perguntar: onde esto?
No comrcio, por exemplo. Quantas informaes so
geradas em cada venda em uma rede de supermercados?
E se essas informaes forem cruzadas com mensagens
em redes sociais sobre mercados, produtos, receitas e
notcias na mdia? Ou e tambm com dados de clubes
de relacionamento, de carto de crdito e as regies
geogrcas em que acontecem?
Raciocinando dessa forma, sistemas que analisam
toda essa informao permitem a obteno tanto de per-
s de consumo individualizados quanto da experincia
de compra do cliente e seus gastos.
J na indstria, um dos fatores que aumentaram a
quantidade de dados foi a multiplicao dos sensores de
vrios tipos, de cmeras de alta denio a simples con-
tadores ou termmetros. Mais: uma empresa pode colo-
car sensores no s em sua fbrica, para analisar o pro-
cesso produtivo, mas tambm em seus produtos, que
enviam, ao fabricante, dados sobre sua localizao geo-
grca, seu uso e desempenho.
A maioria das casas j tem equipamentos que forne-
cem constantemente informao aos seus produtores ou
provedores de servio, como computadores e as deze-
nas de programas neles instalados , equipamentos de
TV a cabo e celulares. A cada ano, produtos que consi-
deramos mais simples passam a funcionar com compu-
tadores integrados que enviam informao a seus fabri-
cantes ou empresas que os operam. J temos geladeiras
ligadas internet, e a proposta que os produtos guar-
dados nessas geladeiras possam informar seu estado ou
ritmo de consumo.
No Brasil, em especial, a indstria de petrleo gran-
de criadora de dados, que vo da pesquisa ssmica inicial
Quanto de informao? (em valores aproximados)
20 | CINCIAHOJE | 306 | VOL. 51
B
A
S
E
A
D
O
E
M
:
H
T
T
P
:
/
/
B
I
T
.
L
Y
/
1
2
Q
W
L
U
W
CINCIAHOJE | 306 | AGOSTO 2013 | 21
Para isso, precisamos de novas teorias e tecnologias.
Uma questo crtica como armazen-los de forma
que possam ser rapidamente encontrados e manipula-
dos. Um dos grandes desenvolvimentos tecnolgicos em
computao do sculo passado foram os Sistemas de
Gerenciamento de Banco de Dados (SGBDs). So eles
que permitem que tratemos de forma eciente milhes
de contas bancrias e outros sistemas que basicamente
fazem o gerenciamento de transaes.
Todos os SGBDs compartilham uma linguagem cha-
mada SQL (sigla, em ingls, para linguagem de con-
sulta estruturada), e o modo de organizar essas tabelas
para condies timas de acesso bem conhecida. Com
novos tipos de dados, essa tecnologia no eciente, e,
para alguns, o caminho parece ser o que denominamos
bancos de dados No-SQL ou outros ainda mais especia-
lizados, como bancos de dados para grafos. Outra solu-
o adotada por empresas que produzem os SGBDs
adicionar a esse tipo de linguagem funes que tratem
especicamente dos novos desaos.
Outro caminho a paralelizao do processamento,
ou seja, a realizao simultnea de vrias tarefas, o que
ajuda a diminuir o tempo de resposta quando lidamos
com bases de dados muito grandes. Essa paralelizao se
d em muitos nveis. Por exemplo, em um computador
com vrios processadores (chips); em processadores com
vrios ncleos; ou pela unio de computadores para for-
mar uma rede que age como um supercomputador.
H ainda a opo do processamento em nuvem, em
que computadores podem ser alocados ou alugados sob
demanda, no momento em que o processamento ne-
cessrio. Propostas como o programa livre Hadoop ba-
seado no MapReduce, um dos mecanismos que fazem o
e monitorao eletrnica de poos at a venda de com-
bustvel na bomba dos postos de abastecimento. Por
exemplo, em dezembro do ano passado, o Banco de Da-
dos de Explorao, mantido pela Agncia Nacional de
Petrleo (ANP), continha 4,57 petabytes e isso s com
dados relativos a pesquisas ssmicas.
Os dados desse banco da ANP so usados por vrias
empresas de petrleo, que produzem ainda mais infor-
mao. A partir deles, so gerados imagens e lmes que
so analisados e geram textos e relatrios, que, por sua
vez, geram investimentos nanceiros, movimentos da
bolsa e notcias na mdia.
Um desao importante entender como esses dados
evoluem. Essa tarefa criar, em 2015, segundo a grande
empresa norte-americana de consultoria Gartner Group,
cerca de 4,4 milhes de empregos muitos deles para
prossionais capacitados a analisar esses dados , em um
mercado mundial avaliado, j para este ano, em US$ 34
bilhes (cerca de R$ 70 bilhes).
Aproveitando essas oportunidades, grandes empresas
de computao j orientam suas linhas de produtos e
servios para atender a esse mercado.
Desaos pela frente Segundo Simon Szykman,
diretor de informtica do Departamento de Comrcio
Norte-americano, os desaos em relao aos dados po-
dem ser divididos em: i) como adquirir; ii) armazenar;
iii) processar; iv) transmitir e disseminar; v) gerenciar
e manter; vi) arquivar por longo prazo; vii) garantir a
segurana; viii) treinar pessoas para us-los; ix) pagar
por tudo isso. Ainda podemos adicionar a esses desaos,
como entend-los de forma isolada e como relacion-los.
C O M P U T A O
22 | CINCIAHOJE | 306 | VOL. 51
Google funcionar permitem que um problema seja di-
vidido por vrias mquinas e, depois, tenha seu resulta-
do agregado em uma mquina central.
Em todo caso, qualquer que seja o desenvolvimento
na rea, uma questo importante entender qual o efei-
to do aumento da quantidade de dados (ou de processa-
dores), para se obter a soluo de um problema. Para
cada algoritmo que usamos, podemos calcular sua com-
plexidade, que indica como cresce o tempo de soluo
em funo do crescimento da quantidade de dados. Por
exemplo, para comparar todos os pares de uma coleo
qualquer (nomes, CPFs, nmero de telefones, compras,
endereos etc.), precisamos gastar um tempo proporcio-
nal ao quadrado da quantidade de dados. Caso o tempo
fosse medido em microssegundos e uma lista com quatro
nomes levasse 16 microssegundos; uma com 10 nomes
levaria, ento, 100 microssegundos.
Portanto, com bases de dados enormes, precisamos
melhorar nossos algoritmos, diminuindo sua complexida-
de, ou buscar solues aproximadas caso contrrio, o
processamento se torna invivel pelo enorme tempo de-
mandado. Algumas vezes, solues paralelas permitem
desempenho superlinear, isto , o aumento de velocida-
de maior do que o aumento do nmero exigido de pro-
cessadores. Em outros casos, em problemas tipicamente
sequenciais, o efeito da paralelizao pode ser inferior
multiplicao dos processadores. Outra forma de atacar
esses problemas utilizar tcnicas de amostragem, o que
exige um tratamento estatstico da forma de trabalho.
Desenvolver novos algoritmos uma das tarefas mais
difceis postas frente do pesquisador de Big Data.
Fora humana Big Data tambm tem relao com
outras reas de pesquisa. A chamada nuvem computacio-
nal, muitas vezes, o que permite que essas quantidades
de dados sejam trabalhadas e compartilhadas. Grandes
lojas virtuais de vendas pela internet oferecem gratuita-
mente uma enorme quantidade de dados para pesquisa-
dores como uma coleo de 5 bilhes de pginas j na-
vegadas. Tambm esto disponveis para a pesquisa ba-
ses de dados sobre o genoma.
Claro que, para usar os dados, muitos pesquisadores
acabam comprando recursos computacionais da empre-
sa que os forneceu. O principal motivo que no fcil
ter poder computacional para tratar tanta informao
disposio.
Crowdsourcing outra rea relacionada, usada quan-
do empregamos pessoas para gerar dados ou realizar
parte do processamento, principalmente em processos
em que humanos ainda so melhores que computadores,
como no reconhecimento de padres. Exemplos: i) pes-
quisas sobre redes sociais nos ajudam a detectar vrus;
ii) jogos so construdos para que internautas colabora-
rem na busca de solues para problemas difceis, como
Phylo, no qual podemos tentar alinhar sequncias de
DNA (material gentico).
Uma das principais aplicaes de ter disposio uma
grande quantidade de dados descobrir algo novo. Isso
pode se dar por deteces de padres, levantamento de
regras ou aprendizado de mquina. Analisando e criando
um modelo de execuo a partir de exemplos, podemos
fazer com que um computador aprenda a reconhecer
padres ou fazer previses.
O LHC gera 15 petabytes de informao por segundo, mas s so guardados 15 petabytes por ano
C
E
R
N
CINCIAHOJE | 306 | AGOSTO 2013 | 23
SENTIMENTO NAS REDES SOCIAIS
O Programa de Engenharia de Sistemas e Computao pertence
Coppe, como mais conhecido o maior centro de pesquisa em
engenharia da Amrica Latina, o Instituto Alberto Luiz Coimbra
de Ps-graduao e Pesquisa de Engenharia, da Universidade
Federal do Rio de Janeiro, que este ano completa seu 50 aniver-
srio de fundao. Naquele programa, so feitas pesquisas que
tratam de todo o ciclo de vida de Big Data. No momento, o autor
deste artigo investiga modelos de representao para textos e a
anlise do sentimento expresso em mensagens em redes sociais.
Para o pblico, o resultado das pesquisas em Big Data
ca mais claro quando investigamos sua aplicao, mani-
pulando dados reais e obtendo resultados surpreendentes.
Como grande parte da pesquisa em Big Data aplicada,
muitos dos casos de sucesso acontecem em outras reas
da cincia, como em sade ou fsica de altas energias.
A organizao no governamental Global Viral usa
tcnicas de crowdsourcing para descobrir surtos de doen-
as contagiosas em seu incio. No Japo, uma rede de
milhares de sensores permite detectar terremotos e avi-
sar a populao. Empresas de cotao de preos, bem
como as de vendas pela internet, analisam o perl dos
clientes, para dar sugestes de consumo. Instituies
nanceiras e governos avaliam milhes de transaes
nanceiras em busca de fraudes.
Mesmo o padro de comunicao entre celulares, r-
dios, sem que se saiba o que est sendo falado como no
escndalo recentemente revelado sobre o monitoramen-
to feito pelo governo norte-americano , pode ajudar a
descobrir uma conspirao. Mas Big Data pode atender
objetivos bem mais pragmticos: por exemplo, empresas
de TV por internet observam seus clientes e analisam as
manifestaes nas redes sociais para orientar a produo
de sries de televiso.
E a tica? No podemos deixar de lembrar que Big
Data tambm traz tona novos problemas ticos. O que
empresas e governos fazem com tantos dados privados?
Que informao pode ser deduzida a partir de dados?
O uso das informaes que estamos guardando e
analisando pode ter resultados no desejados. famosa
a histria do caso de um pai que descobriu, por meio da
propaganda direcionada de uma rede norte-americana
de lojas de varejo, que sua lha adolescente estava gr-
vida fato que havia sido detectado pelos algoritmos da
empresa. Questes como a diculdade de garantir a
segurana e privacidade de dados chegam a inviabilizar
projetos, como uma base central de pronturios mdi-
cos, devido ao risco de essa informao ser utilizada de
forma indevida.
A disponibilidade dessas grandes bases de dados e a
viabilidade de sua interligao permitem que imagine-
mos aplicaes que salvam ou prejudicam vidas. Fazer
um julgamento tico ou moral de uma tecnologia no
questo simples. Vrios pesquisadores se debruam so-
bre o tema, entre eles o professor de histria norte-ame-
ricano Melvin Kranzberg (1917-1995), que disse: A
tecnologia no boa nem m, nem neutra.
No devemos esquecer o ditado que diz: informao
poder. Mesmo uma aplicao altamente benfica,
como o pronturio mdico integrado, nas mos erradas,
pode resultar em polticas discriminatrias. essencial
um questionamento tico constante no s sobre o uso,
mas tambm sobre a coleta, o armazenamento e contro-
le de acesso a esses dados.
No Brasil Big Data tambm uma preocupao de
muitos pesquisadores e prossionais brasileiros, tanto na
computao quanto em outras reas que esto gerando
e analisando dados. Como pas de grandes propores e
com uma populao de aproximadamente 200 milhes
de pessoas, algumas bases de dados aqui j traziam pro-
blemas de Big Data antes que esse nome fosse criado.
Por exemplo, as bases de dados do Instituto Nacional
de Seguro Social (INSS) e do Fundo de Garantia por Tem-
po de Servio (FGTS) esto entre as maiores do mundo
sobre pessoas. A base da Receita Federal associa e cruza
dados fornecidos por empresas e pessoas fsicas sem fa-
lar na necessidade de receber milhes de declaraes em
curto espao de tempo. Segundo a Agncia Nacional de
Telecomunicaes, as empresas de telefonia mvel reali-
zaram 262 milhes de acessos apenas em janeiro deste
ano. At a questo que parece simples de calcular a
conta telefnica no Brasil um problema de Big Data.
Assim como nuvem, Big Data um termo que agre-
ga muita coisa que j vinha sendo feita. Caracteriz-lo
como uma rea especca de pesquisa tem a vantagem
de direcionar para ela pesquisadores e prossionais que
atuavam em reas distintas e, com isso, abrir mais opor-
tunidades de cooperao. um campo interessante para
a interao entre universidades e empresas, bem como
pesquisadores de computao e de outras reas, devido
importncia da utilizao de dados reais nas pesquisas.
A oportunidade aparece quando juntamos quem tem os
dados com quem tem ou pode criar as ferramentas
adequadas para trat-los.
Sugestes para leitura
Big Data Now: 2012 Edition [Edio Kindle]. OReilly Media Inc.
NA INTERNET
Quantos bytes? (em ingls): http://bit.ly/12qwLUw

Похожие интересы