Вы находитесь на странице: 1из 9

BIG DATA

A princpio, podemos definir o conceito de Big Data como sendo conjuntos de dados
extremamente grandes e que, por este motivo, necessitam de ferramentas especialmente preparadas
para lidar com grandes volumes, de forma que toda e qualquer informao nestes meios possa ser
encontrada, analisada e aproveitada em tempo hbil
!o " difcil entender este cenrio# trocamos milh$es de e%mails por dia& milhares de
transa$es bancrias acontecem no mundo a cada segundo& solu$es sofisticadas gerenciam a cadeia
de suprimentos de vrias fbricas neste exato momento& operadoras registram a todo instante
chamadas e trfego de dados do crescente n'mero de linhas celulares no mundo todo& sistemas
de ()* coordenam os setores de in'meras companhias& enfim, exemplos no faltam % se te
perguntarem, voc+ certamente ser capa, de apontar outros sem fa,er esforo
-nformao " poder, logo, se uma empresa souber como utili,ar os dados que tem em
mos, poder saber como melhorar um produto, como criar uma estrat"gia de mar.eting mais
eficiente, como cortar gastos, como produ,ir mais, como evitar o desperdcio de recursos, como
superar um concorrente, como disponibili,ar um servio a um cliente de maneira satisfat/ria e
assim por diante
*erceba, estamos falando de fatores que podem inclusive ser decisivos para o futuro
de uma companhia 0as, Big Data " um nome relativamente recente 1ou, ao menos, comeou a
aparecer na mdia recentemente2 -sso significa que somente nos 'ltimos anos " que as empresas
descobriram a necessidade de fa,er melhor uso de seus grandes bancos de dados3
*ode ter certe,a que no 4 tempos que os departamentos de 5- contemplam
aplica$es de Data 0ining, Business -ntelligence e 6)0 16ustomer )elationship 0anagement2,
por exemplo, para tratar justamente de anlise de dados, tomadas de decis$es e outros aspectos
relacionados ao neg/cio
A proposta de uma soluo de Big Data " a de oferecer uma abordagem ampla no
tratamento do aspecto cada ve, mais 7ca/tico7 dos dados para tornar as referidas aplica$es e todas
as outras mais eficientes e precisas *ara tanto, o conceito considera no somente grandes
quantidades de dados, a velocidade de anlise e a disponibili,ao destes, como tamb"m a relao
com e entre os volumes
Por que Big Data to importante?
8idamos com dados desde os prim/rdios da humanidade Acontece que, nos tempos atuais,
os avanos computacionais nos permitem guardar, organi,ar e analisar dados muito mais facilmente
e com frequ+ncia muito maior
(ste cenrio est longe de deixar de ser crescente Basta imaginar, por exemplo, que
vrios dispositivos em nossas casas % geladeiras, 59s, lavadoras de roupa, cafeteiras, entre outros %
devero estar conectados : internet em um futuro no muito distante (sta previso est dentro do
que se conhece como -nternet das 6oisas
;e olharmos para o que temos agora, j veremos uma grande mudana em relao :s
d"cadas anteriores# tomando como base apenas a internet, pense na quantidade de dados que so
gerados diariamente somente nas redes sociais& repare na imensa quantidade de sites na <eb&
perceba que voc+ " capa, de fa,er compras on%line por meio at" do seu celular, quando o mximo
de informati,ao que as lojas tinham em um passado no muito distante eram sistemas isolados
para gerenciar os seus estabelecimentos fsicos
As tecnologias atuais nos permitiram % e permitem % aumentar exponencialmente a
quantidade de informa$es no mundo e, agora, empresas, governos e outras institui$es precisam
saber lidar com esta 7exploso7 de dados = Big Data se prop$e a ajudar nesta tarefa, uma ve, que
as ferramentas computacionais usadas at" ento para gesto de dados, por si s/, j no podem fa,+%
lo satisfatoriamente
A quantidade de dados gerada e arma,enada diariamente chegou a tal ponto que,
hoje, uma estrutura centrali,ada de processamento de dados j no fa, mais sentido para a maioria
absoluta das grandes entidades = >oogle, por exemplo, possui vrios data centers para dar conta de
suas opera$es, mas trata todos de maneira integrada (ste 7particionamento estrutural7, " bom
destacar, no " uma barreira para o Big Data % em tempos de computao nas nuvens, nada mas
trivial
Os 'Vs' do Big Data: volume velo!idade variedade vera!idade e valor
!o intuito de deixar a ideia de Big Data mais clara, alguns especialistas passaram a
resumir o assunto em aspectos que conseguem descrever satisfatoriamente a base do conceito# os
cincos ?9s? % volume, velocidade e variedade, com os fatores veracidade e valor aparecendo
posteriormente
= aspecto do volume 1volume2 voc+ j conhece (stamos falando de quantidades de
dados realmente grandes, que crescem exponencialmente e que, no raramente, so subutili,ados
justamente por estarem nestas condi$es
9elocidade 1velocit@2 " outro ponto que voc+ j assimilou *ara dar conta de
determinados problemas, o tratamento dos dados 1obteno, gravao, atuali,ao, enfim2 deve ser
feito em tempo hbil % muitas ve,es em tempo real ;e o tamanho do banco de dados for um fator
limitante, o neg/cio pode ser prejudicado# imagine, por exemplo, o transtorno que uma operadora
de carto de cr"dito teria % e causaria % se demorasse horas para aprovar um transao de um cliente
pelo fato de o seu sistema de segurana no conseguir analisar rapidamente todos os dados que
podem indicar uma fraude
9ariedade 1variet@2 " outro aspecto importante =s volume de dados que temos hoje
so consequ+ncia tamb"m da diversidade de informa$es 5emos dados em formato estruturados,
isto ", arma,enados em bancos como *ostgre;A8 e =racle, e dados no estruturados oriundos de
in'meras fontes, como documentos, imagens, udios, vdeos e assim por diante B necessrio saber
tratar a variedade como parte de um todo % um tipo de dado pode ser in'til se no for associado a
outros
= ponto de vista da veracidade 1veracit@2 tamb"m pode ser considerado, pois no
adianta muita coisa lidar com a combinao 7volume C velocidade C variedade7 se houver dados
no confiveis B necessrio que haja processos que garantam o mximo possvel a consist+ncia dos
dados 9oltando ao exemplo da operadora de carto de cr"dito, imagine o problema que a empresa
teria se o seu sistema bloqueasse uma transao genuna por analisar dados no condi,entes com a
realidade
-nformao " poder, informao " patrimDnio A combinao 7volume C velocidade C
variedade C veracidade7, al"m de todo e qualquer outro aspecto que caracteri,a uma soluo de Big
Data, se mostrar invivel se o resultado no trouxer benefcios significativos e que compensem o
investimento (ste " o aspecto do valor 1value2
B claro que estes cinco aspectos no precisam ser tomados como a definio perfeita
4 quem acredite, por exemplo, que a combinao 7volume C velocidade C variedade7 seja
suficiente para transmitir uma noo aceitvel do Big Data ;ob esta /ptica, os aspectos da
veracidade e do valor seriam desnecessrios, porque j esto implcitos no neg/cio % qualquer
entidade s"ria sabe que precisa de dados consistentes& nenhuma entidade toma decis$es e investe se
no houver expectativa de retorno
= destaque para estes dois pontos talve, seja mesmo desnecessrio por fa,er
refer+ncia ao que parece /bvio *or outro lado, a sua considerao pode ser relevante porque refora
os cuidados necessrios a estes aspectos# uma empresa pode estar analisando redes sociais para
obter uma avaliao da imagem que os clientes t+m de seus produtos, mas ser que estas
informa$es so confiveis ao ponto de no ser necessrio a adoo de procedimentos mais
criteriosos3 ;er que no se fa, necessrio um estudo mais profundo para diminuir os riscos de um
investimento antes de efetu%lo3
De qualquer forma, os tr+s primeiros ?9s? % volume, velocidade e variedade % podem
at" no oferecer a melhor definio do conceito, mas no esto longe de fa,+%lo (ntende%se que Big
Data trata apenas de enormes quantidades de dados, todavia, voc+ pode ter um volume no muito
grande, mas que ainda se encaixa no contexto por causa dos fatores velocidade e variedade
"olu#$es de Big Data
Al"m de lidar com volumes extremamente grandes de dados dos mais variados tipos,
solu$es de Big Data tamb"m precisam trabalhar com distribuio de processamento e elasticidade,
isto ", suportar aplica$es com volumes de dados que crescem substancialmente em pouco tempo
= problema " que os bancos de dados 7tradicionais7, especialmente aqueles que exploram o modelo
relacional, como o 0@;A8, o *ostgre;A8 e o =racle, no se mostram adequados a estes requisitos,
j que so menos flexveis
-sso acontece porque bancos de dados relacionais normalmente se baseiam em quatro
propriedades que tornam a sua adoo segura e eficiente, ra,o pela qual solu$es do tipo so to
populares# Atomicidade, 6onsist+ncia, -solamento e Durabilidade (sta combinao " conhecida
como A6-D, sigla para o uso destes termos em
ingl+s# Atomicit@,6onsistenc@, -solation e Durabilit@ 9ejamos uma breve descrio de cada uma#
Atomicidade# toda transao deve ser atDmica, isto ", s/ pode ser considerada efetivada se
executada completamente&
6onsist+ncia# todas as regras aplicadas ao banco de dados devem ser seguidas&
-solamento# nenhuma transao pode interferir em outra que esteja em andamento ao
mesmo tempo&
Durabilidade# uma ve, que a transao esteja concluda, os dados consequentes no
podem ser perdidos
= problema " que este conjunto de propriedades " por demais restritivo para uma
soluo de Big Data A elasticidade, por exemplo, pode ser inviabili,ada pela atomicidade e pela
consist+ncia B neste ponto que entra em cena o conceito de!o;A8, denominao que muitos
atribuem : expresso em ingl+s 7!ot onl@ ;A87, que em traduo livre significa 7!o apenas ;A87
1;A8 % ;tructured Auer@ 8anguage % ", em poucas palavras, uma linguagem pr/pria para se
trabalhar com bancos de dados relacionais2
= !o;A8 fa, refer+ncia :s solu$es de bancos de dados que possibilitam
arma,enamento de diversas formas, no se limitando ao modelo relacional tradicional Bancos do
tipo so mais flexveis, sendo inclusive compatveis com um grupo de premissas que 7compete7
com as propriedades A6-D# a BA;( 1Basicall@ Available, ;oft state, (ventuall@ consistenc@%
Basicamente disponvel, (stado 8eve, (ventualmente consistente2
!o " que bancos de dados relacionais tenham ficado ultrapassados % eles so e
continuaro por muito tempo sendo 'teis a uma s"rie de aplica$es = que acontece " que,
geralmente, quanto maior um banco de dados se torna, mais custoso e trabalhoso ele fica# " preciso
otimi,ar, acrescentar novos servidores, empregar mais especialistas em sua manuteno, enfim
9ia de regra, escalar 1torn%lo maior2 um bancos de dados !o;A8 " mais fcil e menos custoso
-sso " possvel porque, al"m de contar com propriedades mais flexveis, bancos do tipo j so
otimi,ados para trabalhar com processamento paralelo, distribuio global 1vrios data centers2,
aumento imediato de sua capacidade e outros
Al"m disso, h mais de uma categoria de banco de dados !o;A8, fa,endo com que
solu$es do tipo possam atender : grande variedade de dados que existe, tanto estrurados, quanto
no estruturados# bancos de dados orientados a documentos, bancos de dados chaveEvalor, bancos
de dados de grafos, enfim
(xemplos de bancos de dado !o;A8 so o 6assandra, o 0ongoDB, o 4Base,
o 6ouchDB e o )edis 0as, quando o assunto " Big Data, apenas um banco de dados do tipo no
basta B necessrio tamb"m contar com ferramentas que permitam o tratamento dos volumes !este
ponto, o 4adoop ", de longe, a principal refer+ncia
(xemplos de bancos de dados no;A8# 6assandra, 0ongoDB, 4Base, 6ouchDB e )edis
Data %are&ouse
;egundo <4-nmon, considerado um pioneiro no tema, um data Farehouse " uma
coleo de dados orientada por assuntos, integrada, variante no tempo, que tem por objetivo dar
suporte aos processos de tomada de deciso
= data Farehouse " um banco de dados contendo dados extrados do ambiente de
produo da empresa, que foram selecionados e depurados, tendo sido otimi,ados para
processamento de consulta e no para processamento de transa$es (m geral, um data Farehouse
requer a consolidao de outros recursos de dados al"m dos arma,enados em base de dados
relacionais, incluindo informa$es provenientes de planilhas eletrDnicas, documentos textuais, etc
De acordo com )ichard 4ac.athorn 1outro pioneiro no tema2, o objetivo de um data
Farehouse " fornecer uma 7imagem 'nica da realidade do neg/cio7 De uma forma geral, sistemas
de data Farehouse compreendem um conjunto de programas que extraem dados do ambiente de
dados operacionais da empresa, um banco de dados que os mant"m, e sistemas que fornecem estes
dados aos seus usurios
;istemas de Data <arehouse revitali,am os sistemas da empresa, pois#
G *ermitem que sistemas mais antigos continuem em operao&
G 6onsolidam dados inconsistentes dos sistemas mais antigos em conjuntos coerentes&
G (xtraem benefcios de novas informa$es oriundas das opera$es correntes&
G *rov"m ambiente para o planejamento e arquitetura de novos sistemas de cunho operacional
6omo se v+, existem diferentes vis$es do que seria um data Farehouse# uma
arquitetura, um conjunto de dados semanticamente consistente com o objetivo de atender diferentes
necessidades de acesso a dados e extrao de relat/rios, ou ainda, um processo em constante
evoluo, que utili,a dados de diversas fontes heterog+neas para dar suporte a consultas ad%hoc,
relat/rios analticos e : tomada de deciso
(xtraindo informa$es do Data <arehouse
(xistem vrias maneiras de recuperar informa$es de um data Farehouse, as formas
de extrao mais comuns no mercado hoje so#
G Herramentas de consulta e emisso de relat/rios&
G (-; 1(xecutive -nformation ;@stems2&
G Herramentas =8A*&
G Herramentas Data mining
A nova tend+ncia dessas solu$es " a integrao com o ambiente <eb, permitindo
maior agilidade em consultas estticas e dinImicas
!esta pesquisa veremos de forma bsica e separadamente os conceitos das
tecnologias =8A* e Data mining A diferena bsica entre ferramentas =8A* e data mining est na
maneira como a explorao dos dados " abordada 6om ferramentas =8A* a explorao " feita na
base da verificao, isto ", o analista conhece a questo, elabora uma hip/tese e utili,a a ferramenta
para confirm%la
6om data mining, a questo " total ou parcialmente desconhecida e a ferramenta "
utili,ada para a busca de conhecimento
Herramentas =8A*
=8A* 1=n%8ine Anal@tical *rocessing2 representa um conjunto de tecnologias
projetadas para suportar anlise e consultas ad hoc ;istemas =8A* ajudam analistas e executivos a
sinteti,arem informa$es sobre a empresa, atrav"s de compara$es, vis$es personali,adas, anlise
hist/rica e projeo de dados em vrios cenrios de 7e se7 ;istemas =8A* so implementados
para ambientes multi%usurio, arquitetura cliente%servidor e oferece respostas rpidas e consistentes
:s consultas iterativas executadas pelos analistas, independente do tamanho e complexidade do
banco de dados
A caracterstica principal dos sistemas =8A* " permitir uma viso conceitual
multidimensional dos dados de uma empresa A viso multidimensional " muito mais 'til para os
analistas do que a tradicional viso tabular utili,ada nos sistemas de processamento de transao
(la " mais natural, fcil e intuitiva, permitindo a viso em diferentes perspectivas dos neg/cios da
empresa e desta maneira tornando o analista um explorador da informao
Jma arquitetura =8A* possui tr+s componentes principais# um modelo de neg/cios
para anlises interativas, implementado numa linguagem grfica que permita diversas vis$es e
nveis de detalhes dos dados& um motor =8A* para processar consultas multidimensionais contra o
dado%alvo& e um mecanismo para arma,enar os dados a serem analisados A base de dados usada
define se o pacote " um )=8A*, que interfaceia com um banco de dados relacional de mercado, ou
um 0=8A*, que se liga a um servidor =8A*, atrav"s de um banco de dados multidimensional e
dedicado
'erramentas Data (ining
!os prim/rdios do data Farehouse, data mining era visto como um subconjunto das
atividades associadas com o Farehouse 0as atualmente os caminhos do Farehouse e do mining
esto divergindo (nquanto o Farehouse pode ser uma boa fonte de dados para minerar, o data
mining foi reconhecido como uma tarefa genuna, e no mais como uma colDnia do Farehouse
Apesar de o termo data mining ter se tornado bastante popular nos 'ltimos anos,
existe ainda certa confuso quanto : sua definio Data mining 1ou minerao de dados2 " o
processo de extrair informao vlida, previamente desconhecida e de mxima abrang+ncia a partir
de grandes bases de dados, usando%as para efetuar decis$es cruciais
Data mining vai muito al"m da simples consulta a um banco de dados, no sentido de
que permite aos usurios explorar e inferir informao 'til a partir dos dados, descobrindo
relacionamentos escondidos no banco de dados *ode ser considerada uma forma de descobrimento
de conhecimento em bancos de dados 1KDD % KnoFledge Discover@ in Databases2, rea de
pesquisa de bastante evid+ncia no momento, envolvendo -ntelig+ncia Artificial e Banco de Dados
Jm ambiente de apoio : tomada de decis$es, integrando t"cnicas de data mining
sobre um ambiente de data Farehousing, possibilita um grande n'mero de aplica$es, que j v+m
sendo implementadas em diversos segmentos de neg/cios, como manufatura, automao de pedido
de remessas, varejo, gerenciamento de inventrios, financeiro, anlise de risco, transporte,
gerenciamento de frotas, telecomunicao, anlise de chamadas, sa'de, analise de resultados,
mar.enting, estabelecimento do perfil dos consumidores, seguros, deteco de fraude, dentre outros

)e*er+n!ias Bi,liogr-*i!as
-nternet#
dataimeuspbrEsbbdLMNLEartigosEpdfsEsbbdOminOMNpdf&
FFFedgeorgEconversationEreinventing%societ@%in%the%Fa.e%of%big%data&
papersssrncomEsolPEpaperscfm3abstractOidQLLMRNSR&
FFFibmcomEsoftFareEdataEbigdata&
strataoreill@comELMNLEMNEFhat%is%big%datahtml&
FFFinsidecounselcomE%data%Fh@%a%bigger%is%better%mentalit@%ma&
literatura#
% =liveira, Dr Tos" *ala,,o de, 0odelos de (struturao de Aplica$es Distribudas JH)>; %
-nstituto de -nformtica, LMMS
% B-;*=, 6arlos Alberto H U 6AVA)-!-, (dson <almir Anlises sofisticadas com o =n%8ine
Anal@tical *rocessing DeveloperWs 0aga,ine, ;o *aulo, nPL, pLX%PN, abr de NYYY

Вам также может понравиться