Вы находитесь на странице: 1из 42

BIG DATA

Rogrio Fontes - @rogeriofontes

O que big data?


um termo usado para descrever grandes volumes de dados e que ganha cada vez mais relevncia a medida que a sociedade se depara com um aumento sem precedentes no nmero de informaes geradas a cada dia.

Problema:
As dificuldades em armazenar, analizar e utilizar grandes conjuntos de dados tm doso um considervel gargalo paras as companhias.

Soluo:
Na verdade, Big data o conjunto de solues tecnolgicas capaz de lidar com dados digitais em volume variedade intidos at hoje. Na prtica, a tecnologia permite analisar qualquer tipo de informao digital em tempo real, sendo fundamental para tomada de decises.

Conceito Simples

(Inteligencia Artificial + estatisticas em tempo real)

Volume de informao digital - IDC


2011 - 1,7 zetabyttes 2012 - 2,7 zettabyttes 2015 - 8 zettabyttes

Desafios enfrentados pelas empresas em relao a Big DATA - Armazenar - Analisar - Utilizar grandes e diferentes conjuntos de dados

Mercado
Segundo o Gartnet, Big Data implicar im investimento macio nos prximos dois ou trs anos, em todo o mundo. O mercado global de Big Data j movimenta US$ 70 bilhes por ano, e a tendncia que tenha um crescimento de quase 40% at 2015.

Os 4 pilares do Big data (4 v`s) Volume

Veracidade

Big data

Velocidade

Variedade

Volume

Geramos um nmero gigantesco de dados diariamente, e estima-se que esse volume dobre a cada 18 meses.

Variedade

Esses dados vm de sistemas estruturados e no estruturados gerados por emails, potagens em mdias sociais, mensagens instantneas, etiquetas RFID, cmaras de video, etc.

Velocidade Muitas vezes precisamos agir em tempo real para lidar com essa imensa quantidade de dados.

Veracidade dados so realmente o que so

Manipulando o Big data.


Coleta->Processamento->Armazenamento>Anlise->Ao.

Armazenamento
2,3 exabytes de informao so produzidos pela humanidade 375 megabytes de dados so acumulados por cada famlia 10 pentabytes correspondem aos e-mails enviados 43 pentabytes de dados so trocados por smartphones e tablets conectados internet 24 pentabytes so processados pelo site do google

Buzzword.. bigdata Curiosidades sobre Zettabytes: Atualmente, cerca da 15 petabytes de dados estruturados e no estruturados so gerados todos os dias. Entre eles, destacam-se vdeos, comentrios em redes sociais, contedos de blogs e dispositivos mveis.

Buzzword.. bigdata A quantidade global de dados digitais deve crescer de 1,8 zettabytes, hoje, para 7,9 zettabytes em 2015. Daqui a trs anos, toda a informao do mundo poder ser amazenada em: 493 bilhes de Ipads.

Coparao de armazenamento
1 ZB = 1 bilho de HD`s 1 ZB = 75 bilho de IPADS de 16 GB 0, 5 ZB = toda internet em 2009 42 ZB = Todas as palavras ditas pela humanidade, em toda sua histria, se digitalizadas

Coparao de armazenamento
1 Zettabyte igual 1.000.000.000.000.000.000.000 bytes. 1 Gigabyte igual 1.000.000.000 bytes.

Como funciona o Big DATA


A grande novidade das solues big data lidar tambm com os chamados dados noestruturados que at ento s podiam ser compreendidos por pessoas. So tweets, post no Facebook, vdeos, geolocalizao e comportamentos de clientes que dependem de contexto para ter sentindo.

Dados no estruturados
Esses dados no-estruturados representam 85% das informaes com as quais as empresas lidam hoje. O mercado de Big DATA crescer quase 40% ao ano at 2015.

Exemplos
Skybox tira fotos de satlite e vende a seus clientes informaes em tempo real sobre a disponibilidade de vagas de estacionamento livres numa cidade em determinada hora ou quantos navios esto ancorados no mundo nesse momento. O projeto Global Pulse, da ONU, vai utilizar um programa que decifra a linguagem humana na analise de mensagens de texto e posts em redes sociais para prever o aumento do desemprego, o esfriamento econmico e epidemias de doenas. Varejista americana Dollar General monitora as combinaes de produtos que seus clientes pem nos carrinhos. Ganhou eficcia e ainda descobriu curiosidades: quem bebe gatorade tem mais chances de comprar tambm laxante.

Porque usar?
Big data ajudou o obama a ganhar as eleies IBM analisando tweets. Projeto treinador http://www.bhcomunicacao.com.br/bh/ibm/2532ibm-transforma-torcedores-em-treinadores-auxiliares-durante-a-copa-das-confederacoes-.html http://aquintaonda.blogspot.com.br/2013/06/analise-sentimentos-brasil-portugues.html

Onde Usar
Cientistas de dados -> Estatistica ->Matematica -> Oportunidades Profissionais de Tecnologia para Big Data ->NoSQL ->Hadoop -> Minarao de dados

resumo
Big data : Variedades e volumes Dados no estruturados Onde armazenar esses dados?

NoSQL

NoSQL
1. Dimenso 2. Conexo 3. Semi/No-estruturado 4. Arquitetura

NoSQL
-> Escabilidade horizontal -> Processamento distribudo -> Maior throughput (taxa de transferencia) -> Baixo custo

NoSQL
CAP A - Atomicidade C - Consistncia I -Isolamento D - Durabilidade

teorema CAP
Availabity - o cliente pode sempre ler e escrever Consistency - Todos os clientes tem sempre a mesma viso do sistema (commits atmicos) Partition tolerance - O sistema sempre funciona mesmo que haja parties - quebra de comunicao entre eles

BASE
B -> Basically A -> Avaliable S -> Soft state E -> Eventually consistent

ACID x BASE

Na prtica: ferramentas e exemplos


Neo4J cassandra MongoDB H.Base Amazon DynamoDB Hadoop Facebook data flow LuceneSolr

FONTES: SITES DE NOTCIAS, EMPRESAS E CONSULTORIA GARTNER.

Вам также может понравиться