You are on page 1of 7

INSTITUTO FEDERAL DE EDUCAO, CINCIA E TECNOLOGIA DO AMAZONAS

CURSO DE TECNOLOGIA EM ANALISE E DESENVOLVIMENTO DE


SISTEMAS

Turma: Informtica na Educao (EDTECH) /TADS


Prof.: Andra Mendona
Equipe
Srgio Ademir Rocha do Carmo
Carlos Eduardo da Silva
e-mail: sergioademirch@gmail.com

SEMINARIO BIG DATA

Manaus - Am
Maro 2015
Big Data
O Big Data fundamenta-se em um extremo e amplo conjunto de dados constitudo
de ferramentas especializadas em processar e armazenar grandes volumes de dados de
forma que toda e qualquer informao nestes meios de dados possa ser encontrada,
analisada e aproveitada em tempo hbil ou em tempo real. De forma mais simples a ideia
de Big Data pode ser compreendida como uma analises de quantidades de dados para a
gerar um conjunto de informaes importantes que em volumes pequenos no reproduziria
o resultado esperado da informao.
O Big Data mais do que apenas uma questo de tamanho: uma oportunidade de descobrir
insights, ou seja descobrir o discernimento, o critrio, a compreenso clara da natureza intima da
coisa (Solues Big Data, 2014). (You Find Soluctions o Big Data( so na referencia Bibliografica)
Disponvel em:<http://blog.youfindsolutions.com/como-o-big-data-nao-e-so-um-projeto-de-ti>. Acesso
em: 30/03/2015).

Novos tipos de dados e contedo para tornar agora a informao processada ou


armazenada em um negcio gil de excelente lucratividade ou de timo resultado seja este
em qualquer ramo de atividade.
Porvir: O Big Data designa um volume muito grande de dados cuja existncia armazenamento e
analise passaram a ser possveis, com o desenvolvimento da tecnologia o Big Data costuma ser
explicado a partir dos 5Vs volume, velocidade, variedade, veracidade e valor. (Disponvel em: <
- >. Acesso em: 23/03 /2015).

Desde os primrdios da humanidade lidamos com os dados, ou seja procuramos


guarda e processar os dados captado com clareza e com o mnimo de perda de sua
informao.
A ideia de Big Data se mostra concreta quando especialistas sintetizam, ou seja,
abrangem em resumo o assunto em os 5Vs do Big Data que so:
Volume: O Big Data deve possibilitar a anlise de grandes volumes de dados.
Velocidade: O Big Data deve fornecer as repostas com velocidade e em tempo
hbil.
Variedade: Big Data deve ser capaz de lidar com diferentes formatos de
informao. udio, vdeo, mensagens de texto, redes sociais etc.
Veracidade: Os dados devem ser fiis a realidade.
Valor: Os dados do Big Data devem agregar valor ao negcio. Sem valor, a
informao no tem utilidade.
Big Data um Pouco de Sua Histria
Big data se refere terceira poca da era da informao, a primeira foi em 1954
com a implementao dos sistemas de informao nas organizaes. Durante um perodo

de 35 anos em processos internos, cede lugar para as interaes externas atravs da rede
de computadores e a evoluo da globalizao tornado o ambiente empresarial complexo
nesse ambiente que as empresas formalizam uma forma de armazenar e processar seus
dados com segurana.
De uma forma um pouco mais abrangente o termo Big Data aparece na
comunidade cientifica em 1997 por cientistas da NASA, descrevendo um problema com
visualizao (computao grfica) o desafio era como tributar em sistemas de
computadores conjuntos de dados geralmente muito grandes nas memrias principais do
disco local e at mesmo em disco remoto, a esse desafio deram o nome de big data.
Agosto 1999 Steve Bryson, David Kenwright, Michael Cox, David Ellsworth, e
Robert Haimes publicar " Visualmente explorar conjuntos de dados gigabyte em tempo real
"nas comunicaes do ACM. Ele o primeiro artigo MCCA a usar o termo "Big Data" (o
ttulo de uma das sees do artigo "Big Data para Visualizao Cientfica"). O artigo
comea com a seguinte declarao: "Muito computadores poderosos so uma bno para
muitos campos de investigao. Eles tambm so uma maldio clculos rpidos expelem
enormes quantidades de dados. Quando conjuntos de dados megabyte j foram
considerados grandes, encontramos agora conjuntos de dados de simulaes individuais no
intervalo de 300GB. Mas entender os dados resultantes da computao high end um
esforo significativo. Como mais de um cientista colocou, simplesmente difcil olhar para
todos os nmeros.
E, como Richard W. Hamming, matemtico e cientista pioneiro da
computao, assinalou, o objetivo da computao insight, no nmeros.
(Em A Very Short History Of Big Data. Disponvel
em:<http://www.forbes.com/sites/gilpress/2013/05/09/a-very-short-historyof-big-data/#comment_reply>. Acesso em: 05/04/2014).

Portanto, o Big Data oferece meios disponveis com diferenciais diversos de outras
pocas, dados podem ser analisados em sua forma original, no estruturada, analisar o
passado, prever o que ir acontecer com riqueza de detalhes. Podemos usufruir de logs na
web, vdeo clips, gravaes de voz, documentos de repositrios como share point, dados
sociais, dados abertos do governo e outros que iro compor o corpo analtico. Nesse
sentido constri-se o termo Cincia de Dados aplicados ao mtodo cientfico e aos
negcios.

Big Data na Educao


Na educao o Big Data poder estabelecer uma correlao se for analisado os
dados do estudante com as ferramentas tecnolgicas disponveis. Aprimorando o produto
ou o servio educacional que oferecem. Com as ferramentas de Big Data Analytics ser
possvel reunir os dados de um servio ou produto educacional para personalizar o ensino.
Todas as economias mundiais que investiram em Educao saram de crises, prosperaram ou esto
neste caminho. Surtiram algum efeito e podem a mdio prazo, gerar impactos importantes na
educao. atravs do mundo Digital com dados estruturados, no estruturados, Analytics, Big Data
e mobilidade, que podemos acelerar efetivamente e habilitar transformaes em diversos nveis e em
diversos setores educacionais. (Melhorando o Ensino e o Aprendizado com Analytics. Disponvel em:
<http://cio.com.br/tecnologia/2014/09/05/melhorando-o-ensino-e-aprendizado-com-analytics-bigdata/>. Acesso em: 23 de Maro de 2015).

Uma das aplicaes em Big Data na educao so as plataformas Adaptativas de


Aprendizagem usada de uma forma embrionria em algumas disciplinas do ensino superior
e em instituies de alguns pases.

As Plataformas de Aprendizagem Adaptativa so: um conjunto de interaes entre


Alunos e Mquinas, na qual o contedo, o formato, o dispositivo e as avaliaes, so
apresentados com base em resultados prvios, aes, preferncias, dados capturados de
resultados, comparao com resultados similares, suportado em diferentes graus por
instrutores ao vivo, com objetivo de criar diferentes caminhos de aprendizado. Permitindo
uma personalizao de ensino apropriada ao contedo, a mensagem, ao formato e a
apresentao de uso, integrando-se as tecnologias digitais sofisticadas.
A Smart Sparrow uma plataforma que permite ao aluno criar o seu curso
interativo e adaptativo ela oferecida ao pblico de nvel mdio e superior.
DreamBox Learning uma plataforma adaptativa de matemtica para o ensino
bsico e fundamental que utiliza a lgica da gamificao para personalizar o ensino, ou seja
personaliza o ensino atravs de games. A plataforma usa jogos como uma metfora como
desenvolvimento de releitura na experincia da aprendizagem, no jogo est camuflado
alguma coisa que j sabemos e isso se torna interessante para aluno o que chama a
ateno para aprender como essa coisa funciona, assim o aluno resolve problemas e
aprende, mas o mais importante num jogo de aprendizagem que no existe fracasso.
A edX uma plataforma que oferece cursos online grtis em parceria com as
melhores faculdades, tais como Harvard, Columbia e MIT. Nos cursos oferecidos pela edX
possvel a certificao aps a concluso a maioria dos cursos desde que o aluno tenha nota
satisfatria no perodo em que assistiu as aulas. Para cursos pagos o aluno s ser
certificado se cumprir as atividades e exerccios nos prazos estabelecidos e obtiver boa
pontuao. Ao logo do curso se um aluno no passa no teste o algoritmo planeja um novo
meio de ensinar ao aluno aquele contedo especifico. A medida que o algoritmo fica mais
inteligente e conhece mais as habilidades de cada aluno o aluno evolui, o professor evolui
todos crescem ao mesmo tempo. O algoritmo nos permite ensinar, fazer o que aprendemos
a fazer, ele permite transmitir o poder da educao.
Knewton uma plataforma que capacita instrutores a personalizar cursos digital
para alunos com deferentes dificuldades. O algoritmo executa a minerao dos dados
desse aluno e descobre o que o estudante sabe, a sua dificuldade, as dificuldades de
cumprir as metas e os prazos para resolver um problema. O algoritmo da plataforma
Knewton executado e recomenda as melhores atividades para esse aluno.
De forma evidente algumas instituies j iniciaram com as ferramentas de
Aprendizagem Adaptativa, buscando sempre compartilhar pontos que so necessrios
para o sucesso usando uma filosofia de personalizao baseada em estar ciente de sua
misso identificando os problemas que a ferramenta de ensino pode resolver deixando de
forma clara os custos em adota-la ou no, escolhendo a tecnologia adequada.
As caractersticas dessas ferramentas geralmente so:
- Personalizao: Uma aprendizagem nica, adaptada as necessidades
individuais de cada aluno obedecendo metas.
- Remediao: Tecnologia ajustada ou adaptada ao domnio de qualquer nvel de
habilidade dos alunos em uma experincia de aprendizagem.
- Diferenciao: Um conjunto de matrias adaptado exclusivamente com base nas
necessidades de aprendizagem, como determinado pelas funes de ferramentas
tecnolgicas altamente sofisticadas.
- Automao: Gerenciamento de custos de produo permitindo a
composio de categorias e informando uma ecologia mais eficaz para o
aprendizado.

- Empowerment (Autorizao): Estudantes assumem o controle de um conjunto


de discurso de um curso, selecionando o tema baseado em suas capacidades, objetivos de
aprendizagem e preferncias de entrega.

Ferramentas Big Data


A coleta e analises de uma quantidade gigantesca de dados digitais uma pratica
j amplamente utilizada em e-commerces, essa coleta se fundamentou no histrico de
compras, hbitos de navegao e preferencias dos usurios para as empresas que com
esse estudo de dados direcionaram suas divulgaes para atrair mais consumidores e
vender mais. Mas embora esse seja o conhecimento mais popular de Big Data o mesmo
princpio aplicvel a outras reas.
E uma dessas reas a educao que vem passando periodicamente nos ltimos
anos por uma radical mudana, ou seja, o ensino dado em sala de aula agora ministrado
em plataformas online gerando milhares de dados a serem analisados sobre desempenho
dos estudantes e sobre a utilizao de padres e modelos que personalize sua
aprendizagem. Os cursos online so cada vez mais comuns e os dados digitais gerados so
tratados com ferramentas Big Data Analytics tornando-se valiosos na educao e no modo
de como as pessoas aprendem, possibilitando a avaliao do aluno e melhoria no seu
desempenho educacional.
E em escala suportado por plataformas tecnolgicas escalveis e com alta eficincia em custo e
desempenho, capazes de tratar grandes volumes e variedades de dados, permitindo rapidamente
personalizar ou ajustar o caminho do aprendizado para cada indivduo, para atender s diversas
metas de aprendizagem (da instituio e/ou do aluno). (Melhorando o Ensino e o Aprendizado com
Analytics. < Disponvel em:http://cio.com.br/tecnologia/2014/09/05/melhorando-o-ensino-eaprendizado-com-analytics-big-data/>. Acesso em: 23 de Maro de 2015).

Um Pouco de Como O Big Data Funciona Internamente com A Ferramenta


Apache Hadoop
Muito bem, mas como funciona o Big Data nas empresas ou nas escolas e
universidades. Empresas, escolas ou universidades produzem uma quantidade gigantesca
de dados estes se forem tratados e administrados corretamente se transformaro em
potentes ferramentas, plataformas voltadas para o ramo dos negcios ou da educao com
quantidades gigantes de linhas de informao e de combinaes possveis sendo assim o
Big Data exige ferramentas especiais que consigam manejar um universo de dados de
maneira ajustada e eficaz. Com a exigncia de uma ferramenta propicia surge o Big Data
Analytics formado sob um ligado de ferramentas e mtodos destinados a coletar, organizar
e analisar um grande nmero de dados para descobrir padres e identificar outras
informaes teis para o negcio. Um exemplo dado na cincia onde os pesquisadores
atravs dessa ferramenta esto codificando o DNA humano e identificando genes
responsveis por doenas. Outro pelo padro de consomo de uma pessoa e na educao
no ser diferente pesquisas apontam uma evoluo da educao no mundo vinda de
plataformas construdas para ensinar o aluno e aprender com ele o modo como ele
aprende. Confuso mas isso mesmo (a plataforma opera um algoritmo que aprende como
o aluno aprende a aprender e como ele se depara com as dificuldades em aprender
oferecendo os melhores padres e mtodos adequados para esse aluno seguir em frente
no seu aprendizado) ferramentas esto sendo construdas para universidades e escolas,
empresas e industrias dentro desses perfis. E a que o Big Data entra como uma

poderosssima ferramenta administradora de dados formadora de padres adequados para


alunos na educao e para clientes no mundo dos negcios.
Um processo pesado que consome muito recurso de banco de dados, redes, Cpu
e que roda por horas pode ser substitudo por Jobs hadoop que so executados na frao
desse tempo. Assim as principais tarefas que as ferramentas de Big Data deve resolver ser
a anlise de dados podendo-se otimizar rotinas j existentes ou criar novas funcionalidades
com analises estatsticas de grandes volumes de dados, armazenar para depois proceder
com as anlises mas para armazenar precisamos garantir tolerncia a falhas, replicao,
integridade, velocidade para gravao e para leitura na mesma situao esto os arquivos
textos. Mover o processamento mais barato que mover os dados essa a exatido de
conformidade em processamento em tempo real ao invs de mover os dados de um lado
pro outro mais eficiente mover o processamento pra perto dos dados. Buscadores
(Google, Bing, Yahoo) so necessrios sem eles no ser possvel realizar pesquisas uma
vez que o desenvolvimento do dessa proposta analisar, armazenar e pesquisar essas
tarefas so realizadas no decurso do hadoop que uma ferramenta de busca, portanto, a
busca e o Big Data so muito prximas. A visualizao de dados o produto final do Big
Data.
A ferramenta Apache Hadoop que um processo open Source para
processamento distribudo e foi pensado para resolver as caractersticas da computao
distribuda de forma clara e para ter um modelo de programao simples onde o profissional
de T.I., no precise se preocupar com implementaes complexas como tolerncia a falhas,
balanceamento de carga e replicao. O hadoop e fundamentado em dois servios
MapReduce (um modelo de programao) e HDFS (sistema de arquivo de alta
performance), essa ferramenta garante uma serie de performance que so:
Escalabilidade Linear
Alta Disponibilidade de Replicao
Hardware Commodity
IO de Alta Performance com HDFS
Modelo Simples de Programao baseado em MapReduce
importante esclarecer que o hadoop uma ferramenta para processamento em
batch e no para anlise em tempo real ela chega a ser quase em tempo real mas no ,
ela no substitui a infraestrutura existente devendo ser usada em conjunto e no como
reposio. A ferramenta para dados complexo em grandes volumes.
O HDFS responsvel pelo armazenamento dos dados em cluster hadoop
suportando uma organizao de arquivos hierrquica, semelhante ao sistema de arquivos
tradicional assim podemos criar diretrios e arquivos, excluir, mover e renomear. No HDFS
cada arquivo armazenado numa sequncia de blocos geralmente de 64 ou de 128 Mbps
depois eles so distribudos entre os ns do clusters e esses arquivos so somente leitura
uma vez gravado no pode ser alterado por isso o aumento da velocidade de leitura
somados ao fator de replicao (o mesmo bloco e replicado em vrios ns de no mximo
trs replicas) adquirindo escalabilidade, tolerncia a falhas e alta disponibilidade,
trabalhando com arquitetura mster slave chamada de Namenode (armazena os
metadados da arvore de diretrio) ele conhece os Datanode e determina a localizao dos
blocos funciona como um gerente dos arquivos. Datanode so os servidores que
efetivamente armazenam os dados e so responsveis pelas operaes de gravao e
leitura como criao, excluso, replicao dos blocos de dados alm do armazenamento ele
envia sinais frequentes ao Namenode para informar que est ativo quanto espao em disco
esto disponveis e se suas rplicas esto disponveis, com essas informaes o
Namenode pode fazer o balanceamento dos arquivos.

MapReduce um modelo de programao ou Framework para processamento


distribudo de Jobs, quando usamos MapReduce as complexidades ficam abstradas, ou
seja, o programador no precisa saber como o framework trabalha internamente voc
escreve o programa manda executar e o resto por conta do hadoop.
Essa ferramenta Big Data pode se somar a muitas outras ferramentas tais como:
Hive (Data werehouse em SQL para fazer consultas em grandes volumes de
dados quase em tempo real),
Pig (Plataforma para analises em grandes volumes de dados com linguagem
de alto nvel faz agrupamento, juno e filtros diretamente no HDFS),
Scoop (Importao e Exportao para bancos relacionais),
Oozie (Sistemas de Workflow para gerenciamento de Jobs)
HBase (Banco de Dados noSQL que roda no HDFS).
O Hadoop apenas uma ferramenta que pode ser potencialmente explorada e
depende da equipe que o utiliza e do ramo de negcio seja ele comrcio, indstria ou
educao. A anlise de Big Data ajuda a reconhecer padres aumentando as previses do
ramo analisado essas ideias pode ser amplamente aproveitada.
Na educao o Apache Hadoop poder analisar dados para a personalizao e a
eficcia no aprendizado em cursos on line por exemplo onde o aluno poder acessar
materiais de diversos formatos - textos, vdeos, udios participar de fruns fazer entregas
de trabalhos e receber notas. Esses dados cruzados entre si podem dizer muita coisa sobre
a rotina de estudo, a eficincia do material de aprendizagem e a necessidade de
intervenes de professor. Tratam-se de informaes como o nvel de presena e
engajamento do aluno e o Hadoop somados ao MapReduce e HDFS pode como ferramenta
Big Data analisar.