Академический Документы
Профессиональный Документы
Культура Документы
CONDUCEREA UNITII
ELABORATOARE
DIRECTOR GENERAL,
.
prof. dr. ing. Doina Banciu
DIRECTOR TIINIFIC,
.
dr.ing. Neculai Andrei
RESPONSABIL PROIECT,
prof. dr. ing. Adriana Alexandru .
ICI Reproducerea sau utilizarea integral sau parial a prezentului document n orice publicaii i prin orice procedeu
(electronic, mecanic, fotocopiere, multiplicare etc.) este interzis dac nu exist acordul scris al ICI.
Documentaia conine un studiu/raport de cercetare pe suport hrtie avnd 103 pagini i un CD coninnd respectivul
studiu/raport de cercetare
ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale
Rezultat: Studiu asupra seturilor de Big Data dedicate sectorului public care fac obiectul
proiectului. Analiz privind criteriile de selecie a celor mai reprezentative tehnologii, bune
practici i soluii de eGuvernare.
Activiti:
Cuprins
1. INTRODUCERE....................................................................................................................... 6
1.1. SCOPUL PROIECTULUI ...................................................................................................... 8
1.2. OBIECTIVELE I FAZELE PROIECTULUI ............................................................................... 8
1.3. OBIECTIVELE FAZEI ACTUALE .......................................................................................... 10
1.4. REZUMATUL FAZEI ACTUALE ........................................................................................... 10
2. CONCEPTE LEGATE DE SETURILE BIG DATA .......................................................... 11
2.1. DEFINIREA BIG DATA ..................................................................................................... 11
2.2. CONCEPTE CONEXE ........................................................................................................ 14
2.2.1. Specialistul n date............................................................................................... 14
2.2.2. Analiza Big Data .................................................................................................. 15
2.2.3. Date ascunse (dark data) ...................................................................................... 16
2.3. PROBLEME SPECIFICE BIG DATA ..................................................................................... 17
2.4. PROVOCRI ALE BIG DATA .............................................................................................. 18
3. ARHITECTURI, TEHNOLOGII I SETURI BIG DATA N SISTEME
INFORMAIONALE GUVERNAMENTALE .............................................................. 20
3.1 ARHITECTURI PENTRU SISTEMELE BIG DATA ..................................................................... 20
3.1.1 Framework-ul Hadoop .......................................................................................... 20
3.1.2. Integrare Big Data cu Hadoop ............................................................................. 33
3.1.2.1. Arhitectura unui ecosistem pentru integrarea Big Data pentru business ...... 35
3.1.2.2. Arhitectura client-server pentru Big Data ..................................................... 37
3.1.2.3. Arhitectura pentru analiz Big Data ............................................................. 40
3.1.2.4 Arhitectura multi-agent pentru procesarea n timp real a Big Data ............... 41
3.1.2.5. Analiza Arhitecturii Multi-Agent Big Data .................................................. 44
3.2. TEHNOLOGII PENTRU BIG DATA ...................................................................................... 47
3.2.1. Mecanisme de stocare pentru Big Data ............................................................... 47
3.2.1.1. Baze de date .................................................................................................. 48
3.2.1.2. Tehnologia NoSQL ....................................................................................... 50
3.3. SETURI BIG DATA ........................................................................................................... 54
3.3.1. Categorii de date .................................................................................................. 54
3.3.2. Procesul de achiziie a datelor ............................................................................. 55
3.3.2.1. Colectarea datelor ......................................................................................... 55
3.3.2.2. Transferul datelor .......................................................................................... 56
3.3.2.3. Pre-procesarea datelor...................................................................................... 57
3.3.3. Sisteme distribuite pentru stocarea datelor .......................................................... 58
3.3.4. Domenii de aplicabilitate a Big Data ................................................................... 59
3.4. IMPACTUL BIG DATA I ANALYTICS ASUPRA SISTEMULUI PUBLIC ....................................... 62
3.4.1. Evoluii recente ale sistemului public................................................................... 62
3.4.2. Oportuniti specifice serviciilor publice ............................................................. 63
3.4.3. Provocri specifice sectorului public ................................................................... 64
3.4.4. Beneficii specifice sectorului public ..................................................................... 65
4. CRITERII DE SELECIE A CELOR MAI REPREZENTATIVE TEHNOLOGII,
BUNE PRACTICI I SOLUII DE SISTEME INFORMAIONALE
GUVERNAMENTALE ..................................................................................................... 67
4.1. FUNDAMENTAREA NECESITII ABORDRII BIG DATA N CADRUL SISTEMELOR
INFORMAIONALE GUVERNAMENTALE ..................................................................................... 67
4.2. CRITERII DE EVALUARE A INFRASTRUCTURII HARD ............................................................ 71
4.2.1. Criterii de utilizare ale Cloud Computing pentru Big Data................................. 71
4.2.2. Existena backbon-ului 5G pentru aplicaii Big Data i Internetul lucrurilor. .... 72
4.3. CRITERII DE EVALUARE A TEHNOLOGIILOR I SOLUIILOR SOFTWARE ................................ 72
4.3.1. O clasificare a tehnologiilor Big Data ................................................................. 72
4.3.2. Criterii de selecie a celor mai reprezentative servicii......................................... 73
4.3.3. Stiva metodelor analitice predictive pentru Big Data n timp real ...................... 73
4.3.4. Criterii utilizate n alegerea modului de stocare i procesare primar a datelor75
4.3.5. Criterii n alegerea metodelor de stocare a datelor n sistemele Big Data ......... 75
4.3.6. Comparaii ntre conceptul de depozit de date (data warehouse) i abordarea Big
Data ................................................................................................................................ 76
4.3.7. Criterii de alegere a software-ului de stocare i procesare pentru Big Data ...... 78
4.3.7.1 Criterii de selectare a modalitilor de stocare a Big Data............................. 80
4.3.7.2 Exemplu de platform de stocare a datelor-Spectrum Scale de la IBM ........ 80
4.3.8. Criterii utilizate n alegerea metodelor i modelelor analitice ....................... 81
4.3.9. Criterii de selecie asociate cadrului general al metodelor analitice pentru Big
Data n timp real............................................................................................................. 82
4.4. ROLUL SPECIALITILOR N DATE I CRITERII DE ALEGERE A ACESTORA .............................. 85
4.4.1. Joburi specifice Big Data ..................................................................................... 85
4.5. BIG DATA N GUVERNARE - GHID DE BUNE PRACTICI ...................................................... 85
4.6. UTILIZAREA BUNELOR PRACTICI N DOMENIUL BIG DATA ................................................. 94
4.6.1. Aspecte generale teoretice legate de bunele practici ........................................... 94
4.6.2. Bune practici pentru managementul Big Data ..................................................... 94
4.6.3. Studiu de caz Proiectul European Anticorupie ................................................ 95
4. CONCLUZII I PLANUL DE CONTINUARE .................................................................. 97
5. BIBLIOGRAFIE ..................................................................................................................... 99
6. ANEXA - GLOSAR DE TERMENI ................................................................................... 103
1. Introducere
Pe parcursul ultimelor decenii, organizaiile au nceput s acorde importan sporit
datelor i s investeasc mai mult n colectarea i gestionarea lor. Managementul tradiional
al informaiei i procesele de analiz a datelor (analytics) urmresc n principal sprijinirea
proceselor decizionale interne. Acestea opereaz cu date de tip structurat, existente
preponderent n interiorul organizaiei.
Unele tipuri de date precum text i voce, exist de mult timp, ns volumul acestora n
mediul Internet i n alte structuri digitale anun nceputul unei noi ere, precum i a unor noi
tehnologii care permit analizarea acestor tipuri de date.
Multe dintre cele mai importante surse de date ns sunt relativ noi. Se argumenteaz
c explozia volumului de date caracteristic fenomenului prezent, Big Data, provine din datele
de natur nestructurat. n cadrul acestora, spre deosebire de datele generate de ctre
utilizatori, care au la origine informaii furnizate voluntar n diferite medii de diseminare
Web, exist i datele interceptate. Acestea din urm se refer la informaii colectate n mod
pasiv din comportamentul online al indivizilor, cum sunt, de pild, termenii de cutare online
sau localizarea indivizilor prin aplicaiile prezente pe dispozitivele mobile.
Contextul european
Big Data, un termen general pentru cantitatea masiv de date colectat din variate
surse, este prea mare, neprocesat sau nestructurat pentru analiza prin tehnicile
convenionale ale bazelor de date.
primirea de informaii despre datele ce pot preveni sau mpiedica fraude i abuzuri.
Contextul naional
Datele stocate n aceste sisteme naionale sunt exemple de categorii de date candidate
pentru implementarea sistemelor de tip Big Data:
- Realizarea unui studiu privind metodele de definire a seturilor Big Data aplicabile
sectorului guvernamental;
n cadrul acestei etape intitulat Studiu referitor la abordarea Big Data n sectorul
public, principalele obiective constau n:
- Realizarea unui studiu asupra conceptelor legate de Big Data i asupra seturile de
Big Data dedicate sectorului public care fac obiectul proiectului
- Elaborarea unui studiu privind arhitecturi, tehnologii i seturi Big Data n sisteme
informaionale guvernamentale.
- Fundamentarea unor criterii de selecie a celor mai reprezentative arhitecturi,
tehnologii i seturi Big Data
- Identificarea criteriilor de selecie a celor mai reprezentative bune practici i soluii
de eGuvernare
n Capitolul 2 s-a realizat un studiu privind conceptul Big Data, concepte conexe
(specialistul n date, analiza Big Data, date ascunse (dark data)), probleme specifice Big Data
i provocri ale Big Data.
Conceptul de Big Data este n prim-planul temelor actuale n cele mai multe cercuri
de IT. nelegerea conceptului de Big Data, la fel ca orice alt tehnologie n curs de
dezvoltare, necesit mai nti ca acesta s fie definit.
- Un raport din 2011 al McKinsey Global Institute n care se afirm: Big Data se
refer la seturi de date a cror dimensiune depete capacitatea de captare, stocare,
administrare i analiz a instrumentelor software i a bazelor de date uzuale.
- Conform definiiei propuse de EMC i IDM, Big Data reprezint o nou generaie
de tehnologii i arhitecturi destinate extragerii de valoare din cadrul volumelor foarte mari
de date care au o mare varietate, permind prelucrarea i analiza acestora n timp real.
- Wikipedia: Big Data include n mod usual seturi de date de dimensiuni care
depesc capacitatea instrumentelor utilizate curent pentru a le captura, administra, gestiona
i procesa ntr-un interval de timp admisibil.
Big Data face referire la colecia de seturi de date ntr-att de mari i complexe nct
devin dificil de procesat folosind doar instrumentele de gestiune a bazei de date aflate la
dispoziie sau aplicaiile tradiionale de procesare a datelor.
ntruct cei "patru V" sunt considerai definitorii pentru acest concept, este oportun o
detaliere a semnificaiei acestor caracteristici.
volum prea mare de date reprezint o problem de stocare, dar prea multe date au n egal
msur i un mare impact asupra complexitii analizei datelor;
n stadiul actual, Big Data reprezint tranziia de la simpla analiz statistic a datelor
la o abordare mult mai complex i sistematic, care poate s impulsioneze dezvoltarea att a
serviciilor de guvernare, ct i a companiilor private.
Folosirea Big Data poate ajuta doctorii n alegerea corect i mai rapid al
tratamentului, pe baza informaiilor colectate de ctre un alt personal medical. Pacienii pot
beneficia de un tratament mai adecvat i la timp urmnd s fie mai bine informai cu privire
la furnizorii de servicii medicale. O utilizare inteligent a Big Data poate gestiona mai bine
fluxurile de trafic, ceea ce face oraele noastre mai inteligente. Cetenii i companiile pot
economisi timp prin utilizarea de sisteme de planificare traseu. Big Data permite livrarea la
timp i adecvat a produselor pentru consumatori i procese mai eficiente cu economii de
costuri pentru afaceri.
Big Data Analytics reprezint procese de examinare a unor cantiti uriae de date
de tipuri diferite, pentru a descoperi abloane ascunse, neidentificate i alte informaii utile.
Aceste informaii pot furniza avantaje n competiia dintre organizaii i pot produce
beneficii economice, precum eficientizarea activitilor specifice.
vizualizarea datelor;
senzori, Internetul obiectelor) i decalajul tot mai mare dintre cantitatea disponibil de date
importante i capacitatea de a le procesa n timp pentru suportul decizional.
a) Controlul volumului datelor: are la baz constatarea c 69% dintre datele stocate de
companii nu au valoare pentru organizaie. Utilizarea politicilor bazate pe reinerea
coninutului va permite organizaiei s pstreze doar datele importante pentru afacere.
b) Captarea datelor: datele trebuie colectate oriunde sunt create. Ideea este c datele
produse pe dispozitivele mobile de ultim generaie pot include coninut de valoare
excepional, la fel de mult ca i informaia stocat pe serverele virtualizate, n cloud
corporativ.
d) Automatizarea ciclului de via al datelor: cu att de mult coninut stocat care nu este
valoros afacerii, se ia n considerare evaluarea ntregului ciclu de via al datelor, de la
creare pn la disponibilizare. Stabilirea politicilor de guvernare a datelor pentru tergerea
coninutului poate fi o cheie important n reducerea datelor ascunse (dark data).
mai bun cale de a minimiza costul acestor aciuni este de a fi proactiv n asigurarea unor
faciliti avansate de cutare i descoperire a datelor.
tradiionale n care volumul datelor este relativ mic, algoritmii utilizai sunt de mare
complexitate, iar convergena este lent. n cazul Big Data, volumele masive de date i
procedeele specifice de stocare, curire i ETL (extragere, transformare, ncrcare) sugereaz
necesitatea utilizrii modelelor de prelucrare paralel i distribuit.
Ctigul real al explorrii datelor trebuie atent evaluat n cazul Big Data, lund n
considerare:
n epoca Big Data i cloud computing, datele provenite din diverse surse pot fi stocate
pe o singur platform / centru de date, unde protejarea informaiei senzitive devine o
problem major, care necesit implementarea de soluii eficiente pentru controlul accesului
neautorizat al administratorilor platformei respective sau al reprezentanilor altor ntreprinderi
care dein date pe platforma respectiv.
n ceea ce privete dezvoltarea de aplicaii pentru Big Data, acestea pot fi dezvoltate
pe baza tehnologiilor inovative sau a platformelor de programare, dei trebuie luate n
considerare o serie de dificulti, prezentate n continuare.
Pentru Big Data, cea mai frecvent arhitectur utilizat este Hadoop. Aceast
inovaie a redefinit managementul datelor, deoarece prelucreaz cantiti mari de date, cu
costuri reduse i n timp util.
ncepnd cu anul 2010, Hadoop a fost adoptat pe scar larg de organizaii att n
scopul de a stoca volume mari de date ct i ca platform de analiz a acestora. n prezent,
Hadoop este folosit de numeroase companii pentru care volumul de date generat zilnic
depete capacitile de procesare i stocare specifice sistemelor convenionale: Adobe,
AOL, Amazon.com, EBay, Facebook, Google, LinkedIn, Twitter, Yahoo.
Nucleul Apache Hadoop este format din dou componente: un sistem de fiiere
distribuit (HDFS Hadoop Distributed File System) i un framework pentru procesare
distribuit (MapReduce). Hadoop a fost gndit s funcioneze ntr-o arhitectur de tip cluster
construit pe echipamente server obinuite.
Dat fiind faptul c datele sunt stocate distribuit, locaia unde acestea pot s fie
accesate nu este cunoscut aprioric, fiind determinat de Hadoop (HDFS). Fiecare bloc de
informaie este copiat pe mai multe maini fizice pentru a evita orice probleme cauzate de
defeciuni la nivel hardware.
Hadoop YARN: modul pentru planificarea sarcinilor i gestiunea resurselor din cadrul
unui cluster;
Hadoop MapReduce: sistem bazat pe YARN pentru procesarea paralel a unor seturi
mari de date.
n plus, au fost dezvoltate mai multe produse open source care pot fi folosite
mpreun cu Hadoop / HDFS:
Pig: limbaj de nivel nalt pentru procesarea fluxurilor de date i mediu de execuie
pentru prelucrri paralele;
Hive: depozit de date cu interfa SQL care ofer sumarizarea datelor i interogri ad-
hoc.
Exist mai muli productori care pun la dispoziie distribuii Hadoop, al cror scop
este oferirea unei configuraii care rezolv incompatibilitile dintre diferite produse, prin
rularea unor teste de integrare ntre acestea.
Produsele Hadoop integrate n cele mai multe dintre distribuii sunt HDFS,
MapReduce, HBase, Hive, Mahout, Oozie, Pig, Sqoop, Whirr, ZooKeeper, Flume. De
asemenea, proiectul BigTop (dezvoltat de Apache) are rolul de a rula teste de
interoperabilitate ntre componentele Hadoop oferind pachete Linux (RPM i pachete
Debian) pentru o instalare mai facil.
Distribuiile sunt realizate n mai multe formate, suport un set de sisteme de operare
i pot include scripturi suplimentare pentru rularea mediului de lucru.
ntre distribuiile mai cunoscute se numr Cloudera Distribution for Hadoop (CDH),
MapR Distribution, Hortonworks Data Platform (HDP), Apache BigTop Distribution,
Arhitectura Hadoop
Hadoop a fost gndit s funcioneze ntr-o arhitectur de tip cluster (vezi Figura 1)
construit pe echipamente server obinuite. Dup instalare necesit foarte puin munc de
management deoarece datele sunt migrate i multiplicate automat. Dat fiind faptul c datele
sunt stocate distribuit, locaia unde acestea pot fi accesate nu este cunoscut aprioric, fiind
determinat de Hadoop (HDFS). Fiecare bloc de informaie este copiat pe mai multe maini
fizice pentru a evita orice probleme cauzate de defeciuni la nivel hardware.
MapReduce ofer un sistem de analiz care poate efectua calcule complexe, pe seturi
de date de dimensiuni mari. Aceast component este responsabil de efectuarea
calculelor i de mprirea unui calcul de complexitate ridicat n mai multe task-uri,
ntr-un cluster mai mare, controlul asupra HDFS se execut printr-un server dedicat
NameNode, care stocheaz indexul sistemului de fiiere i printr-un NameNode secundar,
care poate genera instantanee ale structurilor de memorie cu numele nodurilor, prevenind
astfel coruperea sistemului de fiiere i reducnd pierderea informaiilor. n mod similar, un
server JobTracker independent poate executa controlul asupra planificrii activitilor.
Caracteristicile Hadoop
Hadoop este foarte scalabil i, spre deosebire de bazele de date relaionale, Hadoop
este scalat linear. Datorit scalei lineare, Hadoop Cluster poate conine zeci, sute, sau
chiar mii de servere.
Arhitectura Hadoop este foarte rentabil, deoarece poate lucra cu hardware-ul de baz
i nu are nevoie de hardware scump.
Hadoop este construit cu toleran la erori. Datele sunt replicate pe mai multe noduri
(factorul de replicare este configurabil) i, n cazul n care un nod se defecteaz, datele
solicitate pot fi citite de la un alt nod care are o copie a datelor. De asemenea, se
asigur faptul c factorul de replicare este meninut, chiar dac un nod se defecteaz,
prin replicarea datelor altor noduri disponibile.
Hadoop este optimizat pentru seturi mari i foarte mari de date. De aceea, o cantitate
mic de date, cum ar fi 10 MB, atunci cnd alimenteaz Hadoop, are nevoie de mai
mult timp pentru a procesa dect sistemele tradiionale.
Componentele HADOOP
Nucleul Apache Hadoop este format din dou componente: un sistem de fiiere
distribuit (HDFS Hadoop Distributed File System) i un framework pentru procesare
distribuit (MapReduce).
HDFS este mult mai complex dect alte sisteme de fiiere, avnd n vedere complexitatea
i incertitudinea reelelor. Clusterul conine dou tipuri de noduri. Primul nod este un
NameNode, care acioneaz ca un nod principal. Al doilea tip de nod este un nod de date
(DataNode) care se comport ca nod secundar. Acest tip de nod vine n multipli. n afar
de aceste dou tipuri de noduri, HDFS poate avea i NameNode secundar. HDFS
stocheaz fiierele n blocuri, mrimea blocului implicit este de 64MB. Toate fiierele
HDFS se repeta n multipli pentru a facilita procesarea n paralel a unor cantiti mari de
date.
Arhitectura HDFS (vezi Figura 4) este de tip master / slave i conine un nod de nume
(eng. NameNode), server ce gestioneaz spaiul de nume al sistemului de fiiere,
reglementnd accesul la fiiere i mai multe noduri de date (eng. DataNode, de regul
unul pentru fiecare nod din cluster), client ce gestioneaz spaiul de stocare ataat
nodurilor pe care ruleaz. n plus fa de acestea mai exist i un nod de nume secundar
(eng. Secondary NameNode) care se ocup mai ales cu ntreinerea sistemului distribuit
de fiiere, astfel nct acest proces s nu fie realizat doar la nivelul nodului de nume.
Acesta nu este utilizat pentru asigurarea unui nivel de disponibilitate ridicat i nici nu
funcioneaz ca rezerv pentru nodul de nume. Dei pentru utilizator spaiul de nume este
vizualizat unitar, permind operaiile uzuale de ncrcare i descrcare de fiiere (ca
pentru orice sistem de fiiere), implementarea HDFS presupune mprirea acestora n
blocuri care sunt stocate n mai multe noduri de date. Dac nodul de nume se ocup cu
operaii legate de spaiul de nume al sistemului de fiiere (deschidere, nchidere,
redenumire fiiere i directoare), determinnd i maparea blocurilor la nodurile de date,
nodurile de date au rolul de a trata cererile de citire i de scriere ce provin de la utilizatori,
realiznd i crearea i tergerea de blocuri, respectiv replicarea, n funcie de instruciunile
ce provin de la nodul de nume.
Att nodul de nume ct i nodul de date sunt programe scrise n Java, astfel nct pot s
ruleze pe ct mai multe platforme. Tipic, nodul de nume ruleaz pe un server dedicat, n
timp ce toate celelalte maini din cluster conin o instan a nodului de date. Exist i
posibilitatea ca pe o singur main s existe mai multe instane ale nodului de date, ns
un astfel de caz este destul de rar. Situaii de acest tip pot fi ntlnite n situaia n care se
dorete separarea seturilor de date provenind de la aplicaii diferite. Existena unui singur
nod de nume ntr-un cluster simplific foarte mult arhitectura sistemului, ntruct nodul
de nume negociaz utilizarea resurselor i reine toate metadatele cu privire la fiierele
stocate. Toate datele provenite de la utilizator sunt prelucrate neaprat de nodul de date.
Aadar, arhitectura HDFS este organizat pe dou niveluri (vezi Figura 5):
1. spaiul de nume, n care este reinut structura logic a sistemului de fiiere, constnd
n directoare, fiiere i blocuri;
HDFS este proiectat pentru a stoca fiiere de dimensiuni foarte mari distribuite pe maini
n cadrul unui cluster ce conine numeroase maini. Astfel, fiecare fiier este reinut ca o
secven de blocuri, de dimensiuni egale, fiecare dintre acestea fiind replicate pentru
asigurarea toleranei n cazul producerii de erori.
Accesul la HDFS se poate face direct, prin intermediul unui client, disponibil inclusiv din
browser, fie prin intermediul unor interfee de programare (Java, C++) care obin
metadatele de la nodul de nume (locaia blocurilor), accesnd apoi informaiile din
nodurile de date. Un astfel de model este utilizat inclusiv de MapReduce. Alternativ,
comunicaia dintre clieni i HDFS poate fi realizat printr-un server intermediar
(eng. proxy), dintre cele care sunt livrate mpreun cu Hadoop.
MapReduce sistem bazat pe YARN pentru procesarea paralel a unor seturi mari de date.
un proces pentru monitorizarea sarcinii (eng. Job Tracker) care coordoneaz rularea
acesteia;
mai multe procese pentru monitorizarea prilor n care a fost mprit sarcina
(eng. Task Tracker);
sistemul distribuit de fiiere (de obicei HDFS), utilizat pentru partajarea fiierelor
ntre aceste entiti.
Entitile implicate la rularea unei aplicaii de tip MapReduce folosind YARN sunt:
procesele pentru gestiunea nodurilor (eng. Node Manager) care lanseaz n execuie i
monitorizeaz containerele n cadrul mainilor din cluster;
Pai Task-uri
(1) Intrare (i) Datele sunt ncrcate n HDFS n blocuri i distribuite la
DataNode
(ii) Blocurile sunt replicate n caz de defeciuni
(iii) NameNode urmrete blocurile i DataNode
(2) Job Trimite job-ul i detaliile sale la JobTracker
HBase este o baz de date distribuit de tip NoSQL, orientat pe coloane avnd la baza
modelul Google BigTable, care folosete ca i mediu de stocare HDFS, fiind utilizat n
cazul aplicaiilor Hadoop care necesit operaii de citire / scriere aleatoare n seturi de
date foarte mari. Este scris n Java i poate fi accesat att prin intermediul unui client
propriu ct i prin intermediul unui API foarte simplu.
HBase reprezint ns o soluie pentru seturi de informaii de dimensiuni foarte mari (de
ordinul milioanelor i miliardelor de nregistrri) sau pentru aplicaii ce utilizeaz date
care sunt accesate de foarte muli clieni (cererile i rspunsurile generate ca urmare a
acestei interaciuni implic un volum de date foarte mare). Totodat, funcioneaz optim
Etapa I - Studiu referitor la abordarea Big Data n sectorul public 30
ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale
n cazul unor scheme variabile, unde structura nregistrrilor difer (datorit unor atribute
care pot s existe sau nu).
1. biblioteca clientului;
Dac serverele de regiune pot fi adugate sau terse n timpul funcionrii sistemului de
gestiune pentru baze de date distribuite n funcie de ncrcarea acestuia, serverul de tip
master este responsabil pentru repartizarea regiunilor ctre serverele aferente, folosind n
acest sens un produs denumit Apache ZooKeeper, un serviciu de coordonare sigur,
persistent, care ofer tuturor utilizatorilor un nivel nalt de disponibilitate.
HCatalog stocheaz metadate i genereaz tabele pentru cantiti mari de date. HCatalog
simplific comunicarea utilizator folosind datele HDFS i este o surs de partajare a
datelor ntre instrumente i platformele de execuie.
Hive este o platform de depozitarea datelor (de tip data warehouse) care permite
interogarea i gestionarea seturilor de date de mari dimensiuni din depozite distribuite,
stocate n HDFS. Hive este o sub-platform n ecosistemul Hadoop i folosete un limbaj
de interogare de tipul SQL, care este numit HiveQL. Limbajul, de asemenea, permite
programatorilor tradiionali ai MapReduce s se conecteze la mediul lor specific de
interogare i de reducere atunci cnd este incomod sau ineficient. Astfel, acest limbaj
permite i funcii definite de utilizator (UDF-uri - user-defined functions). Platforma Hive
se bazeaz n principal pe trei structuri de date conexe: tabele, partiii i buckets.
Tabelele corespund directoarelor HDFS i pot fi distribuite n diferite partiii i eventual,
buckets-uri.
Pig este o platform de nivel nalt folosit pentru analizarea unor seturi de date mari
avnd un limbaj propriu, pentru descrierea programelor de analiz a datelor.
Caracteristica principal a Pig este c prin natura programelor Pig, permite paralelizarea
lor la momentul rulrii. Compilatorul Pig produce joburi MapReduce. Arhitectura Pig
genereaz un limbaj de scripting de nivel nalt (Pig Latin) i opereaz pe o platform n
timp real, platform care permite utilizatorilor s execute MapReduce pe Hadoop. Pig
este mai flexibil dect Hive referitor la formatul datelor, furniznd propriul model de
date. Pig are propriul tip de date, hart, care reprezint datele semistructurate, inclusiv
JSON i XML.
scrii pentru compatibilitate cu MapReduce, astfel nct ei sunt scalabili la seturi de date
mari. Aceast component este mprit n patru grupe principale: filtrare colectiv,
clasificare, clustering i extragere de modele paralele frecvente (mining of parallel
frequent patterns). Biblioteca Mahout aparine de subsetul care poate fi executat ntr-o
mod distribuit i de ctre MapReduce.
Oozie permite definirea folosind fiiere XML de fluxuri complexe n cadrul unui cluster
Hadoop. Oozie este o colecie de aciuni, dispuse ntr-un control de dependen DAG
(Direct Aciclic Graphic), specificnd o secven de aciuni ce trebuie executate. Acest
grafic (secven de aciuni) este specificat n limbajul hPDL (limbaj de tip XML).
Nodurile de control definesc fluxul de execuie i sunt nceputul i sfritul unui flux de
lucru i mecanismele pentru a controla calea executrii fluxului de lucru. Nodurile de
aciune sunt mecanismul prin care un flux de lucru declaneaz executarea unei sarcini de
calcul sau prelucrare.
Flume este un serviciu distribuit care permite colectarea, agregarea i mutarea unor
volume mari de date tip log. Are o arhitectur bazat pe fluxuri de date i care permite
construirea de aplicaii analitice. Componenta folosete dou canale, i anume, surse i
colectoare (sinks). Sursele includ date Avro, fiiere i fiierele jurnal (log) de sistem, n
timp ce sinks fac referire la HDFS i HBase. Prin motorul su personal de prelucrare,
interogare, Flume transform fiecare nou batch de Big Data nainte de a fi transportai n
sink.
Cu Hadoop, 94% din utilizatori pot analiza cantiti mari de date. 88% dintre
utilizatori analizeaz datele n detaliu, iar 82% pot pstra mai multe date. Dei Hadoop are
diverse componente (vezi Tabelul 2), fiecare companie utilizeaz anumite componente ale
Hadoop n funcie de necesitile lor.
Arhitectura de Big Data nu este una fix, care s se potriveasc n toate situaiile.
Fiecare strat de procesare n arhitectur are mai multe soluii i tehnici care pot fi
implementate pentru a crea un mediu robust. Fiecare soluie are propriile avantaje i
dezavantaje pentru un anumit volum de munc.
1. Sursele de date
Datele provin din surse de date eterogene. De obicei, acestea sunt depozite de date
(SQL sau NoSQL), care ofer date structurate sau orice alte tipuri de date provenite prin
intermediul API-urilor sau a altor mijloace (semi-structurate sau ne-structurate):
Date din SQL, depozite NoSQL (MySQL, Oracle, PostgreSQL, MongoDB, etc.
sunt n cea mai mare parte structurate),
Jurnale web sau alte fiiere jurnal (blogurile, clicurile utilizatorilor, vizitele
utilizatorilor, aciuni etc.).
2. Transformarea datelor
ETL este un proces n utilizarea bazei de date i n special n depozite de date care
implic:
Instrumente ETL, ELTL (scripturi bash / python / perl / Java, obiecte de business,
SSIS, Kettle etc.);
O alt surs de date se obine prin combinarea datelor structurate i nestructurate ntr-
un singur loc (fie n timp real, fie cu ncrcare incremental), n principal, pentru prelucrarea
datelor (Depozite de date sau Analiza datelor) i pentru generarea datelor utilizabile
(materializate sau agregate), care pot fi cerute de ctre componentele de cereri de date.
Depozite de date i Analiza soluiilor (MySQL, SQL Server, Vertica, Green Plum,
Aster data, Exadata, SAP HANA, IBM Netezza, IBM Pure Data, Tera date etc.)
utilizeaz depozitarea specific furnizorului, folosete opional HDFS.
4. Cereri de date
Componentele pentru cereri de date fie cer, fie expun datele ntr-o form utilizabil de
ctre utilizatorii finali sau de ctre alte nivele interne (ad-hoc) sau externe (folosind API-uri).
3.1.2.1. Arhitectura unui ecosistem pentru integrarea Big Data pentru business
Arhitectura unui ecosistem pentru integrarea Big Data (vezi Figura 10) include
urmtoarele componente:
2. Sisteme de stocare Big Data. n timp ce sistemele de stocare a datelor foarte mari
precum Hadoop asigur mijloace de stocare i organizare a unor volume mari de date,
procesarea acestora pentru extragerea de informaii utile rmne n continuare o
activitate dificil. Arhitectura MapReduce a acestor sisteme d posibilitatea de stocare
rapid a unor cantiti foarte mari de date i ofer suport pentru realizarea de analize
pe baza acestor date. Platforma pentru integrarea datelor trebuie s construiasc
structura pentru stocarea datelor i s realizeze conexiunile cu celelalte surse de date.
pentru deciziile strategice. Platforma pentru integrarea datelor trebuie s fie capabil
s separe informaiile operaionale, de sursele de date utilizate n elaborarea
strategiilor pe termen lung. Totodat infrastructura de integrare a datelor trebuie s
permit un acces rapid la datele cel mai des accesate.
Arhitectura la nivel de client este format din baze de date NoSQL (Not Only SQL)
(vezi detalii n Subcapitolul 3.2.1.2), sisteme de fiiere distribuite i un cadru de procesare
distribuit.
Urmtoarele nivele se compun din sistemul de fiiere distribuit, care este scalabil i
poate gestiona un volum mare de date i dintr-un cadru de prelucrare distribuit care
repartizeaz calculele n clustere de servere de mari dimensiuni. Tantisiriroj, Patil i Gibson
(Tantisiriroj, Patil i Gibson, 2008) au descris sistemele de fiiere servicii Internet pentru a
include sistemul de fiiere Google, serviciul de stocare simpl Amazon i sistemul de fiiere
distribuite Hadoop, de tip Open Source. O platform des ntlnit este Apache Hadoop.
Cele dou componente eseniale pentru Hadoop sunt: HDFS i MapReduce (Minelli i
alii, 2013). HDFS este sistemul de stocare care distribuie fiierele de date pe clustere de
servere i ofer acces high-throughput pentru seturi mari de date. MapReduce este cadrul de
procesare distribuit pentru procesarea paralel a seturilor mari de date. O procesare de tip
MapReduce presupune c problema care trebuie rezolvat poate fi mprit n probleme mai
mici care pot fi rezolvate independent (faza de map), urmnd ca apoi rezultatele s fie reunite
n funcie de necesiti (faza de reduce).
Arhitectura la nivel de server pentru Big Data este format din platforme de calcul
paralel care pot gestiona volumul i vitezele asociate. Minelli i colaboratorii (Minelli i alii,
2013) au descris trei opiuni importante de calcul paralel:
O arhitectur frecvent utilizat pentru Hadoop este format din maini client i
clustere de servere slab cuplate care servesc ca HDFS - stocare date distribuite i MapReduce
- prelucrare date distribuite. Hedlund (Hedlund, 2011) a descris cele trei mari categorii de
roluri ntlnite ntr-o implementare Hadoop care constau din:
maini client,
noduri Master i
noduri Slave.
Rolul mainii client este de a ncrca datele n cluster, s trimit joburile la
MapReduce i s prelucreze rezultatele de la joburi, atunci cnd acesta s-au terminat
(Hedlund, 2011). Exist dou tipuri de noduri Master, nodurile HDFS i nodurile
MapReduce. Nodurile HDFS constau din NameNodes, care pstreaz directorul tuturor
fiierelor n sistemul de fiiere HDFS. Aplicaiile client trimit joburile la nodurile
MapReduce, care constau din JobTrackers care atribuie task-uri la MapReduce pentru
nodurile slave.
Kim, Raman, Liu, Lee i August (Kim, Raman, Liu, Lee i August, 2010) au subliniat
faptul c n timp ce clusterele de servere sunt cea mai popular form de computere paralele
pe scar larg, ele ar putea s nu fie potrivite pentru programe de aplicaii de uz general
dependente de inter-noduri. O opiune pentru platforma de calcul paralel este MPP
(Massively Parallel Processing - procesare masiv paralel). Minelli i colaboratorii (Minelli i
alii, 2013) au descris MPP combinnd procesul de stocare, memoria i procesul de calcul
pentru a crea o platform. n timp ce nodurile dintr-o reea cluster sunt independente, nodurile
din MPP sunt strns interconectate prin reele dedicate de mare vitez, care s permit
colaborarea de mare vitez ntre procesoare.
Datele structurate sunt capturate prin diverse surse de date, inclusiv sisteme OLTP,
sisteme motenite i sisteme externe. Prin procesul ETL, acestea se duc din sistemele surs la
data warehouse int. Instrumentele de prelucrare analitic, cum ar fi procesarea online
analitic (OLAP), data mining, i interogare i raportare, pot fi folosite pentru a crea
inteligena de afaceri pentru a mbunti operaiunile de afaceri i procesele decizionale.
Exist o mare varietate de surse de date nestructurate i semi-structurate. Acestea pot include
date din clickstream-uri, social media, M2M, dispozitive mobile, senzori, documente i
rapoarte, log-uri web, nregistrri de apel, rezultate de cercetare tiinific, satelii i
dispozitive geospaiale. Ele sunt ncrcate n clusterul HDFS. Hadoop MapReduce ofer
cadrul de procesare tolerant la defecte distribuit n clusterul Hadoop.
n timp ce Hadoop este foarte scalabil i poate efectua calcule masiv paralele pentru
Big Data, acesta este un sistem de batch cu laten mare i nu ar fi potrivit pentru prelucrarea
evenimentelor n timp real. Minelli i colaboratorii (Minelli i alii, 2013) au descris
inteligena geospaial folosind date despre spaiu i timp pentru a mbunti calitatea
analizei predictive.
Una dintre principalele provocri, n ceea ce privete prelucrarea de seturi foarte mari
de date, este manipularea fluxurilor de date n timp real. n timp ce ambele tipuri de date,
offline i online, pot fi n mod independent prelucrate, adesea este nevoie s furnizm
rspunsuri la ntrebrile cu privire la evenimente online bazate pe trecut. Arhitectura
Lambda vine ca un rspuns la aceste provocri (Twardowski, Ryzko, 2014).
Arhitectura Lambda
Arhitectura Lambda (vezi Figura 14) a fost propus de Nathan Marz (Marz i Warren,
2014). Ea se bazeaz pe cteva ipoteze cum ar fi:
tolerana la eroare,
suport de interogri ad-hoc,
scalabilitate,
extensibilitate.
Arhitectura, aa cum este prezentat n Figura 14, este alctuit din urmtoarele
componente:
Stratul de loturi (Batch Layer) - responsabil pentru gestionarea setului de date master
i de precalcularea vizualizrilor batch;
Stratul de servire (Serving Layer) - indexeaz vizualizrile batch pentru interogri ad-
hoc;
Stratul de vitaz (Speed Layer) - servete doar datelor noi, care nu au fost nc
procesate de Nivelul batch.
Stratul de loturi poate fi implementat cu utilizarea sistemelor, cum ar fi Hadoop.
Acesta este responsabil de stocarea setului de date imputabile master. Mai mult dect att,
utiliznd algoritmii MapReduce se calculeaz punctele de vedere ale datelor disponibile
pentru diferitele aplicaii.
n cele din urm, rolul stratului de vitez este de a calcula n timp real datele care
tocmai au sosit i nu au fost nc procesate de ctre nivelul batch. El deservete aceste date
sub forma unor vizualizri n timp real, care sunt incrementate ca noi date de intrare i pot fi
folosite mpreun cu vizualizrile batch pentru o imagine complet a datelor.
Arhitectura Lambda
Hadoop
Stratul de
QFD 1 QFD 2 QFD N servire
Vederi loturi
Fluxuri noi de Interogri
date (Impala)
Storm
Flux de Vederi
Stratul de
procesare incrementale
vitez
Incrementare n
timp real
n figura de mai sus sunt prezente (detaliat) cele trei straturi ale Arhitectura Lambda
integrat cu Hadoop: stratul de operare pe loturi, stratul de servire i stratul de vitez. n
continuare sunt prezentate n noua form cele trei straturi ale arhitecturii.
Stratul de loturi (Batch layer)
n acest strat este aplicat Apache Hadoop. Acest strat stocheaz seturile de date
nemutabile, care se mresc n mod constant (HDFS), i calculeaz vederi (view) arbitrare din
acest set de date (MapReduce), n mod continuu, prin iteraii MapReduce. Vederile ar trebui
s fie calculate din ntregul set de date i, n consecin, stratul de loturi nu actualizeaz
vederile n mod frecvent. Fiecare iteraie poate dura mai multe ore, n funcie de mrimea
setului de date i a clusterului.
Ieirea de la stratul de loturi este un set de fiiere obinuite care conin vederi
precalculate. Stratul de servire este responsabil pentru indexarea i expunerea de vederi astfel
nct acestea s poat fi interogate. Deoarece vederile n loturi sunt statice, stratul de servire
trebuie s furnizeze actualizri n loturi i citiri aleatoare, lucru care se realizeaz cu Cloudera
Impala. Pentru a expune vederile utiliznd Impala, stratul de servire ar trebui s creeze o
tabel n Hive Metastore care s indice fiierele HDFS. Dup aceasta, utilizatorii ar trebui s
poat utiliza Impala ca s interogheze vederile imediat. Deoarece straturile de loturi i de
servire nu satisfac nicio cerin de timp real, deoarece MapReduce are din proiectare o laten
mare, ceea ce conduce la o ntrziere de cteva ore n reprezentarea datelor n vederi i pentru
propagarea la stratul de servire. Din aceast cauz s-a mai introdus i stratul de vitez. n
arhitectura Lambda, timp real semnific posibilitatea de a procesa o cantitate de date
capturate dup startarea iteraiei curente n straturile n loturi.
Au fost propuse o serie de abordri pentru prelucrarea Big Data n timp real. n
continuare sunt descrise 8 cerine de prelucrare a datelor n timp real (Stonebraker,
etintemel i Zdonik, 2005):
n ciuda faptului, c arhitectura amintit este prezentat ca una simpl i clar, mai
sunt nc multe decizii i o mulime de lucruri ce trebuiesc integrate. Arhitectura ofer
orientri cu privire la modul n care ar trebui s fie proiectat sistemul i ce pri ar trebui s
conin. Acest lucru d libertate n alegerea soluiilor existente pentru o sarcin specific.
Totui, interaciunea ntre nivelele de loturi, de servire i de vitez trebuie s fie manipulat
n mod corespunztor. Mai mult, chiar ntr-un singur nivel, cteva componente trebuie s
Arhitectura Lambda pentru prelucrarea Big Data poate fi modelat ca un mediu multi-
agent heterogen. Exist trei nivele distincte, cu caracteristici diferite, ntre care componentele
trebuie s interacioneze unele cu altele. Aceast comunicare poate fi simplificat utiliznd
abordarea sistemului multi-agent. Fiecare agent este responsabil de task-uri specifice n
prelucrarea datelor, de exemplu: primirea de date, rezultatul agregrii etc. Ageni sunt
autonomi i distribuii, iar cooperarea ntre agenii se face folosind mesaje de trecere. Toi
agenii comunic n acelai mod i prin urmare, integrarea este simplificat.
Figura 16. Arhitectura pentru prelucrarea Big Data folosind sisteme multi-agent
Figura 16 prezint arhitectura Lambda pentru prelucrarea Big Data, folosind sisteme
multi-agent. Nu exist modificri fa de conceptul principal. n abordarea MAS exist nc
stratul de loturi, de vitez i de servire.
Stratul de loturi creeaz agregate - vizualizri batch (Batch Views) - de la toate datele.
Stratul de vitez este doar incremental - Vizualizri n timp real (Real-Time Views) -
pentru datele noi, non-arhivate.
Stratul de servire utilizeaz att datele calculate online, ct i offline (vizualizri)
pentru rezolvarea problemelor specifice, de exemplu interogri analitice, decizii noi
de credit, recomandri de muzic etc.
Datele de intrare sunt procesate de sistem ca un flux de date. n funcie de domeniu,
acesta poate fi un flux de: pagini vizualizate, tranzacii utilizator, fiierele jurnal de sistem,
evenimente de diagnostic etc. Fluxul (Stream) - ca serie de date - este colectat de ctre
Agentul Receptor de Flux (Stream Receiver Agent). Acest agent este responsabil de pre-
procesarea simpl a datelor cum ar fi: filtrarea, schimbarea formatului de date, serializare a
obiectelor etc. Dup aceea, fiecare eveniment de date din flux este trecut la Agentul de
Arhivare (Archiver Agent) i la Agentul de Procesare Flux (Stream Processing Agent). Ambii
ageni se ocup cu manipularea noilor date din nivelul batch i din nivelul de vitez.
Aceleai evenimente din datele primite sunt prelucrate de ctre stratul de vitez. Aici,
un Agent de Procesare al Fluxului (Stream Processing Agent) este primul punct de contact.
Agentul de Procesare (Processing Agent) ruteaz fiecare eveniment la Agentul de Lucru n
Timp Real (Real-Time Worker Agent) corespunztor, acolo unde sunt executate efectiv task-
urile. Rezultatul este reprezentat de Vizualizrile n Timp Real (Real-Time Views), care sunt
actualizate online. Aceste vizualizri sunt seturi rapide n memoria de date, pregtite pentru
accesul online rapid. Att Vizualizrile de loturi, ct i cele n timp real sunt create pentru un
caz specific de utilizare. Aceast problem de utilizare a cazului este rezolvat n Nivelul de
Servire (Serving Layer). Cererea din exterior este manipulat de ctre un Agent de Serviciu
dedicat (Service Agent). O problem particular, este rezolvat de tipurile adecvate de ageni.
Pentru fiecare cerere nou este creat Agentul de Serviciu. Pentru a rezolva problema dat i
pentru a pregti rspunsul, Agentul de Serviciu colecteaz datele necesare. Datele anterioare
sunt furnizate Vizualizrilor de loturi precalculate. Pentru a accesa aceste date este folosit
Agentul Agregator de Loturi (Batch Aggregator Agent). Acest agent interogheaz
vizualizrile de loturi corespunztoare.
O prelucrare similar se face pentru colectarea noilor date online. Agentul Agregator
n Timp Real pregtete seturile de date de la Vizualizrile n Timp Real. Ambele vizualizri
de loturi i cele n timp real sunt combinate pentru a prezenta imaginea de ansamblu a
datelor. Dup colectarea tuturor datelor necesare de la agenii agregatori este creat rspunsul.
n acest moment, n care cererea este servit i rspunsul este trimis napoi la client, ciclul de
via al Agentului de Serviciu se ncheie.
infrastructur, o schem de date poate fi la fel (pentru Lambda cele mai comune sunt Hadoop
pentru batch i Storm pentru procesrile online). Atunci cnd agenii sunt proiectai pentru o
singur sarcin acetia pot fi reutilizai n nivelul de vitez i de loturi. De exemplu: acelai
calcul fcut de Agentul de Lucru cu Loturi i de Agentul de Lucru n Timp Real se poate face
prin implementarea aceluiai agent.
n esen, Big Data nseamn date coerente de mari dimensiuni, diverse ca natur,
complexe ca structur care sunt pstrate n condiii de securitate utiliznd medii de stocare
diverse, performante dar ieftine, date procesate cu ajutorul unor algoritmi avansai care
asigur rapid rezultate optime cu costuri de exploatare minime.
Sistemele de fiiere reprezint baza pentru aplicaiile de nivel superior. Spre exemplu,
sistemul de fiiere GFS de la Google este un sistem de fiiere distribuit ce poate fi extins
pentru a putea fi utilizat de aplicaii distribuite pe scar larg (Cattell, 2010). GFS utilizeaz
servere fr resurse puternice pentru a obine tolerana la erori i ofer servicii de nalt
performan. GFS suporta aplicaii ce utilizeaz fiiere de mari dimensiuni, n care citirea este
mai frecvent dect scrierea datelor. Sistemul GFS are i unele limitri, cum ar fi de exemplu,
un singur punct de eroare i performane mai sczute pentru fiierele mici.
Modele de programare
n general, Big Data se stocheaz pe sute i chiar mii de servere comerciale. Astfel,
modelele tradiionale de programare paralel, cum ar fi de exemplu MPI i OpenMP, ar putea
s nu fie adecvate pentru astfel de aplicaii paralele la scar larg. Recent, au fost propuse noi
modele de programare paralel care mbuntesc n mod eficient performana sistemelor
NoSQL i care reduc decalajul de performan fa de bazele de date relaionale. Prin urmare,
aceste modele au devenit fundamentul pe care se bazeaz analiza datelor de tip Big Data.
Ghemawat, 2008). Acesta poate realiza procesarea automat a datelor n mod paralel i
distribuit. n MapReduce, modelul de calcul are doar dou funcii, i anume, map i reduce,
ambele fiind programate de ctre utilizatori. Funcia map are rolul de a procesa datele de
intrare i de a genera perechi intermediare de tipul cheie-valoare. Apoi, sistemul va combina
toate valorile intermediare legate de aceeai cheie i le va transmite funciei reduce care
procesa valorile stabilite anterior ntr-o mulime cu mai puine elemente. MapReduce are
avantajul c evit etapele complicate pentru dezvoltarea de aplicaii paralele, ca de exemplu,
distribuirea datelor, tolerana la defecte, i rezolv problemele de comunicaii ntre sisteme.
Utilizatorul trebuie doar s programeze cele dou funcii pentru a dezvolta o aplicaie. Cadrul
MapReduce nu a permis iniial mai multe seturi de date ntr-o aplicaie, ns acest lucru a fost
mbuntit recent.
Dup cum se tie, bazele de date s-au dezvoltat urmrind mai multe modele. Dintre
aceste modele modelul relaional a fost cel mai rspndit. La baza lor a stat SQL. Cnd se
invoc acronimul SQL, informaticienii se refer n mod natural la Structure Query Language
adic la un limbaj de cereri peste o baz de date relaional. Dar n acelai timp SQL
denumete i o clas de baze de date relaionale cu acest nume sau cu nume derivate din
acestea, de exemplu SQL i MySQL.
Aceste baze de date ct i toate bazele de date relaionale dezvoltate pornind de la ele
se caracterizeaz prin faptul c pun mare accent pe stabilirea relaiilor dintre entiti care
genereaz implicit o schem complex a bazei de date cu proprietatea de consisten.
Complexitatea schemei bazei de date i cerina de consisten a ei sunt constrngeri care
greveaz asupra dimensiunii bazei de date i a performanei aplicaiilor informatice
dezvoltate pe ea. Aceasta i numai pentru faptul c liniile din tabelele bazei de date, n acest
caz, sunt limitate ca numr.
De aceea teoreticienii bazelor de date au propus cteva idei, destul de ndrznee, care
vizeaz modificarea modelului relaional. Pe de o parte, aceast modificare trebuie s
conduc la mrirea capacitii de stocare a bazelor de date. Pe de alt parte se asigur
flexibilitatea prelucrrilor de date i implicit mrirea performanei aplicaiilor n ceea ce
privete timpul de calcul.
Consistena este o cerin a schemei relaionale a bazei de date la care se adaug setul
de cerine asupra datelor elementare. Numai tranzaciile care respect aceste cerine sunt
nregistrate n baza de date, ele meninnd consistena bazei de date. Izolarea tranzaciilor
este o regul dup care se nregistreaz n baza de date tranzaciile multiple care se adreseaz
aceleai nregistrri din aceiai entitate a bazei de date.
Ele au aprut din nevoia unor companii precum Google, Facebook sau Twitter de a
manipula cantiti imense de date crora bazele de date tradiionale pur i simplu nu le pot
face fa. Aa c bazele de date NoSQL au fost proiectate pentru a stoca volume foarte mari
de date n general fr o schem fix i partiionate pe multiple servere.
Bazele de date NoSQL ofer moduri flexibile de lucru, suport pentru copierea datelor
mult mai simplu i mai uor, un API simplu, i coerena eventual a datelor. Bazele de date
NoSQL devin astfel tehnologia de baz pentru Big Data.
Al doilea motiv este acela c structura datelor dintr-o aplicaie se modific n timp
ceea ce duce la un numr mare de tabele modificate i adaptate s serveasc noile nevoi.
Al treilea factor este accesibilitatea tehnologiei. Pn recent doar firmele foarte mari
care aveau nevoie absolut i permiteau s dezvolte o astfel de soluie, dar cum baze de date
NoSQL exist acum ca pachete open-source acum oricine i poate permite s le foloseasc.
memorarea unor volume mari de date (companiile amintite mai sus folosesc ntre 10-
100K servere)
nu exist o structur fix a datelor
ntre date se pot stabili legturi (prin referine la date memorate n alte baze de date)
aceleai date pot s fie memorate pe mai multe servere (partajare i replicare)
la interogare nu se folosesc operaii de join (mari consumatoare de timp)
sunt soluii foarte bune pentru cazuri particulare (NU pentru orice gestiune de date)
Dezavantaje ale modelelor NoSQL:
realizrilor entitilor i la mai toate principiile acestui model. Se propune un nou model mai
flexibil numit Basic Availability Soft State Eventual Consistency (BASE).
ntr-o baz de date NoSQL nu exist o schem propriu-zis a datelor, ele fiind stocate
ca perechi cheie-valoare (foarte eficient i flexibil, dar datele nu sunt self-describing), sau de
coloane (folosit pentru date mprtiate), sau document (folosit pentru depozite XML, dar
ineficient ca performan), sau graf (folosit pentru traversri relaionate, dar ineficient la
cutri).
n continuare se vor prezenta principalele trei tipuri de baze de date NoSQL: baze de
date cheie-valoare, baze de date orientate pe coloane i baze de date dedicate pentru
documente.
Amazon. SimpleDB este organizat sub forma de domenii n care pot fi stocate
datele. Domeniile pot avea proprieti diferite. Datele sunt copiate pe diverse
maini aflate n diferite centre de date cu scopul de a asigura sigurana datelor
i de a mbunti performana.
o CouchDB: Apache CouchDB este o baz de date dedicat pentru documente
ce a fost implementat n limbajul de programare Erlang (Anderson, Lehnardt,
and Slater, 2010). Datele stocate n cadrul CouchDB sunt organizate sub
forma unor documente ce sunt compuse din cmpuri diferite accesate pe baza
de chei/nume i valori, i care sunt stocate i accesate sub forma de obiecte de
tipul JSON. Fiecare document are un identificator unic. CouchDB permite
accesul la documentele stocate n baze de date prin intermediul unui API de
tipul RESTful.
Dac o baz de date a fost simplificat n acest mod este clar c cererile aa cum sunt
ele tiute de la bazele de date relaionale nu mai au suport i n consecin trebuie gsite alte
mecanisme pentru regsirea datelor. n cazul bazelor de date NoSQL acest nou mecanism
este funcia hash. Ea este un algoritm matematic care poate prelua o intrare de lungime
variabil oferind o ieire consistent de lungime fix. Cnd la intrare ntr-o baz NoSQL
apare un cuplu cheie / valoare, cheii respective i se aplic funcia hash, iar cuplul hash cheie-
valoare respectiv este direcionat ctre un anumit NoSQL Server unde se stocheaz i de unde
ulterior va fi gsit. Cnd o aplicaie ncearc s gseasc o pereche cheie-valoare ea
furnizeaz numele bazei de date i cheia respectiv. Procedeul hash se repet ca la stocare i
dac cheia exist n acea baz de date nseamn c motorul de gsire a cuplului cheie-valoare
va trebui s-o gseasc pe serverul respectiv. Desigur c dup cum s-a vzut NoSQL este
orientat spre stocare masiv a informaiilor i regsire rapid atunci cnd este nevoie. Cereri
complexe, ca n cazul bazelor de date relaionale, nu se pot lansa n acest caz. Exist i
beneficii a acestei arhitecturi numit NoSQL. Primul beneficiu provine din acceptarea
redondanei. Pe baza ei administratorii bazei de date pot replica o nregistrare existent i
apoi s o reconfigureze aa cum doresc. Cellalt beneficiu se refer la scalabilitate. Aceasta
nsemn c administratorul bazei de date poate aduga practic oricte nregistrri vrea iar
acestea sunt prelucrate de funcia hash cu stocarea balansat la nivelul serverului.
Dei NoSQL i gsete destul de multe aplicaii, cele mai multe fiind cele care
necesit date de volum foarte mare dar de complexitate mic, nu se poate spune c ele vor
substitui bazele de date relaionale.
nu exist un limbaj universal valabil. Bazele de date relaionale au SQL, care chiar
dac are multe extensii proprietare totui utilizatorii tiu la ce s se atepte;
maturitatea majoritatea sistemelor NoSQL nc sunt la primele variante sau nc n
plin dezvoltare;
suport fiind n general proiecte open source, iar firmele ce ofer suport sunt mici, de
multe ori startup-uri i poate nu ofer suficient credibilitate;
disponibilitatea dezvoltatorilor evident fiind o tehnologie nou, comparativ cu bazele
de date tradiionale sunt mult mai puini dezvoltatori software NoSQL.
Bazele de date NoSQL reprezint o trecere ctre baze de date superioare ce vor
integra flexibilitatea i performanele lor actuale cu modelul relaional. Odat cu apariia
bazelor de date NoSQL, dezvoltatorii au oportunitatea de a beneficia de mai mult agilitate n
modelul de date abordat. De asemenea aceste baze de date constituie modelul optim pentru
aplicaiile web. De aceea cunoaterea caracteristicilor lor este foarte important, n special
nainte de a migra la o astfel de soluie.
Cele mai populare baze de date NoSQL n acest moment sunt: Cassandra, Mongodb,
CouchDB, Redis, Riak, Membase, Neo4j i HBase.
1. Date operaionale
Sunt date despre consumatori, furnizori, parteneri i angajai deja accesibile pe baza
unor procese de tranzacie sau din baze de date.
3. Date comerciale
Sunt date care pot veni prin intermediul agregatoarelor de date (care citesc RSS-urile)
specifice, n funcie de industrie.
4. Date publice
Datele publice aparin instituiilor statului (informaii care vin de la Guvern, de la
ministere).
Big Data reprezint seturi mari de informaii complexe care n urma unei analize
pot identifica trenduri n afaceri, pot contribui la prevenirea bolilor i chiar combate rata
criminalitii.
1. Fiierele de tip log (log-file). Aceste fiiere nregistreaz n mod automat informaii
specifice n operarea aplicaiilor i sistemelor de calcul, precum serverele web,
serverele de baze de date, serverele de mail .a. (Wahab, Mohd, and Hanafi, 2008). n
situaia n care dimensiunea datelor stocate devine exagerat de mare, pentru a
mbunti performanele legate de accesarea i interogarea acestora, n locul
fiierelor standard se pot utiliza baze de date dedicate sau alte sisteme specializate.
2. Monitorizarea prin intermediul senzorilor. Senzorii au devenit omni-prezeni n
viaa de zi cu zi. Acetia msoar diveri parametri de mediu i transform cantiti
fizice n semnale digitale ce sunt stocate i apoi prelucrate. Datele furnizate de senzori
pot fi clasificate n funcie de domeniul de provenien precum: subiectul uman,
mediul ambiant, cldiri, automobile etc. Informaiile oferite de senzori sunt transferate
ctre o baz de date cu ajutorul reelelor wireless.
Transferul datelor const din dou faze: transferul Inter data-center i transferul Intra
data-center.
Integrarea: este o operaie de procesare a datelor ce provin din surse diferite i care
se bazeaz pe combinarea informaiilor i prezentarea unei imagini unitare asupra
seturilor de date (Lenzerini, 2002). n practic sunt utilizate dou mari strategii:
depozitarea datelor (data warehouse) i federalizarea datelor (data federation).
Depozitarea datelor include un proces denumit ETL (Extract, Transform, Load).
Extragerea datelor implic realizarea unei conexiuni ntre sistemele surs pentru date,
iar apoi selectarea, colectarea, analizarea i procesarea acestora. Transformarea
reprezint executarea unor serii de aciuni definite sub forma de reguli de procesare
care sunt aplicate datelor extrase. ncrcarea se refer la importarea datelor extrase i
prelucrate n cadrul infrastructurii de stocare. Aceasta este i cea mai complex
procedur dintre cele trei, deoarece include operaii precum transformarea, copierea,
corectarea, standardizarea, filtrarea i organizarea datelor.
Filtrarea: este un proces prin care se identific datele inexacte, incomplete sau pur i
simplu eronate i care sunt apoi modificate sau eliminate, astfel nct s se
mbunteasc calitatea acestora. La modul general, filtrarea datelor include cinci
proceduri complementare, respectiv: definirea i determinarea tipurilor de erori,
cutarea i identificarea erorilor, corectarea erorilor, documentarea exemplelor de
erori precum i a tipurilor de erori i modificarea procedurilor de introducerea a
datelor pentru a reduce numrul de erori (Maletic and Marcus, 2000). Filtrarea datelor
este esenial pentru meninerea integritii, aceasta fiind imperios necesar n diferite
domenii de activitate precum sectorul bancar, industria de retail, telecomunicaii sau
controlul de trafic aerian. n domeniul comerului electronic datele sunt colectate
automat ceea ce poate genera anumite probleme legate de calitatea acestora.
Principalele probleme legate de calitatea datelor provin din cauza unor defecte
software, proasta configurare a sistemelor sau a unor erori umane.
Coerena: un sistem de stocare distribuit necesit mai multe servere pentru a stoca
datele ntr-un mod coordonat. Deoarece sunt utilizate mai multe servere,
probabilitatea de a avea probleme cu un server este mai mare. De obicei, datele sunt
mprite n mai multe eantioane cu scopul de a fi stocate pe diferite servere pentru a
asigura disponibilitatea n cazul unei probleme pe un anumit server. Cu toate acestea,
defeciunile unui server sau a sistemului de fiiere paralel pot provoca apariia unor
inconsecvene ntre diferitele copii ale acelorai date. Coerena se refer la asigurarea
c mai multe copii ale acelorai date sunt identice.
Disponibilitatea: un sistem de stocare distribuit opereaz cu mai multe servere
organizate sub forma de clustere. Cu ct sunt utilizate mai multe servere, cu att crete
probabilitatea apariiei unor defeciuni sau probleme cu anumite sisteme. Acest lucru
este inevitabil. Ar fi de dorit ca n cazul n care un sistem nu este afectat serios s
poat rspunde totui cererilor utilizatorilor. Aceast proprietate se numete
disponibilitate.
Tolerana la partiionare: mai multe servere ntr-un sistem de stocare distribuit sunt
conectate printr-o reea. Reeaua ar putea avea anumite probleme cu conexiunile ntre
sisteme sau se poate s apar o congestie temporar. Sistemul distribuit ar trebui s
aib un anumit nivel de toleran la problemele cauzate de defeciunile de reea. Ar fi
de dorit ca stocarea distribuit s funcioneze corect chiar i atunci cnd reeaua este
fragmentat.
n anul 2000, Eric Brewer a propus teoria CAP (Brewer, 2000; Gilbert and Lynch,
2002) conform creia un sistem distribuit nu ar putea satisface n acelai timp cerinele
privind coerena, disponibilitatea i tolerana la partiionare; cel mult dou dintre cele trei
cerine pot fi satisfcute simultan. Seth Gilbert i Nancy Lynch de la MIT au dovedit
corectitudinea teoriei CAP n anul 2002. Deoarece coerena, disponibilitatea i tolerana la
partiionare nu ar putea fi atinse n acelai timp, se poate ajunge la sisteme de tipul CA prin
ignorarea toleranei la partiionare, sisteme de tipul CP prin renunarea la disponibilitate, i
sisteme de tipul AP care ignor coerena. Aceste trei sisteme sunt prezentate n cele ce
urmeaz.
Astfel de sisteme sunt dotate cu un singur exemplar al datelor, astfel nct este uor de
asigurat coerena acestora. Disponibilitatea este garantat prin nsi principiile de proiectare
ale bazelor de date relaionale. Cu toate acestea, din moment ce sistemele de tipul CA nu pot
face fa erorilor de reea, acestea nu pot fi extinse pentru a utiliza mai multe servere. Prin
urmare, cele mai multe sisteme de stocare la scar larg sunt sistemele de tipurile CP i AP.
Prin urmare, sistemele de tipul AP sunt utile mai ales pentru exemple de utilizare cu
cereri frecvente, dar fr cerine foarte mari de acuratee. De exemplu, n cadrul serviciilor de
tipul reelelor sociale sunt utilizate foarte multe apeluri concurente la date, ns doar o
anumit cantitate de erori sunt tolerabile. Deoarece ns sistemele de tipul AP asigur i
eventuala coeren, datele exacte pot fi obinute dup o anumit perioad de ntrziere. Prin
urmare, sistemele de tipul AP pot fi de asemenea utilizate i n astfel de circumstane, fr
cerine stricte referitoare la rspunsul n timp real. Dynamo i Cassandra sunt dou sisteme
populare de tipul AP.
Exemple de domenii n care proiectele Big Data sunt realizabile: Sntate (analiza
statistic a cazurilor, telemedicin etc.), Cultur, eCommerce, Securitate naional.
n cele ce urmeaz prezentm o list de domenii n care folosirea Big Data este
rspndit i aduce cele mai mari beneficii.
Tehnici Big Data sunt deja folosite pentru a monitoriza copiii ntr-o unitate
specializat pentru copii nscui prematur sau bolnavi. Prin nregistrarea i analiza modelului
btilor inimii i respiraiei fiecrui copil, unitatea a fost capabil s dezvolte algoritmi care
acum pot prezice infecii cu 24 de ore nainte de apariia oricrui simptom fizic. Astfel,
echipa poate interveni mai devreme pentru a salva copiii ntr-un mediu n care fiecare or
conteaz. Ceea ce este i mai important, analiza Big Data ne permite s monitorizm i s
prezicem evoluia epidemiilor i focarelor de boli. Integrarea datelor din dosarele medicale cu
analiza mediului social ne permite s monitorizm focare de grip n timp real, doar prin
ascultarea a ceea ce posteaz oamenii, cum ar fi "M simt ru astzi sunt n pat cu o
rceal".
tranzacionrii de capital are loc prin algoritmi de date, care iau din ce n ce mai mult n
considerare semnalele de pe reelele sociale i site-uri de tiri pentru a lua, cumpra i vinde
decizii n cteva secunde.
Inovaiile tehnologice care au facilitat apariia Big Data pot fi, n general, combinate
n dou familii: pe de o parte tehnologia de stocare, alimentat n special de dezvoltarea
Cloud Computing. Pe de alt parte, apariia tehnologiilor de prelucrare adecvate, inclusiv
dezvoltarea de noi baze de date potrivite pentru date nestructurate (Hadoop) i dezvoltarea
modurilor de calcul de nalt performan (MapReduce). Aceste dou inovaii, sprijinite de
Google i Yahoo, au pus bazele actuale de prelucrare Big Data: astfel este posibil a se
procesa volume mari de date ntr-un timp scurt - redus cu aproape 50 de ori mai mult de
tehnologii anterioare - pentru toate tipurile de date.
Legat de furnizarea serviciile publice, tehnologiile Big Data ofer soluii referitoare la
autentificare i managementul identitii, combaterea fraudei, mbuntirea monitorizrii
atacurilor de securitate.
Analiza economic: prin interpretarea datelor din mai multe surse, economitii
guvernamentali pot corela mai bine nivelul de volatilitate al situaiei curente cu previziunile
financiare mai precise.
Securitatea cibernetic: soluiile Big Data pot colecta, organiza i analiza cantiti
imense de date din reelele de calculatoare ale administraiei publice, pentru a sprijini
investigarea i contracararea unor atacuri cibernetice.
Internetul lucrurilor
Ateptri Rspunsuri la ntrebri n limbaj
Traducere vorbire-n- Interfee utilizator pentru dispozitive portabile purtate pe corp
Vehicule autonome Tiprire 3D pentru
Consilieri inteligeni Monede criptate
tiina Procesarea evenimentelor complexe
Operaii analitice
d l Big Data-(date imense)
Business neural Sisteme de management al bazelor de date n memorie
Biocipuri Operaii analitice asupra coninutului
Recunoatere vorbire
Calcul n Cloud
Calcul
Gamification (elemente de
Roboi Realitatea mbogit
S isteme de bioprintare 3D
Ecrane volumetrice i holografice Servicii de comunicaie M-to- Telematic consumator
Calcul
Definire prin software a Monitorizare mobil a sntii Scanare 3D
Sporirea capacitii
Auto Interfa creier Calcul n Printare 3D n
Cas calculator
Spaiu de lucru inteligent Fluxuri de
Asistent personal virtual
NFC Operaii analitice n
S ecuritate digital Controlul
Realitate virtual
Sim Bioacustic
timp
Platoul va fi atins n:
Mai puin de 2 ani 2 la 5 ani 5 la 10 ani Mai mult de 10 ani O Depit nainte de platou
Figura 17. Ciclul de execuie pentru tehnologiile emergente
Arhitectura:
n legtur cu multele tipuri de arhitecturi trebuie stabilit care este cea mai bun
alegere. Exist instrumente apropiate ca valoare, ntre care, cu greu se poate face
alegerea. Sursele deschise (open source) au un rol foarte important n domeniul Big
Data. n aceast alegere a viitoarei arhitecturi i a instrumentelor trebuie pornit de la
analiza a ceea ce exist deja n folosin.
Instrumente:
Este necesar s se analizeze diferite instrumente pentru a stabili cea mai bun opiune.
n urma analizelor se pot trage diferite concluzii:
o Identificarea unei uniti de business pentru calcularea utilitii utilizrii Big
Data;
o Identificarea unui nou proces sau mbuntirea unui nou proces ca urmare a
analizrii Big Data.
Guvernarea datelor:
Cine deine datele;
Cum se vor trata securitatea datelor, integritatea i respectarea reglementrilor;
Cine va administra depozitul de date.
Operaii analitice:
Cum se ncadreaz operaiile analitice n organizaie;
Dac se utilizeaz operaii analitice descriptive i predictive n cadrul activitii de
inteligen de business;
Ct de sofisticat este procesul.
Utilizarea Cloud-ului:
Va deveni Cloud-ul un egalizator sau va promova mai multe preocupri cu privire la
guvernarea datelor?
Se vor putea realiza colectarea, partajarea i analizarea depozitelor mai mari de date
de la distan?
Returnarea investiiei:
Producerea de analize i metrici pentru determinarea efectului pe care l-a produs
resursele utilizate.
Prioriti ale managerului de Big Data:
Utilizarea celor mai bune practici la nivel de ntreprindere i implementarea lor n
unitile operaionale;
Asigurarea faptului c politicile de management ader la reglementrile n vigoare;
Cutarea unor ci noi de utilizare n comun a datelor n ntreprindere i dezvoltarea de
operaii analitice sofisticate.
Provocrile Big Data n domeniul sistemelor informaionale guvernamentale:
Stabilirea domeniilor n care acestea sunt necesare prin analiza strii actuale a
sistemelor informaionale, prin identificarea unor posibile necesiti de analiz i
decizie i stabilirea instrumentelor i resurselor necesare pentru realizarea obiectivelor
propuse.
Moduri de utilizare:
Big Data pentru consumatori;
Big Data pentru business;
Big Data pentru cercetare.
Big Data i tiina Datelor:
Deosebirea dintre Big Data i utilizarea tradiional a datelor ce pot fi procesate n
cadrul organizaiei.
Deosebirea dintre abordarea Big Data (bazat pe Hadoop), depozitele de date de
ntreprindere (Data Warehouse) i pieele de date (Data Mart).
Etica n cazul Big Data:
Provocrile anonimitii;
Provocrile confidenialitii.
Surse i structuri Big Data:
Date generate de oameni;
Date generate de maini;
Date structurate;
Date nestructurate.
Nesigurana (uncertainty)
Scalabilitatea
Procesarea n timp real.
Pentru stocarea datelor este necesar o platform de Cloud Computing care s conin
tehnologii de virtualizare.
Pentru transferul datelor este necesar o tehnologie performant de reea.
Resursele trebuie administrate prin intermediul unei tehnologii de monitorizare a
resurselor.
Calculul n Cloud este o metod de furnizare a unor resurse de calcul partajate n care
sunt incluse aplicaii, calcul, stocare, reele, dezvoltare i platforme de implementare, precum
i procese de business (Hurwitz, 2013). n norul de calcul (cloud computing) orice poate fi
furnizat ca serviciu: putere de calcul, infrastructura de calcul, aplicaii, procese de business,
date i metode analitice.
ase hard discuri de cte 2 TB, cu RAID 1 peste dou din acele discuri
dou uniti centrale (CPU) cu quad core
Paralelismul masiv,
Volumul uria de date,
Distribuirea datelor,
Reelele de mare vitez,
Calcul de nalt performan,
Managementul Thread-urilor i a sarcinilor (taskurilor),
Analizarea i mineritul datelor (data mining and analytics).
Utiliznd o alt clasificare, bazat pe ierarhia de procesare a datelor, tehnologiile Big
Data pot fi clasificate n cinci categorii:
4.3.3. Stiva metodelor analitice predictive pentru Big Data n timp real
n Figura 18 (Adaptare dup prezentarea lui David Smith, Real-Time Big Data
Analytics: From Deployment To Production) este prezentat stiva metodelor analitice
predictive pentru Big Data n timp real.
n stratul de date exist date structurate n RDBMS, NoSQL, Hbase sau Impala; date
nestructurate n MapReduce din Hadoop; date n flux din web, media social, senzori i
sisteme operaionale; i capabiliti limitate pentru realizarea de operaii analitice descriptive.
n acest strat se gsesc, de asemenea, instrumente ca Hive, Hbase, Storm i Spark. Acest strat
s-ar putea mpri n dou substraturi: unul pentru stocare i, al doilea, pentru procesarea
interogrilor.
Urmtorul strat este cel analitic, care este situat deasupra celui de date. Stratul
analitic include un mediu de producie pentru implementarea notrii n timp real i operaii
analitice dinamice; un mediu de dezvoltare pentru construirea de modele i o pia de date
locale care este actualizat n mod periodic din stratul de date, situat lng maina analitic
pentru mbuntirea performanei.
Deasupra stratului analitic este stratul de integrare. Acest strat deine aplicaiile end-
user i motoarele de reguli sau mainile de tratare a evenimentelor complexe (CEP) i un API
pentru operaii analitice care intermediaz comunicaia ntre dezvoltatorii de aplicaii i
specialitii n date.
depozitare a datelor
Figura 18. Stiva metodelor analitice predictive pentru Big Data n timp real
Cel mai de sus strat este stratul de decizie. Acesta poate include aplicaii end-user
cum sunt aplicaii web pentru desktop, mobile i interactive dar i software de inteligen de
business (business intelligence). Acest strat este cel pe care l folosesc cei mai muli
utilizatori. n acest strat analitii de business, efii firmelor i clienii interacioneaz cu
sistemul analitic Big Data n timp real.
Stocarea datelor se poate face n Cloud utiliznd servicii specifice: IaaS, PaaS, SaaS i
DaaS.
Metodele obinuite de transfer de date n cadrul reelelor, cum sunt FTP i HTTP nu
sunt eficiente n aceste cazuri.
4.3.6. Comparaii ntre conceptul de depozit de date (data warehouse) i abordarea Big
Data
Caracteristici generale ale depozitului de date (data warehouse)
Depozitele de date (data warehouse - EDW) sunt magazii de date integrate din una
sau mai multe surse. n ele sunt stocate date curente i date istorice (Sonra-1, 2015).
Depozitele de date (warehouse) au fost construite pentru a ingera date structurate din sisteme
tranzacionale. Aceste sisteme sunt utilizate zilnic n activitatea de business i includ HR,
ERP, Vnzri i Marketing etc. O dat cu evoluia aplicaiilor SaaS i a Arhitecturii Orientate
pe Servicii (SOA) din ultimii ani, au fost introduse n EDW i date semistructurate JSON i
XML.
Preluarea datelor se face n loturi, de obicei, n timpul nopii. Datele de la surse sunt
transferate n zone de ateptare ce se afl n infrastructura depozitului de date. Din zona de
ateptare, datele sunt ncrcate n platforma ETL care realizeaz transformrile solicitate,
integrarea datelor i sarcinile de curare. Uneori, mai sunt utilizate i instrumente dedicate
pentru calitatea datelor, managementul datelor i operaii analitice.
Datele transformate sunt apoi ncrcate napoi n depozitul de date ntr-o reprezentare
fizic a Modelului Datelor de ntreprindere (Enterprise Data Model - EDM). EDM constituie
o reprezentare a tuturor proceselor de business dintr-o ntreprindere. Din depozitul de date,
datele sunt ncrcate n piee de date specifice (data marts) sau n cuburi OLAP. Acestea sunt
modele de date care sunt optimizate pentru operaii analitice i raportri. Aplicaiile de
inteligen de business (BI) de pe desktop i cele mobile se conecteaz la modele
dimensionale i expun datele prin intermediul foilor de bord, a rapoartelor i a instrumentelor
de interogare ad-hoc.
Baze de date relaionale n depozitele de date i cerine noi determinate de Big Data
Pentru volume mai mari de date sunt utilizate aparate (appliances) construite special
n acest scop care s includ hardware optimizat i software specific pentru a se realiza
performane superioare. Astfel de aparate (appliances), cum sunt Teradata sau Exadata
formeaz fundamentul pentru depozitul de date.
Mai recent, baze de date paralele masive (MPP) cum sunt Vertica sau GreenPlum pot
s funcioneze i pe echipamente obinuite (commodity hardware). Asocierea existent pn
acum, ntre depozitele de date (warehouse) i bazele de date relaionale, nu pare c mai este
aa de puternic deoarece un declin al importanei bazelor de date relaionale apare din
urmtoarele considerente (Sonra-2, 2015):
4. Apache Hive este o platform de depozitare a datelor, care este construit peste
Hadoop.
7. Baze de date analitice. Bazele de date analitice scalare cum sunt Pivotal
Greenplum sau IBM Netezza ofer ncrcarea i rencrcarea rapid a datelor pentru modele
analitice.
Sqoop este un sistem de preluare a datelor n bloc, fiind utilizat pentru realizarea de
salvri zilnice ale datelor din bazele de date relaionale tranzacionale n Hadoop
pentru analiz offline.
Apache Bigtop testeaz i mpacheteaz un set cunoscut de componente Hadoop,
scutind utilizatorii de aceast povar. Distribuii de Hadoop cum sunt CDH de la
Cloudera i HDP de la Hortonworks sunt construite cu Bigtop pentru testare i
mpachetare.
Apache Ambari i Cloudera Manager furnizeaz o interfa la nivel de cluster
pentru administrarea configuraiei, monitorizare, alerte, cutarea fiierelor de log,
pentru dependine ntre servicii i pentru actualizarea serviciilor.
YARN (Yet Another Resource Negotiator) este un cadru de management a resurselor
pentru versiunea a doua a lui Hadoop, care generalizeaz procesarea datelor dincolo
de MapReduce. YAN deschide puterea de procesare a clusterului Hadoop pentru
algoritmi noi de procesare distribuit, cum este procesarea grafurilor de scar mare.
Straturi de abstractizare
ClickFox, Merced etc.
Procesare i Date
originale
de ex.
Baze de Date uor Greenplum
de ncrcat Netezza
Kerberos
Securitate i Cascading
management
Pig Hive (DW)
Limbaje de nivel
nalt Hadoop
Motorul MapReduce
Urmritori de job-
uri i Task-uri
NoSQL DB
Sisteme de fiiere Sistem de fiiere De ex. Hbase
cu localizare De ex. HDFS Cassandra
Procesare i Date
originale
Figura 19. Componentele majore puse mpreun ntr-o soluie Big Data complet
BigInsights (Hadoop)
Watson (cognitiv)
PureData (depozit de date)
DB2 cu Blu Acceleration (baz de date n memorie)
Informix (baze de date IoT-Internet of Things)
Cloudant (baze de date ca serviciu).
n pregtirea datelor pentru analiz apar urmtoarele aspecte care trebuie s fie analizate:
4.3.9. Criterii de selecie asociate cadrului general al metodelor analitice pentru Big
Data n timp real
Metodele analitice pentru Big Data n timp real utilizeaz un proces iterativ care
implic instrumente i sisteme multiple. Un model n cinci faze al procesului analitic al Big
Data este descris de Smith ca un cadru pentru metodele analitice predictive (Barlow, 2013).
Acest proces implic diferite criterii de alegere n cadrul celor cinci faze ale sale: distilarea
datelor, dezvoltarea modelului, validarea i implementarea, evaluarea sistemelor n timp-real
i remprosptarea modelului.
Distilarea datelor
Deoarece datele din stratul de date sunt brute i neordonate ele nu satisfac cerinele de
structurare necesare pentru construirea de modele i realizarea de analize.
Selectarea caracteristicilor
Eantionarea i agregarea
Transformarea variabil
Estimarea modelului
Rafinarea modelului
Testarea modelului.
Cele mai importante cerine pentru specialitii n date, n aceast faz, sunt viteza,
flexibilitatea, productivitatea i reproductibilitatea. Deoarece aceste cerine sunt critice n
domeniul Big Data, un specialist n date va construi, rafina i va compara zeci de modele n
cutarea unui algoritm n timp real puternic i robust.
Validarea i implementarea
Punctajul pentru sistemele n timp real se face n stratul de decizie (de ctre
consumatori de la un website sau de ctre un sistem operaional prin intermediul unui API).
Comunicaia este intermediat de stratul de integrare. n faza de evaluare a punctajului, unele
sisteme n timp real vor utiliza acelai hardware care este folosit i n stratul de date sau n
pieele de date (data mart). n aceast faz apar limitrile pe care le are Hadoop n succesul ca
sistem n timp-real, dei acesta are rezultate mulumitoare n aciuni de populare a tabelelor
mari sau n punctarea operaiunilor de pre-calcul. Tehnologii mai noi, cum este Impala de la
Cloudera, sunt proiectate s mbunteasc capabilitile n timp real ale Hadoop.
Remprosptarea modelului
Supervised Unsupervised
Linear Nonlinear
Single Combined
Easy to Interpret Hard to Interpret
Linear
Regression
Logistic
Regression
Perceptron
Bagging Boosting Random Forest
Decision Rule
Trees Learning
Nave k-Nearest
Bayes Neighbours
Multi-Layer SVM
Perceptron
K-Means
EM Self-Organizing Maps
Figura 21. Algoritmi de nvare main pentru analiza Big Data (dup IBM, 2015)
Algoritmii comuni de nvare main pentru analizarea Big Data pot fi ierarhizai
conform Figurii 21.
Regsirea i analiza facil i n timp util de informaii corelate sau necorelate este
esenial pentru guvern pentru a satisface i a mbunti cerinele misiunii sale, care sunt
variate de la o agenie la alta. Datele continu s fie generate i arhivate digital cu viteze tot
mai mari datorit iniiativelor de e-Guvernare i pentru o guvernare deschisa, senzorilor,
interaciunilor cu cetenii i tranzaciilor aferente programului de guvernare. Organizaiile
guvernamentale au nceput s implementeze sisteme suport de decizie, analiza automatizrii
interfeelor, s descopere organizarea datelor i managementul infrastructurii. Sunt incluse
utilizarea de servere standardizate, reele, stocarea datelor i software pentru clustere, toate
acestea fiind utilizate i pentru implementarea pe scar larg a tehnologiei Big Data. Drept
exemplu, se poate face referire la software-ul care prelucreaz i pregtete toate tipurile de
date pentru analiz. Acest strat extrage, cur, normalizeaz, eticheteaz i integreaz datele.
Acest strat include software pentru descoperirea ad-hoc i analiz profund i software care
suport analiza n timp real, de luare automat a deciziilor tranzacionale bazate pe reguli.
Aplicaii cu funcionaliti necesare pentru a sprijini colaborarea, evaluarea scenariilor,
gestionarea riscurilor, precum i captarea deciziilor.
Exist deci multe oportuniti pentru introducerea unor tehnologii Big Data n sectorul
guvernamental, inclusiv n securitatea cibernetic; tehnologii de analiza seturilor de date de
mari dimensiuni n domeniul tiinei i cercetrii, precum i data mining utilizate pentru a
preveni comiterea de acte de teroare i / sau pentru a preveni risipa, frauda i abuzurile;
fuziunea datelor i informatica medical, pentru a numi doar cteva. Toate aceste probleme
de afaceri reflect caracteristicile legate de Big Data - volume masive de date, mare varietate
de date, integrarea tehnicilor de analiz, precum i o nevoie de scalabilitate crescut. Cu toate
acestea, exist percepia conform creia costurile iniiale reduse pentru software-ul de Big
Data, cum ar fi Hadoop, sugereaz un mod rentabil pentru a nlocui infrastructura existent,
sugernd faptul c Hadoop (i variantele sale comerciale) sunt complementare formulelor
existente de business intelligence, analizei i metodelor deja livrate din arhitecturile existente.
n calcularea costurilor totale pentru arhitectura de Big Data trebuie incluse cele aferente a
patru factori majori: oameni, software, hardware i date.
Big Data poate aduga valoare ca resurs utilizat pentru a spori analiza i modelarea
predictiv i pentru a impulsiona fluxuri masive de date. Utilizatorii de date pentru afaceri ar
trebui ns s fie contieni de faptul c, n timp ce costurile iniiale ale software-ului open
source pentru tehnologiile de Big Data au fost reduse, acest fapt nu este neaprat valabil i
pentru costul total de dezvoltare, operare i de ntreinere. Introducerea analizei de Big Data
ar trebui s se concentreze pe cazuri de utilizare a lor n afaceri i pe msuri clar definite de
performan demonstrnd valoarea adus afacerii i, cu siguran, n guvernare, este de
neconceput renunarea la tehnologia existent pentru una n curs de dezvoltare. Mai degrab,
Big Data ar trebui s fie parte integrant a unei strategii globale de analiz, care nu poate
trece peste cele mai bune practici asociate cu aderarea la ciclul de via din dezvoltarea
sistemului.
Volume mari de date - S-ar putea sugera c ceea ce calific datele ca fiind de "mare"
dimensiune este faptul c practic cantitatea de date depete capacitatea existent de
prelucrare a datelor ntr-un timp util. Procesele de afaceri care beneficiaz de volume crescute
de date sunt potrivite pentru soluii Big Data.
Varietate semnificativ a datelor - Acest lucru sugereaz probleme de afaceri care pot
beneficia de potenialul de a extrage buci semnificative de informaii din datele provenind
din surse diferite, cu structur i coninut variate.
Procesare intens paralel (PIP), conceput pentru a oferi att performan scalabil liniar
cu ct sunt adugate mai multe noduri de prelucrare, ct i elasticitate pentru a permite
aplicaiilor s utilizeze puterea de procesare necesar pentru a executa cererea.
Dispozitive analitice, constnd din sisteme hardware de specialitate organizate n jurul unui
cadru PIP combinat cu vitez crescut, reele de lime de band larg i canale de I / O.
Aceste sisteme sunt special realizate pentru aplicaii de nalt performan consumatoare de
cantiti masive de date.
Analiz de text, tot mai importan pentru extragerea de informaii relevante din cantitile
masive de date nestructurate disponibile i utilizarea de ontologii semantice pentru analiza.
Mesaje i fluxuri de date cu laten sczut, care sunt eseniale pentru prevenirea scderii
performanelor datorat blocrilor cauzate de tranzaciile din reea necesare schimbului de
date.
Nu exist nici o ndoial c alura i strlucirea unei noi tehnologii pot fi orbitoare, iar
primul punct critic de luat n considerare pentru orice proiect de Big Data este de a-l ncepe
innd mereu cont de beneficiile ce trebuie aduse afacerii i de a se concentra mereu pe
afacere. Implementarea tehnologiei fr a ine cont de starea curent i rezultatul final dorit
poate duce la stagnare i insucces n finalizarea proiectului.
Acestea fiind spuse, odat ce s-a decis abordarea proiectului pilot de Big Data i
bugetul a fost aprobat i alocat, este necesar utilizarea unei liste de verificare a sarcinilor de
ndeplinit pentru demararea proiectului-pilot:
1. Definirea criteriilor de succes, care sunt legate de aciuni cheie cum ar fi creterea
veniturilor, scderea costurilor, mbuntirea relaiilor cu cetenii sau reducerea riscului.
10. Proiectarea, dezvoltarea i testarea aplicaiei n cadrul unui mediu de dezvoltare care
permite programarea, executarea iterativ, depanarea i analiza performanelor pentru a ajuta
la optimizarea vitezei de execuie. Testele corespunztoare este necesar s fi fost deja
dezvoltate i pot fi executate punnd la dispoziie rezultate obinute.
n acest moment, ar trebui s fie clar dac sau nu Soluia de Big Data are potenial de
a aduga valoare afacerii. Cu toate acestea, acest fapt nu poate fi unicul factor decisiv, mai
ales atunci cnd intenia este de a include aceste noi tehnologii n mediul existent. Alte
consideraii includ posibilitatea trecerii tehnologiei n mediul de producie, cum se aliniaz cu
tehnologiile existente, efortul implicat n scalarea aplicaiei pentru a satisface nevoile de
producie, formarea i gestionarea competenelor, dezvoltarea unui plan de integrare i
asigurarea c tehnologia este scalabil pentru un numr mai mare de utilizatori, fiecare
tinznd spre performane tot mai mari.
Figura 22. Carteluri Unele firme liciteaz mpreun cu un ctigtor i pierd periodic
Astfel, se poate descoperi din analiza datelor c un singur ofertant a transmis o ofert,
apelul pentru licitaie nu a fost publicat ntr-o publicaie oficial, c a fost utilizat o
procedur de urgen pentru a urgenta procesul, procesul de licitaie a fost anulat sau a fost
relansat, criteriilor nefinanciare le-a fost acordat o prea mare importan, contractele au fost
modificate n timpul implementrii, valoarea sau durata contractului au crescut. Construirea
unor indicatori de guvernare de generaie nou utiliznd Big Data necesit, n timp real,
disponibilitatea datelor din surse electronice. Aceste seturi de date sunt derivate din sisteme
tranzacionale ale administraiei publice, la nivel de micro-date, care descriu comportamentul
actorilor din sistem. Datele trebuie s fie legate pentru a genera constatri comparabile ntre
ri, organizaii i n timp (Karippacheril, 2014), (Fazekas, 2014).
Una dintre cele mai utilizate tehnologii de integrare Big Data este MapReduce,
fiind utilizat de companii precum Google, Yahoo sau Facebook deoarece ofer o serie de
avantaje: suport pentru seturi foarte mari de date distribuite n clustere de computere i
posibilitatea de procesare att a datelor structurate ct i a celor nestructurate.
Capacitatea de a utiliza Big Data pentru a conduce la rezultate mai bune n afaceri
face ca acesta s fie foarte atractiv.
Se face apoi dezvoltarea planului strategic pentru a evalua alternativele de Big Data.
Se apreciaz cerinele de performan care sunt utilizate pentru a selecta furnizori i produse
diferite. Clarificarea criteriilor de succes permite cea mai bun determinare a valorii. Planul
5. Bibliografie
1. Adelaide O'Brien, 2012, The Impact of Big Data on Government WHITE PAPER,
October 2012, IDC Government Insights, pp.1-12.
2. Anuganti, V., Typical Big Data Architecture. 2012. Retrieved from:
http://venublog.com/2012/11/30/typical-big-data-architecture/.
3. Apache Software Foundation. (2013a). Welcome to Apache Hadoop. Retrieved from
http://hadoop.apache.org/.
4. Apache Software Foundation. (2013b). Welcome to Apache HBase. Retrieved from
http://hbase. apache.org/.
5. Apache Software Foundation. (2013c). Architecture overview: What is the difference
between HBase and Hadoop/HDFS? Retrieved from
http://hbase.apache.org/book/ architecture. html#arch.overview.
6. Awadallah, A., Graham, D., Hadoop and the data warehouse: When to use which.
Dayton, OH: Teradata Corporation. 2011. Retrieved from
http://www.teradata.com/white-papers/Hadoop-and-the-Data-Warehouse-When-to-Use-
Which/.
7. Azzini, A., Ceravolo, P., Consistent process mining over big data triple stores, n
Proceeding of the International Congress on Big Data (Big Data '13), pp. 5461, 2013.
8. Bodapati, V., Data Integration Ecosystem for Big Data and Analytics. 2013. Retrieved
from: http://smartdatacollective.com/raju-bodapati/103326/data-integration-ecosystem-
big-data-and-analytics.
9. Buyya, R., Yeo, C. S., Venugopal, S., Broberg, J., Brandic, I., Cloud computing and
emerging IT platforms: Vision, hype, and reality for delivering computing as the 5th
utility. Future Generation Computer Systems, vol. 25, no. 6, pp. 599-616, 2009.
10. Cao, L., Weiss, G., Yu, P., A brief introduction to agent mining, Autonomous Agent
Multi-Agent Systems, vol. 25, pp. 419424, 2012.
11. Cattell, R., Scalable SQL and NoSQL data stores. ACM SIGMOD Record 39(4), pp. 12
27, 2011.
12. Chan, J. O., An Architecture for Big Data Analytics, Communications of the IIMA;
2013, vol. 13, no. 2, pp.1-13.
13. Chen, H., Chiang, R. H. L., Storey, V. C., Business intelligence and analytics: From
big data to big impact. MIS Quarterly, vol. 36, no. 4, pp. 1165-1188, 2012.
14. CommVault, 5 Ways to illuminate your dark data, 2014, http://nth.com/wp-
content/uploads/2015/03/5_Ways_to_Illuminate_Your_Dark_Data.pdf.
15. David Loshin, Big Data and Government: Business Drivers and Best Practices, 2013
16. Dayley Alan: File Analysis Innovation Delivers an Understanding of Unstructured Dark
Data, Gartner Inc. Innovation Insight, March 2013.
17. Execblueprints, Ideas to Build Upon & Action Points, ExecBlueprints, Copyright
Books24x7, 2013.
18. Fazekas, Mihly., Istvn Jnos Tth - Three indicators of institutionalised grand
corruption using administrative data, Explanatory note for the U4 - Proxy Workshop,
Bergen, Norway, 4/2/2014,
http://www.crcb.eu/wpcontent/uploads/2014/01/CRCB_3%20indicators%20of%20inst%2
0grand%20corr_U4ProxyChallenge_2014.pdf.
19. Gartner, Answering Big Data's 10 Biggest Vision and Strategy Questions. August
2014. (http://www.gartner.com/doc/2822220?refval=&pcp=mpe).
20. Gartner: 10 Big Data Software Requirements, http://www.information-
management.com/gallery/Big-Data-Required-Software-Applications-10026664-1.html,
accesat august 2015.
21. Gang-Hoon Kim, Silvana Trimi, Ji-Hyong Chung, Big-Data Applications n the
Government Sector. Communications of the ACM, 57(3), 2014, pp: 78-85.
22. Gantz, J., D. Reinsel, Extracting value from chaos. IDC iView, 2011, pp 112.
23. Hadoop, A., Hadoop, 2009, http://hadoop.apache.org/.
24. Hedlund, B., Understanding Hadoop clusters and the network. 2011. Retrieved from
http://bradhedlund.com/2011/09/10/understanding-hadoop-clusters-and-the-network/.
25. Herodotou, H., i alii, Starfish: A self-tuning system for big data analytics, ser.
CIDR2011, 2011.
26. Hindman, B., Konwinski, A., Zaharia, M., Ghodsi, A., Joseph, A. D., Katz, R., Shenker,
S., Stoica, I., Mesos: a platform for fine-grained resource sharing n the data center,
Proceedings of the 8th USENIX conference on Networked systems design and
implementation, p. 22, 2011. [Online]. Available:
http://dl.acm.org/citation.cfm?id=1972457.1972488.
27. Howard, J.H., M.L. Kazar, S.G. Menees, D.A. Nichols, M. Satyanarayanan, R.N.
Sidebotham, M.J. WEST, Scale and performance n a distributed file system. ACM
Trans Computing Systems 6(1), 1988, pp. 5181.
28. Hurwitz, J., Alan Nugent, Fern Halper, Marcia Kaufman, Big Data For Dummies, ISBN
1118504224, 2013, pp. 1-336.
29. Karippacheril, Tina George., Robert P. Beschel, Measuring Corruption Risk using
Big Public Procurement Data n Central & Eastern Europe,
http://blogs.worldbank.org/governance/measuring-corruption-risk-using-big-public-
procurement-data-central-eastern-europe, 2014.
30. Kevin O'Dell, How-to: Select the Right Hardware for Your New Hadoop Cluster,
http://blog.cloudera.com/blog/2013/08/how-to-select-the-right-hardware-for-your-new-
hadoop-cluster/, 2013.
31. Khan, N., Yaqoob, I., Hashem, I. A. T., et al., Big Data: Survey, Technologies,
Opportunities, and Challenges, The Scientific World Journal, vol. 2014, Article ID
712826, 18 pagini, 2014. doi:10.1155/2014/712826.
32. Kim, H., Raman, A., Liu, F., Lee, J., August, D. I., Scalable speculative parallelization
on commodity clusters. Proceedings of the 2010 43rd Annual IEEE/ACM International
Symposium on Microarchitecture (MICRO 43), pp. 3-14, 2010. doi: 10.11.09/
MICRO.2010.19.
33. Labrinidis, A., H.V. Jagadish, Challenges and opportunities with big data. Proceedings of
Very Large Data Base Endowment, 2012, 5(12), pp. 2032-2033.
34. Laney, D., 3-d data management: controlling data volume, velocity and variety. META
Group Research Note, 6 February 2001.
35. Loshin, David., Big Data Analytics From Strategic Planning to Enterprise
Integration with Tools, Techniques, NoSQL, and Graph, Morgan Kaufmann -Elsevier
Inc., 2013, ISBN: 978-0-12-417319-4, pp. 1-120.
36. Marz, N., Warren, J., Big data - Principles and best practices of scalable realtime data
systems (Chapter 1), 2014.
37. MccormicK, Douglas., Samsung, Nokia Show 5G Tech at NI Week,
http://spectrum.ieee.org/tech-talk/at-work/test-and-measurement/samsung-nokia-show-
5g-tech-at-ni-week, 2015.
38. Mcfedries, Paul., Beyond Just Big Data, We need new words to describe the
coming wave of machine-generated information,
http://spectrum.ieee.org/computing/software/beyond-just-big-data, 2015.
39. Minelli, M., Chambers, M., Dhiraj, A., Big data, big analytics: Emerging business
intelligence and analytic trends for todays businesses, 2013. Hoboken, NJ: John
Wiley & Sons, Inc.
40. Morabito, V., Big Data and Analytics. Springer International Publishing Switzerland
2015. DOI 10.1007/978-3-319-10665-6_2.
41. Mac Creary, D., Kelly, A. (2014). Making Sense of NoSQL: A guide for managers and
the rest of us. Manning, ISBN-13: 978-1617291074, ISBN-10: 1617291072.
42. Obama (2012.) Obama Administration Unveils Big Data Initiative: Announces $200
Million n New R&D Investments, accessed via
http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_press_release_fin
al_2.pdf
43. Oracle, Big Data: A Big Deal for Public Sector Organizations. Oracles big data
solutions, 2012.
https://www.google.ro/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&uact=8
&ved=0CC0QFjAAahUKEwjQ_67qu5HHAhUCWRQKHbnDDyM&url=http%3A%2F
%2Fwww.oracle.com%2Fus%2Findustries%2Fpublic-sector%2Fpublic-sector-big-data-
br-1676649.pdf&ei=qcHBVZCHG4KyUbmHv5gC&usg=AFQjCNFHaDsyH6PJi
VQ1feOIMX7_vq1fyA&sig2=KW5VsoW5RCjcH5cQX7LzeA
44. Rivera, Janessa., Rob Van Der Meulen, Gartner's 2014 Hype Cycle for Emerging
Technologies Maps the Journey to Digital Business,
http://www.gartner.com/newsroom/id/2819918, 2014.
45. Rouda, Nik., Mark Peters, IBM: The Optimal Storage Platform for Big Data, White
paper, The Enterprise Strategy Group, March, 2015.
46. Sonra-1, Admin., Data Warehousing n the age of Big Data. The end of an era?, 2015,
http://sonra.io/data-warehousing-in-the-age-of-big-data-the-end-of-an-era/.
47. Sonra-2, Admin., Data Warehousing n the Age of Big Data. RDBMS Scalability,
Exploding Data Volumes and License Costs, http://sonra.io/data-warehousing-in-the-
age-of-big-data-rdbms-scalability-exploding-data-volumes-and-license-costs/.
48. Stenstrom, M., Laine, K., Towards good practices for practice-oriented assessment n
European vocational education, Institute for Educational Research, University of
Jyvskyl, Finland, http://www.ktl-julkaisukauppa.fi/, ISSN 1456-5153, 2006, pp. 1-68.
49. ODriscoll, A., Daugelaite, J., Sleator, R. D., Big data, Hadoop and cloud computing
n genomics, Journal of Biomedical Informatics, vol. 46, no. 5, pp. 774781, 2013.
50. Sathi, A., Big data analytics: Disruptive technologies for changing the game. 2012. Boise,
ID: MC Press.
51. Shvachko, K., Kuang, H., Radia, S., Chansler, R., The hadoop distributed file system,
n MSST, 2010, pp. 110.
52. Sindol, D., Big Data Basics - Part 3 - Overview of Hadoop, 2014, Retrieved from:
https://www.mssqltips.com/sqlservertip/3140/big-data-basics--part-3--overview-of-
hadoop/.
53. Stonebraker, M., etintemel, U., Zdonik, S., The 8 requirements of real-time stream
processing, SIGMOD Rec., vol. 34, no. 4, pp. 4247, Dec. 2005. [Online]. Available:
http://doi.acm.org/10.1145/1107499.1107504.
54. Tantisiriroj, W., Patil, S., Gibson, G., Data intensive file systems for internet services:
A rose by any other name. 2008. Pittsburgh, PA: Parallel Data Laboratory, Carnegie
Mellon University. Retrieved from http://www.pdl.cs.cmu.edu/PDL-FTP/PDSI/CMU-
PDL-08-114.pdf.
55. Twardowski, B., Ryzko, D. Multi-agent architecture for real-time Big Data
processing. In 2014 IEEE/WIC/ACM International Joint Conferences on Web
Intelligence (WI) and Intelligent Agent Technologies (IAT). IEEE 2014, pp. 333-337,
doi: 10.1109/WI-IAT.2014.185.
56. Vavilapalli, V. K., Murthy, A. C., Douglas, C., Agarwal, S., Konar, M., Evans R., Graves,
T., Lowe, J., Shah, H., Seth, S., Saha, B., Curino, C., OMalley, O., Radia, S., Reed, B.,
Baldeschwieler, E., Apache hadoop yarn: Yet another resource negotiator, n
Proceedings of the 4th Annual Symposium on Cloud Computing, ser. SOCC 13. New
York, NY, USA: ACM, 2013, pp. 5:15:16. [Online]. Available:
http://doi.acm.org/10.1145/2523616.2523633.
57. Zhu, Y., Shasha, D., Statstream: Statistical monitoring of thousands of data streams
n real time, n Proceedings of the 28th International Conference on Very Large Data
Bases, ser. VLDB 02. VLDB Endowment, 2002, pp. 358369. [Online]. Available:
http://dl.acm.org/citation.cfm?id=1287369.1287401.