Вы находитесь на странице: 1из 104

PLANUL SECTORIAL DE PROGRAMUL AGENDA DIGITAL PENTRU

CERCETARE-DEZVOLTARE AL MSI ROMNIA SECIUNEA: SERVICII


2015-2017 ELECTRONICE

NR. CONTRACT / DATA 143/ 10.07.2015


Act adiional

Utilizarea tehnologiilor Big Data n sistemele


DENUMIRE PROIECT
informaionale guvernamentale

1: Studiu referitor la abordarea Big Data n


ETAPA DE ELABORARE
sectorul public
NR. VOL. / VERSIUNE 1/ 1

TERMEN DE PREDARE 30 NOIEMBRIE 2015

AUTORITATE CONTRACTANT Ministerul Comunicaiilor i pentru Societatea


Informaional

CONDUCEREA UNITII
ELABORATOARE

DIRECTOR GENERAL,
.
prof. dr. ing. Doina Banciu

DIRECTOR TIINIFIC,
.
dr.ing. Neculai Andrei

RESPONSABIL PROIECT,
prof. dr. ing. Adriana Alexandru .

LOCALITATEA Bucureti LUNA NOIEMBRIE ANUL 2015

ICI Reproducerea sau utilizarea integral sau parial a prezentului document n orice publicaii i prin orice procedeu
(electronic, mecanic, fotocopiere, multiplicare etc.) este interzis dac nu exist acordul scris al ICI.

Documentaia conine un studiu/raport de cercetare pe suport hrtie avnd 103 pagini i un CD coninnd respectivul
studiu/raport de cercetare
ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Plan sectorial: MSI

Proiect: Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Etapa I - noiembrie 2015

Denumire etap: Studiu referitor la abordarea Big Data n sectorul public

Rezultat: Studiu asupra seturilor de Big Data dedicate sectorului public care fac obiectul
proiectului. Analiz privind criteriile de selecie a celor mai reprezentative tehnologii, bune
practici i soluii de eGuvernare.

Activiti:

A I.1 - Studiu asupra conceptelor legate de Big Data


Rezultat: Studiu asupra seturilor de Big Data dedicate sectorului public care fac
obiectul proiectului
A I.2 - Elaborarea unui studiu privind arhitecturi, tehnologii i seturi Big Data n sisteme
informaionale guvernamentale
Rezultat: Criteriile de selecie a celor mai reprezentative arhitecturi, tehnologii i
seturi Big Data
A I.3 - Fundamentarea criteriilor de selecie a celor mai reprezentative tehnologii, bune
practici i soluii de sisteme informaionale guvernamentale
Rezultat: Criteriile de selecie a celor mai reprezentative bune practici i soluii de
eGuvernare
A I.4 - Managementul etapei
Rezultat: Raport de etap. Documente de predare

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 1


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 2


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Cuprins

1. INTRODUCERE....................................................................................................................... 6
1.1. SCOPUL PROIECTULUI ...................................................................................................... 8
1.2. OBIECTIVELE I FAZELE PROIECTULUI ............................................................................... 8
1.3. OBIECTIVELE FAZEI ACTUALE .......................................................................................... 10
1.4. REZUMATUL FAZEI ACTUALE ........................................................................................... 10
2. CONCEPTE LEGATE DE SETURILE BIG DATA .......................................................... 11
2.1. DEFINIREA BIG DATA ..................................................................................................... 11
2.2. CONCEPTE CONEXE ........................................................................................................ 14
2.2.1. Specialistul n date............................................................................................... 14
2.2.2. Analiza Big Data .................................................................................................. 15
2.2.3. Date ascunse (dark data) ...................................................................................... 16
2.3. PROBLEME SPECIFICE BIG DATA ..................................................................................... 17
2.4. PROVOCRI ALE BIG DATA .............................................................................................. 18
3. ARHITECTURI, TEHNOLOGII I SETURI BIG DATA N SISTEME
INFORMAIONALE GUVERNAMENTALE .............................................................. 20
3.1 ARHITECTURI PENTRU SISTEMELE BIG DATA ..................................................................... 20
3.1.1 Framework-ul Hadoop .......................................................................................... 20
3.1.2. Integrare Big Data cu Hadoop ............................................................................. 33
3.1.2.1. Arhitectura unui ecosistem pentru integrarea Big Data pentru business ...... 35
3.1.2.2. Arhitectura client-server pentru Big Data ..................................................... 37
3.1.2.3. Arhitectura pentru analiz Big Data ............................................................. 40
3.1.2.4 Arhitectura multi-agent pentru procesarea n timp real a Big Data ............... 41
3.1.2.5. Analiza Arhitecturii Multi-Agent Big Data .................................................. 44
3.2. TEHNOLOGII PENTRU BIG DATA ...................................................................................... 47
3.2.1. Mecanisme de stocare pentru Big Data ............................................................... 47
3.2.1.1. Baze de date .................................................................................................. 48
3.2.1.2. Tehnologia NoSQL ....................................................................................... 50
3.3. SETURI BIG DATA ........................................................................................................... 54
3.3.1. Categorii de date .................................................................................................. 54
3.3.2. Procesul de achiziie a datelor ............................................................................. 55
3.3.2.1. Colectarea datelor ......................................................................................... 55
3.3.2.2. Transferul datelor .......................................................................................... 56
3.3.2.3. Pre-procesarea datelor...................................................................................... 57
3.3.3. Sisteme distribuite pentru stocarea datelor .......................................................... 58
3.3.4. Domenii de aplicabilitate a Big Data ................................................................... 59
3.4. IMPACTUL BIG DATA I ANALYTICS ASUPRA SISTEMULUI PUBLIC ....................................... 62
3.4.1. Evoluii recente ale sistemului public................................................................... 62
3.4.2. Oportuniti specifice serviciilor publice ............................................................. 63
3.4.3. Provocri specifice sectorului public ................................................................... 64
3.4.4. Beneficii specifice sectorului public ..................................................................... 65
4. CRITERII DE SELECIE A CELOR MAI REPREZENTATIVE TEHNOLOGII,
BUNE PRACTICI I SOLUII DE SISTEME INFORMAIONALE
GUVERNAMENTALE ..................................................................................................... 67
4.1. FUNDAMENTAREA NECESITII ABORDRII BIG DATA N CADRUL SISTEMELOR
INFORMAIONALE GUVERNAMENTALE ..................................................................................... 67
4.2. CRITERII DE EVALUARE A INFRASTRUCTURII HARD ............................................................ 71
4.2.1. Criterii de utilizare ale Cloud Computing pentru Big Data................................. 71

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 3


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

4.2.2. Existena backbon-ului 5G pentru aplicaii Big Data i Internetul lucrurilor. .... 72
4.3. CRITERII DE EVALUARE A TEHNOLOGIILOR I SOLUIILOR SOFTWARE ................................ 72
4.3.1. O clasificare a tehnologiilor Big Data ................................................................. 72
4.3.2. Criterii de selecie a celor mai reprezentative servicii......................................... 73
4.3.3. Stiva metodelor analitice predictive pentru Big Data n timp real ...................... 73
4.3.4. Criterii utilizate n alegerea modului de stocare i procesare primar a datelor75
4.3.5. Criterii n alegerea metodelor de stocare a datelor n sistemele Big Data ......... 75
4.3.6. Comparaii ntre conceptul de depozit de date (data warehouse) i abordarea Big
Data ................................................................................................................................ 76
4.3.7. Criterii de alegere a software-ului de stocare i procesare pentru Big Data ...... 78
4.3.7.1 Criterii de selectare a modalitilor de stocare a Big Data............................. 80
4.3.7.2 Exemplu de platform de stocare a datelor-Spectrum Scale de la IBM ........ 80
4.3.8. Criterii utilizate n alegerea metodelor i modelelor analitice ....................... 81
4.3.9. Criterii de selecie asociate cadrului general al metodelor analitice pentru Big
Data n timp real............................................................................................................. 82
4.4. ROLUL SPECIALITILOR N DATE I CRITERII DE ALEGERE A ACESTORA .............................. 85
4.4.1. Joburi specifice Big Data ..................................................................................... 85
4.5. BIG DATA N GUVERNARE - GHID DE BUNE PRACTICI ...................................................... 85
4.6. UTILIZAREA BUNELOR PRACTICI N DOMENIUL BIG DATA ................................................. 94
4.6.1. Aspecte generale teoretice legate de bunele practici ........................................... 94
4.6.2. Bune practici pentru managementul Big Data ..................................................... 94
4.6.3. Studiu de caz Proiectul European Anticorupie ................................................ 95
4. CONCLUZII I PLANUL DE CONTINUARE .................................................................. 97
5. BIBLIOGRAFIE ..................................................................................................................... 99
6. ANEXA - GLOSAR DE TERMENI ................................................................................... 103

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 4


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Figuri n cadrul raportului de cercetare


Figura 1. Arhitectura de nivel nalt de cluster Hadoop multi-nod ........................................... 22
Figura 2. Un cluster multi-nod Hadoop ................................................................................... 23
Figura 3. Ecosistemul Hadoop ................................................................................................. 25
Figura 4. Arhitectura HDFS de tip master / slave .................................................................... 26
Figura 5. Arhitectura HDFS pe dou niveluri .......................................................................... 27
Figura 6. Model de procesare MapReduce .............................................................................. 28
Figura 7. Arhitectura sistem MapReduce i HDFS pentru un cluster mare............................. 29
Figura 8. Arhitectura MapReduce............................................................................................ 30
Figura 9. Arhitectura Big Data................................................................................................. 33
Figura 10. Arhitectura unui ecosistem pentru integrarea Big Data ......................................... 36
Figura 11. Arhitectura client-server pentru Big Data .............................................................. 37
Figura 12. Arhitectura Cluster HBase/Hadoop pentru Big Data ............................................. 39
Figura 13. Arhitectura pentru Analize Big Data ...................................................................... 41
Figura 14. Arhitectura Lambda ................................................................................................ 41
Figura 15. Arhitectura Lambda integrat cu Hadoop .............................................................. 43
Figura 16. Arhitectura pentru prelucrarea Big Data folosind sisteme multi-agent .................. 45
Figura 17. Ciclul de execuie pentru tehnologiile emergente .................................................. 67
Figura 18. Stiva metodelor analitice predictive pentru Big Data n timp real ......................... 74
Figura 19. Componentele majore puse mpreun ntr-o soluie Big Data complet ................ 79
Figura 20. Transformarea Big Data n valoare ........................................................................ 82
Figura 21. Algoritmi de nvare main pentru analiza Big Data (dup IBM, 2015) ............ 84
Figura 22. Carteluri Unele firme liciteaz mpreun cu un ctigtor i pierd periodic ....... 95

Tabele n cadrul raportului de cercetare


Tabelul 1. Task-urile MapReduce........................................................................................... 29
Tabelul 2. Componentele Hadoop i funcionalitile lor ....................................................... 32
Tabelul 3. Comparaie a celor mai importante caracteristici ale bazelor de date SQL i
NoSQL ..................................................................................................................................... 76
Tabelul 4. Probleme guvernamentale de afaceri potrivite pentru o soluie de Big Data ........ 88

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 5


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

1. Introducere
Pe parcursul ultimelor decenii, organizaiile au nceput s acorde importan sporit
datelor i s investeasc mai mult n colectarea i gestionarea lor. Managementul tradiional
al informaiei i procesele de analiz a datelor (analytics) urmresc n principal sprijinirea
proceselor decizionale interne. Acestea opereaz cu date de tip structurat, existente
preponderent n interiorul organizaiei.

n comparaie cu instrumentele analitice tradiionale, conceptul Big Data introduce


modificri n cadrul a trei dimensiuni: (1) tipuri de date, (2) viteza de acumulare a acestora i
(3) volumul lor. Odat cu lansarea mediului Web 2.0, n jurul anului 2005, o mare parte din
datele de valoare pentru ntreprinderi sunt generate n exteriorul organizaiei, de ctre
consumatori i n general, utilizatori Web.

Pe parcursul evoluiei IT, fiecare generaie de procesare i analiz a datelor


organizaionale a cptat denumiri noi.

Unele tipuri de date precum text i voce, exist de mult timp, ns volumul acestora n
mediul Internet i n alte structuri digitale anun nceputul unei noi ere, precum i a unor noi
tehnologii care permit analizarea acestor tipuri de date.

Dincolo de informaiile colectate n interiorul organizaiilor i de volumul crescnd de


date pe care le genereaz calculatoarele n funcionarea lor, cele obinute din exteriorul
organizaiei, fie structurate sau nestructurate, au surse multiple care pot include de la
informaii postate pe reele de socializare i produse vizionate n magazine virtuale, la
informaii citite de ctre senzori, semnale GPS de pe dispozitivele mobile, adrese IP ale
computerelor, cookie-uri, coduri de bare .a.m.d.

Multe dintre cele mai importante surse de date ns sunt relativ noi. Se argumenteaz
c explozia volumului de date caracteristic fenomenului prezent, Big Data, provine din datele
de natur nestructurat. n cadrul acestora, spre deosebire de datele generate de ctre
utilizatori, care au la origine informaii furnizate voluntar n diferite medii de diseminare
Web, exist i datele interceptate. Acestea din urm se refer la informaii colectate n mod
pasiv din comportamentul online al indivizilor, cum sunt, de pild, termenii de cutare online
sau localizarea indivizilor prin aplicaiile prezente pe dispozitivele mobile.

n acest context, anumii cercettori exprim faptul c fiecare persoan devine un


generator ambulant de date.

Contextul european

Crearea de date se desfoar ntr-un ritm record i neateptat. Analitii care


desfoar studii de pia consider c organizaiile cele mai capabile s ia decizii de afaceri
n timp real folosind soluiile Big Data se vor dezvolta, n timp ce acelea incapabile s adopte
i s foloseasc aceast schimbare se vor gsi din ce n ce mai des n dezavantaj pe pia i se
vor confrunta cu un posibil eec.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 6


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Big Data, un termen general pentru cantitatea masiv de date colectat din variate
surse, este prea mare, neprocesat sau nestructurat pentru analiza prin tehnicile
convenionale ale bazelor de date.

Numeroase ghiduri, articole de pres i rapoarte ale mediului de afaceri au propus


mijloace prin care guvernele se pot folosi de Big Data pentru a le ajuta s serveasc cetenii
i s depeasc provocrile pe plan naional (cum ar fi creterea costurilor pentru sntate,
creare de locuri de munc, dezastre naionale i securitate naional).

La nivel european, mbuntirea analizei i procesrii datelor, n special a Big Data,


va permite:

transformarea serviciilor industriale ale Europei prin generarea multor produse i


servicii

inovatoare bazate pe informaie;

creterea productivitii n toate sectoarele economiei prin mbuntirea informaiilor


de afaceri;

adresarea mai adecvat a multor provocri cu care se confrunt societatea noastr;

mbuntirea cercetrii i creterea vitezei de inovare;

dobndirea unor reduceri de costuri prin folosirea de servicii personalizate;

creterea eficienei sectorului public

primirea de informaii despre datele ce pot preveni sau mpiedica fraude i abuzuri.

n prezent, Platforma European pentru Tehnologia Software i Servicii NESSI,


mpreun cu parteneri din proiectul FP7 Big, a realizat planul Agendei de Cercetare
Strategic i Inovare (ACSI) cu privire la Big Data Value n Europa. Obiectivul ACSI este de
a descrie principalele provocri de cercetare i nevoile cu privire la implementarea Big Data
Value n Europa.

Contextul naional

n Romnia nu au fost realizate cercetri cu privire la tipul i complexitatea datelor


aflate n exploatare n diversele sisteme informatice de la nivelul Administraiei Publice
Centrale, iar cadrul legislativ i organizatoric aferent implementrii sistemelor de tip Big
Data nu este nc elaborat. Cu toate acestea, este important s amintim cteva sisteme
informatice implementate cu succes n anii precedeni n Romnia.

Datele stocate n aceste sisteme naionale sunt exemple de categorii de date candidate
pentru implementarea sistemelor de tip Big Data:

SEAP Sistemul Electronic de Achiziii Publice

DEDOC i sistemul RAMP aflat n implementare la nivelul MFP

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 7


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Sistemul informatic integrat al ONRC

ORIZONT - Sistem Integrat pentru Casa Naional de Pensii Publice

SIUI, Dosarul Electronic de Sntate, e-Prescripie Sisteme aflate n exploatare la


nivelul Casei Naionale de Asigurri de Sntate (CNAS)

Sistemele informatice ce realizeaz legtura dintre entitile Ministerului pentru


Finanele Publice

eTerra Sistemul integrat de Cadastru i Publicitate Imobiliar.

1.1. Scopul proiectului

Cercetarea n domeniul Big Data poate conduce la dezvoltarea programelor de politici


publice i poate mbunti performana guvernului, att n beneficiul agenilor externi i al
cetenilor, ct i n beneficiul propriilor ageni guvernamentali.

Scopul proiectului const n identificarea i analiza unor sisteme i tehnologii Big


Data pentru creterea eficienei sistemului guvernamental, prin adaptarea i mbuntirea
proceselor i operaiunilor existente i prin implementarea unora complet noi.

Proiectul i propune analiza de modele, practici de gestionare i soluii de utilizare a


tehnologiilor Big Data ca suport pentru dezvoltarea de servicii electronice fie n cadrul
platformelor deja existente destinate furnizrii de servicii publice on-line, fie n cadrul unor
platforme nou create n jurul potenialului dat de seturile de Big Data.

Furnizarea de instrumente uor accesibile i o analiz profund la nivelul societii


informaionale poate permite organizaiilor comerciale, societii civile i persoanelor fizice
s contribuie mult mai eficient la dezvoltarea sectorului public ntr-o diversitate de moduri.

1.2. Obiectivele i fazele proiectului

Obiectivul principal al proiectului const n identificarea i analiza unor sisteme i


tehnologii Big Data pentru creterea eficienei sistemului guvernamental, prin adoptarea i
mbuntirea proceselor i operaiunilor existente i prin implementarea unora complet noi.

Obiectivele specifice ale proiectului sunt:

1. Analiza privind seturile de date care se ncadreaz n conceptul de Big Data;

2. Analiza provocrilor curente privind securitatea, confidenialitatea datelor i


posibile vulnerabiliti induse de sisteme Big Data;

3. Determinarea practicilor adecvate de gestionare i procesare a datelor din diferite


surse i aflate n diverse formate;

4. Modaliti de identificare a datelor i a coninutului adecvat organizaiilor


guvernamentale n vederea optimizrii, reducerii costurilor i creterea valorii
serviciilor;

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 8


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

5. Analiz privind depozitarea i gestionarea Big Data n sisteme de Cloud


Computing;

6. Analiz privind serviciile i tehnologiile Big Data n sistemele informaionale


guvernamentale.

Obiectivele msurabile. n urma derulrii proiectului vor fi obinute urmtoarele


rezultate directe:

- Realizarea unui studiu privind metodele de definire a seturilor Big Data aplicabile
sectorului guvernamental;

- Un studiu privind cerinele de stocare i tipurile de formate a datelor structurate i


nestructurate ntlnite frecvent n cadrul seturilor Big Data guvernamentale;

- Un studiu privind criteriile de selecie a tehnologiilor Big Data reprezentative din


sectorul de eGuvernare;

- Realizarea unui studiu privind soluiile Big Data implementate n sisteme


informaionale guvernamentale;

- Un studiu privind depozitarea i gestionarea Big Data utiliznd Cloud Computing


ca suport de stocare i dezvoltare tehnologic pentru soluii informatice;

- Un set de caracteristici reprezentative pentru dezvoltarea serviciilor bazate pe


seturile Big Data;

- Un set de caracteristici din perspectiva utilizrii impactului tehnologiilor Big Data


pentru servicii informaionale guvernamentale n Romnia;

- Un set de recomandri n vederea implementrii tehnologiilor Big Data pentru


dezvoltarea serviciilor guvernamentale.

Obiectivele specifice ale proiectului de cercetare propus sunt conforme cu principalele


activiti definite prin Termenii de referin. Astfel, prin soluiile i rezultatele care urmeaz a
fi obinute se are n vedere realizarea obiectivelor i prioritilor programului n sensul
contribuiei la introducerea i dezvoltarea tehnologiilor Big Data ca suport pentru dezvoltarea
guvernrii electronice prin aplicaii informatice de interes public i personal.

Fazele de realizare ale proiectului pe toat durata cercetrii sunt urmtoarele:

Nr. crt. Anul Denumire faz Termen de predare


Analiza seturilor Big Data dedicate sectorului public i
studierea practicilor de gestionare i procesare a datelor
1 2015 din diferite surse aflate n diverse formate Noiembrie 2015

Analiza asupra tehnologiilor, bunelor practici i a


soluiilor de eGuvernare care utilizeaz seturi Big Data,
2 2016 existente la nivel naional, european i internaional Noiembrie 2016

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 9


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Identificarea impactului produs de utilizarea seturilor


Big Data pentru dezvoltarea sistemelor informaionale
3 2017 guvernamentale n Romnia. Elaborarea unui set de Noiembrie 2017
recomandri privind bunele practici studiate, referitoare
la serviciile i tehnologiile Big Data

1.3. Obiectivele fazei actuale

n cadrul acestei etape intitulat Studiu referitor la abordarea Big Data n sectorul
public, principalele obiective constau n:

- Realizarea unui studiu asupra conceptelor legate de Big Data i asupra seturile de
Big Data dedicate sectorului public care fac obiectul proiectului
- Elaborarea unui studiu privind arhitecturi, tehnologii i seturi Big Data n sisteme
informaionale guvernamentale.
- Fundamentarea unor criterii de selecie a celor mai reprezentative arhitecturi,
tehnologii i seturi Big Data
- Identificarea criteriilor de selecie a celor mai reprezentative bune practici i soluii
de eGuvernare

1.4. Rezumatul fazei actuale

n cadrul primei faze a proiectului, colectivul de cercetare a elaborat raportul de


cercetare aferent fazei conform cu Termenii de referin i Planul de realizare al proiectului.

Raportul de cercetare elaborat n cadrul primei faze cuprinde 4 capitole principale,


un capitol de concluzii, unul cu bibliografie i o anex.

Pentru atingerea obiectivelor fazei 1, n Capitolul 1 - Introducere sunt prezentate


condiiile n care a aprut fenomenul Big Data, scopul proiectului, obiectivele i fazele
proiectului.

n Capitolul 2 s-a realizat un studiu privind conceptul Big Data, concepte conexe
(specialistul n date, analiza Big Data, date ascunse (dark data)), probleme specifice Big Data
i provocri ale Big Data.

Capitolul 3 prezint diferite arhitecturi pentru sistemele cu Big Data (framework-ul


Hadoop, integrarea Big Data cu Hadoop), tehnologii pentru Big Data (Tehnologia NoSQL),
seturi Big Data precum i impactul Big Data i analiza datelor aferente sistemului public.

n Capitolul 4 sunt prezentate pe de o parte criteriile de selecie a celor mai


reprezentative tehnologii i pe de alt parte bunele practici i soluiile pentru sistemele
guvernamentale.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 10


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

2. Concepte legate de seturile Big Data

Big Data reprezint un concept care se refer la o iniiativ informaional care


rezolv problema procesrii unei cantiti crescute de date ntr-un interval limitat. Aproape
90% din datele existente n prezent la nivel mondial au fost generate n ultimii doi ani. Mai
mult, aproximativ 90% din aceste date sunt nestructurate. Pe de alt parte, cantitatea
copleitoare de Big Data existent pe web i n Cloud ofer noi oportuniti pentru
descoperirea i crearea de valoare, pentru creterea inteligenei n afaceri prin deciziile
adoptate la nivel de organizaii (Gang-Hoon, 2014).

Bazndu-se pe civa ani de succes n diferite segmente de guvernare, n martie 2012,


Administraia de la Casa Alb a dezvoltat i a anunat lansarea "Iniiativei de Cercetare i
Dezvoltare n Big Data". Aceast iniiativ este destinat a "ajuta la rezolvarea unora dintre
cele mai presante provocri ale naiunii" prin ncurajarea i mbuntirea capacitii de a
genera descoperiri prin colectarea i analiza unor colecii de date mari i complexe (Obama,
2012).

n esen, acest anun a declanat o creterea curiozitii i interesului n tehnologiile


i mijloacele de analiz aferente Big Data din ntregul spectru guvernamental.

Conceptul de Big Data este n prim-planul temelor actuale n cele mai multe cercuri
de IT. nelegerea conceptului de Big Data, la fel ca orice alt tehnologie n curs de
dezvoltare, necesit mai nti ca acesta s fie definit.

2.1. Definirea Big Data


n anul 2001, un analist al companiei de consultan META (n prezent Gartner) a
definit schimbrile i oportunitile aduse de volumul mare de date printr-un model 3V:
Volum, Vitez i Varietate (Laney, 2001).

n 2011, un raport al International Data Corporation a definit Big Data ca fiind o


nou generaie de tehnologii i arhitecturi, proiectate pentru a extrage valoare economic
din volume foarte mari de date de o larg varietate, prin asigurarea unei viteze ridicate de
captare, descoperire i/sau analiz (Gantz i Reinsel, 2011). Cu aceast definiie,
caracteristicile Big Data pot fi sintetizate prin 4V, adic Volum, Vitez, Varietate i
Veridicitate. Aceast definiie evideniaz cea mai critic problem n Big Data, aceea a
descoperirii valorilor din seturile de date cu dimensiuni uriae, n condiiile unei mari
varieti de tipuri de date i unei generri rapide a datelor.

National Institute of Standards and Technology a formulat la rndul su urmtoarea


definiie: Big Data nseamn datele al cror volum, vitez de achiziie sau reprezentare
limiteaz capacitatea folosirii metodelor relaionale tradiionale de a efectua o analiz
eficient, sau datele care pot fi procesate cu succes cu tehnologii de investigare pe
orizontal, care se concentreaz pe aspectul tehnologic al Big Data. Aceasta indic
necesitatea dezvoltrii de metode i tehnologii eficiente pentru analiza i procesarea Big
Data.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 11


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Alte definiii au fost furnizate de:

- Un raport din 2011 al McKinsey Global Institute n care se afirm: Big Data se
refer la seturi de date a cror dimensiune depete capacitatea de captare, stocare,
administrare i analiz a instrumentelor software i a bazelor de date uzuale.

- Conform definiiei propuse de EMC i IDM, Big Data reprezint o nou generaie
de tehnologii i arhitecturi destinate extragerii de valoare din cadrul volumelor foarte mari
de date care au o mare varietate, permind prelucrarea i analiza acestora n timp real.

- Wikipedia: Big Data include n mod usual seturi de date de dimensiuni care
depesc capacitatea instrumentelor utilizate curent pentru a le captura, administra, gestiona
i procesa ntr-un interval de timp admisibil.

- Firma de consultan Gartner: Big Data reprezint informaie de volum mare, de


mare vitez de generare i / sau varietate ridicat, care necesit noi forme de prelucrare
pentru a permite luarea de decizii mbuntite, descoperirea de aspecte ascunse i
optimizarea proceselor.

Big Data reprezint un concept care se refer la o iniiativ informaional care


rezolv problema procesrii unei cantiti crescute de date ntr-un interval limitat.

Termenul Big Data se refer la instrumente, procese, i proceduri care permit


organizaiilor s creeze, s manipuleze i s administreze seturi mari de date precum i
faciliti de stocare a acestora.

Big Data face referire la colecia de seturi de date ntr-att de mari i complexe nct
devin dificil de procesat folosind doar instrumentele de gestiune a bazei de date aflate la
dispoziie sau aplicaiile tradiionale de procesare a datelor.

Rezumnd, conceptul Big Data se refer la instrumente, procese, i proceduri care


permit organizaiilor s creeze, s manipuleze i s administreze seturi mari de date precum i
faciliti de stocare a acestora. Aceste volume nu se pot evalua n TB (terabytes), PB
(petabytes) sau dimensiuni mai mari.

n plus, Big Data reprezint o nou generaie de tehnologii i arhitecturi destinate


extragerii de valoare din cadrul volumelor foarte mari de date care au o mare varietate,
permind prelucrarea i analiza acestora n timp real.

Tehnologiile Big Data reprezint un domeniu aflat n continu dezvoltare ce se ocup


cu analiza i gestionarea volumelor mari de date. Aceast definiie cuprinde att
echipamentele hardware, ct i sistemele software care integreaz, organizeaz, gestioneaz,
analizeaz i prezint datele care se caracterizeaz prin cei "patru V".

ntruct cei "patru V" sunt considerai definitorii pentru acest concept, este oportun o
detaliere a semnificaiei acestor caracteristici.

1. Volum: creterea volumelor de date n sisteme de tip ntreprindere este cauzat de


volumul tranzaciilor i a altor tipuri de date tradiionale, precum i de noi tipuri de date. Un

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 12


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

volum prea mare de date reprezint o problem de stocare, dar prea multe date au n egal
msur i un mare impact asupra complexitii analizei datelor;

2. Vitez: se refer att la rapiditatea cu care datele sunt produse, ct i la rapiditatea cu


care datele trebuie s fie prelucrate pentru a satisface cererea. Acest lucru implic fluxuri de
date, crearea de nregistrri structurate, precum i disponibilitatea pentru acces i livrare.
Viteza de generare, prelucrare i analiz a datelor crete continuu, n principal din
urmtoarele motive: specificul de timp real al proceselor de generare, cererile care rezult din
combinarea fluxurilor de date cu procesele de afaceri, specificul proceselor de luare a
deciziilor. Viteza de prelucrare a datelor trebuie s fie ridicat n timp ce capacitatea de
prelucrare depinde preponderent de tipul de prelucrare al fluxurilor de date.

3. Varietate: liderii IT au avut ntotdeauna o problem cu transformarea volumelor mari


de informaii tranzacionale n decizii dei tipurile de date generate sau prelucrate erau puin
diversificate, mai simple i majoritar structurate. n prezent exist mai multe tipuri de
informaii pentru analiz generate de noile canale i tehnologii aprute - n principal
provenind din social media, Internetul lucrurilor, surse mobile (sensibile la context) i
publicitatea online care genereaz date semistructurate sau nestructurate. Varietatea include
date tabelare (baze de date), date ierarhice, documente, XML, e-mailuri, blog-uri, mesaje
instant, click stream-uri, fiiere log, date de contorizare, imagini statice, audio, video, date
despre cursul aciunilor (stoc ticker), tranzacii financiare etc.

4. Veridicitate: se refer la ct de ncredere sau de ndoielnice sunt datele. Calitatea


datelor Big Data este mai puin controlabil deoarece provine din diferite surse pentru care nu
se poate garanta calitatea coninutului i forma lui de prezentare. Pentru analistul de date
experimentat este esenial capacitatea de a evalua conformitatea, acurateea i sinceritatea
datelor supuse analizei. Aici discuia se poart n jurul responsabilitii generatorului iniial al
datelor, scopului pentru care datele sunt emise i reaciilor receptorilor.

Nu exist un prag predefinit al celor patru V, care s indice cnd o organizaie a


intrat n domeniul "Big Data". Pe msur ce tehnologiile avanseaz, dimensiunile seturilor de
date care pot fi caracterizate ca Big Data vor crete permanent. Acest prag este relativ i se
bazeaz pe doi factori:

un factor tactic: dac infrastructura IT existent nu poate face fa n condiii de


eficien creterii unuia dintre cei patru V, organizaia are o posibil problem de
tip Big Data (o problem de scalare);

un factor strategic: dac compania nu i poate atinge obiectivele fr analiza unui


volum mai mare de informaii, iar aceast cerin complic soluia existent de
management a datelor.

Exist un consens larg n cadrul mediului comercial, dar i academic i de guvernare


cu privire la potenialul remarcabil al tehnologiilor Big Data n direciile inovrii, susinerii
comerului i dezvoltarea serviciilor publice pentru ceteni.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 13


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

n stadiul actual, Big Data reprezint tranziia de la simpla analiz statistic a datelor
la o abordare mult mai complex i sistematic, care poate s impulsioneze dezvoltarea att a
serviciilor de guvernare, ct i a companiilor private.

Diferite sisteme stocheaz datele n diferite formate, chiar i n cadrul aceleiai


companii, ceea ce face dificil agregarea datelor pentru analiz. Ca urmare, investiiile unei
organizaii n date, unul dintre activele sale cele mai de valoarea, nu sunt utilizate n totalitate.

Creterea gradului de contientizare a valorii dobndite prin analiza datelor ntr-un


context geografic duce la dorina de a descoperi tipare i relaii bazate pe locaie n Big Data
care permit luarea de decizii informate pentru rezultate mai bune n afaceri.

Folosirea Big Data poate ajuta doctorii n alegerea corect i mai rapid al
tratamentului, pe baza informaiilor colectate de ctre un alt personal medical. Pacienii pot
beneficia de un tratament mai adecvat i la timp urmnd s fie mai bine informai cu privire
la furnizorii de servicii medicale. O utilizare inteligent a Big Data poate gestiona mai bine
fluxurile de trafic, ceea ce face oraele noastre mai inteligente. Cetenii i companiile pot
economisi timp prin utilizarea de sisteme de planificare traseu. Big Data permite livrarea la
timp i adecvat a produselor pentru consumatori i procese mai eficiente cu economii de
costuri pentru afaceri.

Big Data Analytics reprezint procese de examinare a unor cantiti uriae de date
de tipuri diferite, pentru a descoperi abloane ascunse, neidentificate i alte informaii utile.
Aceste informaii pot furniza avantaje n competiia dintre organizaii i pot produce
beneficii economice, precum eficientizarea activitilor specifice.

Tehnologiile legate de Big Data Analytics includ Hadoop, MapReduce i bazele de


date NoSQL. Aceste tehnologii constituie partea central a unui framework software de tip
open-source, care faciliteaz procesarea unor seturi uriae de date stocate n sisteme
clusterizate.

Potenialele probleme pe care diversele tipuri de organizaii le pot avea n legtur


cu analiza volumelor mari de date au la baz lipsa competenelor n acest domeniu a
personalului intern i costurile mari a angajrii profesionitilor n acest domeniu. Prin
urmare, s-a constatat necesitatea lrgirii bazei de specialiti n acest domeniu prin programe
de studiu dedicate.

Analiza volumelor mari de date, structurate sau nestructurate, pe lng aplicarea


unor tehnici specifice, impune i folosirea unui calcul performant bazat pe programare
paralel i distribuit.

2.2. Concepte conexe

2.2.1. Specialistul n date


Fenomenul Big Data este strns legat de apariia i consacrarea tiinei datelor, o
disciplin care combin matematica, programarea i instinctul tiinific.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 14


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

A beneficia de Big Data nseamn a investi n echipe care acoper un set de


competene i care se pot baza n activitatea lor pe interesul organizaiei respective de a
nelege i utiliza n scop lucrativ aceste date. Conform Raportului "Building Data Science
Teams, (http://www.oreilly.com/data/free/files/building-data-science-teams.pdf) specialitii
n tiina datelor trebuie s aib urmtoarele caliti:

- expertiz tehnic: cei mai buni specialiti n domeniu au de obicei o experien


avansat ntr-o disciplin tiinific;
- curiozitate: dorina de a descoperi i rafina o problem ntr-un set foarte clar de
ipoteze care pot fi testate;
- talent narativ: abilitatea de utilizare a datelor pentru a compune o poveste i pentru a
o putea comunica eficient;
- creativitate: capacitatea de a aborda o problem n diferite moduri creative.

Principalele competene ale unui asemenea specialist se refer la:

colaborare i munc n echip, n relaia cu prile interesate, pentru nelegerea


problemelor de afaceri;

abiliti de analiz i de modelare a deciziilor pentru descoperirea relaiilor dintre date


i detectarea modelelor;

abiliti de management al datelor pentru construirea seturilor de date relevante,


folosite pentru analiz.

Tematica instruirilor pentru specialitii n tiina datelor include:


identificarea unor surse bogate de date ;

lucrul cu volume mari de date n orice condiii hardware, software, comunicaii;

curarea datelor i asigurarea consistenei lor;

mixarea seturilor de date;

vizualizarea datelor;

construirea de instrumente care permit folosirea eficient a datelor de ctre teri.

2.2.2. Analiza Big Data


Big Data Analytics (BDA) se ocup cu managementul i analiza datelor
multistructurate provenind n general de la surse din domeniul economic sau social: coninut
email, video, mesaje twitter, postri facebook i alte tipuri de coninut web. Datele generate
de la senzori i alte dispozitive conectate reprezint o alt surs neexplorat i cu potenialul
de a furniza introspecii care s sprijine funcionarea i dezvoltarea organizaiilor din
domeniul public sau privat.

Abordarea BDA se adreseaz provocrilor generate de dou tendine evidente n


procesarea datelor: ponderea tot mai mare a datelor nestructurate i multistructurate
generate de surse de date foarte prolifice i larg rspndite (ca de ex. reelele sociale, reele de

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 15


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

senzori, Internetul obiectelor) i decalajul tot mai mare dintre cantitatea disponibil de date
importante i capacitatea de a le procesa n timp pentru suportul decizional.

Conform (Gartner, 2014) informaiile neanalizate reprezint resurse neutilizate.


Reciproc, analiza care nu se sprijin pe un fundament solid de date poate duce la decizii de
slab calitate. Domeniul BDA reprezint deci aplicarea capacitilor analitice (descriptive, de
diagnosticare, predictive, prescriptive) pe seturi de date mari, care sunt variate i/sau care se
modific rapid. Aplicarea capacitilor analitice n contextul Big Data, n special n
combinaie cu seturi de date tradiionale (depozite de date, procesare analitic online -
OLAP), a crescut semnificativ varietatea suportului decizional.

2.2.3. Date ascunse (dark data)


Conform (Dayley, 2013) dark data reprezint activele de informare colectate,
procesate i stocate de organizaii n timpul activitilor de afaceri, dar care n general nu pot
fi folosite n alte scopuri (de exemplu analize, relaii de afaceri, valorificare direct). Sunt
datele pltite pentru stocare, protejare i gestionare, care nu au fost utilizate eficient pentru a
mbunti creterea valorii afacerii i care prin coninutul lor pot pune afacerea n pericol.

Cteva dintre modalitile de elucidare a acestor date sunt urmtoarele


(CommVault, 2014):

a) Controlul volumului datelor: are la baz constatarea c 69% dintre datele stocate de
companii nu au valoare pentru organizaie. Utilizarea politicilor bazate pe reinerea
coninutului va permite organizaiei s pstreze doar datele importante pentru afacere.

b) Captarea datelor: datele trebuie colectate oriunde sunt create. Ideea este c datele
produse pe dispozitivele mobile de ultim generaie pot include coninut de valoare
excepional, la fel de mult ca i informaia stocat pe serverele virtualizate, n cloud
corporativ.

c) Furnizarea accesului la cerere: angajaii din cadrul organizaiei gsesc valoare n


diferite tipuri de date. Vnzrile pot avea nevoie de informaii pentru stabilirea preurilor
semestriale, n timp ce conducerea operativ poate avea nevoie de date cu privire la
utilizarea facilitilor, iar Resursele Umane de detalii privind satisfacia la locul de
munc. Toate aceste date se afl n informaii arhivate, dar nu sunt utile pn cnd nu sunt
cutate i gsite. Este mai uor de a da utilizatorilor accesul pentru cutarea i accesarea
datelor de care au nevoie, dect s fie nfiinat un departament de data mining a datelor n
interiorul organizaiei.

d) Automatizarea ciclului de via al datelor: cu att de mult coninut stocat care nu este
valoros afacerii, se ia n considerare evaluarea ntregului ciclu de via al datelor, de la
creare pn la disponibilizare. Stabilirea politicilor de guvernare a datelor pentru tergerea
coninutului poate fi o cheie important n reducerea datelor ascunse (dark data).

e) Asigurarea conformitii i descoperirii: auditurile de conformitate i litigiile sunt


evenimente cu care companiile nu doresc s se confrunte, dar pentru care trebuie s se
pregteasc. Reglementrile de conformitate se regsesc peste tot (n industrie, n
administraie) i organizaiile neleg pericolul aciunilor juridice luate mpotriva lor. Cea

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 16


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

mai bun cale de a minimiza costul acestor aciuni este de a fi proactiv n asigurarea unor
faciliti avansate de cutare i descoperire a datelor.

2.3. Probleme specifice Big Data


Prin valoarea pe care o conin, Big Data sunt considerate o adevrat min de aur
pentru organizaiile care le dein. Infrastructura tradiional TIC i metodele de gestiune i
analiz a datelor sunt n continuare neadaptate principalelor probleme specifice ale
domeniului, prezentate n continuare.

Viteza: sistemele de gestiune a bazelor de date relaionale (RDBMS) utilizeaz n


general metode de prelucrare i stocare centralizate, care pot satisface cerinele sistemelor de
gestiune tradiionale. Cnd se confrunt cu un volum tot mai mare de date i scenarii
dinamice de utilizare a lor, abordarea centralizat devine o piedic, n special datorit
timpului de rspuns.

Arhitectura i tipul datelor: RDBMS au dezvoltat modele mature pentru stocarea,


interogarea i prelucrarea datelor. Datele sunt structurate i au modele fixe. Odat cu
dezvoltarea rapid a Internetului obiectelor i a reelelor de comunicaie mobile, formatele i
tipurile de date se diversific n mod constant. De aceea este necesar i diversificarea
modalitilor de prelucrare, stocare i integrare a unor date ale cror tipuri, surse i structuri
sunt diferite. Modelul general de management al datelor necesit noi tipuri sisteme i
arhitecturi distribuite pentru baze de date NoSQL, capabile a se adapta la volume mari de
date i structuri n schimbare.

Volum i flexibilitate: n ceea ce privete stocarea datelor, trebuiesc adoptate o


arhitecturi distribuite i scalabile, cum ar fi bine cunoscutele soluii Hadoop
(http://hadoop.apache.org/) i HBase (http://hbase.apache.org/). Pentru prelucrarea datelor
trebuie adoptat, de asemenea, o arhitectur distribuit, cu luarea n considerare a corelrii
nodurilor de stocare a datelor i a nodurilor de calcul. Identificarea resurselor adecvate pentru
prelucrarea distribuit a datelor este o problem complex datorit diversitii cerinelor de
calitate a serviciilor (QoS) ale utilizatorilor i schimbrii strii resurselor.

Costuri: n cazul soluiei centralizate de prelucrare i stocare a datelor, abordarea de


baz const n utilizarea unor uniti de prelucrare puternice i a unor sisteme de stocare de
nalt fiabilitate. Costurile componentelor hard n astfel de abordri sunt mari n raport cu
posibilitile unei ntreprinderi.

Pe de alt parte, n contextul dezvoltrii Big Data, se apreciaz c noile soluii


distribuite HDFS, HBase, Cassandra (http://cassandra.apache.org/), MongoDB
(http://www.mongodb.org/) sunt superioare abordrii centralizate, pentru c folosesc o
arhitectur descentralizat i prelucrarea paralel masiv. Aceste noi soluii sunt n continu
dezvoltare i sofisticare funcional, iar politica de promovare este bazat pe open source.

Explorarea valorii: din cauza volumelor uriae i n continu cretere, densitatea


valorii pe unitatea de date scade n mod constant, n timp ce valoarea total a Big Data este n
cretere (Labrinidis i Jagadish, 2012). Dac se dorete extragerea de patern-uri din volume
mari de date, este nevoie de o explorare a datelor n profunzime, diferit fa de modelele

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 17


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

tradiionale n care volumul datelor este relativ mic, algoritmii utilizai sunt de mare
complexitate, iar convergena este lent. n cazul Big Data, volumele masive de date i
procedeele specifice de stocare, curire i ETL (extragere, transformare, ncrcare) sugereaz
necesitatea utilizrii modelelor de prelucrare paralel i distribuit.

Ctigul real al explorrii datelor trebuie atent evaluat n cazul Big Data, lund n
considerare:

- nevoia de garantare a autenticitii i completitudinii datelor;


- costurile reflectate n investiiile n fora de munc i n infrastructura hard i soft;
- lungimea ciclului de realizare al proiectului;
- beneficiile rezultate prin aportul informaiei extrase la calitatea deciziilor adoptate n
ntreprindere.

Securitate i confidenialitate: prevenirea pierderii datelor necesit mecanisme


adecvate de back-up i redundan, cu luarea n considerare a volumului de date structurate i
nestructurate. Protecia datelor fa de accesul neautorizat se confrunt cu diversitatea
mecanismelor de stocare i de acces n cazul unor volume masive de date nestructurate, ceea
ce face necesar elaborarea unui mecanism unificat de control al accesului pentru multe surse
multiple i tipuri multiple de date. Problemele de confidenialitate pentru Big Data apar n
cazul coleciilor de date care includ informaii confideniale (ca de exemplu cele referitoare le
comportamentul online al clienilor). Scurgerile de asemenea informaii sau utilizarea lor
abuziv reprezint nclcri directe ale dreptului la intimitate pentru utilizatorii respectivi.

Interoperabilitate i schimb de date: dac ne referim cu titlu de exemplu la un


proiect de tip Smart City, obiectivele sale fundamentale includ asigurarea interoperabilitii
i a partajrii informaiilor, pentru valorificarea interconexiunilor logice ntre componentele
proiectului prin acces deschis la date i creterea inteligenei sistemului realizat.

n epoca Big Data i cloud computing, datele provenite din diverse surse pot fi stocate
pe o singur platform / centru de date, unde protejarea informaiei senzitive devine o
problem major, care necesit implementarea de soluii eficiente pentru controlul accesului
neautorizat al administratorilor platformei respective sau al reprezentanilor altor ntreprinderi
care dein date pe platforma respectiv.

2.4. Provocri ale Big Data


Fenomenul inundrii cu date, care caracterizeaz perioada curent de afirmare a Big
Data, genereaz provocri imense pentru procesele de achiziie, stocare, management i
analiz a datelor. Sistemele tradiionale de management i analiz a datelor se bazeaz pe
sisteme de baze de date relaionale (RDBMS), care se aplic doar datelor structurate i
folosesc tot mai frecvent componente hardware scumpe.

Comunitatea de cercetare a propus unele soluii din perspective diferite. De exemplu,


tehnologia cloud computing este folosit pentru ndeplinirea cerinelor unei infrastructuri de
tip Big Data, n ceea ce privete eficiena costurilor, elasticitate, adaptare continu la cerine
prin extensie / restrngere.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 18


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Pentru soluii de stocare pe termen lung managementul seturilor de date neordonate


sunt recomandate sistemele de fiiere distribuite (Howard et al., 1988) i bazele de date
NoSQL (Cattell, 2011).

n ceea ce privete dezvoltarea de aplicaii pentru Big Data, acestea pot fi dezvoltate
pe baza tehnologiilor inovative sau a platformelor de programare, dei trebuie luate n
considerare o serie de dificulti, prezentate n continuare.

- Reprezentarea datelor: multe seturi de date se caracterizeaz prin niveluri diverse de


eterogenitate a tipului, structurii, semanticii, organizrii, granularitii i accesibilitii
datelor. Avnd n vedere c reprezentarea datelor urmrete s le pregteasc pentru
operaiile de analiz i interpretare pe calculator, o reprezentare necorespunztoare va
reduce valoarea datelor originale i poate mpiedica analiza lor eficient.
- Reducerea redundanei i compresia datelor: n general, exist un nivel nalt de
redundan n seturile de date. Reducerea redundanei, filtrarea i compresia datelor
sunt folosite la reducerea indirect a costului prelucrrii datelor n ipoteza c valoarea
potenial a acestora nu este afectat.
- Managementul ciclului de via al datelor: n comparaie cu progresele relativ lente
ale sistemelor de stocare, reelele de senzori omniprezente i infrastructurile
distribuite de calcul genereaz date ntr-un ritm i la o scar fr precedent. Se
apreciaz c ar trebui formulat un principiu al importanei datelor, care s reflecte
valoarea lor analitic i care s permit selectarea datelor care merit s fie stocate.
- Extensibilitate i scalabilitate: sistemul analitic al Big Data trebuie s fac fa unor
cerine curente i viitoare. Algoritmii de analiz trebuie s fie capabili s se adapteze
unor seturi de date cu volum i complexitatea structurii n continu cretere.
- Cooperarea: analiza datelor de tip Big Data este o cercetare interdisciplinar, bazat
pe cooperarea experilor din diferite domenii. Se formuleaz necesitatea unei
arhitecturi de reea global de Big Data pentru a sprijini oamenii de tiin i
specialitii din diverse domenii s acceseze diverse tipuri de date, s-i foloseasc
expertiza i s coopereze pentru ndeplinirea diverselor obiective analitice.
- Mecanism analitic: sistemul de analiz al Big Data trebuie s prelucreze volume mari
de date eterogene ntr-un timp limitat. RDBMS tradiionale, caracterizate prin lips de
scalabilitate i extensibilitate, nu sunt adecvate. Bazele de date non-relaionale i-au
demonstrat avantajele unice n prelucrarea datelor nestructurate i sunt recunoscute ca
soluie viabil n analiza Big Data, dei exist i aici unele probleme de performan
n cazul unor aplicaii specifice. Este necesar o soluie de compromis ntre RDBMS
i bazele de date non-relaionale.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 19


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

3. Arhitecturi, tehnologii i seturi Big Data n sisteme informaionale


guvernamentale

3.1 Arhitecturi pentru sistemele Big Data


Din cauza complexitii sistemelor Big Data, a fost necesar dezvoltarea unei
arhitecturi specializate. BDAF (Big Data Arhitecture Framework) are ca scop implementarea
unei colecii specifice de elemente de design, de a asigura o abordarea unui design consistent,
de a reduce complexitatea sistemului, maximizarea reutilizrii, legturilor slabe (loose-
coupling), reducerea dependenelor i creterea productivitii.

Pentru Big Data, cea mai frecvent arhitectur utilizat este Hadoop. Aceast
inovaie a redefinit managementul datelor, deoarece prelucreaz cantiti mari de date, cu
costuri reduse i n timp util.

3.1.1. Framework-ul Hadoop


n tehnologia informaiei, Big Data este o colecie de seturi de date att de mare i
de complex, nct devine incomod pentru utilizarea uneltelor manuale de gestionare a
bazelor de date. Atunci cnd lucrm cu volume mari de date avem nevoie de o soluie care s
ne permit att stocarea la un cost ct mai mic, dar i s asigure o performan bun la
procesare. Un posibil rspuns la aceast provocare este platforma de aplicaii Apache
Hadoop.

Hadoop (Hadoop, 2009) este un proiect open-source dezvoltat de Apache care i


propune realizarea de procesri distribuite a unor seturi de date de dimensiuni mari, rulnd pe
mai multe clustere, folosind modele de programare simple. Proiectarea acestui framework a
fost realizat astfel nct s fie scalabil chiar i n situaia n care sarcinile sunt rulate pe mii
de calculatoare, fiecare dintre acestea punnd la dispoziie o anumit capacitate de procesare
i de stocare.

ncepnd cu anul 2010, Hadoop a fost adoptat pe scar larg de organizaii att n
scopul de a stoca volume mari de date ct i ca platform de analiz a acestora. n prezent,
Hadoop este folosit de numeroase companii pentru care volumul de date generat zilnic
depete capacitile de procesare i stocare specifice sistemelor convenionale: Adobe,
AOL, Amazon.com, EBay, Facebook, Google, LinkedIn, Twitter, Yahoo.

Apache Hadoop este un ecosistem de unelte gndite pentru a funciona mpreun ca o


soluie eficient de stocare i procesare a datelor. Aceste unelte sunt dezvoltate de ctre o
comunitate diversificat de dezvoltatori ntr-un mod colaborativ sub umbrela Apache
Software Foundation.

Nucleul Apache Hadoop este format din dou componente: un sistem de fiiere
distribuit (HDFS Hadoop Distributed File System) i un framework pentru procesare
distribuit (MapReduce). Hadoop a fost gndit s funcioneze ntr-o arhitectur de tip cluster
construit pe echipamente server obinuite.

Dat fiind faptul c datele sunt stocate distribuit, locaia unde acestea pot s fie
accesate nu este cunoscut aprioric, fiind determinat de Hadoop (HDFS). Fiecare bloc de

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 20


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

informaie este copiat pe mai multe maini fizice pentru a evita orice probleme cauzate de
defeciuni la nivel hardware.

Framework-ul Hadoop include mai multe module:

Hadoop Common: utilitare de baz care ofer funcionalitile pentru celelalte


module;

Hadoop Distributed File System (HDFS): sistem de fiiere distribuite ce pune la


dispoziie un nivel de disponibilitate ridicat la datele utilizate de aplicaii;

Hadoop YARN: modul pentru planificarea sarcinilor i gestiunea resurselor din cadrul
unui cluster;

Hadoop MapReduce: sistem bazat pe YARN pentru procesarea paralel a unor seturi
mari de date.

n plus, au fost dezvoltate mai multe produse open source care pot fi folosite
mpreun cu Hadoop / HDFS:

HBase: baz de date distribuit, scalabil care suport stocarea informaiilor


structurate pentru tabele de dimensiuni mari; implementat sub forma unor perechi
cheie-valoare, folosete de obicei sistemul de fiiere distribuit HDFS dei poate fi
folosit i mpreun cu sistemul de fiiere local;

ZooKeeper: serviciu de coordonare performant pentru aplicaii distribuite;

Oozie: modulul pentru gestiunea i planificarea fluxurilor, coordonnd fluxurile


MapReduce;

Pig: limbaj de nivel nalt pentru procesarea fluxurilor de date i mediu de execuie
pentru prelucrri paralele;

Hive: depozit de date cu interfa SQL care ofer sumarizarea datelor i interogri ad-
hoc.

Exist mai muli productori care pun la dispoziie distribuii Hadoop, al cror scop
este oferirea unei configuraii care rezolv incompatibilitile dintre diferite produse, prin
rularea unor teste de integrare ntre acestea.

Produsele Hadoop integrate n cele mai multe dintre distribuii sunt HDFS,
MapReduce, HBase, Hive, Mahout, Oozie, Pig, Sqoop, Whirr, ZooKeeper, Flume. De
asemenea, proiectul BigTop (dezvoltat de Apache) are rolul de a rula teste de
interoperabilitate ntre componentele Hadoop oferind pachete Linux (RPM i pachete
Debian) pentru o instalare mai facil.

Distribuiile sunt realizate n mai multe formate, suport un set de sisteme de operare
i pot include scripturi suplimentare pentru rularea mediului de lucru.

ntre distribuiile mai cunoscute se numr Cloudera Distribution for Hadoop (CDH),
MapR Distribution, Hortonworks Data Platform (HDP), Apache BigTop Distribution,

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 21


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Greenplum HD Data Computing Appliance. Acestea dispun i de propriile documentaii


(inclusiv wiki) i ofer utilizatorilor maini virtuale pe care sunt instalate distribuiile n
cauz.

Hadoop este folosit de aproximativ 63% de organizaii pentru a gestiona un numr


mare de nregistrri i evenimente nestructurate. Hadoop poate procesa volume extrem de
mari de date cu structuri diferite (sau nestructurate) (Khan, Yaqoob i alii, 2014).

Arhitectura Hadoop

Hadoop a fost gndit s funcioneze ntr-o arhitectur de tip cluster (vezi Figura 1)
construit pe echipamente server obinuite. Dup instalare necesit foarte puin munc de
management deoarece datele sunt migrate i multiplicate automat. Dat fiind faptul c datele
sunt stocate distribuit, locaia unde acestea pot fi accesate nu este cunoscut aprioric, fiind
determinat de Hadoop (HDFS). Fiecare bloc de informaie este copiat pe mai multe maini
fizice pentru a evita orice probleme cauzate de defeciuni la nivel hardware.

n continuare este prezentat o arhitectur de nivel nalt (vezi Figura 1) a clusterului


Hadoop multi-nod (Sindol, 2014).

Figura 1. Arhitectura de nivel nalt de cluster Hadoop multi-nod

Principalele aspecte mai importante ale arhitecturii Hadoop sunt urmtoarele:

Hadoop are dou componente de baz: HDFS i MapReduce

HDFS (Hadoop Distributed File System) ofer o stocare extrem de fiabil i


distribuit, prin replicarea datelor pe mai multe noduri. Spre deosebire de un sistem
de fiiere obinuit, atunci cnd datele sunt trimise la HDFS, acestea se vor mpri n
mod automat n mai multe blocuri (parametru configurabil) i depoziteaz datele n
diferite DataNodes. Acest lucru asigur disponibilitate ridicat i toleran la erori.

MapReduce ofer un sistem de analiz care poate efectua calcule complexe, pe seturi
de date de dimensiuni mari. Aceast component este responsabil de efectuarea
calculelor i de mprirea unui calcul de complexitate ridicat n mai multe task-uri,

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 22


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

atribuirea lor la nodurile individuale slave, precum i coordonarea i consolidarea


rezultatelor.

Hadoop funcioneaz ntr-o manier master / slave (vezi Figura 2.)

Master-ul conine componente NameNode i JobTracker.

o NameNode deine informaii referitoare la toate celelalte noduri din Clusterul


Hadoop, fiierele prezente n cluster, blocurile constitutive ale fiierelor i
locaiile lor n cluster i alte informaii utile pentru funcionarea Clusterului
Hadoop.

o JobTracker ine evidena task-urilor individuale / Job-urile alocate pentru


fiecare dintre noduri i coordoneaz schimbul de informaii i rezultate.

Fiecare Master / Slave conine TaskTracker i componente DataNode.

o TaskTracker este responsabil pentru rulare task / calcul atribuit.

o DataNode este responsabil de deinerea datelor.

Calculatoarele prezente n cluster pot fi prezente n orice locaie i nu depind de


locaia serverului fizic.

Figura 2. Un cluster multi-nod Hadoop

Dac analizm arhitectura unui astfel de sistem este necesar s introducem n


vocabularul nostru doi termeni: NameNode i DataNode.

NameNode este master-ul sistemului de stocare. Acesta se ocup de sistemul de


stocarea a numelui fiecrui fiier i tie unde poate s fie gsit - maparea fiierelor. Acest
sistem nu stocheaz datele din fiiere, el ocupndu-se doar cu maparea fiierelor, tiind n
fiecare moment locaie unde aceste sunt stocate. Odat ce numele a fost rezolvat de ctre
NameNode, acesta va redirecta clienii spre DataNode-uri.

DataNode reprezint "slave-urile" care stocheaz coninutul propriu zis al fiierului.


Clienii vor accesa DataNode pentru a putea accesa informaia stocat - scriere i citire a
datelor.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 23


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Un cluster Hadoop de dimensiuni reduse va conine un singur nod cu rol de comand


i mai multe noduri subordonate. Nodul cu rol de comand include JobTracker, TaskTracker,
NameNode i DataNode. Un nod subordonat sau cu rol de execuie ndeplinete funciile
specifice att pentru DataNode ct i pentru TaskTracker. Exist de asemenea posibilitatea de
a dispune i de noduri cu rol de execuie specializate exclusiv pe stocarea informaiilor sau pe
realizarea de operaii. Categoriile acestea de noduri sunt utilizate exclusiv n aplicaii
nestandardizate.

ntr-un cluster mai mare, controlul asupra HDFS se execut printr-un server dedicat
NameNode, care stocheaz indexul sistemului de fiiere i printr-un NameNode secundar,
care poate genera instantanee ale structurilor de memorie cu numele nodurilor, prevenind
astfel coruperea sistemului de fiiere i reducnd pierderea informaiilor. n mod similar, un
server JobTracker independent poate executa controlul asupra planificrii activitilor.

Caracteristicile Hadoop

Principalele caracteristicile ale framework-ului Hadoop sunt:

Hadoop ofer o stocare sigur comun (HDFS) i un sistem de analiz (MapReduce).

Hadoop este foarte scalabil i, spre deosebire de bazele de date relaionale, Hadoop
este scalat linear. Datorit scalei lineare, Hadoop Cluster poate conine zeci, sute, sau
chiar mii de servere.

Arhitectura Hadoop este foarte rentabil, deoarece poate lucra cu hardware-ul de baz
i nu are nevoie de hardware scump.

Hadoop este extrem de flexibil i poate procesa att date structurate, ct i


nestructurate.

Hadoop este construit cu toleran la erori. Datele sunt replicate pe mai multe noduri
(factorul de replicare este configurabil) i, n cazul n care un nod se defecteaz, datele
solicitate pot fi citite de la un alt nod care are o copie a datelor. De asemenea, se
asigur faptul c factorul de replicare este meninut, chiar dac un nod se defecteaz,
prin replicarea datelor altor noduri disponibile.

Hadoop este optimizat pentru seturi mari i foarte mari de date. De aceea, o cantitate
mic de date, cum ar fi 10 MB, atunci cnd alimenteaz Hadoop, are nevoie de mai
mult timp pentru a procesa dect sistemele tradiionale.

Componentele HADOOP

Apache Hadoop este un ecosistem de unelte gndite pentru a funciona mpreun ca o


soluie eficient de stocare i procesare a datelor.

Nucleul Apache Hadoop este format din dou componente: un sistem de fiiere
distribuit (HDFS Hadoop Distributed File System) i un framework pentru procesare
distribuit (MapReduce).

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 24


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Spre deosebire de sistemele tradiionale, Apache Hadoop ofer un set limitat de


funcionaliti pentru procesarea datelor (MapReduce), dar are proprietatea de a deveni din
ce n ce mai performant i poate s ofere o capacitate mai mare de stocare pe msur ce este
instalat pe mai multe maini fizice.

O procesare de tip MapReduce presupune c problema care trebuie rezolvat poate s


fie mprit n probleme mai mici care pot s fie rezolvate independent (faza de map), ntr-o
manier divide et impera, fiecare fiind executat ct mai aproape de datele pe care trebuie
s opereze urmnd ca apoi rezultatele s fie reunite n funcie de necesiti (faza de reduce).

Figura 3 ilustreaz ecosistemul Hadoop, precum i relaia dintre diferitele componente


(Khan, Yaqoob i alii, 2014).

Figura 3. Ecosistemul Hadoop

Scurt descriere a componentelor

HDFS este un sistem de fiiere distribuit implementat n cadrul Hadoop, diferena fa de


alte sisteme de fiiere de acest tip constnd n faptul c este proiectat s ruleze pe
dispozitive mai puin performante, fiind capabil s gestioneze n mod coerent erorile.
Ruleaz fr probleme pe configuraii normale, putnd fi folosit mpreun cu
calculatoarele pe care le avem acas sau la birou. De asemenea, ofer un nivel de
accesibilitate ridicat la datele aplicaiei, fiind adecvat pentru aplicaii care utilizeaz un
volum de date de dimensiuni foarte mari.

HDFS este mult mai complex dect alte sisteme de fiiere, avnd n vedere complexitatea
i incertitudinea reelelor. Clusterul conine dou tipuri de noduri. Primul nod este un
NameNode, care acioneaz ca un nod principal. Al doilea tip de nod este un nod de date
(DataNode) care se comport ca nod secundar. Acest tip de nod vine n multipli. n afar
de aceste dou tipuri de noduri, HDFS poate avea i NameNode secundar. HDFS
stocheaz fiierele n blocuri, mrimea blocului implicit este de 64MB. Toate fiierele
HDFS se repeta n multipli pentru a facilita procesarea n paralel a unor cantiti mari de
date.

Arhitectura HDFS (vezi Figura 4) este de tip master / slave i conine un nod de nume
(eng. NameNode), server ce gestioneaz spaiul de nume al sistemului de fiiere,
reglementnd accesul la fiiere i mai multe noduri de date (eng. DataNode, de regul
unul pentru fiecare nod din cluster), client ce gestioneaz spaiul de stocare ataat

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 25


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

nodurilor pe care ruleaz. n plus fa de acestea mai exist i un nod de nume secundar
(eng. Secondary NameNode) care se ocup mai ales cu ntreinerea sistemului distribuit
de fiiere, astfel nct acest proces s nu fie realizat doar la nivelul nodului de nume.
Acesta nu este utilizat pentru asigurarea unui nivel de disponibilitate ridicat i nici nu
funcioneaz ca rezerv pentru nodul de nume. Dei pentru utilizator spaiul de nume este
vizualizat unitar, permind operaiile uzuale de ncrcare i descrcare de fiiere (ca
pentru orice sistem de fiiere), implementarea HDFS presupune mprirea acestora n
blocuri care sunt stocate n mai multe noduri de date. Dac nodul de nume se ocup cu
operaii legate de spaiul de nume al sistemului de fiiere (deschidere, nchidere,
redenumire fiiere i directoare), determinnd i maparea blocurilor la nodurile de date,
nodurile de date au rolul de a trata cererile de citire i de scriere ce provin de la utilizatori,
realiznd i crearea i tergerea de blocuri, respectiv replicarea, n funcie de instruciunile
ce provin de la nodul de nume.

Figura 4. Arhitectura HDFS de tip master / slave

Att nodul de nume ct i nodul de date sunt programe scrise n Java, astfel nct pot s
ruleze pe ct mai multe platforme. Tipic, nodul de nume ruleaz pe un server dedicat, n
timp ce toate celelalte maini din cluster conin o instan a nodului de date. Exist i
posibilitatea ca pe o singur main s existe mai multe instane ale nodului de date, ns
un astfel de caz este destul de rar. Situaii de acest tip pot fi ntlnite n situaia n care se
dorete separarea seturilor de date provenind de la aplicaii diferite. Existena unui singur
nod de nume ntr-un cluster simplific foarte mult arhitectura sistemului, ntruct nodul
de nume negociaz utilizarea resurselor i reine toate metadatele cu privire la fiierele
stocate. Toate datele provenite de la utilizator sunt prelucrate neaprat de nodul de date.

Aadar, arhitectura HDFS este organizat pe dou niveluri (vezi Figura 5):

1. spaiul de nume, n care este reinut structura logic a sistemului de fiiere, constnd
n directoare, fiiere i blocuri;

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 26


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

2. serviciul de stocare a blocurilor, format la rndul su din 2 componente:

a. gestiunea blocurilor (implementat n nodul de nume) realizat prin stabilirea


apartenenei unui nod de date la cluster prin tratarea operaiilor de nregistrare i
a mesajelor transmise periodic, procesarea rapoartelor cu privire la blocuri i
ntreinerea locaiei la care sunt stocate acestea, implementarea operaiilor
legate de blocuri (creare, modificare, tergere i obinerea locaiei), gestiunea
plasrii replicilor (replicarea blocurilor pentru care nu este ntrunit factorul de
replicare i tergerea blocurilor pentru care este depit factorul de replicare);

b. stocarea oferit de nodurile de date prin stocarea blocurilor n cadrul


sistemului local de fiiere, permind accesul la operaii de citire/scriere.

Figura 5. Arhitectura HDFS pe dou niveluri

n mod tradiional, HDFS implementeaz o organizare a fiierelor de tip ierarhic, astfel


nct un utilizator sau o aplicaie pot crea directoare, stocnd fiiere n cadrul acestora.
Operaiile suportate sunt de creare i tergere fiiere, relocarea unui fiier dintr-un director
ntr-altul precum i redenumirea unui fiier. Nu sunt implementate cote pentru utilizatori
i permisiuni de acces, dar nici obiecte de tip legtur (hard sau soft). ntreinerea
spaiului de nume pentru sistemul distribuit de fiiere este realizat de ctre nodul de nume
astfel c acesta nregistreaz orice schimbare operat asupra sa sau proprietilor sale.

HDFS este proiectat pentru a stoca fiiere de dimensiuni foarte mari distribuite pe maini
n cadrul unui cluster ce conine numeroase maini. Astfel, fiecare fiier este reinut ca o
secven de blocuri, de dimensiuni egale, fiecare dintre acestea fiind replicate pentru
asigurarea toleranei n cazul producerii de erori.

Accesul la HDFS se poate face direct, prin intermediul unui client, disponibil inclusiv din
browser, fie prin intermediul unor interfee de programare (Java, C++) care obin
metadatele de la nodul de nume (locaia blocurilor), accesnd apoi informaiile din
nodurile de date. Un astfel de model este utilizat inclusiv de MapReduce. Alternativ,
comunicaia dintre clieni i HDFS poate fi realizat printr-un server intermediar
(eng. proxy), dintre cele care sunt livrate mpreun cu Hadoop.

MapReduce sistem bazat pe YARN pentru procesarea paralel a unor seturi mari de date.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 27


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

MapReduce reprezint un model de programare destinat procesrii de date pe un numr


foarte mare de noduri, reprezentate de maini disponibile n comer, fr performane
deosebite (eng. commodity hardware). Este inspirat din programarea funcional de unde
sunt preluate funciile map i reduce, putnd fi implementat n limbaje de programare ca
Java, C++, Python sau Ruby. Un astfel de model (vezi Figura 6) este util mai ales pentru
prelucrarea unor seturi de date (semistructurate i orientate pe nregistrri) de dimensiuni
foarte mari utilizat n special pentru procesarea distribuit n cadrul unor clustere de
calculatoare. Aplicaia este mprit n fragmente mici singura soluie pentru obinerea
unor rezultate ntr-un interval de timp acceptabil, fiecare putnd fi executat sau reexecutat
pe orice nod din cluster.

Figura 6. Model de procesare MapReduce

MapReduce se bazeaz pe mprirea procesrii n 2 etape: map i reduce, fiecare primind


ca date de intrare o pereche cheie-valoare (al cror tipuri poate fi stabilit de programator)
i ntorcnd ca rezultat tot o pereche cheie-valoare.

Valorile care sunt procesate de programul MapReduce sunt partiionate n funcie de


cheile care le caracterizeaz i distribuite nodurilor care aplic funcia de mapare, n urma
creia se genereaz o list (intermediar) de valori, fiecare dintre ele avnd asociat i o
cheie. Acestea sunt sortate i grupate n funcie de cheie (toate valorile care au aceeai
cheie sunt concatenate ntr-o singur list), astfel nct funcia de reducere primete mai
puine perechi cheie-valoare (pentru fiecare cheie unic exist o list de valori generate
anterior) obinndu-se o list de rezultate compus din perechi chei-valoare.

n cazul implementrii MapReduce clasice sunt implicate mai multe entiti:

clientul, care transmite sarcina de tip MapReduce;

un proces pentru monitorizarea sarcinii (eng. Job Tracker) care coordoneaz rularea
acesteia;

mai multe procese pentru monitorizarea prilor n care a fost mprit sarcina
(eng. Task Tracker);

sistemul distribuit de fiiere (de obicei HDFS), utilizat pentru partajarea fiierelor
ntre aceste entiti.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 28


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Entitile implicate la rularea unei aplicaii de tip MapReduce folosind YARN sunt:

clientul, care transmite sarcina de tip MapReduce;

procesul pentru gestiunea resurselor (eng. Resource Manager) care coordoneaz


alocarea resurselor de procesare pe cluster;

procesele pentru gestiunea nodurilor (eng. Node Manager) care lanseaz n execuie i
monitorizeaz containerele n cadrul mainilor din cluster;

procesul de gestiune a aplicaiilor (eng. Application Master) care va coordona


partiiile sarcinilor.

Figura 7 prezint arhitectura sistem MapReduce i HDFS pentru un cluster mare.


(Azzini, Ceravolo, 2013), (ODriscoll, Daugelaite, Sleator, 2013).

Figura 7. Arhitectura sistem MapReduce i HDFS pentru un cluster mare

MapReduce este componenta principal a arhitecturii Hadoop i o paradigm de


programare care permite scalabilitatea peste numeroase servere ntr-un cluster Hadoop.
Pentru a mbunti performana, MapReduce atribuie volumul de munc la serverele n care
sunt stocate datele prelucrate. Prelucrare datelor este programat pe baza nodurilor
clusterului. Unui nod i poate fi atribuit i un task ce necesit date strine de acel nod.

Componentei MapReduce i corespund dou task-uri distincte efectuate de


programele Hadoop. Primul task este legat de funcia map i implic obinerea unui set de
date i transformarea ntr-un alt set de date. n aceste seturi de date, componentele individuale
sunt mprite n seturi de variabile (perechi de chei / valori). Task-ul de reducere primete ca
intrri, ieirile de la task-urile map i apoi mparte aceste seturi de variabile n seturi mai
mici. Prin urmare, task-ul de reducere este efectuat ntotdeauna dup task-ul de map.
Tabelul 1 prezint pas cu pas task-urile MapReduce.
Tabelul 1. Task-urile MapReduce

Pai Task-uri
(1) Intrare (i) Datele sunt ncrcate n HDFS n blocuri i distribuite la
DataNode
(ii) Blocurile sunt replicate n caz de defeciuni
(iii) NameNode urmrete blocurile i DataNode
(2) Job Trimite job-ul i detaliile sale la JobTracker

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 29


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

(3) Iniializare job (i) JobTracker-ul interacioneaz cu TaskTracker-ul n


fiecare nod
(ii) Toate task-urile sunt programate
(4) Mapare (i) Task-ul de mapare prelucreaz blocurile de date
(ii) Sunt listate perechile de valorile cheie
(5) Sortare Task-ul de mapare sorteaz lista perechilor de valori-cheie
(6) Amestecare (i) Ieirea mapat este transferat la task-ul de reducere
(ii) Valorile sunt rearanjate ntr-un format sortat
(7) Reducere Task-ul de reducere reunete lista de perechi de valori-
cheie pentru a genera rezultatul final
(8) Rezultat (i) Valorile sunt stocate n HDFS
(ii) Rezultatele sunt replicate conform configuraiei
(iii) Clienii citesc rezultatele din HDFS
Datele redundante sunt stocate n mai multe zone din cluster. Modelul de programare
rezolv automat disfuncionalitile prin rularea de poriuni ale programului pe diverse
servere din cluster. Datele pot fi distribuite de-a lungul unui cluster foarte mare de
componente mpreun cu programarea asociat, oferit de redundana datelor. Aceast
redundan tolereaz defecte i permite clusterului Hadoop s se repare, n cazul n care
componenta hardware eueaz, avnd n vedere cantitatea mare de date. Figura 8 prezint
arhitectura MapReduce.

Figura 8. Arhitectura MapReduce

HBase este o baz de date distribuit de tip NoSQL, orientat pe coloane avnd la baza
modelul Google BigTable, care folosete ca i mediu de stocare HDFS, fiind utilizat n
cazul aplicaiilor Hadoop care necesit operaii de citire / scriere aleatoare n seturi de
date foarte mari. Este scris n Java i poate fi accesat att prin intermediul unui client
propriu ct i prin intermediul unui API foarte simplu.

HBase a fost creat pentru a prentmpina problema scalabilitii n situaia creterii


dimensiunii informaiilor care trebuie stocate prin adugarea de noduri. Nefiind o baz de
date relaional i nefiind bazat pe SQL, este capabil s ofere gzduirea unor tabele de
dimensiuni mari, populate n mod inegal, pe clustere formate din maini larg disponibile
n comer, fr performane deosebite.

HBase reprezint ns o soluie pentru seturi de informaii de dimensiuni foarte mari (de
ordinul milioanelor i miliardelor de nregistrri) sau pentru aplicaii ce utilizeaz date
care sunt accesate de foarte muli clieni (cererile i rspunsurile generate ca urmare a
acestei interaciuni implic un volum de date foarte mare). Totodat, funcioneaz optim
Etapa I - Studiu referitor la abordarea Big Data n sectorul public 30
ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

n cazul unor scheme variabile, unde structura nregistrrilor difer (datorit unor atribute
care pot s existe sau nu).

HBase are trei componente principale:

1. biblioteca clientului;

2. un server de tip master;

3. mai multe servere de regiune.

Dac serverele de regiune pot fi adugate sau terse n timpul funcionrii sistemului de
gestiune pentru baze de date distribuite n funcie de ncrcarea acestuia, serverul de tip
master este responsabil pentru repartizarea regiunilor ctre serverele aferente, folosind n
acest sens un produs denumit Apache ZooKeeper, un serviciu de coordonare sigur,
persistent, care ofer tuturor utilizatorilor un nivel nalt de disponibilitate.

Zookeeper este un serviciu de coordonare pentru aplicaiile distribuite. Zookeeper


menine, configureaz i denumete cantiti mari de date. De asemenea, furnizeaz
servicii distribuite de sincronizare i de grup. Singur, Zookeeper conine noduri master i
slave i stocheaz informaii de configurare.

HCatalog stocheaz metadate i genereaz tabele pentru cantiti mari de date. HCatalog
simplific comunicarea utilizator folosind datele HDFS i este o surs de partajare a
datelor ntre instrumente i platformele de execuie.

Hive este o platform de depozitarea datelor (de tip data warehouse) care permite
interogarea i gestionarea seturilor de date de mari dimensiuni din depozite distribuite,
stocate n HDFS. Hive este o sub-platform n ecosistemul Hadoop i folosete un limbaj
de interogare de tipul SQL, care este numit HiveQL. Limbajul, de asemenea, permite
programatorilor tradiionali ai MapReduce s se conecteze la mediul lor specific de
interogare i de reducere atunci cnd este incomod sau ineficient. Astfel, acest limbaj
permite i funcii definite de utilizator (UDF-uri - user-defined functions). Platforma Hive
se bazeaz n principal pe trei structuri de date conexe: tabele, partiii i buckets.
Tabelele corespund directoarelor HDFS i pot fi distribuite n diferite partiii i eventual,
buckets-uri.

Pig este o platform de nivel nalt folosit pentru analizarea unor seturi de date mari
avnd un limbaj propriu, pentru descrierea programelor de analiz a datelor.
Caracteristica principal a Pig este c prin natura programelor Pig, permite paralelizarea
lor la momentul rulrii. Compilatorul Pig produce joburi MapReduce. Arhitectura Pig
genereaz un limbaj de scripting de nivel nalt (Pig Latin) i opereaz pe o platform n
timp real, platform care permite utilizatorilor s execute MapReduce pe Hadoop. Pig
este mai flexibil dect Hive referitor la formatul datelor, furniznd propriul model de
date. Pig are propriul tip de date, hart, care reprezint datele semistructurate, inclusiv
JSON i XML.

Mahout este o bibliotec pentru algoritmi de nvare automat (machine-learning) i


data mining, incluznd algoritmi de clasificare i de clustering. Muli algoritmi sunt

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 31


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

scrii pentru compatibilitate cu MapReduce, astfel nct ei sunt scalabili la seturi de date
mari. Aceast component este mprit n patru grupe principale: filtrare colectiv,
clasificare, clustering i extragere de modele paralele frecvente (mining of parallel
frequent patterns). Biblioteca Mahout aparine de subsetul care poate fi executat ntr-o
mod distribuit i de ctre MapReduce.

Oozie este un instrument pentru managementul workflow-ului /coordonarea joburilor


MapReduce. Apache Oozie permite combinarea mai multor elemente ntr-o unitate logic
de lucru. Apache Oozie este o aplicaie Java Web, care ruleaz ntr-un servlet Java
Tomcat i folosete o baz de date pentru a stoca:

o Definiii ale fluxului de lucru


o Execuii curente ale fluxului de lucru

Oozie permite definirea folosind fiiere XML de fluxuri complexe n cadrul unui cluster
Hadoop. Oozie este o colecie de aciuni, dispuse ntr-un control de dependen DAG
(Direct Aciclic Graphic), specificnd o secven de aciuni ce trebuie executate. Acest
grafic (secven de aciuni) este specificat n limbajul hPDL (limbaj de tip XML).
Nodurile de control definesc fluxul de execuie i sunt nceputul i sfritul unui flux de
lucru i mecanismele pentru a controla calea executrii fluxului de lucru. Nodurile de
aciune sunt mecanismul prin care un flux de lucru declaneaz executarea unei sarcini de
calcul sau prelucrare.

Avro. Avro serializeaz datele, conduce apelurile de proceduri la distan i transfer


datele de la un program sau limbaj la altul. n aceast arhitectur, datele se auto-descriu i
sunt ntotdeauna stocate n funcie de propria lor schem, deoarece aceste caliti sunt
potrivite limbajelor de scripting, cum ar fi Pig.

Chukwa este un tool pentru monitorizarea aplicaiilor distribuite, bazndu-se pe


arhitectura HDFS i MapReduce. Chukwa este o arhitectur pentru colectarea i analiza
datelor. Chukwa colecteaz i prelucreaz datele din sistemele distribuite i le stocheaz
n Hadoop.

Flume este un serviciu distribuit care permite colectarea, agregarea i mutarea unor
volume mari de date tip log. Are o arhitectur bazat pe fluxuri de date i care permite
construirea de aplicaii analitice. Componenta folosete dou canale, i anume, surse i
colectoare (sinks). Sursele includ date Avro, fiiere i fiierele jurnal (log) de sistem, n
timp ce sinks fac referire la HDFS i HBase. Prin motorul su personal de prelucrare,
interogare, Flume transform fiecare nou batch de Big Data nainte de a fi transportai n
sink.

n tabelul 2 sunt sintetizate funcionalitile diferitelor componente Hadoop discutate


mai sus.
Tabelul 2. Componentele Hadoop i funcionalitile lor

Component Hadoop Funcii


(1) HDFS Depozitare i replicare
(2) MapReduce Prelucrare distribuit i toleran la erori

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 32


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

(3) HBASE Acces rapid la citire/scriere


(4) HCatalog Metadate
(5) Pig Scripting
(6) Hive SQL
(7) Oozie Flux de lucru i planificare
(8) ZooKeeper Coordonare
(9) Kafka Mesagerie i date de integrare
(10) Mahout Machine-learning

Cu Hadoop, 94% din utilizatori pot analiza cantiti mari de date. 88% dintre
utilizatori analizeaz datele n detaliu, iar 82% pot pstra mai multe date. Dei Hadoop are
diverse componente (vezi Tabelul 2), fiecare companie utilizeaz anumite componente ale
Hadoop n funcie de necesitile lor.

3.1.2. Integrare Big Data cu Hadoop

Arhitectura de Big Data nu este una fix, care s se potriveasc n toate situaiile.
Fiecare strat de procesare n arhitectur are mai multe soluii i tehnici care pot fi
implementate pentru a crea un mediu robust. Fiecare soluie are propriile avantaje i
dezavantaje pentru un anumit volum de munc.

n general orice arhitectur de date se compune din patru componente logice


principale (Anuganti, 2012), aa cum se poate observa i n Figura 9:

Figura 9. Arhitectura Big Data

Aceste componente sunt:

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 33


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

1. Sursele de date

Datele provin din surse de date eterogene. De obicei, acestea sunt depozite de date
(SQL sau NoSQL), care ofer date structurate sau orice alte tipuri de date provenite prin
intermediul API-urilor sau a altor mijloace (semi-structurate sau ne-structurate):

Date din SQL, depozite NoSQL (MySQL, Oracle, PostgreSQL, MongoDB, etc.
sunt n cea mai mare parte structurate),

Date (semi/ne)-structurate (CRM, comercializare, campanii, cheltuieli, venituri,


conducere etc.),

Jurnale web sau alte fiiere jurnal (blogurile, clicurile utilizatorilor, vizitele
utilizatorilor, aciuni etc.).

2. Transformarea datelor

Transformarea datelor dintr-o form n alta, se realizeaz fie cu ETL (Extract,


Transform and Load - Extracie, Transformare i ncrcare), fie cu instrumente i/sau
scripturi de import/export. n principal, aceast transformare este folosit pentru a ncrca
toate sursele de date n fluxul de prelucrare al datelor.

ETL este un proces n utilizarea bazei de date i n special n depozite de date care
implic:

- extragerea datelor din surse externe;


- transformarea lor pentru a se potrivi necesitilor operaionale;
- ncrcarea datelor n obiectivul final (baze de date sau depozit de date).

Instrumente de management a nregistrrilor pot fi, de asemenea, considerate ca


fcnd parte din ETL, deoarece acestea genereaz evenimente utile din fiierele de jurnal i
prezint tabloul de bord pe sistemul de alertare local sau pot fi ncrcate direct n depozite de
prelucrare a datelor.

Instrumente ETL, ELTL (scripturi bash / python / perl / Java, obiecte de business,
SSIS, Kettle etc.);

SQOOP (Instrument de transformare a datelor surs n date pentru Hadoop,


compatibil JDBC);

Instrumente de import / export (instrumente specifice furnizorilor SQL / NoSQL);

Instrumente de management a nregistrrilor (log-urilor) (Splunk, Syslog, script-


uri de filtrare jurnal personalizat etc.).

3. Prelucrarea datelor sau integrarea datelor

O alt surs de date se obine prin combinarea datelor structurate i nestructurate ntr-
un singur loc (fie n timp real, fie cu ncrcare incremental), n principal, pentru prelucrarea

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 34


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

datelor (Depozite de date sau Analiza datelor) i pentru generarea datelor utilizabile
(materializate sau agregate), care pot fi cerute de ctre componentele de cereri de date.

Hadoop i ecosistemul (Hadoop / HDFS, Map-reduce, HBase, Hive, Impala, Pig


etc.) folosete HDFS ca mediu iniial de stocare;

Depozite de date i Analiza soluiilor (MySQL, SQL Server, Vertica, Green Plum,
Aster data, Exadata, SAP HANA, IBM Netezza, IBM Pure Data, Tera date etc.)
utilizeaz depozitarea specific furnizorului, folosete opional HDFS.

Analiza n memorie (SAS, Kognitio, Druid etc.) - citesc direct de la HDFS.

4. Cereri de date

Componentele pentru cereri de date fie cer, fie expun datele ntr-o form utilizabil de
ctre utilizatorii finali sau de ctre alte nivele interne (ad-hoc) sau externe (folosind API-uri).

Raportare (tablouri de bord personalizate, micro strategie, obiective de business,


tablou etc.);

Platforma de cutare sau descoperire a datelor: Solr (server open-source de cutare


rapid), Elasticsearch (server de cutare full text), Tibco Spotfire (software de
vizualizare i analiz a datelor), Datameer (soluii de analiz Big Data pentru
afaceri sub Hadoop) etc.;

Date tiinifice, mineritul i analiza datelor (n special pentru analiza datelor


interne pentru a anticipa sau estima performana general folosind un set de
algoritmi).

n afar de cele patru componente logice, monitorizarea joac un rol crucial n


detectarea oricrei defeciuni n fluxul de date mpreun cu modificrile prag pentru a
identifica orice blocaje n funcie de performan, scalabilitate i de transfer de ansamblu.

3.1.2.1. Arhitectura unui ecosistem pentru integrarea Big Data pentru business

Printre problemele legate de integrarea Big Data se numr varietatea surselor de


date, calitatea datelor ce urmeaz a fi integrate i vizualizarea datelor (Bodapati, 2013).

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 35


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Figura 10. Arhitectura unui ecosistem pentru integrarea Big Data

Arhitectura unui ecosistem pentru integrarea Big Data (vezi Figura 10) include
urmtoarele componente:

1. Sursele de date structurate i nestructurate. Introducerea bazelor de date stocate n


cloud i a infrastructurii mobile, au dus la o cretere semnificativ a dimensiunii i
complexitii seturilor de date, acestea devenind componenta principal a
ecosistemelor de integrare a datelor. Astfel arhitectura de integrare a datelor trebuie s
includ strategii multiple pentru accesarea i stocarea unei cantiti foarte mari i
diversificate de date.

2. Sisteme de stocare Big Data. n timp ce sistemele de stocare a datelor foarte mari
precum Hadoop asigur mijloace de stocare i organizare a unor volume mari de date,
procesarea acestora pentru extragerea de informaii utile rmne n continuare o
activitate dificil. Arhitectura MapReduce a acestor sisteme d posibilitatea de stocare
rapid a unor cantiti foarte mari de date i ofer suport pentru realizarea de analize
pe baza acestor date. Platforma pentru integrarea datelor trebuie s construiasc
structura pentru stocarea datelor i s realizeze conexiunile cu celelalte surse de date.

3. Platforma pentru descoperirea datelor. Platforma pentru descoperirea datelor


reprezint un set de instrumente i tehnici pentru lucrul cu fiiere pentru Big Data
pentru gsirea de modele i rspunsuri la ntrebri de business. n prezent aceasta este
mai mult o activitate adhoc, iar organizaiile ntmpin dificulti n dezvoltarea unor
procese n jurul ei. n cadrul activitii de descoperire a datelor, informaiile obinute
pot deveni uneori neutilizabile dup doar cteva ore. Arhitectura pentru integrarea
datelor trebuie s in cont de aceste informaii volatile pentru asigurarea calitii
datelor. Infrastructura pentru integrarea datelor trebuie s fie capabil s rspund
rapid la cerinele utilizatorilor.

4. Depozite de date tradiionale. Depozitele de date tradiionale ofer necesarul de


informaii de baz, dar trebuie s includ noi funcionaliti pentru o mai bun
integrare a surselor de date nestructurate i pentru a satisface nivelul de performane
solicitat de platformele de analiz. Organizaiile au nceput s dezvolte noi modaliti
de separare a analizelor operaionale de analizele n profunzime pe baza istoricului

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 36


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

pentru deciziile strategice. Platforma pentru integrarea datelor trebuie s fie capabil
s separe informaiile operaionale, de sursele de date utilizate n elaborarea
strategiilor pe termen lung. Totodat infrastructura de integrare a datelor trebuie s
permit un acces rapid la datele cel mai des accesate.

5. Portofoliul pentru inteligena afacerii. Portofoliul pentru inteligena afacerii se


concentreaz pe rezultatele i performanele din trecut, chiar dac va exista o cretere
a cererii pentru rapoarte i performane operaionale. Evoluia necesitii de
autoservire a inteligenei afaceri i inteligenei afacerii pe dispozitive mobile va
continua s genereze probleme arhitecturale platformelor de integrare a datelor. Un alt
aspect foarte important l reprezint capacitatea portofoliului de inteligen a afacerii
de integrare cu portofoliul de analiz. Aceasta poate conduce la o cretere a cererilor
pentru integrarea informaiilor.

6. Portofoliul de analiz a datelor. Activitatea de analiz din cadrul acestui portofoliu


trebuie s gestioneze att problemele legate de activitatea companiei ct i cele legate
de date. Platformele de integrare a datelor joac dou roluri n ceea ce privete
asigurarea suportului necesar portofoliului de analiz. n primul rnd, ecosistemul de
integrare a datelor trebuie s asigure accesul la date structurate i nestructurate pentru
activitatea de analiz. n al doilea rnd, trebuie s permit reutilizarea analizelor
efectuate anterior, reducnd astfel situaiile care ar necesita repetarea unor pai.

n viitor, ecosistemul de integrare a datelor va trebui s includ posibilitatea de


procesare a unor volume foarte mari de date i s fac fa unor solicitri de a lucra cu o
varietate mare de surse de date.

3.1.2.2. Arhitectura client-server pentru Big Data


n cele ce urmeaz (Figura 11), este prezentat o arhitectur client-server pentru Big
Data (Chan, 2013).

Figura 11. Arhitectura client-server pentru Big Data

Arhitectura la nivel de client

Arhitectura la nivel de client este format din baze de date NoSQL (Not Only SQL)
(vezi detalii n Subcapitolul 3.2.1.2), sisteme de fiiere distribuite i un cadru de procesare
distribuit.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 37


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Un exemplu popular de baze de date NoSQL este Apache Hbase. n conformitate cu


Apache (Apache, 2013b), Apache Hbase ofer acces de citire / scriere aleatoare n timp real
pentru Big Data. Oracle (Apache, 2013b) a descris baza de date Oracle NoSQL ca fiind o
baz de date distribuit conceput pentru a oferi stocarea datelor extrem de fiabile, scalabile
i disponibile ntr-un set configurabil de sisteme care funcioneaz ca noduri de stocare.

Urmtoarele nivele se compun din sistemul de fiiere distribuit, care este scalabil i
poate gestiona un volum mare de date i dintr-un cadru de prelucrare distribuit care
repartizeaz calculele n clustere de servere de mari dimensiuni. Tantisiriroj, Patil i Gibson
(Tantisiriroj, Patil i Gibson, 2008) au descris sistemele de fiiere servicii Internet pentru a
include sistemul de fiiere Google, serviciul de stocare simpl Amazon i sistemul de fiiere
distribuite Hadoop, de tip Open Source. O platform des ntlnit este Apache Hadoop.

n conformitate cu Apache (Apache, 2013a), Apache Hadoop este un cadru de


prelucrare distribuit a seturilor mari de date n clustere de calculatoare i este proiectat
pentru a scala de la cteva servere pn la mii de servere, fiecare oferind calcule i spaii de
depozitare locale.

Cele dou componente eseniale pentru Hadoop sunt: HDFS i MapReduce (Minelli i
alii, 2013). HDFS este sistemul de stocare care distribuie fiierele de date pe clustere de
servere i ofer acces high-throughput pentru seturi mari de date. MapReduce este cadrul de
procesare distribuit pentru procesarea paralel a seturilor mari de date. O procesare de tip
MapReduce presupune c problema care trebuie rezolvat poate fi mprit n probleme mai
mici care pot fi rezolvate independent (faza de map), urmnd ca apoi rezultatele s fie reunite
n funcie de necesiti (faza de reduce).

Arhitectura la nivel de server

Arhitectura la nivel de server pentru Big Data este format din platforme de calcul
paralel care pot gestiona volumul i vitezele asociate. Minelli i colaboratorii (Minelli i alii,
2013) au descris trei opiuni importante de calcul paralel:

clustere sau grid-uri,


procesare masiv paralel (MPP),
supercomputere (HPC).

n conformitate cu Buyya, Yeo, Venugopal, Broberg i Brandic (Buyya, Yeo,


Venugopal, Broberg i Brandic, 2009), clusterele sau grid-urile sunt tipuri de sisteme paralele
i distribuite, iar un cluster este format dintr-o colecie de calculatoare independente
interconectate, care lucreaz mpreun ca o singur resurs de calcul integrat, iar un grid
permite schimbul, selecia i agregarea dinamic n timpul rulrii, a resurselor autonome
distribuite geografic.

O arhitectur frecvent utilizat pentru Hadoop este format din maini client i
clustere de servere slab cuplate care servesc ca HDFS - stocare date distribuite i MapReduce
- prelucrare date distribuite. Hedlund (Hedlund, 2011) a descris cele trei mari categorii de
roluri ntlnite ntr-o implementare Hadoop care constau din:

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 38


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

maini client,
noduri Master i
noduri Slave.
Rolul mainii client este de a ncrca datele n cluster, s trimit joburile la
MapReduce i s prelucreze rezultatele de la joburi, atunci cnd acesta s-au terminat
(Hedlund, 2011). Exist dou tipuri de noduri Master, nodurile HDFS i nodurile
MapReduce. Nodurile HDFS constau din NameNodes, care pstreaz directorul tuturor
fiierelor n sistemul de fiiere HDFS. Aplicaiile client trimit joburile la nodurile
MapReduce, care constau din JobTrackers care atribuie task-uri la MapReduce pentru
nodurile slave.

JobTracker se consult cu NameNode pentru a determina locaia la DataNode, locul unde se


afl datele i atribuie task-ului TaskTracker care se afl n acelai nod, pentru a executa task-
ul. n timp ce HDFS este un sistem de fiiere distribuit, care este foarte potrivit pentru
stocarea de fiiere mari, acesta nu ofer cutri individuale rapide de nregistrare, pe ct
vreme HBase, construit n partea de sus a HDFS ofer cutri rapide de nregistrare i
actualizri (Apache, 2013c). Apache HBase ofer acces de citire / scriere aleatoare n timp
real pentru Big Data (Apache, 2013b). Figura 12 ilustreaz arhitectura Hadoop folosind
HBase, HDFS i MapReduce.

Figura 12. Arhitectura Cluster HBase/Hadoop pentru Big Data

Kim, Raman, Liu, Lee i August (Kim, Raman, Liu, Lee i August, 2010) au subliniat
faptul c n timp ce clusterele de servere sunt cea mai popular form de computere paralele
pe scar larg, ele ar putea s nu fie potrivite pentru programe de aplicaii de uz general
dependente de inter-noduri. O opiune pentru platforma de calcul paralel este MPP
(Massively Parallel Processing - procesare masiv paralel). Minelli i colaboratorii (Minelli i

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 39


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

alii, 2013) au descris MPP combinnd procesul de stocare, memoria i procesul de calcul
pentru a crea o platform. n timp ce nodurile dintr-o reea cluster sunt independente, nodurile
din MPP sunt strns interconectate prin reele dedicate de mare vitez, care s permit
colaborarea de mare vitez ntre procesoare.

3.1.2.3. Arhitectura pentru analiz Big Data


Chen, Chiang, i Storey (Chen, Chiang, i Storey, 2012) au furnizat o clasificare a
inteligenei afacerilor i analiza datelor (business intelligence and analytics - BI & A) n trei
categorii:

BI & A 1.0 este caracterizat de coninut structurat i bazat pe SGBD. Se utilizeaz


instrumente de analiz tradiionale prin intermediul depozitelor de date, ETL, OLAP i
data mining.
BI & A 2.0 este caracterizat prin coninut nestructurat, dar bazat pe Web. Se utilizeaz
instrumente n regsirea de informaii, exploatarea opiniei (opinion mining), rspuns la
ntrebare, analize web, analize de media, analize de reea social i analize spaio-
temporale.
BI & A 3.0 se caracterizeaz prin coninut mobil i pe baz de senzor. Se utilizeaz
instrumente n analiza sensibilizrii locaiei, analiza-centrat pe persoan, analiza de
context relevant precum i vizualizarea mobil i HCI.
BI & A 2.0 i 3.0 necesit o platform care s poat gestiona volumul, viteza i varietatea
mare de date. Arhitectura analizelor Big Data descrise mai jos utilizeaz cadrul de
procesare i depozitare, distribuit i masiv paralel, furnizat de Hadoop HDFS i
MapReduce.
Data warehousing rmne o tehnologie viabil pentru analizele Big Date de volum
imens de date structurate. n plus, exist o sinergie ntre data warehousing i tipul de Hadoop
- arhitectura Big Data. Date nestructurate de la senzori, dispozitive M2M, social media i
aplicaii Web pot fi stocate n Hadoop i pot fi mai trziu introduse n MapReduce pentru o
nelegere semnificativ (Sathi, 2012). Datele din MapReduce pot fi integrate cu datele
warehousing pentru o prelucrare analitic detaliat. Pe de alt parte, datele warehouse pot fi o
surs de date pentru Joburi complexe Hadoop, valorificnd simultan capabilitile a dou
sisteme (Awadallah i Graham, 2011). Datele de localizare n timp real de la GPS sau
smartphone-uri pot fi combinate cu datele istorice de la date warehouse pentru a oferi n timp
real persoanelor din marketing capabilitatea s promoveze produsele specifice pentru clieni
individuali pe baza datele de localizare n timp real i a profilului client. Figura 13 ilustreaz
o arhitectur pentru analiz Big Data.

Datele structurate sunt capturate prin diverse surse de date, inclusiv sisteme OLTP,
sisteme motenite i sisteme externe. Prin procesul ETL, acestea se duc din sistemele surs la
data warehouse int. Instrumentele de prelucrare analitic, cum ar fi procesarea online
analitic (OLAP), data mining, i interogare i raportare, pot fi folosite pentru a crea
inteligena de afaceri pentru a mbunti operaiunile de afaceri i procesele decizionale.
Exist o mare varietate de surse de date nestructurate i semi-structurate. Acestea pot include
date din clickstream-uri, social media, M2M, dispozitive mobile, senzori, documente i
rapoarte, log-uri web, nregistrri de apel, rezultate de cercetare tiinific, satelii i
dispozitive geospaiale. Ele sunt ncrcate n clusterul HDFS. Hadoop MapReduce ofer
cadrul de procesare tolerant la defecte distribuit n clusterul Hadoop.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 40


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

n timp ce Hadoop este foarte scalabil i poate efectua calcule masiv paralele pentru
Big Data, acesta este un sistem de batch cu laten mare i nu ar fi potrivit pentru prelucrarea
evenimentelor n timp real. Minelli i colaboratorii (Minelli i alii, 2013) au descris
inteligena geospaial folosind date despre spaiu i timp pentru a mbunti calitatea
analizei predictive.

Figura 13. Arhitectura pentru Analize Big Data

3.1.2.4. Arhitectura multi-agent pentru procesarea n timp real a Big Data


O paradigm important, care este tot mai prezent n analiza Big Data, este conceptul
de ageni autonomi, inteligeni i proactivi (Cao, Weiss i Yu, 2012). Noiunea de agent de
exploatare (agent mining) combin metodologii, tehnologii, instrumente i sisteme din
domeniul tehnologiei multi-agent, data mining i knowledge discovery, machine learning,
statistici i web semantic, cu scopul de a accesa probleme care nu pot fi abordate doar printr-
o singur tehnic cu aceeai performan i calitate.

Una dintre principalele provocri, n ceea ce privete prelucrarea de seturi foarte mari
de date, este manipularea fluxurilor de date n timp real. n timp ce ambele tipuri de date,
offline i online, pot fi n mod independent prelucrate, adesea este nevoie s furnizm
rspunsuri la ntrebrile cu privire la evenimente online bazate pe trecut. Arhitectura
Lambda vine ca un rspuns la aceste provocri (Twardowski, Ryzko, 2014).

Figura 14. Arhitectura Lambda

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 41


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Arhitectura Lambda

Arhitectura Lambda (vezi Figura 14) a fost propus de Nathan Marz (Marz i Warren,
2014). Ea se bazeaz pe cteva ipoteze cum ar fi:

tolerana la eroare,
suport de interogri ad-hoc,
scalabilitate,
extensibilitate.

Arhitectura, aa cum este prezentat n Figura 14, este alctuit din urmtoarele
componente:

Stratul de loturi (Batch Layer) - responsabil pentru gestionarea setului de date master
i de precalcularea vizualizrilor batch;
Stratul de servire (Serving Layer) - indexeaz vizualizrile batch pentru interogri ad-
hoc;
Stratul de vitaz (Speed Layer) - servete doar datelor noi, care nu au fost nc
procesate de Nivelul batch.
Stratul de loturi poate fi implementat cu utilizarea sistemelor, cum ar fi Hadoop.
Acesta este responsabil de stocarea setului de date imputabile master. Mai mult dect att,
utiliznd algoritmii MapReduce se calculeaz punctele de vedere ale datelor disponibile
pentru diferitele aplicaii.

Stratul de servire este responsabil pentru vizualizarea serviciilor calculate de nivelul


batch. Acest proces poate fi nlesnit prin indexarea suplimentar a datelor cu scopul de a
accelera citirea. Un exemplu de tehnologie folosit de obicei pentru a face acest gen de
lucruri este Impala, care este uor de integrat cu Hadoop, utilizat n stratul batch.

n cele din urm, rolul stratului de vitez este de a calcula n timp real datele care
tocmai au sosit i nu au fost nc procesate de ctre nivelul batch. El deservete aceste date
sub forma unor vizualizri n timp real, care sunt incrementate ca noi date de intrare i pot fi
folosite mpreun cu vizualizrile batch pentru o imagine complet a datelor.

Aceast arhitectur integrat cu Hadoop este prezentat n Figura 15.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 42


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Arhitectura Lambda
Hadoop

Toate datele Vederi


(HDFS) precalculate Stratul de
Recalculare (MapReduce) loturi
loturi

Stratul de
QFD 1 QFD 2 QFD N servire

Vederi loturi
Fluxuri noi de Interogri
date (Impala)

Vederi n timp real (Apache HBase)

QFD 1 QFD 2 QFD N

Storm

Flux de Vederi
Stratul de
procesare incrementale
vitez
Incrementare n
timp real

Figura 15. Arhitectura Lambda integrat cu Hadoop

n figura de mai sus sunt prezente (detaliat) cele trei straturi ale Arhitectura Lambda
integrat cu Hadoop: stratul de operare pe loturi, stratul de servire i stratul de vitez. n
continuare sunt prezentate n noua form cele trei straturi ale arhitecturii.
Stratul de loturi (Batch layer)

n acest strat este aplicat Apache Hadoop. Acest strat stocheaz seturile de date
nemutabile, care se mresc n mod constant (HDFS), i calculeaz vederi (view) arbitrare din
acest set de date (MapReduce), n mod continuu, prin iteraii MapReduce. Vederile ar trebui
s fie calculate din ntregul set de date i, n consecin, stratul de loturi nu actualizeaz
vederile n mod frecvent. Fiecare iteraie poate dura mai multe ore, n funcie de mrimea
setului de date i a clusterului.

Stratul de servire (Cloudera Impala)

Ieirea de la stratul de loturi este un set de fiiere obinuite care conin vederi
precalculate. Stratul de servire este responsabil pentru indexarea i expunerea de vederi astfel
nct acestea s poat fi interogate. Deoarece vederile n loturi sunt statice, stratul de servire
trebuie s furnizeze actualizri n loturi i citiri aleatoare, lucru care se realizeaz cu Cloudera
Impala. Pentru a expune vederile utiliznd Impala, stratul de servire ar trebui s creeze o
tabel n Hive Metastore care s indice fiierele HDFS. Dup aceasta, utilizatorii ar trebui s
poat utiliza Impala ca s interogheze vederile imediat. Deoarece straturile de loturi i de

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 43


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

servire nu satisfac nicio cerin de timp real, deoarece MapReduce are din proiectare o laten
mare, ceea ce conduce la o ntrziere de cteva ore n reprezentarea datelor n vederi i pentru
propagarea la stratul de servire. Din aceast cauz s-a mai introdus i stratul de vitez. n
arhitectura Lambda, timp real semnific posibilitatea de a procesa o cantitate de date
capturate dup startarea iteraiei curente n straturile n loturi.

Stratul de vitez (Storm, Apache HBase)

Stratul de vitez are aceiai funcionalitate cu stratul de loturi, n sensul c el


calculeaz vederi din datele pe care le primete. Acest strat compenseaz, ns, latena mare a
stratului de loturi, prin calcularea de vederi n timp real cu Storm. Vederile n timp real conin
numai rezultatele intermediare care sunt suplimentare vederilor n loturi. Modelul din stratul
de vitez este incremental n cadrul acestuia procesndu-se datele care sosesc dup realizarea
unei iteraii n stratul de loturi.

Au fost propuse o serie de abordri pentru prelucrarea Big Data n timp real. n
continuare sunt descrise 8 cerine de prelucrare a datelor n timp real (Stonebraker,
etintemel i Zdonik, 2005):

pstrarea datelor n micare,


folosirea de interogri SQL pe Fluxuri (StreamSQL),
tratarea imperfeciunilor din fluxuri,
generarea de rezultate previzibile,
integrarea datelor stocate i de streaming,
garantarea securitii datelor i disponibilitatea lor,
partiionarea i scalarea aplicaiilor n mod automat,
procesarea i rspunsul s fie instantanee.
De asemenea alte abordri despre subiectul n timp real sau aproape de procesarea n
timp real a Big Data pot fi gsite n literatura de specialitate (Zhu i Shasha, 2002),
(Herodotou i alii, 2011).

3.1.2.5. Analiza Arhitecturii Multi-Agent Big Data


Abordarea prezentat pentru procesarea Big Data ntr-o manier n timp real ncearc
s rezolve problema principal de a analiza seturi de date de mari dimensiuni, ce sunt n
continu cretere. Arhitectura Lambda este una dintre cele mai noi metode i a ctigat n
ultimul timp o popularitate mare, n principal prin simplitate i utiliznd instrumente
consacrate pentru prelucrarea datelor. Cele trei nivele uor de recunoscut, de loturi, de vitez
i de servire, fac o diviziune clar a funcionalitii componentelor. Mai mult dect att,
pentru fiecare dintre acest nivel, exist o mare varietate de soluii de implementare. Cele mai
multe dintre acestea sunt disponibile pe pia de ani de zile i sunt cunoscute pentru
fiabilitate.

n ciuda faptului, c arhitectura amintit este prezentat ca una simpl i clar, mai
sunt nc multe decizii i o mulime de lucruri ce trebuiesc integrate. Arhitectura ofer
orientri cu privire la modul n care ar trebui s fie proiectat sistemul i ce pri ar trebui s
conin. Acest lucru d libertate n alegerea soluiilor existente pentru o sarcin specific.
Totui, interaciunea ntre nivelele de loturi, de servire i de vitez trebuie s fie manipulat
n mod corespunztor. Mai mult, chiar ntr-un singur nivel, cteva componente trebuie s

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 44


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

interacioneze mpreun folosind diferite protocoale i metode de comunicare. n mediile Big


Data pentru a face fa la integrarea sistemelor distribuite de prelucrare a datelor trebuie s
lum n considerare scalabilitatea i fiabilitatea.

Arhitectura Lambda pentru prelucrarea Big Data poate fi modelat ca un mediu multi-
agent heterogen. Exist trei nivele distincte, cu caracteristici diferite, ntre care componentele
trebuie s interacioneze unele cu altele. Aceast comunicare poate fi simplificat utiliznd
abordarea sistemului multi-agent. Fiecare agent este responsabil de task-uri specifice n
prelucrarea datelor, de exemplu: primirea de date, rezultatul agregrii etc. Ageni sunt
autonomi i distribuii, iar cooperarea ntre agenii se face folosind mesaje de trecere. Toi
agenii comunic n acelai mod i prin urmare, integrarea este simplificat.

Figura 16. Arhitectura pentru prelucrarea Big Data folosind sisteme multi-agent

Figura 16 prezint arhitectura Lambda pentru prelucrarea Big Data, folosind sisteme
multi-agent. Nu exist modificri fa de conceptul principal. n abordarea MAS exist nc
stratul de loturi, de vitez i de servire.

Stratul de loturi creeaz agregate - vizualizri batch (Batch Views) - de la toate datele.
Stratul de vitez este doar incremental - Vizualizri n timp real (Real-Time Views) -
pentru datele noi, non-arhivate.
Stratul de servire utilizeaz att datele calculate online, ct i offline (vizualizri)
pentru rezolvarea problemelor specifice, de exemplu interogri analitice, decizii noi
de credit, recomandri de muzic etc.
Datele de intrare sunt procesate de sistem ca un flux de date. n funcie de domeniu,
acesta poate fi un flux de: pagini vizualizate, tranzacii utilizator, fiierele jurnal de sistem,
evenimente de diagnostic etc. Fluxul (Stream) - ca serie de date - este colectat de ctre
Agentul Receptor de Flux (Stream Receiver Agent). Acest agent este responsabil de pre-
procesarea simpl a datelor cum ar fi: filtrarea, schimbarea formatului de date, serializare a
obiectelor etc. Dup aceea, fiecare eveniment de date din flux este trecut la Agentul de
Arhivare (Archiver Agent) i la Agentul de Procesare Flux (Stream Processing Agent). Ambii
ageni se ocup cu manipularea noilor date din nivelul batch i din nivelul de vitez.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 45


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Procesul de prelucrare a noilor date ncepe cu scrierea n Depozitul de Date (Data


Store), de exemplu, Sistemul Distribuit de Fiiere Hadoop (HDFS) (Shvachko, Kuang, Radia
i Chansler, 2010). Depozitul de date trebuie s se ocupe de seturi mari de date i s stocheze
toate evenimentele din sistem. Faptul c deine fiecare eveniment din fluxul de date i permite
s ruleze calculul pentru o perioad selectat de timp din memorie. Calculele sunt coordonate
de ctre Agentul Coordonator al Loturilor (Batch Driver Agent). Acest agent este creat pentru
task-uri specifice, n timp ce lucrul efectiv este realizat de agenii si secundari Agenii de
Lucru cu Loturi (Batch Worker Agent). Fiecare agent de lucru proceseaz o parte din date
pentru a produce cu succes ieirea din job - vizualizri ale loturilor (Batch Views).
Vizualizrile loturilor conin diferite agregri ce trebuie produse din datele stocate. Aceasta
este o prezentare general a procesrii loturilor, care poate fi implementat cu uurin ntr-un
cluster de prelucrare distribuit ca YARN (Vavilapalli, i alii, 2013) sau Mesos (Hindman, i
alii, 2011).

Aceleai evenimente din datele primite sunt prelucrate de ctre stratul de vitez. Aici,
un Agent de Procesare al Fluxului (Stream Processing Agent) este primul punct de contact.
Agentul de Procesare (Processing Agent) ruteaz fiecare eveniment la Agentul de Lucru n
Timp Real (Real-Time Worker Agent) corespunztor, acolo unde sunt executate efectiv task-
urile. Rezultatul este reprezentat de Vizualizrile n Timp Real (Real-Time Views), care sunt
actualizate online. Aceste vizualizri sunt seturi rapide n memoria de date, pregtite pentru
accesul online rapid. Att Vizualizrile de loturi, ct i cele n timp real sunt create pentru un
caz specific de utilizare. Aceast problem de utilizare a cazului este rezolvat n Nivelul de
Servire (Serving Layer). Cererea din exterior este manipulat de ctre un Agent de Serviciu
dedicat (Service Agent). O problem particular, este rezolvat de tipurile adecvate de ageni.
Pentru fiecare cerere nou este creat Agentul de Serviciu. Pentru a rezolva problema dat i
pentru a pregti rspunsul, Agentul de Serviciu colecteaz datele necesare. Datele anterioare
sunt furnizate Vizualizrilor de loturi precalculate. Pentru a accesa aceste date este folosit
Agentul Agregator de Loturi (Batch Aggregator Agent). Acest agent interogheaz
vizualizrile de loturi corespunztoare.

O prelucrare similar se face pentru colectarea noilor date online. Agentul Agregator
n Timp Real pregtete seturile de date de la Vizualizrile n Timp Real. Ambele vizualizri
de loturi i cele n timp real sunt combinate pentru a prezenta imaginea de ansamblu a
datelor. Dup colectarea tuturor datelor necesare de la agenii agregatori este creat rspunsul.
n acest moment, n care cererea este servit i rspunsul este trimis napoi la client, ciclul de
via al Agentului de Serviciu se ncheie.

n funcie de infrastructur i domeniul sistemului, nivelul online (online layer) poate


avea vizualizri pentru diferite perioade de timp. Acestea pot varia de la zi la secund. Ideea
principal din spatele stratelor de batch i de vitez este de a lucra mpreun pentru a prezenta
o imagine coerent pentru datele din stratul de servire. Primul lucru care poate fi observat n
arhitectura MAS propus este c toate comunicaiile din sistem sunt doar ntre ageni. Fiecare
sarcin unic prezentat n arhitectura Lambda este ncapsulat n interiorul unui agent
autonom. Aceste rezultate conduc la integrare simplificat i la calcul distribuit.

Mai mult dect att, n abordarea prezentat se recomand folosirea aceleiai


reprezentri eveniment n ambele procese: de batch i online. n ciuda diferenelor de

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 46


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

infrastructur, o schem de date poate fi la fel (pentru Lambda cele mai comune sunt Hadoop
pentru batch i Storm pentru procesrile online). Atunci cnd agenii sunt proiectai pentru o
singur sarcin acetia pot fi reutilizai n nivelul de vitez i de loturi. De exemplu: acelai
calcul fcut de Agentul de Lucru cu Loturi i de Agentul de Lucru n Timp Real se poate face
prin implementarea aceluiai agent.

3.2. Tehnologii pentru Big Data


Unele tipuri de date precum text i voce, exist de mult timp, ns volumul acestora n
mediul Internet i n alte structuri digitale anun nceputul unei noi ere, precum i a unor noi
tehnologii care permit analizarea acestor tipuri de date.

n esen, Big Data nseamn date coerente de mari dimensiuni, diverse ca natur,
complexe ca structur care sunt pstrate n condiii de securitate utiliznd medii de stocare
diverse, performante dar ieftine, date procesate cu ajutorul unor algoritmi avansai care
asigur rapid rezultate optime cu costuri de exploatare minime.

Pornind de la aceast definiie constatm c sunt de definit dou categorii distincte de


tehnologii asociate conceptului Big Data. Prima categorie se refer la tehnologiile care
gestioneaz datele de volum i varietate foarte mare n formate i pe platforme hardware
diverse. A doua categorie se refer la noile tehnologii de prelucrare a datelor care se
bazeaz pe algoritmi performani oferind rezultate deosebite la viteze de calcul demne de
remarcat. Aceste tehnologii asigur ncredere n date i n rezultatele prelucrrilor lor.

3.2.1. Mecanisme de stocare pentru Big Data


Exist numeroase studii i cercetri n domeniul tehnologiilor Big Data analizeaz
dezvoltarea mecanismelor de stocare a Big Data. Mecanismele de stocare pentru Big Data
existente pot fi clasificate pe trei niveluri, dispuse de la baz spre vrf, astfel: (1) sisteme de
fiiere, (2) baze de date i (3) modele de programare.

Sistemele de fiiere reprezint baza pentru aplicaiile de nivel superior. Spre exemplu,
sistemul de fiiere GFS de la Google este un sistem de fiiere distribuit ce poate fi extins
pentru a putea fi utilizat de aplicaii distribuite pe scar larg (Cattell, 2010). GFS utilizeaz
servere fr resurse puternice pentru a obine tolerana la erori i ofer servicii de nalt
performan. GFS suporta aplicaii ce utilizeaz fiiere de mari dimensiuni, n care citirea este
mai frecvent dect scrierea datelor. Sistemul GFS are i unele limitri, cum ar fi de exemplu,
un singur punct de eroare i performane mai sczute pentru fiierele mici.

Modele de programare
n general, Big Data se stocheaz pe sute i chiar mii de servere comerciale. Astfel,
modelele tradiionale de programare paralel, cum ar fi de exemplu MPI i OpenMP, ar putea
s nu fie adecvate pentru astfel de aplicaii paralele la scar larg. Recent, au fost propuse noi
modele de programare paralel care mbuntesc n mod eficient performana sistemelor
NoSQL i care reduc decalajul de performan fa de bazele de date relaionale. Prin urmare,
aceste modele au devenit fundamentul pe care se bazeaz analiza datelor de tip Big Data.

MapReduce: este un model simplu ns deosebit de puternic pentru programarea la


scar larg utiliznd un numr mare de clustere formate din servere comerciale (Dean and

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 47


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Ghemawat, 2008). Acesta poate realiza procesarea automat a datelor n mod paralel i
distribuit. n MapReduce, modelul de calcul are doar dou funcii, i anume, map i reduce,
ambele fiind programate de ctre utilizatori. Funcia map are rolul de a procesa datele de
intrare i de a genera perechi intermediare de tipul cheie-valoare. Apoi, sistemul va combina
toate valorile intermediare legate de aceeai cheie i le va transmite funciei reduce care
procesa valorile stabilite anterior ntr-o mulime cu mai puine elemente. MapReduce are
avantajul c evit etapele complicate pentru dezvoltarea de aplicaii paralele, ca de exemplu,
distribuirea datelor, tolerana la defecte, i rezolv problemele de comunicaii ntre sisteme.
Utilizatorul trebuie doar s programeze cele dou funcii pentru a dezvolta o aplicaie. Cadrul
MapReduce nu a permis iniial mai multe seturi de date ntr-o aplicaie, ns acest lucru a fost
mbuntit recent.

Pentru a mbunti eficiena n programarea aplicaiilor MapReduce, au fost propuse


anumite limbaje avansate, de exemplu, Sawzall de ctre Google, Pig Latin de ctre Yahoo,
Hive de Facebook.

3.2.1.1. Baze de date


Sistemele de gestiune a bazelor de date sunt dezvoltate cu scopul de a oferi suport
pentru administrarea unor seturi de date de diferite dimensiuni ce sunt utilizate n cadrul
aplicaiilor software. De peste 25 de ani bazele de date relaionale (RDBMS) sunt modalitatea
preferat pentru a stoca baze de date.

Dup cum se tie, bazele de date s-au dezvoltat urmrind mai multe modele. Dintre
aceste modele modelul relaional a fost cel mai rspndit. La baza lor a stat SQL. Cnd se
invoc acronimul SQL, informaticienii se refer n mod natural la Structure Query Language
adic la un limbaj de cereri peste o baz de date relaional. Dar n acelai timp SQL
denumete i o clas de baze de date relaionale cu acest nume sau cu nume derivate din
acestea, de exemplu SQL i MySQL.

Aceste baze de date ct i toate bazele de date relaionale dezvoltate pornind de la ele
se caracterizeaz prin faptul c pun mare accent pe stabilirea relaiilor dintre entiti care
genereaz implicit o schem complex a bazei de date cu proprietatea de consisten.
Complexitatea schemei bazei de date i cerina de consisten a ei sunt constrngeri care
greveaz asupra dimensiunii bazei de date i a performanei aplicaiilor informatice
dezvoltate pe ea. Aceasta i numai pentru faptul c liniile din tabelele bazei de date, n acest
caz, sunt limitate ca numr.

De aceea teoreticienii bazelor de date au propus cteva idei, destul de ndrznee, care
vizeaz modificarea modelului relaional. Pe de o parte, aceast modificare trebuie s
conduc la mrirea capacitii de stocare a bazelor de date. Pe de alt parte se asigur
flexibilitatea prelucrrilor de date i implicit mrirea performanei aplicaiilor n ceea ce
privete timpul de calcul.

Bazele de date relaionale au la baz aa-zis-ul model Atomocity-Consistency-


Isolation-Durability (ACID). De fapt acestea sunt patru scopuri pe care trebuie s le
ndeplineasc orice baz de date relaional ca s fie considerat fiabil. Atomicitatea este o
expresie a principiului totul sau nimic. Conform acestui principiu orice tranzacie pe baza

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 48


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

de date, considerat a fi un atom, trebuie s nceap i s se ncheie cu succes n caz contrar


acea tranzacie se consider c nu a existat.

Consistena este o cerin a schemei relaionale a bazei de date la care se adaug setul
de cerine asupra datelor elementare. Numai tranzaciile care respect aceste cerine sunt
nregistrate n baza de date, ele meninnd consistena bazei de date. Izolarea tranzaciilor
este o regul dup care se nregistreaz n baza de date tranzaciile multiple care se adreseaz
aceleai nregistrri din aceiai entitate a bazei de date.

Regula este primul sosit primul servit cu ateptarea terminrii tranzaciei n


execuie. Durabilitatea este o proprietate a bazelor de date relaionale care se refer la faptul
c orice tranzacie ncheiat cu succes nu se pierde. Mai mult, utiliznd tehnici variate, de
exemplu tehnica jurnalului, se poate reveni la starea anterioar a bazei de date, adic acea
stare dinaintea nceperii ultimei sesiuni de tranzacii. Dac se vrea s se rmn la nivelul
modelului ACID, nici o astfel de caracteristic tratat anterior nu trebuie s fie violat.

Bazele de date relaionale tradiionale nu pot face ns fa provocrilor actuale aduse


de ctre Big Data. n ultima vreme bazele de date de tipul NoSQL (baze de date non-
relaionale) sunt din ce n ce mai populare pentru stocarea datelor de mari dimensiuni.

Ele au aprut din nevoia unor companii precum Google, Facebook sau Twitter de a
manipula cantiti imense de date crora bazele de date tradiionale pur i simplu nu le pot
face fa. Aa c bazele de date NoSQL au fost proiectate pentru a stoca volume foarte mari
de date n general fr o schem fix i partiionate pe multiple servere.

Bazele de date NoSQL ofer moduri flexibile de lucru, suport pentru copierea datelor
mult mai simplu i mai uor, un API simplu, i coerena eventual a datelor. Bazele de date
NoSQL devin astfel tehnologia de baz pentru Big Data.

n funcie de modul n care stocheaz informaiile, bazele de date NoSQL se mpart


n: colecii de perechi cheie-valoare, implementri BigTable, colecii de documente i baze de
date graf.

Care sunt factorii care au dus la dezvoltarea rapid a tehnologiilor NoSQL n


ultima vreme?
n primul rnd o nou form de trafic internet generat de Web 2.0 care face posibile
variaii considerabile n numrul de vizite pe care un site le primete. Creterile explozive de
trafic pot fi predictibile (de exemplu: Crciun, evenimente sportive) sau impredictibile (atacul
de la 11/09/2001), iar site-uri precum Facebook pot aduce cantiti imense de trafic peste
noapte unui site dac un articol devine viral.

Al doilea motiv este acela c structura datelor dintr-o aplicaie se modific n timp
ceea ce duce la un numr mare de tabele modificate i adaptate s serveasc noile nevoi.

Al treilea factor este accesibilitatea tehnologiei. Pn recent doar firmele foarte mari
care aveau nevoie absolut i permiteau s dezvolte o astfel de soluie, dar cum baze de date
NoSQL exist acum ca pachete open-source acum oricine i poate permite s le foloseasc.

Care sunt situaiile n care se recomand folosirea unei soluii NoSQL?

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 49


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

baza de date tradiional nu mai poate fi scalat la un pre acceptabil;


generai foarte multe informaii temporare cum ar fi: couri de cumprturi,
chestionare incomplete, istorice de navigare, personalizri etc.;
baza de date a fost deja denormalizat pentru a mbunti performanele;
stocai cantiti foarte mari de text i/sau imagini;
avei nevoie s rulai interogri de date care nu implic doar simple relaii ierarhice; de
exemplu: toi oamenii dintr-o reea social care nu au cumprat anul acesta o carte
dar au legtur cu o persoan care a cumprat;
tranzaciile nu trebuie s fie perfect consistente; de exemplu un buton de like, dac
tranzacia eueaz nu este nici o problem, utilizatorul cel mai probabil va mai apsa o
dat butonul.
Caracteristicile generale ale acestor soluii:

memorarea unor volume mari de date (companiile amintite mai sus folosesc ntre 10-
100K servere)
nu exist o structur fix a datelor
ntre date se pot stabili legturi (prin referine la date memorate n alte baze de date)
aceleai date pot s fie memorate pe mai multe servere (partajare i replicare)
la interogare nu se folosesc operaii de join (mari consumatoare de timp)
sunt soluii foarte bune pentru cazuri particulare (NU pentru orice gestiune de date)
Dezavantaje ale modelelor NoSQL:

nu exist standarde (cum exist standardul SQL la bazele de date relaionale)


nu se asigur consistena bazei de date (de ctre sistemul de gestiune)
nu exist metode performante pentru protecia datelor
modelele propuse sunt la primele versiuni
exist posibiliti limitate de interogare
aproape toate sistemele aprute sunt open-source
exist relativ puini dezvoltatori software pentru NoSQL

3.2.1.2. Tehnologia NoSQL


NoSQL (Not Only SQL) sunt baze de date non relaionale. Principalul avantaj al
utilizrii bazelor de date NoSQL este acela c permit lucrul eficient cu date structurate,
precum e-mailul, multimedia, procesoare de text. Bazele de date NoSQL, ca nou generaie
de baze de date: nu sunt relaionale, sunt distribuite, sunt Open Source i se caracterizeaz
prin scalabilitate orizontal. O alt caracteristic important a sistemelor NoSQL este
arhitectura shared nothing prin care fiecare nod-server este independent, nu partajeaz
memorie sau spaiu.

NoSQL nu nseamn nu SQL ci mai degrab nu numai SQL, vezi (MAC


CREARY and KELLY, 2014). Acest nou SGBD face ceea ce niciun promotor al modelului
ACID nu s-ar fi ateptat, renunndu-se la structura, relaii ntre entiti, numerotarea

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 50


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

realizrilor entitilor i la mai toate principiile acestui model. Se propune un nou model mai
flexibil numit Basic Availability Soft State Eventual Consistency (BASE).

Bazele de date NoSQL au o structur mai simpl i o tehnologie diferit pentru


stocarea i extragerea datelor dect bazele de date relaionale i ofer performane mai bune
pentru analize n timp real sau pe volume mari de date.

ntr-o baz de date NoSQL nu exist o schem propriu-zis a datelor, ele fiind stocate
ca perechi cheie-valoare (foarte eficient i flexibil, dar datele nu sunt self-describing), sau de
coloane (folosit pentru date mprtiate), sau document (folosit pentru depozite XML, dar
ineficient ca performan), sau graf (folosit pentru traversri relaionate, dar ineficient la
cutri).

Astfel micarea NoSQL reprezint o ncercare de a depi limitrile modelului


relaional i un pas de trecere ctre NewSQL i anume relaional plus extra funcionaliti
NoSQL.

n continuare se vor prezenta principalele trei tipuri de baze de date NoSQL: baze de
date cheie-valoare, baze de date orientate pe coloane i baze de date dedicate pentru
documente.

Bazele de date cheie-valoare: Bazele de date cheie-valoare sunt constituite n baza


unui model al datelor simplu, potrivit cruia datele sunt stocate corespunztor unei
perechi cheie-valoare. Fiecare cheie este unic, iar clienii pot introduce valori pentru
fiecare cheie. De-a lungul ultimilor ani au fost implementate foarte multe baze de date
de tipul cheie-valoare fiind inspirate dup sistemul Amazon Dynamo (DeCandia et
al., 2007).
o Dynamo: este un sistem distribuit de stocare al datelor de tipul cheie-valoare.
Acesta are drept principale caracteristici disponibilitatea i posibilitatea de
extindere i este utilizat pentru a stoca i gestiona serviciile de baz din cadrul
platformei de e-Commerce de la Amazon. Dynamo poate s ofere faciliti
precum elasticitatea i disponibilitate prin utilizarea unor mecanisme care se
bazeaz pe partiiile de date, copierea i editarea obiectelor componente.
Dynamo transfer datele la N seturi de servere, n care N este un parametru
configurabil cu scopul de a obine o disponibilitate ridicat. Dynamo ofer i
eventuala coeren a datelor, astfel nct se pot realiza modificri asincrone pe
toate copiile.
o Voldemort: este un sistem de stocare cheie-valoare care a fost iniial dezvoltat
de ctre compania LinkedIn. Voldemort ofer actualizarea asincron i
controlul simultan pentru mai multe versiuni, dar nu asigur coerena datelor.
Cu toate acestea, Voldemort permite actualizarea multi-nregistare coerent
utiliznd o tehnic bazat pe blocarea optimist a scrierilor, ceea ce presupune
c atunci cnd apare un conflict ntre actualizare i orice alte operaiuni,
operaiunea de actualizare va fi oprit. Mecanismul de copiere al datelor
utilizat de Voldemort este acelai cu cel al Dynamo.
Aa cum am menionat anterior, bazele de date de tip cheie-valoare au aprut
recent fiind profund influenate de Amazon Dynamo. Alte sisteme de stocare de
tipul cheia-valoare includ Redis, Memcached, Memcache DB, Riak, Scalaris etc.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 51


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Baze de date orientate pe coloane: bazele de date orientate pe coloane stocheaz i


prelucreaz datele n funcie de coloane i nu de rnduri ca n cazul sistemelor
relaionale tradiionale. Att coloanele ct i rndurile sunt segmentate n mai multe
noduri pentru a suporta extinderea bazei de date. Bazele de date orientate pe coloane
sunt inspirate n principal de BigTable ce a fost realizat de ctre Google. Acesta va fi
prezentat succint n continuare i apoi vor fi introduse cteva instrumente similare.
o BigTable: este un sistem distribuit de stocare a datelor structurate, care este
proiectat pentru a procesa datele la scar larg (de ordinul PB) utiliznd
servere obinuite (Chang et al., 2008). BigTable se bazeaz pe mai multe
componente fundamentale ale infrastructurii Google, inclusiv GFS, sistemul
de management al clusterelor de calcul, formatul de fiiere SSTable i
Chubby. GFS este folosit pentru a stoca datele i fiierele jurnal. Sistemul de
management al clusterelor este responsabil pentru programarea ncrcrii cu
aplicaii, partajarea resurselor, procesarea erorilor sistemelor de calcul i
monitorizarea strii sistemelor. Fiierele n format SSTable sunt utilizate
pentru a stoca intern datele BigTable. Chubby este utilizat pentru urmtoarele
sarcini: 1) s se asigure c exist cel mult o copie master activ n orice
moment; 2) pentru stocarea locaiei bootstrap pentru datele din BigTable; 3)
cutare server Tablet; 4) recuperare din eroare n caz de defeciune a unui
server Tablet; 5) oferirea de informaii referitoare la schema de date BigTable;
6) de a stoca tabela de control acces.
o Cassandra: este un sistem de stocare distribuit special proiectat pentru a
gestiona o cantitatea mare de date structurate cu ajutorul unor servere
obinuite (Lakshman and Malik, 2009). Acest instrument a fost dezvoltat de
ctre Facebook i a fost fcut open source n anul 2008. Cassandra adopt
ideile i conceptele Amazon Dynamo i Google BigTable, n special n
domeniul integrrii tehnologiei sistemelor distribuite utilizate de Dynamo cu
modelul structurrii datelor utilizat de BigTable.
o Alte instrumente inspirate de BigTable: deoarece codul surs al aplicaiei
BigTable nu poate fi obinut prin intermediul unei licene open source, mai
multe proiecte open source au fost iniiate cu scopul de a pune n aplicare
conceptele utilizate de tehnologia BigTable i de a dezvolta sisteme similare,
cum ar fi, de exemplu, HBase i Hypertable.
HBase este o versiune open source inspirat de BigTable i care a fost
dezvoltat n limbajul de programare Java (George, 2011). Aceasta
face parte din ecosistemul Hadoop, mai precis din cadrul componentei
MapReduce. HBase nlocuiete GFS cu HDFS i utilizeaz memoria
RAM pentru a actualiza coninutul bazelor de date i apoi transcrie n
mod regulat n fiiere pe discuri.
Baze de date dedicate pentru documente: comparativ cu bazele de date de tip cheie-
valoare, bazale de date dedicate pentru documente pot gestiona tipuri de date mult mai
complexe. n continuare se va face o scurt trecere n revist a principalelor soluii
pentru baze de date dedicate pentru documente, respectiv MongoDB, SimpleDB, i
CouchDB.
o MongoDB: este un produs open-source pentru stocarea documentelor
(Chodorow and Dirolf, 2010). MongoDB utilizeaz obiecte de tipul Binary
JSON (BSON) pentru stocarea datelor.
o SimpleDB: este o baz de date distribuit pentru stocarea documentelor ce
ofer o interfa bazat pe servicii web. Aceasta a fost dezvoltat de ctre

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 52


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Amazon. SimpleDB este organizat sub forma de domenii n care pot fi stocate
datele. Domeniile pot avea proprieti diferite. Datele sunt copiate pe diverse
maini aflate n diferite centre de date cu scopul de a asigura sigurana datelor
i de a mbunti performana.
o CouchDB: Apache CouchDB este o baz de date dedicat pentru documente
ce a fost implementat n limbajul de programare Erlang (Anderson, Lehnardt,
and Slater, 2010). Datele stocate n cadrul CouchDB sunt organizate sub
forma unor documente ce sunt compuse din cmpuri diferite accesate pe baza
de chei/nume i valori, i care sunt stocate i accesate sub forma de obiecte de
tipul JSON. Fiecare document are un identificator unic. CouchDB permite
accesul la documentele stocate n baze de date prin intermediul unui API de
tipul RESTful.
Dac o baz de date a fost simplificat n acest mod este clar c cererile aa cum sunt
ele tiute de la bazele de date relaionale nu mai au suport i n consecin trebuie gsite alte
mecanisme pentru regsirea datelor. n cazul bazelor de date NoSQL acest nou mecanism
este funcia hash. Ea este un algoritm matematic care poate prelua o intrare de lungime
variabil oferind o ieire consistent de lungime fix. Cnd la intrare ntr-o baz NoSQL
apare un cuplu cheie / valoare, cheii respective i se aplic funcia hash, iar cuplul hash cheie-
valoare respectiv este direcionat ctre un anumit NoSQL Server unde se stocheaz i de unde
ulterior va fi gsit. Cnd o aplicaie ncearc s gseasc o pereche cheie-valoare ea
furnizeaz numele bazei de date i cheia respectiv. Procedeul hash se repet ca la stocare i
dac cheia exist n acea baz de date nseamn c motorul de gsire a cuplului cheie-valoare
va trebui s-o gseasc pe serverul respectiv. Desigur c dup cum s-a vzut NoSQL este
orientat spre stocare masiv a informaiilor i regsire rapid atunci cnd este nevoie. Cereri
complexe, ca n cazul bazelor de date relaionale, nu se pot lansa n acest caz. Exist i
beneficii a acestei arhitecturi numit NoSQL. Primul beneficiu provine din acceptarea
redondanei. Pe baza ei administratorii bazei de date pot replica o nregistrare existent i
apoi s o reconfigureze aa cum doresc. Cellalt beneficiu se refer la scalabilitate. Aceasta
nsemn c administratorul bazei de date poate aduga practic oricte nregistrri vrea iar
acestea sunt prelucrate de funcia hash cu stocarea balansat la nivelul serverului.

Dei NoSQL i gsete destul de multe aplicaii, cele mai multe fiind cele care
necesit date de volum foarte mare dar de complexitate mic, nu se poate spune c ele vor
substitui bazele de date relaionale.

Dac n subcapitolul anterior au fost prezentate avantajele folosirii NoSQL,


bineneles ca exist i dezavantaje. Printre acestea amintim:

nu exist un limbaj universal valabil. Bazele de date relaionale au SQL, care chiar
dac are multe extensii proprietare totui utilizatorii tiu la ce s se atepte;
maturitatea majoritatea sistemelor NoSQL nc sunt la primele variante sau nc n
plin dezvoltare;
suport fiind n general proiecte open source, iar firmele ce ofer suport sunt mici, de
multe ori startup-uri i poate nu ofer suficient credibilitate;
disponibilitatea dezvoltatorilor evident fiind o tehnologie nou, comparativ cu bazele
de date tradiionale sunt mult mai puini dezvoltatori software NoSQL.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 53


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Sistemele NoSQL se potrivesc foarte bine i cu tehnologia Cloud, care se bazeaz pe


virtualizare.

Bazele de date NoSQL reprezint o trecere ctre baze de date superioare ce vor
integra flexibilitatea i performanele lor actuale cu modelul relaional. Odat cu apariia
bazelor de date NoSQL, dezvoltatorii au oportunitatea de a beneficia de mai mult agilitate n
modelul de date abordat. De asemenea aceste baze de date constituie modelul optim pentru
aplicaiile web. De aceea cunoaterea caracteristicilor lor este foarte important, n special
nainte de a migra la o astfel de soluie.

Cele mai populare baze de date NoSQL n acest moment sunt: Cassandra, Mongodb,
CouchDB, Redis, Riak, Membase, Neo4j i HBase.

3.3. Seturi Big Data


Big data reprezint o colecie de seturi de date complex i de dimensiune foarte mare
i care nu poate fi procesat cu ajutorul aplicaiilor standard fiind necesare aplicaii capabile
s ruleze n mod paralel pe un numr foarte mare de servere. Printre dificultile ntlnite n
procesarea acestor date se numr: captura, curarea, stocarea, cutarea, partajarea,
transferul, analiza i vizualizarea.

Sistemele de Big Data pot furniza informaie att organizaiilor guvernamentale ct i


cetenilor, provenind din diferite surse care pot fi identificate dup cum urmeaz:

document pe hrtie (mediu fizic)


documente digitale
puncte de acces la reeaua de Internet guvernamental
site-uri localizate pe platformele online de socializare
sisteme operaionale disponibile.
Informaia furnizat de sistemele Big Data nu include informaii personale sau
informaii restricionate de mecanisme de control i confidenialitate.

Strategiile de Big Data, n general, presupun o serie de schimbri n orice companie,


schimbri legate de surse, de infrastructur, de abiliti, n condiiile n care vorbim de seturi
de date greu de structurat. Acest volum mare de date, variat i care se modific rapid, ns,
ofer o viziune n profunzime asupra noilor piee, dar i asupra noilor nevoi ale
consumatorilor.

3.3.1. Categorii de date


Potrivit Garter, pentru a gestiona un volum mare de date, informaiile ar putea fi
incluse n categorii, n funcie de surs. Firma de consultan american a identificat cinci
astfel de tipuri de informaii:

1. Date operaionale
Sunt date despre consumatori, furnizori, parteneri i angajai deja accesibile pe baza
unor procese de tranzacie sau din baze de date.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 54


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

2. Date ascunse (Dark Data)


Dark date sunt informaiile adunate de-a lungul vremii n arhive, dar care nu pot fi
clar structurate. n acest caz ar fi incluse mail-urile, contractele, informaiile multimedia.

3. Date comerciale
Sunt date care pot veni prin intermediul agregatoarelor de date (care citesc RSS-urile)
specifice, n funcie de industrie.

4. Date publice
Datele publice aparin instituiilor statului (informaii care vin de la Guvern, de la
ministere).

5. Date din social media


Sunt datele care arat activitatea unui utilizator pe un blog, pe reelele de socializare.
Ele sunt utile pentru a stabili trenduri, atitudini, preferine.

Big Data reprezint seturi mari de informaii complexe care n urma unei analize
pot identifica trenduri n afaceri, pot contribui la prevenirea bolilor i chiar combate rata
criminalitii.

3.3.2. Procesul de achiziie a datelor


Procesul de achiziie Big Data include activiti precum colectarea, transferul i pre-
procesarea datelor (Chen, Mao, and Liu, 2014). Seturile de date astfel obinute pot include
ns informaii care sunt redundante sau informaii care sunt complet nefolositoare i care
cresc nejustificat necesarul pentru spaiul de stocare. n plus, procesul de analiz poate s fie
influenat n mod negativ de calitatea datelor utilizate. Spre exemplu, problema redundanei
datelor este comun n cazul seturilor de date furnizate de senzorii de monitorizarea a
mediului. n astfel de situaii se utilizeaz n mod frecvent tehnica compresiei datelor. n
continuare vor fi introduse i prezentate aceste activiti specifice procesului de achiziie a
datelor.

3.3.2.1. Colectarea datelor


Colectarea este un proces ce se bazeaz pe tehnici specifice necesare pentru obinerea
datelor neprelucrate (brute) de le senzori sau alte surse dedicate. Cele mai importante surse
pentru colectarea datelor sunt:

1. Fiierele de tip log (log-file). Aceste fiiere nregistreaz n mod automat informaii
specifice n operarea aplicaiilor i sistemelor de calcul, precum serverele web,
serverele de baze de date, serverele de mail .a. (Wahab, Mohd, and Hanafi, 2008). n
situaia n care dimensiunea datelor stocate devine exagerat de mare, pentru a
mbunti performanele legate de accesarea i interogarea acestora, n locul
fiierelor standard se pot utiliza baze de date dedicate sau alte sisteme specializate.
2. Monitorizarea prin intermediul senzorilor. Senzorii au devenit omni-prezeni n
viaa de zi cu zi. Acetia msoar diveri parametri de mediu i transform cantiti
fizice n semnale digitale ce sunt stocate i apoi prelucrate. Datele furnizate de senzori
pot fi clasificate n funcie de domeniul de provenien precum: subiectul uman,
mediul ambiant, cldiri, automobile etc. Informaiile oferite de senzori sunt transferate
ctre o baz de date cu ajutorul reelelor wireless.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 55


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

3. Reele de date. n prezent, obinerea de date din cadrul reelelor de calculatoare se


realizeaz prin intermediul unor aplicaii specializate, utiliznd metode i tehnici
specifice. Spre exemplu, principale tehnologii utilizate pentru achiziionarea datelor
din cadrul unei reele includ nregistrarea pachetelor de date cu ajutorul aplicaiei
Libpcap sau nregistrarea pachetelor de date cu ajutorul tehnologiei zero-copy. Se pot
nregistra de asemenea datele cu ajutorul unor aplicaii dedicate de monitorizare
precum Wireshark, SmartSniff sau WinNetCap.
Tehnologia de achiziionare a datelor bazat pe Libpcap. Aceast aplicaie este o
bibliotec extrem de popular ce este utilizat pentru nregistrarea pachetelor de
date n cadrul reelelor de calculatoare. Este un instrument care nu depinde de
nicio alt aplicaie sau sistem i care opereaz la nivelul 2 n cadrul stivei de
protocoale de reea (nivelul de date). Principalele sale avantaje sunt uurina n
utilizare, portabilitatea i faptul c este extrem de simplu. Pe de alt parte,
dezavantajul major al acestei tehnologii este eficiena foarte sczut. n anumite
situaii de ncrcare i de laten foarte sczut pot aprea frecvent pierderi de
date.
Tehnologia de achiziionare a datelor utiliznd metoda zero-copy. Aa-numita
metod zero-copy (ZC) presupune c, n cadrul procesului de transfer al
pachetelor recepionate ctre o nou destinaie, nu se realizeaz nicio copiere a
datelor n memoria sistemului de calcul. La transmiterea datelor, pachetele sunt
preluate direct din zona de memorie alocat special pentru aplicaia respectiv,
sunt redirecionate ctre interfeele de reea i apoi sunt transferate n reea.
Echipamentele mobile. Cu ct dispozitivele mobile devin din ce n ce mai
sofisticate, acestea includ un numr tot mai mare de senzori pentru nregistrarea
datelor. Astfel, dispozitivele mobile pot nregistra informaii referitoare la
localizarea geografic, pot nregistra date video, imagini, sunete, informaii de
mediu precum presiunea atmosferic, date referitoare la activitile utilizatorului,
etc. Spre exemplu, un telefon inteligent precum iPhone poate colecta date
referitoare la reele wireless, localizarea geografic a utilizatorului i poate
transmite aceste informaii companiei Apple pentru a fi procesate. n mod similar,
i alte sisteme de operare pentru dispozitivele mobile precum Android de la
Google i Windows Phone de Microsoft pot colecta informaii similare pe care le
trimit apoi ctre companiile respective.
4. Experimentele tiinifice. n afara acestor trei metode principale de achiziie a
datelor ce au fost menionate anterior, n cadrul experimentelor tiinifice,
instrumentele de laborator pot nregistra datele experimentale, spre exemplu
spectrometrele magnetice sau radiotelescoapele.
Metodele de colectare a datelor pot fi clasificate i din perspectiva surselor de date.
Astfel, acestea pot fi mprite n metode de colectare direct de la surs sau metode de
colectare a datelor prin intermediul unor instrumente auxiliare.

3.3.2.2. Transferul datelor


Odat ce a fost finalizat procesul de colectare a datelor, acestea vor fi transferate n
cadrul unui sistem de stocare pentru a fi procesate i ulterior analizate. Big Data este stocat pe
o infrastructur de calcul la dimensiunea unui centru de date. Modul n care sunt dispuse
aceste date este extrem de important deoarece acest lucru influeneaz att eficiena
computaional ct i activitatea de mentenan a infrastructurii.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 56


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Transferul datelor const din dou faze: transferul Inter data-center i transferul Intra
data-center.

Transferul Inter data-center: este transferul de la surs ctre centrul de date. n


general acesta este realizat prin intermediul Internet.
Transferul Intra data-center: acest mod de transfer const n copierea datelor n
cadrul unui centru de date. Acesta depinde de tipul infrastructurii de reea utilizate n
cadrul centrului de date, cum ar fi de exemplu arhitectura de reea, modul de realizare
a conexiunilor, componentele hardware de memorie i unitate de procesare, etc. n
general, un centru de date const din mai multe rack-uri care sunt interconectate ntre
ele prin intermediul unei reele private.

3.3.2.3. Pre-procesarea datelor


Datorit numrului foarte de mare al surselor de date, seturile de date colectate
prezint o serie de probleme precum redundana, consistena sau elemente nerelevante care
pot fi incluse n categoria zgomot. Aceste inconveniente produc totodat i o risip a spaiului
de stocare. n plus, anumite metode de analiz a datelor necesit un minim standard de
calitate pentru acestea.

Astfel, pentru realizarea activitii de analiz a datelor trebuie s se implementeze un


proces de pre-procesare al datelor provenite din mai multe surse, ce conduce la reducerea
necesarului de spaiu de stocare i crete totodat acurateea analizei. Cteva din cele mai
importante tehnici de pre-procesare a datelor sunt prezentate n continuare:

Integrarea: este o operaie de procesare a datelor ce provin din surse diferite i care
se bazeaz pe combinarea informaiilor i prezentarea unei imagini unitare asupra
seturilor de date (Lenzerini, 2002). n practic sunt utilizate dou mari strategii:
depozitarea datelor (data warehouse) i federalizarea datelor (data federation).
Depozitarea datelor include un proces denumit ETL (Extract, Transform, Load).
Extragerea datelor implic realizarea unei conexiuni ntre sistemele surs pentru date,
iar apoi selectarea, colectarea, analizarea i procesarea acestora. Transformarea
reprezint executarea unor serii de aciuni definite sub forma de reguli de procesare
care sunt aplicate datelor extrase. ncrcarea se refer la importarea datelor extrase i
prelucrate n cadrul infrastructurii de stocare. Aceasta este i cea mai complex
procedur dintre cele trei, deoarece include operaii precum transformarea, copierea,
corectarea, standardizarea, filtrarea i organizarea datelor.
Filtrarea: este un proces prin care se identific datele inexacte, incomplete sau pur i
simplu eronate i care sunt apoi modificate sau eliminate, astfel nct s se
mbunteasc calitatea acestora. La modul general, filtrarea datelor include cinci
proceduri complementare, respectiv: definirea i determinarea tipurilor de erori,
cutarea i identificarea erorilor, corectarea erorilor, documentarea exemplelor de
erori precum i a tipurilor de erori i modificarea procedurilor de introducerea a
datelor pentru a reduce numrul de erori (Maletic and Marcus, 2000). Filtrarea datelor
este esenial pentru meninerea integritii, aceasta fiind imperios necesar n diferite
domenii de activitate precum sectorul bancar, industria de retail, telecomunicaii sau
controlul de trafic aerian. n domeniul comerului electronic datele sunt colectate
automat ceea ce poate genera anumite probleme legate de calitatea acestora.
Principalele probleme legate de calitatea datelor provin din cauza unor defecte
software, proasta configurare a sistemelor sau a unor erori umane.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 57


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Eliminarea redundanei: Redundana datelor se refer la repetarea unor informaii,


fenomen des ntlnit la majoritatea seturilor de date. Aceasta determin creterea att
a costului de transfer al datelor ct i a costului de stocare prin risipa de spaiu de
stocare, i poate afecta integritatea sau fiabilitatea datelor. Cele mai importante tehnici
utilizate pentru reducerea redundanei datelor includ detectarea redundanei, filtrarea
i compresia datelor. Eliminarea redundanei poate avea ns i cteva efecte negative.
De exemplu, compresia i apoi decompresia datelor au anumite costuri
computaionale. Din acest motiv trebuie s se pun n balan att avantajele, ct i
dezavantajele acestei metode.

3.3.3. Sisteme distribuite pentru stocarea datelor


Una dintre cele mai mari provocri legate de Big Data se refer la dezvoltarea unor
sisteme de stocare distribuite la scar larg pentru procesarea eficient i analiza datelor. n
utilizarea unui astfel de sistem distribuit pentru stocarea Big Data, trebuie s fie luai n
considerare urmtorii factori:

Coerena: un sistem de stocare distribuit necesit mai multe servere pentru a stoca
datele ntr-un mod coordonat. Deoarece sunt utilizate mai multe servere,
probabilitatea de a avea probleme cu un server este mai mare. De obicei, datele sunt
mprite n mai multe eantioane cu scopul de a fi stocate pe diferite servere pentru a
asigura disponibilitatea n cazul unei probleme pe un anumit server. Cu toate acestea,
defeciunile unui server sau a sistemului de fiiere paralel pot provoca apariia unor
inconsecvene ntre diferitele copii ale acelorai date. Coerena se refer la asigurarea
c mai multe copii ale acelorai date sunt identice.
Disponibilitatea: un sistem de stocare distribuit opereaz cu mai multe servere
organizate sub forma de clustere. Cu ct sunt utilizate mai multe servere, cu att crete
probabilitatea apariiei unor defeciuni sau probleme cu anumite sisteme. Acest lucru
este inevitabil. Ar fi de dorit ca n cazul n care un sistem nu este afectat serios s
poat rspunde totui cererilor utilizatorilor. Aceast proprietate se numete
disponibilitate.
Tolerana la partiionare: mai multe servere ntr-un sistem de stocare distribuit sunt
conectate printr-o reea. Reeaua ar putea avea anumite probleme cu conexiunile ntre
sisteme sau se poate s apar o congestie temporar. Sistemul distribuit ar trebui s
aib un anumit nivel de toleran la problemele cauzate de defeciunile de reea. Ar fi
de dorit ca stocarea distribuit s funcioneze corect chiar i atunci cnd reeaua este
fragmentat.
n anul 2000, Eric Brewer a propus teoria CAP (Brewer, 2000; Gilbert and Lynch,
2002) conform creia un sistem distribuit nu ar putea satisface n acelai timp cerinele
privind coerena, disponibilitatea i tolerana la partiionare; cel mult dou dintre cele trei
cerine pot fi satisfcute simultan. Seth Gilbert i Nancy Lynch de la MIT au dovedit
corectitudinea teoriei CAP n anul 2002. Deoarece coerena, disponibilitatea i tolerana la
partiionare nu ar putea fi atinse n acelai timp, se poate ajunge la sisteme de tipul CA prin
ignorarea toleranei la partiionare, sisteme de tipul CP prin renunarea la disponibilitate, i
sisteme de tipul AP care ignor coerena. Aceste trei sisteme sunt prezentate n cele ce
urmeaz.

Sistemele de tipul CA nu ofer tolerana la partiionare, respectiv nu pot face fa


erorilor de reea. Prin urmare, sistemele de tipul CA sunt n general considerate ca fiind

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 58


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

sistemele de stocare cu un singur server, cum ar fi de exemplu bazele de date relaionale


tradiionale, de mici dimensiuni.

Astfel de sisteme sunt dotate cu un singur exemplar al datelor, astfel nct este uor de
asigurat coerena acestora. Disponibilitatea este garantat prin nsi principiile de proiectare
ale bazelor de date relaionale. Cu toate acestea, din moment ce sistemele de tipul CA nu pot
face fa erorilor de reea, acestea nu pot fi extinse pentru a utiliza mai multe servere. Prin
urmare, cele mai multe sisteme de stocare la scar larg sunt sistemele de tipurile CP i AP.

Comparativ cu sistemele de tipul CA, sistemele de tipul CP asigur tolerana la


partiionarea reelei. Prin urmare, sistemele CP pot fi extinse pentru a deveni sisteme
distribuite. Sisteme de tipul CP menin, n general, mai multe copii ale acelorai date, cu
scopul de a asigura un nivel de toleran la erori. Sistemele de tipul CP asigur, de asemenea,
consistena datelor. De exemplu, mai multe copii ale acelorai date sunt garantate c sunt
complet identice. Cu toate acestea, sistemele CP nu pot asigura disponibilitatea din cauza
costului ridicat pentru asigurarea coerenei. Prin urmare, sistemele de tipul CP sunt utile
pentru scenariile de utilizare avnd o sarcin moderat i cerine stricte cu privire la
acurateea datelor (de exemplu datele privitoare la tranzacii financiare). Bigtable i Hbase
sunt dou sisteme de tipul CP.

Sistemele de tipul AP asigur, de asemenea, tolerana la partiionarea reelei. Cu toate


acestea, sistemele de tipul AP sunt diferite fa de sistemele de tipul CP datorit faptului c
sistemele AP asigur i disponibilitate datelor. ns sistemele de tipul AP pot asigura c la un
moment dat se va ajunge la o eventual coeren, ns nu i coerena care este garantat n
cadrul sistemelor CA i CP.

Prin urmare, sistemele de tipul AP sunt utile mai ales pentru exemple de utilizare cu
cereri frecvente, dar fr cerine foarte mari de acuratee. De exemplu, n cadrul serviciilor de
tipul reelelor sociale sunt utilizate foarte multe apeluri concurente la date, ns doar o
anumit cantitate de erori sunt tolerabile. Deoarece ns sistemele de tipul AP asigur i
eventuala coeren, datele exacte pot fi obinute dup o anumit perioad de ntrziere. Prin
urmare, sistemele de tipul AP pot fi de asemenea utilizate i n astfel de circumstane, fr
cerine stricte referitoare la rspunsul n timp real. Dynamo i Cassandra sunt dou sisteme
populare de tipul AP.

3.3.4. Domenii de aplicabilitate a Big Data

Exemple de domenii n care proiectele Big Data sunt realizabile: Sntate (analiza
statistic a cazurilor, telemedicin etc.), Cultur, eCommerce, Securitate naional.

n cele ce urmeaz prezentm o list de domenii n care folosirea Big Data este
rspndit i aduce cele mai mari beneficii.

1. Publicitatea orientat ctre client


Aceasta este una dintre zonele cele mai mediatizate referitoare la Big Data.
Informaiile relevante precum locaia i datele noastre personale, preferinele i hobbyurile
noastre sunt folosite pentru a ne nelege ca i clieni, pentru a putea determina
comportamentele i preferinele noastre. Companiile sunt dornice s-i extind bazele de date

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 59


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

cu informaii de pe reelele sociale, din istoricul browser-elor web, precum i datele de


analiz i senzori de text pentru a obine o imagine mai complet a clienilor lor. Cel mai
important obiectiv este, n multe cazuri, acela de a crea modele de previziune pentru a putea
face reclam unui anumit produs direct grupurilor de persoane interesate de acesta, anticipnd
nevoile lor.

2. nelegerea i optimizarea proceselor de afaceri


Analiza Big Data este utilizat din ce n ce mai mult pentru a optimiza procesele de
afaceri. Comercianii sunt capabili s-i mbunteasc aciunile pe baza previziunilor
generate de datele de pe reelele sociale, tendinele de cutare web i prognoze meteo. Spre
exemplu, un proces important este optimizarea lanului de aprovizionare sau a drumului de
livrare. Aici, poziionarea geografic i identificarea senzorilor de frecven radio sunt
folosite pentru a urmri bunurile sau livrarea vehiculelor i pentru a optimiza rutele prin
integrarea live a traficului de date.

3. mbuntirea personal i optimizarea performanei


Big Data nu este utilizat doar de companii i guverne, ci este important pentru noi
toi. Putem beneficia acum de informaii generate de dispozitive portabile inteligente, cum ar
fi ceasurile sau brrile inteligente. Spre exemplu, The Up Band de la Jawbone este o
brar special care colecteaz informaii despre utilizatori referitoare la consumul de calorii,
nivelul de activitate i felul n care ei dorm. n timp ce ea poate oferi indicii valoroase unui
utilizator unic, valoarea ei real rezid n colectarea i analiza datelor tuturor utilizatorilor. n
cazul Jawbone, compania colecteaz acum peste 60 de ani de somn n fiecare noapte de la
utilizatorii si, acestea fiind date valoroase. Alta zona unde putem beneficia de analiza Big
Data este gsirea unui partener n mediul online. Cele mai multe site-uri online de
matrimoniale folosesc instrumente i algoritmi pentru a ne gsi cei mai potrivii parteneri.

4. mbuntirea sntii i a serviciilor medicale


Puterea de calcul a Big Data ne permite s nelegem ntregile iruri de ADN n
cteva minute, s gsim noi tratamente pentru boli i s anticipm poteniale epidemii.
Gndii-v la ce s-ar putea ntmpla atunci cnd toate datele individuale colectate de la
utilizatorii de ceasuri inteligente i dispozitive portabile vor putea fi folosite pentru a preveni
apariia bolilor. Studiile clinice din viitor nu vor fi limitate de probe de mici dimensiuni, ci ar
putea viza ntreaga populaie.

Tehnici Big Data sunt deja folosite pentru a monitoriza copiii ntr-o unitate
specializat pentru copii nscui prematur sau bolnavi. Prin nregistrarea i analiza modelului
btilor inimii i respiraiei fiecrui copil, unitatea a fost capabil s dezvolte algoritmi care
acum pot prezice infecii cu 24 de ore nainte de apariia oricrui simptom fizic. Astfel,
echipa poate interveni mai devreme pentru a salva copiii ntr-un mediu n care fiecare or
conteaz. Ceea ce este i mai important, analiza Big Data ne permite s monitorizm i s
prezicem evoluia epidemiilor i focarelor de boli. Integrarea datelor din dosarele medicale cu
analiza mediului social ne permite s monitorizm focare de grip n timp real, doar prin
ascultarea a ceea ce posteaz oamenii, cum ar fi "M simt ru astzi sunt n pat cu o
rceal".

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 60


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

5. mbuntirea performanelor sportive


Cele mai multe sporturi de elit au mbriat acum analiza Big Data. Exist
instrumente precum IBM SlamTracker pentru turnee de tenis. Folosind analiza video, care
urmrete performana fiecrui juctor ntr-un meci i tehnologia cu senzor din echipamentele
sportive ne permite s obinem feedback (prin intermediul telefoanelor inteligente i a
serverelor cloud) referitor la felul n care se desfoar jocul i s oferim metode de
mbuntire. Multe echipe de sport de elit urmresc sportivii n afara mediului de
antrenament folosind tehnologia inteligent pentru a urmri hrana i somnul necesar,
precum i conversaiile sociale pentru a monitoriza fericirea emoional.

6. mbuntirea domeniului tiinei i al cercetrii


Domeniul tiinei i al cercetrii este n prezent transformat de noile posibiliti pe
care le ofer Big Data. Luai, de exemplu, CERN, laboratorul elveian de fizic nuclear cu
al su Large Hadron Collider, cel mai mare i cel mai puternic accelerator de particule.
Experimentele realizate pentru a debloca secretele universului - cum a nceput i funcioneaz
- genereaz cantiti uriae de date. Centrul de date CERN are 65.000 de procesoare de
analiz pentru cei 30 petabytes de date, folosind puterea de calcul a miilor de calculatoare
distribuite pe 150 de centre de prelucrare a informaiei din ntreaga lume. Asemenea puteri de
calcul pot fi folosite n multe alte domenii ale tiinei i cercetrii.

7. Optimizarea performanei dispozitivelor i a mainriilor


Analiza Big Data ajut mainriile i dispozitive s devin mai inteligente i mai
independente. De exemplu, instrumente Big Data sunt utilizate pentru a opera modul de
conducere automat Google. Toyota Prius este dotat cu aparat de fotografiat, GPS, precum i
computere puternice i senzori de conducere n siguran pe drum fr a fi nevoie de
intervenia oamenilor.

8. mbuntirea sistemelor de securitate i a eficienei poliiei


Big Data este aplicat masiv n mbuntirea securitii, pentru a permite aplicarea
legii. Sunt deja faimoase dezvluirile Ageniei Naionale de Securitate (NSA) n SUA, care
folosete analiza Big Data pentru a dejuca comploturile teroriste. Alii utilizeaz astfel de
tehnici pentru a detecta i preveni atacurile cibernetice, forele de poliie putnd prinde
criminali, prezice activitatea criminal i detecta tranzacii frauduloase.

9. mbuntirea i optimizarea oraelor i rilor


Big Data este utilizat, de asemenea, pentru a mbunti diverse aspecte ale oraelor
noastre. De exemplu, permite oraelor s optimizeze fluxurile de trafic bazndu-se pe
informaii din trafic n timp real, precum i pe informaii de pe reelele sociale i date
meteorologice, astfel minimiznd ambuteiajele. Un numr de orae implementeaz n prezent
analiza datelor cu scopul de a se transforma n orae inteligente, caz n care procesele de
infrastructur i utiliti sunt grupate toate mpreun.

10. Tranzaciile financiare


Ultima categorie prezentat de aplicaii ale Big Data se refer la tranzaciile
financiare. Tranzaciile de nalt frecven (HFT) reprezint o zon unde datele sunt foarte
utilizate. Aici, algoritmii sunt utilizai pentru a lua decizii de tranzacionare. Majoritatea

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 61


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

tranzacionrii de capital are loc prin algoritmi de date, care iau din ce n ce mai mult n
considerare semnalele de pe reelele sociale i site-uri de tiri pentru a lua, cumpra i vinde
decizii n cteva secunde.

Inovaiile tehnologice care au facilitat apariia Big Data pot fi, n general, combinate
n dou familii: pe de o parte tehnologia de stocare, alimentat n special de dezvoltarea
Cloud Computing. Pe de alt parte, apariia tehnologiilor de prelucrare adecvate, inclusiv
dezvoltarea de noi baze de date potrivite pentru date nestructurate (Hadoop) i dezvoltarea
modurilor de calcul de nalt performan (MapReduce). Aceste dou inovaii, sprijinite de
Google i Yahoo, au pus bazele actuale de prelucrare Big Data: astfel este posibil a se
procesa volume mari de date ntr-un timp scurt - redus cu aproape 50 de ori mai mult de
tehnologii anterioare - pentru toate tipurile de date.

3.4. Impactul Big Data i Analytics asupra sistemului public


Aspectele prezentate n aceast seciune au la baz, n principal, capitolul 2- Big
Data and Analytics for Government Innovation din lucrarea (Morabito, 2015).

3.4.1. Evoluii recente ale sistemului public


n mod tradiional, ideea de baz pentru activitile specifice serviciului public a
constituit-o relaia tranzacional dintre ceteni i administraia public: acetia pltesc taxe
i beneficiaz n schimb de diferite domenii, sntate, educaie, ntreinerea drumurilor i
altele.

O prim modificare semnificativ de dat recent o reprezint plasarea ceteanului


n rolul de partener. Astfel oamenii au grij sporit de rezolvarea propriilor probleme.
Informaia de tip Social Media i telefoanele de tip smart pot uura interaciunea dintre
ceteni i administraia public i pot amplifica de asemenea comunicarea i implicarea
comunitilor publice. Un exemplu l constituie aplicaiile care permit cetenilor i
rezidenilor s raporteze i s furnizeze informaie administraiei publice locale despre toate
problemele ceteneti, de la gropi la graffiti, trotuare sparte sau lumini stradale defecte.
Acest lucru se poate face sub anonimat sau nu, se pot ncrca fotografii care se pot fixa pe o
hart a strzii. Acest raport este trimis consiliilor i progresul rezolvrii sale este urmrit
online.

O a doua tendin n curs de afirmare pe baza evoluiei suportului tehnologic necesar


o constituie democraia online prin care cetenilor le este transferat putere de decizie pe
teme de interes ale comunitii din care fac parte. Deocamdat aceast soluie este exersat la
nivel local, dar utilizarea sa pentru probleme de interes global nu va ntrzia, ceea ce va
implica n mod evident probleme specifice Big Data: volume mari de date nestructurate,
culese i prelucrate n timp real.

O a treia tendin relevant n contextul acestui raport o constituie dezvoltarea


marilor aglomerri urbane, a cror dinamic de cretere genereaz probleme de mare
complexitate pentru sistemele publice respective. Abordarea tehnologic n curs de afirmare o
constituie arhitecturile de tip smart city, bazate pe Internetul obiectelor i Big Data.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 62


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

3.4.2. Oportuniti specifice serviciilor publice


Externalizarea unui serviciu devine un termen obinuit i deschide noi perspective
pentru crearea de valoare public gratuit, angajament civic i transparen. Un exemplu l
constituie un serviciu online proiectat pentru ajutarea cetenilor n raportarea diferitelor
probleme din vecintate, printr-o interfa web, Facebook sau aplicaii ale telefoanelor
mobile. Procesul este urmrit online, similar modului n care companiile de logistic
urmresc livrarea pachetelor la destinaie, cu deosebirea c informaia este publicat pe
Twitter i Facebook pentru public. Se elimin timpul pierdut prin deplasarea ctre instituii
pentru a scrie un memoriu sau contactare telefonic. Acum, toi cei care au un telefon mobil
de tip smart pot raporta diferitele probleme. n plus, contactul direct i trasabilitatea dau
oamenilor satisfacia c au contribuit la a face bine.

Interaciunea direct dintre ceteni i administraia public ncapsuleaz trei obiective


ale administraiei publice: (i) angajarea cetenilor n viaa public; (ii) reducerea costurilor
serviciilor publice, datorit voluntariatului oamenilor i a scutirii de taxe; (iii) mbuntirea
transparenei proceselor serviciilor publice.

Internetul lucrurilor (IoT) se refer la reeaua dispozitivelor formate din senzori


care msoar mediul nconjurtor, elemente de acionare care trimit reacie de rspuns,
procesoare care gestioneaz i stocheaz datele generate, noduri care coordoneaz
administrarea acestor. IoT reprezint suportul pentru aplicaii i servicii avansate de tip case
inteligente, aplicaii de sntate, transport inteligent, bazat pe comunicarea ntre dispozitive
dotate cu senzori i un anumit nivel de inteligen, care au capacitatea de culegere i
transmitere a informaiei. IoT este esenial pentru consolidarea conceptului de smart city.

ntr-o a doua etap este nevoie de soluii de prelucrare eficient a informaiilor


generate de infrastructurile IoT, pentru valorificarea lor n deciziile adoptate la nivelul
comunitilor beneficiare. n aceast tranziie spre conceptul de cognitive city este
esenial utilizarea soluiilor specifice Big Data i BDA. Att timp ct datele reprezint
materia prim a cunoaterii, interpretarea acestor date poate fi realizat prin furnizarea de
previziuni, cunotine, aptitudini etc. Imprimarea documentelor atest proprietatea
individual a ideilor, era digital consacr co-proprietatea. Comunitile online au devenit o
important surs de cunotine i idei noi. Disponibilitatea conceptului de Big Data arat c
mai multe idei pot converge spre modul n care pot fi exploatate aceste date. O astfel de
soluie este Kaggle, o platform online, care funcioneaz ca un broker de cunotine ntre
companiile care au ca scop externalizarea concursurilor de modelare predictiv i o reea de
peste 100.000 de specialiti (https://www.kaggle.com/).

Relaiile de parteneriat de tip public-privat sunt promovate n aproape toate


aspectele legate de furnizarea serviciilor publice. Cu privatizarea majoritii utilitilor i
tendina de externalizare, o mare parte a sectorului public n societile avansate este
administrat de ctre organizaiile private. Ne ndreptm ctre o nou faz a relaiilor dintre
organizaiile publice i private, aceea de parteneriat. Managementul Big Data are un rol
central de jucat n sprijinirea deciziilor tuturor parteneriatelor, motiv pentru care guvernele au
interesul s sprijine dezvoltarea acestui domeniu. Coroborat cu tendina de a crete
transparena i controlul privind activitatea administraiei publice i de implicare a cetenilor
n adoptarea deciziilor, aceste parteneriate au implicaii asupra proprietii i gestionrii

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 63


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

datelor n toate serviciile publice, de la sntate i resurse naturale la publicitatea datelor la


contractare, infrastructura cheltuielilor publice i ajutorul de stat ctre teri. Exist cteva
argumente care motiveaz utilitatea acestor parteneriate:

- lipsa de experien n administraia public privind domeniile respective i


modalitile de susinere i evaluare a acestora,
- capacitatea financiar i tehnic a partenerilor privai de a investi n infrastructura
informatic necesar (Big Data, cloud),
- experimentarea noilor soluii tehnologice la scar mic, ceea ce faciliteaz ulterior
implementarea la nivelul administraiei publice.

Legat de furnizarea serviciile publice, tehnologiile Big Data ofer soluii referitoare la
autentificare i managementul identitii, combaterea fraudei, mbuntirea monitorizrii
atacurilor de securitate.

O tehnologie esenial asociat Big Data n administraia public o constituie cloud


computing, care faciliteaz acoperirea teritorial cu soluii de e-guvernare, independent de
nivelul de pregtire al unitilor administraiei locale pentru furnizarea de e-servicii.
Arhitectura orientat pe servicii faciliteaz furnizarea de servicii compuse, n care un client
poate fi un cetean sau o ntreprindere. Aceast tendin, numit deja C-Government, este
confirmat prin numrul tot mai mare de uniti ale administraiei publice, firme sau ceteni
care i pstreaz datele n cloud pentru a beneficia de avantajul accesrii lor de pe orice
echipament, oriunde, oricnd.

3.4.3. Provocri specifice sectorului public


Proprietatea datelor: caracterul deschis al datelor genereaz probleme majore legate
de proprietatea acestora i, implicit, de responsabilitatea privind administrarea, memorarea,
protecia, utilizarea i abuzurile n utilizarea acestor date. Pe de alt parte trebuie avut n
vedere c o mare parte din datele utilizate n sectorul public au caracter privat, n sensul c
sunt fie date personale ale cetenilor, fie date care descriu funcionarea serviciului public.
Aceasta nseamn c instituiile publice la nivel central i local sunt custodele datelor
cetenilor, obinnd acest rol n schimbul furnizrii de servicii publice n beneficiul
acestora. O problem sensibil din acest punct de vedere o reprezint datele generate de
dispozitivele de monitorizare a localizrii i comportamentului cetenilor.

Calitatea datelor: Big Data poate amplifica repercusiunile i implicaiile calitii


slabe a datelor, i este o problem deosebit de important pentru administraiile publice i
ceteni deopotriv. Datele nregistrate pot fi eronate, fragmentate sau incomplete din cauza
presiunii generate de volumul mare de munc i de interfeele utilizator. Datele ar trebui
verificate din punct de vedere al caracterului complet, al conformitii, consistenei,
acurateei, duplicrii i integritii, al existenei bunelor practici legate de verificarea calitii
datelor. Datele de calitate slab pot rezulta din integrarea surselor de date, din federalizarea i
conglomerarea datelor. Este deci foarte important tratarea informaiilor cu cea mai mare
rigoare, avnd n vedere sensibilitatea serviciilor publice fa de acest aspect, n primul rnd
prin prisma implicaiilor de natur juridic pe care le poate genera.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 64


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Intimitatea i libertile civile: determinarea profilului cetenilor pe baza strii lor


de sntate, a locaiei, a consumului de energie electric, a activitii online, crete riscul de
discriminare i excludere. Cnd acestea implic accesul la serviciile publice, cresc
repercusiunile. Promisiunea Big Data se bazeaz pe posibilitatea de previziune a unor
posibile atacuri. Dac, de exemplu, se pot prevedea poteniale spargerile dintr-o anumit
zon, administraia local poate crete securitatea n aceast zon pentru a preveni astfel de
incidente. Aceast promisiune se bazeaz pe utilizarea algoritmilor de predicie care
utilizeaz diverse categorii de big date, de exemplu informaiile sociale. O asemenea
abordare, probele sunt nlocuite cu estimri de risc, ceea ce poate fi considerat o restrnge a
libertilor civile. In plus, odat cu capabilitile predictive crescute vine i responsabilitatea
crescut de a evita aceste ameninri, care poate determina o atitudine mai conservatoare din
partea administraiei publice n abordarea riscurilor sociale. O problema sensibil o constituie
egalitatea n ceea ce privete tratamentul public al persoanelor i grupurilor care nu particip
pe deplin la societatea informaional, deoarece nu au mijloacele sau timpul necesare.
Statisticile indic mari diferene n implicarea digital de la o ar la alta, pe grupe de vrst,
clase socio-economice, mediul urban sau rural. Riscul const n faptul c guvernele care se
bazeaz preponderent pe Big Data pot neglija interesele celor care rmn n afara ariei de
acoperire a acestei soluii de colectarea a datelor referitoare la nevoi, interese, opinii.

Recrutarea de personal competent: avnd n vedere deficitul analitilor de date,


sectorul public se confrunt cu greuti n a atrage aceti analiti. Guvernele trebuie s ia n
considerare numrul mare de bnci, organizaii de asigurri, comerciani online i
organizaiile ce se ocup de consultan aflate n competiie pentru astfel de resurse, pentru a
putea pstra analiti talentai. Pe de alt parte, guvernele pot folosi universitile o resurs
insuficient folosit n special n Europa, n ciuda competenelor relevante pentru sectorul
public.

3.4.4. Beneficii specifice sectorului public


Organizaiile care reuesc s abordeze cele 4 caracteristici ale Big Data au potenialul
de a furniza noi servicii, de a reduce costurile, de a optimiza investiiile TIC existente. Cteva
exemple furnizate de (Oracle, 2012) sunt prezentate n continuare.

Opinia alegtorilor: informaia de urmrire pe site-uri, blog-uri, feed-uri Twitter i


surse mass-media poate ajuta factorii de decizie s prioritizeze abordarea de noi servicii sau
zone neacoperite de poteniale revendicri civile.

Detectarea i prevenirea fraudelor: organizaiile colectoare de venituri sau cele


furnizoare de servicii sociale pot urmri i analiza mai eficient activitile cetenilor, pentru
a identifica modele de comportament anormal care pot conduce la greeli costisitoare sau
fraud.

Analiza economic: prin interpretarea datelor din mai multe surse, economitii
guvernamentali pot corela mai bine nivelul de volatilitate al situaiei curente cu previziunile
financiare mai precise.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 65


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Sntate: analiza tendinelor din sistemul de sntate public i din nregistrrile


pacienilor pot ajuta organizaiile din domeniu s rspund proactiv la ameninrile la adresa
sntii, mbuntind n acelai timp ngrijirea pacientului i diminund frauda.

Guvernarea deschis: libera circulaie a informaiei de la organizaii ctre ceteni


promoveaz o mai mare ncredere ntre ceteni i guvern.

Colectarea taxelor: organizaiile pot integra date structurate i nestructurate din


social media i din alte surse pentru a valida informaiile de plat a taxelor sau pentru a
decide asupra unui audit.

Identificarea ameninrilor: investigarea informaiilor financiare, a tirilor i social


media (wiki, bloguri, site-uri web) pot ajuta organizaiile specializate s descopere corelaii n
finanarea i transportul unor materiale periculoase.

Securitatea cibernetic: soluiile Big Data pot colecta, organiza i analiza cantiti
imense de date din reelele de calculatoare ale administraiei publice, pentru a sprijini
investigarea i contracararea unor atacuri cibernetice.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 66


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

4. Criterii de selecie a celor mai reprezentative tehnologii, bune practici i


soluii de sisteme informaionale guvernamentale
Big Data se refer la posibilitatea de utilizare a volumului, din ce n ce mai mare, de
date. Dup cum spunea Eric Schmidt, Executive Chairman la Google, de la nceputurile
civilizaiei pn n anul 2003, umanitatea a generat cinci exabytes de date. Aceeai cantitate
de date este produs, acum, n dou zile.

Pentru stabilirea unor criterii n vederea alegerii i utilizrii tehnologiilor i sistemelor


informaionale de tip Big Data este necesar s se stabileasc nite criterii de evaluare a
necesitii acestora n cadrul sistemelor informaionale guvernamentale, pe baza msurrii
performanelor actuale i a necesitilor analitice pentru cantiti masive de date de diferite
tipuri, n vederea atingerii unor obiective de performan administrativ i de conducere
eficient.

4.1. Fundamentarea necesitii abordrii Big Data n cadrul sistemelor informaionale


guvernamentale

Tendine ale domeniului Big Data n cadrul Ciclului de promovare a tehnologiilor


emergente

Domeniul Big Data, ca i celelalte tehnologii i soluii de procesare a datelor din


domeniul informaticii i comunicaiilor, are diferite etape de cercetare, fundamentare i de
utilizare care sunt surprinse foarte bine n Figura 17, adaptat dup un studiu realizat de
Gartner n anul 2014 despre aplicarea tehnologiilor emergente (Rivera, 2014).

Internetul lucrurilor
Ateptri Rspunsuri la ntrebri n limbaj
Traducere vorbire-n- Interfee utilizator pentru dispozitive portabile purtate pe corp
Vehicule autonome Tiprire 3D pentru
Consilieri inteligeni Monede criptate
tiina Procesarea evenimentelor complexe
Operaii analitice
d l Big Data-(date imense)
Business neural Sisteme de management al bazelor de date n memorie
Biocipuri Operaii analitice asupra coninutului
Recunoatere vorbire
Calcul n Cloud
Calcul
Gamification (elemente de
Roboi Realitatea mbogit
S isteme de bioprintare 3D
Ecrane volumetrice i holografice Servicii de comunicaie M-to- Telematic consumator

Calcul
Definire prin software a Monitorizare mobil a sntii Scanare 3D
Sporirea capacitii
Auto Interfa creier Calcul n Printare 3D n
Cas calculator
Spaiu de lucru inteligent Fluxuri de
Asistent personal virtual
NFC Operaii analitice n
S ecuritate digital Controlul
Realitate virtual
Sim Bioacustic

Declanare inovaie Vrf de ateptri Prin deziluzie Panta iluminrii Platoul


exagerate productivitii

timp
Platoul va fi atins n:
Mai puin de 2 ani 2 la 5 ani 5 la 10 ani Mai mult de 10 ani O Depit nainte de platou
Figura 17. Ciclul de execuie pentru tehnologiile emergente

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 67


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Provocri i consideraii eseniale n realizarea de sisteme Big Data n domeniul


guvernamental

Urmtoarele criterii i direcii de abordare a realizrii de sisteme informatice bazate


pe utilizarea Big Data trebuie avute n vedere n organizaiile guvernamentale
(ExecBlueprints, 2013):

Arhitectura:
n legtur cu multele tipuri de arhitecturi trebuie stabilit care este cea mai bun
alegere. Exist instrumente apropiate ca valoare, ntre care, cu greu se poate face
alegerea. Sursele deschise (open source) au un rol foarte important n domeniul Big
Data. n aceast alegere a viitoarei arhitecturi i a instrumentelor trebuie pornit de la
analiza a ceea ce exist deja n folosin.
Instrumente:
Este necesar s se analizeze diferite instrumente pentru a stabili cea mai bun opiune.
n urma analizelor se pot trage diferite concluzii:
o Identificarea unei uniti de business pentru calcularea utilitii utilizrii Big
Data;
o Identificarea unui nou proces sau mbuntirea unui nou proces ca urmare a
analizrii Big Data.
Guvernarea datelor:
Cine deine datele;
Cum se vor trata securitatea datelor, integritatea i respectarea reglementrilor;
Cine va administra depozitul de date.
Operaii analitice:
Cum se ncadreaz operaiile analitice n organizaie;
Dac se utilizeaz operaii analitice descriptive i predictive n cadrul activitii de
inteligen de business;
Ct de sofisticat este procesul.
Utilizarea Cloud-ului:
Va deveni Cloud-ul un egalizator sau va promova mai multe preocupri cu privire la
guvernarea datelor?
Se vor putea realiza colectarea, partajarea i analizarea depozitelor mai mari de date
de la distan?
Returnarea investiiei:
Producerea de analize i metrici pentru determinarea efectului pe care l-a produs
resursele utilizate.
Prioriti ale managerului de Big Data:
Utilizarea celor mai bune practici la nivel de ntreprindere i implementarea lor n
unitile operaionale;
Asigurarea faptului c politicile de management ader la reglementrile n vigoare;
Cutarea unor ci noi de utilizare n comun a datelor n ntreprindere i dezvoltarea de
operaii analitice sofisticate.
Provocrile Big Data n domeniul sistemelor informaionale guvernamentale:

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 68


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Stabilirea domeniilor n care acestea sunt necesare prin analiza strii actuale a
sistemelor informaionale, prin identificarea unor posibile necesiti de analiz i
decizie i stabilirea instrumentelor i resurselor necesare pentru realizarea obiectivelor
propuse.
Moduri de utilizare:
Big Data pentru consumatori;
Big Data pentru business;
Big Data pentru cercetare.
Big Data i tiina Datelor:
Deosebirea dintre Big Data i utilizarea tradiional a datelor ce pot fi procesate n
cadrul organizaiei.
Deosebirea dintre abordarea Big Data (bazat pe Hadoop), depozitele de date de
ntreprindere (Data Warehouse) i pieele de date (Data Mart).
Etica n cazul Big Data:
Provocrile anonimitii;
Provocrile confidenialitii.
Surse i structuri Big Data:
Date generate de oameni;
Date generate de maini;
Date structurate;
Date nestructurate.

Criterii generale de satisfacere a cerinelor Big Data

Cerine referitoare la procesarea n timp real


Exemple de utilizare a procesrii n timp real a Big Data pentru a satisface necesitatea
de a rspunde unei probleme care este sensibil la timp i este critic pentru activitile
respective (Hurwitz, 2013):

Detectarea performanelor unui echipament din spital


Detectarea riscurilor de intruziune poteniale
Monitorizarea unei excepii cu o nou pies de informaii, cum ar fi frauda /
inteligena
Monitorizarea fluxurilor de tiri i mass-media social pentru a determina evenimente
care pot afecta pieele financiare, cum ar fi reacia unui client la anunarea unui
produs nou
Schimbarea locului de plasare a unui anun n timpul unui eveniment sportiv
important pe baza unor fluxuri Twitter n timp real
Furnizarea unui cupon pentru un client pe baza a ceea ce a cumprat de la punctul de
vnzare.
innd seama de varietatea surselor de informaii i de viteza cu care acestea vin se
poate analiza dac acea problem poate fi rezolvat cu metodele tradiionale de management
a informaiei sau sunt necesare a fi utilizate capabilitile oferite de tehnologiile Big Data.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 69


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

n acest context, de procesare n timp real a unei cantiti enorme de informaii


variate, care se produc/vin la viteze mari, este necesar de luat n considerare criterii de
satisfacere a cerinelor infrastructurii care s suporte capabiliti specifice procesrii n timp
real:

Laten mic. Acest criteriu se refer la puterea de calcul a sistemului de calcul i la


constrngerile reelei. Pentru procesarea n timp real este necesar o laten mic,
astfel nct serviciile de procesare s se execute n mediul respectiv ntr-un timp ct
mai scurt.
Scalabilitate. Acest criteriu se refer la capabilitatea de a se realiza un anumit nivel
de performan chiar i n cazul unor ncrcri mai mari.
Versatilitate. Acest criteriu se refer la posibilitatea ca sistemul s suporte att
fluxuri de date structurate ct i nestructurate.
Format nativ. Acest criteriu se refer la posibilitatea de a mri performanele
procesrii n cazul n care datele sunt utilizate n forma lor nativ, deoarece
transformarea datelor necesit timp suplimentar.

Criterii de selecie i analiza cerinelor


Cele mai importante dimensiuni ale Big Data sunt: volumul (se refer la cantitatea
enorm de date care sunt generate n fiecare secund), viteza (se refer la viteza cu care sunt
generate date noi i viteza cu care se mic datele sub form de mesaje care pot fi analizate n
timp real), varietatea (se refer la utilizarea unor tipuri diferite de date), veridicitatea (se
refer la ct de ncredere sau de ndoielnice sunt datele).

Alte caracteristici asociate Big Data sunt:

Nesigurana (uncertainty)
Scalabilitatea
Procesarea n timp real.

Uniti de msur pentru Big Data


n continuare enumerm cteva uniti noi de msur pentru Big Data (McFedries,
2015):

1 gigabyte = 1.000 megabytes


1 terabyte = 1.000 gigabytes
1 petabyte = 1.000 terabytes
1 yottabyte = 1.000.000.000 petabytes = 1.000.000.000.000 terabytes
1 brontobytes = 1000 yottabytes = 1.000.000.000.000.000 terabytes (o mie de
trilioane)
1 geopbyte = 1.000 brontobytes
Hellabytes = al naibii de foarte multe date.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 70


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

4.2. Criterii de evaluare a infrastructurii hard


Infrastructura hard pentru Big Data trebuie s conin tehnologii care s permit
manipularea unui volum uria de date:

Pentru stocarea datelor este necesar o platform de Cloud Computing care s conin
tehnologii de virtualizare.
Pentru transferul datelor este necesar o tehnologie performant de reea.
Resursele trebuie administrate prin intermediul unei tehnologii de monitorizare a
resurselor.

4.2.1. Criterii de utilizare ale Cloud Computing pentru Big Data


Cloud-ul are un rol foarte important n domeniul Big Data. Cloud-ul permite
utilizatorilor s acceseze resursele de calcul i de stocare care le sunt necesare, cu puin
suport IT, sau fr a fi necesar s cumpere mai mult hardware sau software dect au nevoie.
n funcie de cerinele utilizatorului se pot aduga sau micora resursele n timp real pe baza
schimbrii cerinelor.

Calculul n Cloud este o metod de furnizare a unor resurse de calcul partajate n care
sunt incluse aplicaii, calcul, stocare, reele, dezvoltare i platforme de implementare, precum
i procese de business (Hurwitz, 2013). n norul de calcul (cloud computing) orice poate fi
furnizat ca serviciu: putere de calcul, infrastructura de calcul, aplicaii, procese de business,
date i metode analitice.

Exemple de echipamente obinuite (commodity hardware) n contextul Hadoop

Caracteristicile principale ale echipamentelor obinuite (commodity hardware)


utilizate n mediul Hadoop sunt urmtoarele:

Clusterele Hadoop funcioneaz pe servere.


Serverele obinuite utilizate n clusterele Hadoop au o raie medie ntre spaiul de pe
disc i memorie (spre deosebire de echipamentele specializate cu memorie mare i
multe CPU).
Serverele nu sunt proiectate n mod specific ca pri ale unui mediu de stocare i
procesare distribuit, dar au fost nsuite pentru acest rol n Hadoop.
Conform firmei Cloudera specificaiile hardware sugerate pentru clusterul Hadoop
sunt (Kevin, 2013):

Patru discuri de 1 TB n configuraie JBOD (Just Bunch Of Disks)


Dou uniti centrale (CPU) cu quad core, funcionnd la 2-2.5 GHz.
16-24 GBs de RAM (24-32 GB dac se utilizeaz Hbase)
Ethernet la 1 Gigabit/s
OpenLogic sugereaz c un cluster mai puternic ar trebui s fie constituit din:

ase hard discuri de cte 2 TB, cu RAID 1 peste dou din acele discuri
dou uniti centrale (CPU) cu quad core

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 71


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

32-64 GBs de RAM cu ECC (Error Correcting Code)


Ethernet la 2-4 Gigabits

4.2.2. Existena backbon-ului 5G pentru aplicaii Big Data i Internetul lucrurilor.


Backbone-ul pentru aplicaiile Big Data i pentru Internetul lucrurilor (Internet of
Things-IoT) va fi, n viitor, realizat de reelele 5G. Intenia tehnologiei 5G este aceea de
mbuntire de sute de ori a vitezei de comunicaie fa de tehnologiile 4G. 5G va permite
transmisia a zeci de megabii pe secund ctre mii de utilizatori mobili, i ajungnd la o
vitez de un gigabit pe secund n cadrul birourilor. Unele din primele demonstraii de
comunicaii 5G s-au fcut la Austin, Texas, n anul 2015, la sptmna National Instruments
(McCormick, 2015).

4.3. Criterii de evaluare a tehnologiilor i soluiilor software

4.3.1. O clasificare a tehnologiilor Big Data


Big Data aduce multe oportuniti, dar include i multe provocri. Deoarece
tehnologiile precedente, bazate pe modelul relaional al datelor nu reuete, printre altele, s
satisfac cerinele de procesare n timp real a fluxurilor de date mari, a fost necesar s se
dezvolte o nou generaie de tehnologii informatice care s se ocupe de Big Data.

Tehnologiile care sunt ncorporate n Big Data sunt (Loshin, 2013):

Paralelismul masiv,
Volumul uria de date,
Distribuirea datelor,
Reelele de mare vitez,
Calcul de nalt performan,
Managementul Thread-urilor i a sarcinilor (taskurilor),
Analizarea i mineritul datelor (data mining and analytics).
Utiliznd o alt clasificare, bazat pe ierarhia de procesare a datelor, tehnologiile Big
Data pot fi clasificate n cinci categorii:

1. Tehnologii care asigur infrastructura:


Platforma Cloud Computing
Stocarea n Cloud
Tehnologia de virtualizare
Tehnologia de reea
Tehnologia de monitorizare a resurselor
2. Achiziia datelor
Bus-ul pentru date
Instrumentele ETL
3. Stocarea datelor

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 72


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Sistem de fiiere distribuite


Baze de date relaionale
Tehnologii NoSQL
Integrarea bazelor de date relaionale i a bazelor de date neraionale
Baze de date din memorie
4. Calculul datelor
Interogarea datelor, Statistici i Analize
Data mining (mineritul datelor - extragerea cunotinelor din date) i Analiza
Grafurilor de predicie
Inteligena business-ului (Business Intelligence BI)
5. Afiare i interaciune
Grafice i Rapoarte
Instrumente de vizualizare
Tehnologia realitii sporite (Augmented Reality Technology).

4.3.2. Criterii de selecie a celor mai reprezentative servicii


Big data as a service (BDaaS) (Big Data ca serviciu) se refer la furnizarea de
instrumente pentru analize statistice sau de informaii de ctre un furnizor din afar care ajut
organizaiile s neleag i s utilizeze buna cunoatere acumulat din cantitile mari de
informaie n scopul obinerii unui avantaj competitiv. BDaaS permite procesarea datelor
nestructurate, care sunt generate n cadrul unei organizaii, s fie procesate de un furnizor
care are competen n analize predictive i n prelucrarea seturilor mari de date. BDaaS poate
lua dou forme: software care asist la procesarea datelor, sau printr-un contract de servicii
din partea unei echipe de specialiti din domeniul datelor.

BDaaS este o form de servicii administrate de o ter parte contractant, similare cu


Software as a Service sau Infrastructure as a Service. Big Data ca serviciu se bazeaz cel mai
des pe stocarea n Cloud pentru a menine accesul continuu la date, att pentru organizaia
care deine informaia, ct i pentru furnizorul care lucreaz cu ea.

4.3.3. Stiva metodelor analitice predictive pentru Big Data n timp real
n Figura 18 (Adaptare dup prezentarea lui David Smith, Real-Time Big Data
Analytics: From Deployment To Production) este prezentat stiva metodelor analitice
predictive pentru Big Data n timp real.

n stratul de date exist date structurate n RDBMS, NoSQL, Hbase sau Impala; date
nestructurate n MapReduce din Hadoop; date n flux din web, media social, senzori i
sisteme operaionale; i capabiliti limitate pentru realizarea de operaii analitice descriptive.
n acest strat se gsesc, de asemenea, instrumente ca Hive, Hbase, Storm i Spark. Acest strat
s-ar putea mpri n dou substraturi: unul pentru stocare i, al doilea, pentru procesarea
interogrilor.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 73


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Urmtorul strat este cel analitic, care este situat deasupra celui de date. Stratul
analitic include un mediu de producie pentru implementarea notrii n timp real i operaii
analitice dinamice; un mediu de dezvoltare pentru construirea de modele i o pia de date
locale care este actualizat n mod periodic din stratul de date, situat lng maina analitic
pentru mbuntirea performanei.

Deasupra stratului analitic este stratul de integrare. Acest strat deine aplicaiile end-
user i motoarele de reguli sau mainile de tratare a evenimentelor complexe (CEP) i un API
pentru operaii analitice care intermediaz comunicaia ntre dezvoltatorii de aplicaii i
specialitii n date.

Stiva metodelor analitice predictive pentru Big Data n timp real


Decizi

Aplicaii desktop (de Inteligen de Aplicaii Web i


ex. Excel) business mobile interactive
Integra

Motor de reguli Servicii Web RevoDeployR

Mediu de producie pentru Mediu de dezvoltare de


Analitic

Revolution R Enterprise Revolution R Enterprise

Piee de date locale

Hadoop Dispozitive de Alte surse de date


Date

depozitare a datelor

Figura 18. Stiva metodelor analitice predictive pentru Big Data n timp real

Cel mai de sus strat este stratul de decizie. Acesta poate include aplicaii end-user
cum sunt aplicaii web pentru desktop, mobile i interactive dar i software de inteligen de
business (business intelligence). Acest strat este cel pe care l folosesc cei mai muli
utilizatori. n acest strat analitii de business, efii firmelor i clienii interacioneaz cu
sistemul analitic Big Data n timp real.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 74


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

4.3.4. Criterii utilizate n alegerea modului de stocare i procesare primar a datelor


Stocarea Big Data

Pentru stocarea datelor sunt necesare instrumente i servicii care s captureze,


valideze i s asambleze elementele de date mari n colecii contextuale relevante. Pentru
aceasta este necesar un sistem de fiiere distribuite care s permit descompunerea fluxurilor
de date i care s ofere capacitate de stocare i de scalare.

Stocarea datelor se poate face n Cloud utiliznd servicii specifice: IaaS, PaaS, SaaS i
DaaS.

Infrastructura ca Serviciu (Infrastructure as a Service - IaaS) este o form de calcul n


Cloud care furnizeaz resurse de calcul virtualizate peste Internet. IaaS este una din cele trei
mari categorii ale serviciilor de calcul n Cloud, alturi de Software as a Service (SaaS) i
Platform as a Service (PaaS). Date ca serviciu (Data as a Service DaaS) se refer la un
serviciu din Cloud prin care datele sunt furnizate la cerere utilizatorului indiferent de situarea
geografic a furnizorului i a consumatorului.

n cadrul acestor tehnologii de stocare mai sunt incluse i urmtoarele servicii:

Servicii de serializare, care sunt necesare pentru stocarea persistent a datelor i


pentru apelurile RPC.
Servicii de coordonare, care sunt necesare pentru construirea aplicaiilor distribuite.
Servicii de workflow, care sunt necesare pentru planificarea job-urilor i pentru
furnizarea unei structuri pentru sincronizarea elementelor de procesare n cadrul
straturilor.
Problematica transferului de fiiere de date mari (Big Data)

Organizaiile n care se genereaz seturi mari de date nestructurate trebuie s le mute


n diferite locuri de stocare uor accesibile, utiliznd, de exemplu, HDFS (Hadoop distributed
file system) pentru a fi procesate cu metode analitice utiliznd Hadoop.

Metodele obinuite de transfer de date n cadrul reelelor, cum sunt FTP i HTTP nu
sunt eficiente n aceste cazuri.

De exemplu, pentru realizarea unei analize eficiente a imaginilor de la camerele video


de supraveghere utiliznd un cluster Hadoop, este necesar ca datele video capturate n locaii
aflate la distan, s fie mai nti transferate ntr-o zon de stocare accesibil clusterului. De
exemplu, imaginile video HD (High Definition) necesit rate de nregistrate de 50Mbps.
Soluia aceasta a transferului unor cantiti mari de date se gsete n soluiile SaaS/PaaS
(software ca serviciu i platform ca serviciu) oferite de calculul n nor (cloud computing).
Cloud-ul public ofer putere de calcul, reelistic i stocare, ceea ce d companiilor i
organizaiilor interesate acces la capabiliti de analiz a datelor mari (Big Data).

4.3.5. Criterii n alegerea metodelor de stocare a datelor n sistemele Big Data


n alegerea metodelor de stocare a datelor este necesar s se analizeze utilizarea
urmtoarelor variante de tehnologii de stocare, astfel nct s se poat alege cele mai bune
soluii:

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 75


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Sistem de fiiere distribuite


Baze de date relaionale
Tehnologii NoSQL
Integrarea bazelor de date relaionale i a bazelor de date neraionale
Baze de date din memorie
n alegerea metodelor de construire i de utilizare a bazelor de date mari, astfel nct
acestea s permit dezvoltarea de aplicaii scalabile, se constat necesitatea analizrii i a
comparrii facilitilor bazelor de date SQL i cele NoSQL, principalul criteriu referindu-se
la consistena datelor. Consistena datelor difer ntre cele dou tipuri de baze de date.
Tehnologia SQL este utilizat pentru tranzacii care se bazeaz pe proprietile ACID
(Atomicitate, Consisten, Izolare i Durabilitate).

n tabelul 3 se prezint o comparaie a celor mai importante caracteristici ale bazelor


de date SQL i NoSQL (Hurwitz, 2013).
Tabelul 3. Comparaie a celor mai importante caracteristici ale bazelor de date SQL i NoSQL

Main Limbaj de Reducere Tipuri de Tranzacii Exemple


(Engine) interogare detalii date
(Map
Reduce)
Relational SQL, No Typed ACID PostgreSQL,
Python, C Oracle,
DB/2
Columnar Ruby Hadoop Predefinite Da, dac HBase
i typed este activat
Graph Walking, No Untyped ACID Neo4J
Search,
Cypher
Document Commands JavaScript Typed Nu MongoDB,
CouchDB
Key-value Lucene, JavaScript BLOB, Nu Riak, Redis
Commands semityped
Dup nelegerea cerinelor i a tipurilor de date adunate i a modului n care acestea
vor fi utilizate este necesar ca ele s fie astfel organizate astfel nct acestea s fie consumate
pentru analiz, raportare sau pentru aplicaii specifice.

4.3.6. Comparaii ntre conceptul de depozit de date (data warehouse) i abordarea Big
Data
Caracteristici generale ale depozitului de date (data warehouse)

Depozitele de date (data warehouse - EDW) sunt magazii de date integrate din una
sau mai multe surse. n ele sunt stocate date curente i date istorice (Sonra-1, 2015).
Depozitele de date (warehouse) au fost construite pentru a ingera date structurate din sisteme
tranzacionale. Aceste sisteme sunt utilizate zilnic n activitatea de business i includ HR,
ERP, Vnzri i Marketing etc. O dat cu evoluia aplicaiilor SaaS i a Arhitecturii Orientate

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 76


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

pe Servicii (SOA) din ultimii ani, au fost introduse n EDW i date semistructurate JSON i
XML.

Preluarea datelor se face n loturi, de obicei, n timpul nopii. Datele de la surse sunt
transferate n zone de ateptare ce se afl n infrastructura depozitului de date. Din zona de
ateptare, datele sunt ncrcate n platforma ETL care realizeaz transformrile solicitate,
integrarea datelor i sarcinile de curare. Uneori, mai sunt utilizate i instrumente dedicate
pentru calitatea datelor, managementul datelor i operaii analitice.

Datele transformate sunt apoi ncrcate napoi n depozitul de date ntr-o reprezentare
fizic a Modelului Datelor de ntreprindere (Enterprise Data Model - EDM). EDM constituie
o reprezentare a tuturor proceselor de business dintr-o ntreprindere. Din depozitul de date,
datele sunt ncrcate n piee de date specifice (data marts) sau n cuburi OLAP. Acestea sunt
modele de date care sunt optimizate pentru operaii analitice i raportri. Aplicaiile de
inteligen de business (BI) de pe desktop i cele mobile se conecteaz la modele
dimensionale i expun datele prin intermediul foilor de bord, a rapoartelor i a instrumentelor
de interogare ad-hoc.

Baze de date relaionale n depozitele de date i cerine noi determinate de Big Data

Depozitele de date (warehouse) se bazeaz, de obicei, pe baze de date relaionale


(RDBMS). Pentru volume mai mici de date sunt utilizate bazele de date standard cum sunt:
PostgreSQL, MS SQL Server sau Oracle.

Pentru volume mai mari de date sunt utilizate aparate (appliances) construite special
n acest scop care s includ hardware optimizat i software specific pentru a se realiza
performane superioare. Astfel de aparate (appliances), cum sunt Teradata sau Exadata
formeaz fundamentul pentru depozitul de date.

Mai recent, baze de date paralele masive (MPP) cum sunt Vertica sau GreenPlum pot
s funcioneze i pe echipamente obinuite (commodity hardware). Asocierea existent pn
acum, ntre depozitele de date (warehouse) i bazele de date relaionale, nu pare c mai este
aa de puternic deoarece un declin al importanei bazelor de date relaionale apare din
urmtoarele considerente (Sonra-2, 2015):

Reinerea datelor referitoare la tot mai multe aspecte i creterea exponenial a


volumului de date pun semne de ntrebare asupra eficacitii i scalabilitii bazelor de
date relaionale cu scopuri generale pentru depozitele de date. Aici intervin modele de
cost pentru licene care sunt bazate pe numrul de CPU-uri i costurile hardware
pentru aparatele de stocare a datelor n depozite.
Bazele de date relaionale generale nu sunt potrivite pentru ingerarea anumite tipuri de
date, cum sunt datele nestructurate, datele ierarhice complexe care apar n grafuri i n
poliarbori.
Depozitul de date (warehouse) a fost destinat s fie depozit central pentru business.
Deoarece volumul de date crete acest lucru este mai greu de susinut.
Bazele de date relaionale generale necesit o schem predefinit. Acest fapt face ca
modelarea datelor s fie foarte costisitoare.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 77


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

4.3.7. Criterii de alegere a software-ului de stocare i procesare pentru Big Data


n alegerea componentelor software ale unui nucleu, n cadrul oferit de proiectul
Hadoop pentru sisteme Big Data, trebuie s se ia n considerare unele din urmtoarele
caracteristici ale acestuia (Gartner, 2015):

1. Hadoop este un cadru deschis de software surs pentru stocarea i prelucrarea


datelor mari peste grupuri mari de produse hardware. Hadoop conine dou pri principale:
Sistemul de fiiere distribuite Hadoop - HDFS i Map Reduce.

2. Sistemul distribuit de fiiere Hadoop (HDFS) gestioneaz regsirea i stocarea


datelor i a metadatelor necesare pentru calcul.

3. Apache Pig este o platform de nivel nalt de creare a programelor MapReduce


care sunt utilizate cu Hadoop.

4. Apache Hive este o platform de depozitare a datelor, care este construit peste
Hadoop.

5. Cascading este un cadru de dezvoltare de aplicaii Java pentru analiz de date


bogate i de gestionare a aplicaiilor datelor care ruleaz peste "o varietate de medii de
calcul", cu accent pe Hadoop i distribuii compatibile cu acest API, n conformitate cu
Concurent - compania care a dezvoltat Cascading. Cadrul de lucru Cascading, alturi de
biblioteca Apache Crunch ofer API-uri de nivel mai nalt dect MapReduce. Fa de
abstractizarea simpl de tipul cheie-valoare, aceste biblioteci utilizeaz operaii cu tuple, cum
sunt join-urile, iar job-urile de pe mai multe nivele sunt tratate implicit de biblioteci(operaiile
sunt compilate n job-uri MapReduce). Ambele proiecte furnizeaz i API Scala, care permite
interogri foarte concise. Un avantaj al acestor dou sisteme fa de Pig i Hive const n
posibilitatea de a scrie funcii definite de utilizator ntr-un mod mai uor, utiliznd Cascading
i Crunch, deoarece ele sunt scrise n limbaje gazd (Java sau Scala), nefiind necesar un alt
limbaj cum este cazul cu Java pentru PIG i Hive, dei PIG suport, de asemenea, i Python.

6. Instrumente de integrare Big Data. Instrumente semi-automat de modelare, cum


ar fi CR-X permite s se dezvolte modele interactiv la vitez rapid, precum i instrumentele
pot ajuta s configurai baza de date, care va rula Google Analytics. CR-X este un ETL n
timp real (Extract, Transform, Load) instrument de integrare a datelor mari i motor de
transformare.

7. Baze de date analitice. Bazele de date analitice scalare cum sunt Pivotal
Greenplum sau IBM Netezza ofer ncrcarea i rencrcarea rapid a datelor pentru modele
analitice.

8. Considerarea satisfaciei clientului. Pachetele analitice Big Data de la ISVs (cum


este ClickFox) ruleaz utiliznd baze de date pentru a satisface aspecte de business cum este
satisfacia clientului.

9. Abordare tranzacional. Proiecte tranzacionale Big Data nu pot utiliza Hadoop


deoarece acesta nu este n timp real. Pentru sistemele tranzacionale care nu necesit o baz
de date care s satisfac cerinele ACID (Atomicitate, Consisten, Izolare, Durabilitate) se
pot utiliza baze de date NoSQL, dei consistena poate fi una slab.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 78


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

10. Punerea la un loc a acestora. Figura 19 arat componentele majore puse


mpreun ntr-o soluie Big Data complet.

n continuare sunt enumerate cteva instrumente care au fost descrise n subcapitolul


3.1.1 care completeaz cadrul ecosistemului Hadoop cum sunt: Apache Flume, Apache
Oozie, Apache Avro, Apache HCatalog, Apache Mahout i alte instrumente care sunt descrise
mai jos.

Sqoop este un sistem de preluare a datelor n bloc, fiind utilizat pentru realizarea de
salvri zilnice ale datelor din bazele de date relaionale tranzacionale n Hadoop
pentru analiz offline.
Apache Bigtop testeaz i mpacheteaz un set cunoscut de componente Hadoop,
scutind utilizatorii de aceast povar. Distribuii de Hadoop cum sunt CDH de la
Cloudera i HDP de la Hortonworks sunt construite cu Bigtop pentru testare i
mpachetare.
Apache Ambari i Cloudera Manager furnizeaz o interfa la nivel de cluster
pentru administrarea configuraiei, monitorizare, alerte, cutarea fiierelor de log,
pentru dependine ntre servicii i pentru actualizarea serviciilor.
YARN (Yet Another Resource Negotiator) este un cadru de management a resurselor
pentru versiunea a doua a lui Hadoop, care generalizeaz procesarea datelor dincolo
de MapReduce. YAN deschide puterea de procesare a clusterului Hadoop pentru
algoritmi noi de procesare distribuit, cum este procesarea grafurilor de scar mare.

Straturi de abstractizare
ClickFox, Merced etc.
Procesare i Date
originale
de ex.
Baze de Date uor Greenplum
de ncrcat Netezza

ETL (Extrage, ncrcare Transformat) Instrumente de


Modelare Modelare, de ex. CR-X

Kerberos
Securitate i Cascading
management
Pig Hive (DW)
Limbaje de nivel
nalt Hadoop
Motorul MapReduce
Urmritori de job-
uri i Task-uri
NoSQL DB
Sisteme de fiiere Sistem de fiiere De ex. Hbase
cu localizare De ex. HDFS Cassandra

Procesare i Date
originale

Figura 19. Componentele majore puse mpreun ntr-o soluie Big Data complet

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 79


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

4.3.7.1 Criterii de selectare a modalitilor de stocare a Big Data


Fundaia stivei de tehnologii Big Data este stratul de stocare. Printre cerinele
operaionale fundamentale n domeniul Big Data sunt incluse performana, disponibilitatea,
accesibilitatea i flexibilitatea.

Pentru satisfacerea celor mai importante cerine care trebuie ndeplinite n


fundamentarea soluiilor optime de stocare a datelor de tip Big Data, urmtoarele criterii ar
trebui s fie incluse (Rouda, 2015):

Scalabilitatea pentru volume de date mari. Avnd n vedere creterea volumului de


date stocate, este necesar s se aib n vedere posibilitile viitoare de stocare, att din
punct de vedere al limitelor fizice, ct i al costurilor de scalare.
Performana pentru viteza Big Data. Imensele cantiti de date trebuie procesate i
analizate ntr-un timp adecvat. Cerinele analitice ale fluxurilor de date n timp real
mresc importana acestui criteriu. Pe lng metodele de indexare potrivite, formatele
de tip coloan, pstrarea datelor n memorie este necesar s existe capabiliti de
stocare superioare, printre care i stocarea flash care permite o cretere a datelor
utilizate n mod activ de metodele analitice.
Niveluri dinamice pentru cea mai bun combinaie de caracteristici. Deoarece
scalabilitatea i performana pot fi realizabile dar pot fi foarte scumpe dac de
utilizeaz medii rapide, este necesar s se realizeze o platform bun care s permit
atingerea necesitilor de business i s furnizeze un mix ierarhic de caliti.
Accesibilitatea multiprotocol pentru gama larg de date de tip Big Data. Diferite
surse de date vor avea, probabil, diferite cazuri de utilizare. Diferite aplicaii ar putea
avea nevoie de a utiliza aceleai seturi de date local, i realizarea de numeroase mutri
i operaiuni de join ale datelor, care adaug overhead i ntrziere. Criteriul de
alegere, n acest caz, att din punct de vedere economic, ct i al uurinei de
administrare, const n utilizarea unui loc de stocare central care poate fi utilizat n
scopuri multiple.
Arhitecii de Big Data trebuie s considere o gam larg de opiuni pentru platforme
de stocare, n care sunt incluse SAN, NAS i IaaS furnizat de cloud. Fiecare din aceste
modele este posibil, dar profilele rezultatelor sunt diferite.

4.3.7.2 Exemplu de platform de stocare a datelor-Spectrum Scale de la IBM


Platforma de stocare Spectrum Scale de la IBM satisface cerinele cele mai importante
pentru stocarea Big Data (Rouda, 2015):

Scalabilitate extrem de cretere, prin evitarea copiilor pe medii de stocare separate i


redundante
Overhead redus n mutarea datelor, deoarece nu este nevoie de mutarea datelor ntr-un
cluster HDFS sau Hadoop, utiliznd un singur mediu pentru stocarea datelor pe
termen lung, procesarea ETL i stocarea datelor Hadoop.
Accesibilitate uoar pentru diferii utilizatori, deoarece acetia pot utiliza aplicaiile
pe care le doresc, cu o singur copie de date ce este disponibil simultan la distribuii
multiple ale MapReduce, Yarn i alte instrumente din ecosistemul Hadoop.
Independen de localizarea geografic prin utilizarea seturilor de date din cache-ul
local.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 80


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Funcionalitate de stocare avansat, utiliznd instrumente specifice: File Placement


Optimizer (FPO), managementul de stocare ierarhic, IBM Spectrum Protect i
posibilitatea de administrare i automatizare a ntregului ciclu de via.
De asemenea, IBM a dezvoltat multe soluii analitice pentru Big Data:

BigInsights (Hadoop)
Watson (cognitiv)
PureData (depozit de date)
DB2 cu Blu Acceleration (baz de date n memorie)
Informix (baze de date IoT-Internet of Things)
Cloudant (baze de date ca serviciu).

4.3.8. Criterii utilizate n alegerea metodelor i modelelor analitice


Pregtirea datelor pentru analiz

n pregtirea datelor pentru analiz apar urmtoarele aspecte care trebuie s fie analizate:

Provocrile calitii datelor


Instrumente ETL pentru Extragere, transformare i ncrcare. n acest mod datele se
ncarc i se convertesc n datele structurate i nestructurate n Hadoop. Hadoop este
cel mai utilizat set de produse de organizare a Big Data, fiind meninut de Apache
Foundation.
Capabiliti analitice pentru Big Data

Capabilitile analitice pentru Big Data se refer la aplicarea capabilitilor analitice la


seturi de date uriae, variate i care se schimb rapid:
Monitorizarea i detectarea anomaliilor.
Data mining i analizarea textului.
Analizele predictive explic tendinele sau evenimentele care au impact de schimbare,
care sunt unice sau sunt revoluionare n practica de bussiness.
Rapoartele i tablourile de bord sunt utilizate att pentru reprezentarea prietenoas,
ntr-o modalitate tradiional, a informaiei din diferite surse, ct i pentru noi tipuri
de baze de date NoSQL.
Vizualizare Big Data. Ieirile tind s fie foarte interactive i dinamice. Utilizatorii pot
s urmreasc schimbrile n date utiliznd diferite tehnici de vizualizare: hri, hri
de cldur, grafice de informare i diagrame de conectare. Aceste tehnici, alturi de
rapoarte finalizeaz activitatea de business.
Rolul Excel n Big Data.

Transformarea Big Data n valoare

n figura 20 se prezint principalele etape i elemente componente prin care datele se


transform n valoare pornind de la extragerea datelor, verificarea faptului c au
caracteristicile specifice Big Data, analizarea datelor utiliznd metode analitice i crearea
valorii pentru atingerea obiectivelor de performan a businessului.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 81


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Extragere date Au caracteristici


Big Data: Analiza Big Data: Valoare:
Activiti
Conversaii
Voce Volum Analiz text Atingere obiective:
Cuvinte Vitez Analiz sentimente - Analiza datelor n
Date operaionale Varietate Recunoatere fee noi modaliti,
Media social Veridic Analiz voce potennd noi
Loguri de Analiz micare surse
Browser Analiz date
Fotografii
operaionale
Video
Senzori

Figura 20. Transformarea Big Data n valoare

Crearea de modele predictive din Big Data

Utilizarea modelelor predictive poate s conduc la optimizarea unei game largi de


activiti:
Se pot prezice alegerile clienilor, vnztorii pot prezice ce produse se vor vinde, sau
companiile de asigurri vor nelege ct de bine conduc clienii lor.
Optimizarea proceselor de business: optimizare stocuri, optimizare rute.
mbuntirea sntii: legtura dintre stilul de via i boli, monitorizarea i
prezicerea epidemiilor.
mbuntirea securitii i respectarea legii: detectare atacuri cibernetice i atacuri
teroriste, detectarea tranzaciilor bancare frauduloase.
mbuntirea performanelor sportive: utilizarea senzorilor, a analizei video.
mbuntirea i optimizarea oraelor i rilor: optimizarea traficului.

4.3.9. Criterii de selecie asociate cadrului general al metodelor analitice pentru Big
Data n timp real
Metodele analitice pentru Big Data n timp real utilizeaz un proces iterativ care
implic instrumente i sisteme multiple. Un model n cinci faze al procesului analitic al Big
Data este descris de Smith ca un cadru pentru metodele analitice predictive (Barlow, 2013).
Acest proces implic diferite criterii de alegere n cadrul celor cinci faze ale sale: distilarea
datelor, dezvoltarea modelului, validarea i implementarea, evaluarea sistemelor n timp-real
i remprosptarea modelului.

Distilarea datelor

Deoarece datele din stratul de date sunt brute i neordonate ele nu satisfac cerinele de
structurare necesare pentru construirea de modele i realizarea de analize.

Urmtoarele criterii sunt urmrite n distilarea datelor:

modul de extragere a caracteristicilor din texte nestructurate


modul de combinare a surselor de date disparate

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 82


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

modul de filtrare a populaiilor de interes


modul de selectare a caracteristicilor relevante i a rezultatelor pentru modelare
modul n care seturile de date distilate sunt exportate la o pia de date local (local
data mart).
Dezvoltarea modelului

n aceast faz se creeaz un model predictiv care este puternic, robust,


comprehensibil i implementabil. Pentru aceasta trebuie s fie incluse criterii pentru
urmtoarele:

Selectarea caracteristicilor
Eantionarea i agregarea
Transformarea variabil
Estimarea modelului
Rafinarea modelului
Testarea modelului.
Cele mai importante cerine pentru specialitii n date, n aceast faz, sunt viteza,
flexibilitatea, productivitatea i reproductibilitatea. Deoarece aceste cerine sunt critice n
domeniul Big Data, un specialist n date va construi, rafina i va compara zeci de modele n
cutarea unui algoritm n timp real puternic i robust.

Validarea i implementarea

Validarea procesului descris n cadrul modelului const n reextragerea de date noi,


prelucrarea lor conform modelului, i compararea rezultatelor cu setul de validare. Dac
modelul funcioneaz corect, el se poate implementa ntr-un mediu de producie.

Criterii de evaluare a sistemelor n timp-real

Punctajul pentru sistemele n timp real se face n stratul de decizie (de ctre
consumatori de la un website sau de ctre un sistem operaional prin intermediul unui API).
Comunicaia este intermediat de stratul de integrare. n faza de evaluare a punctajului, unele
sisteme n timp real vor utiliza acelai hardware care este folosit i n stratul de date sau n
pieele de date (data mart). n aceast faz apar limitrile pe care le are Hadoop n succesul ca
sistem n timp-real, dei acesta are rezultate mulumitoare n aciuni de populare a tabelelor
mari sau n punctarea operaiunilor de pre-calcul. Tehnologii mai noi, cum este Impala de la
Cloudera, sunt proiectate s mbunteasc capabilitile n timp real ale Hadoop.

Remprosptarea modelului

Deoarece datele se schimb, este necesar ca acestea s fie remprosptate i, de


asemenea, modelul construit cu datele originale trebuie refcut utiliznd scripturile sau
programele utilizate iniial. Este recomandat s se fac analize exploratorii ale datelor i
remprosptarea periodic a modelului. Procesul de remprosptare, ca i cel de validare i
implementare pot fi automatizate utiliznd servicii Web cum este RevoDeployR, care este o
parte a soluiei RevolutionR Enterprise.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 83


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Algoritmi main de nvare utilizai frecvent n analizarea Big Data

Urmtorii algoritmi sunt utilizai n mod frecvent n metodele analitice pentru


derivarea valoarea de business:

Supervised Unsupervised
Linear Nonlinear
Single Combined
Easy to Interpret Hard to Interpret
Linear
Regression
Logistic
Regression
Perceptron
Bagging Boosting Random Forest
Decision Rule
Trees Learning
Nave k-Nearest
Bayes Neighbours
Multi-Layer SVM
Perceptron
K-Means
EM Self-Organizing Maps

Figura 21. Algoritmi de nvare main pentru analiza Big Data (dup IBM, 2015)

Algoritmii comuni de nvare main pentru analizarea Big Data pot fi ierarhizai
conform Figurii 21.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 84


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

4.4. Rolul specialitilor n date i criterii de alegere a acestora

4.4.1. Joburi specifice Big Data


Un specialist n domeniul datelor (data scientist) este un titlu de job (loc de munc)
pentru un angajat sau un consultant de business intelligence (BI) care exceleaz n analizarea
datelor, n mod particular n mari cantiti de date, pentru a ajuta un business s ctige un
avantaj competitiv.

Un specialist n domeniul datelor posed o combinaie de calificri analitice,


statistice, de nvare a mainilor, de minare a datelor i are experien n algoritmi i n
programare. El trebuie s poat explica semnificaia datelor ntr-un mod care poate fi neles
cu uurin de alii.

Profesii n domeniul Big Data (McFedries, 2015):

Arhiteci de date (Data architects) specialiti n construirea modelelor de date.

Custode de date (Data custodians) sau administrator de date (data stewards) -


administreaz surse de date.

Vizualizator de date (Data visualizer) care traduce datele n forme vizuale.

Ageni de schimbare a datelor i exploratori de date schimb modul de realizare


a afacerilor pe baza analizei datelor companiilor.

Alturi de aceste profesii specializate, sunt necesare activiti clasice de configurare,


administrare i management.

4.5. Big Data n Guvernare - Ghid de bune practici

De ce Big Data n sectorul guvernamental? De ce acum?

"Afacerea" de guvernare este destul de divers, cuprinznd multe funcii diferite


incluznd, printre multe altele serviciile sociale, gestionarea infrastructurii, impozitarea,
supravegherea respectrii legii, aprarea i securitatea.

Volumul de informaii necesare pentru gestionarea oricrui program n timp util i


eficient ar depi capabilitile oricrui sistem clasic. n plus, exist imperative suplimentare
pentru creterea agilitii, responsabilitii i preciziei n luarea deciziilor, care evideniaz
cerina imediat pentru sisteme de nalt performan scalabile capabile s utilizeze cantiti
masive de date, inclusiv:

Necesitatea de a coordona programe n cadrul unei agenii.

Cerine sporite de coordonare i utilizare partajat de cantiti masive de date n


cadrul i ntre agenii.

Luarea de decizii mai bine informate i inteligente.

Rezultate mai sigure i previzibile.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 85


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Publicarea de date pentru o mai mare transparen i vizibilitate pentru public.

Identificarea i eliminarea fraudelor, pierderilor i abuzurilor.

Este recunoscut faptul c trebuie abordate neajunsurile existente ale infrastructurii


aferente tehnologiei actuale. Partajarea informaiilor neguvernamentale implic existena a
numeroase erori i neconcordane ale datelor, n timp ce costurile asociate meninerii a
numeroase sisteme disparate depesc capabilitile unei agenii, afectnd grav capacitatea de
coordonare i colaborare. n concluzie, este nevoie de o mai bun abordare care s depeasc
limitrile mediilor existente.

Exist o recunoatere clar a potenialului Big Data de a rspunde nevoii mereu


crescnde pentru performane scalabile pentru o varietate larg de analize mixte (de exemplu,
raportare, interogare, analize algoritmice) pe o varietate de seturi de date guvernamentale i
nu numai. Unele propuneri fundamentale valoroase i seturi de competene necesare existente
includ un cost iniial sczut (n special atunci cnd se utilizeaz produse open source) i
anticipeaz soluionarea unor probleme de afaceri i analiz ale cror cerine de performan
depesc capacitile mediului existent.

Introducerea Big Data n sectorul guvernamental

Regsirea i analiza facil i n timp util de informaii corelate sau necorelate este
esenial pentru guvern pentru a satisface i a mbunti cerinele misiunii sale, care sunt
variate de la o agenie la alta. Datele continu s fie generate i arhivate digital cu viteze tot
mai mari datorit iniiativelor de e-Guvernare i pentru o guvernare deschisa, senzorilor,
interaciunilor cu cetenii i tranzaciilor aferente programului de guvernare. Organizaiile
guvernamentale au nceput s implementeze sisteme suport de decizie, analiza automatizrii
interfeelor, s descopere organizarea datelor i managementul infrastructurii. Sunt incluse
utilizarea de servere standardizate, reele, stocarea datelor i software pentru clustere, toate
acestea fiind utilizate i pentru implementarea pe scar larg a tehnologiei Big Data. Drept
exemplu, se poate face referire la software-ul care prelucreaz i pregtete toate tipurile de
date pentru analiz. Acest strat extrage, cur, normalizeaz, eticheteaz i integreaz datele.
Acest strat include software pentru descoperirea ad-hoc i analiz profund i software care
suport analiza n timp real, de luare automat a deciziilor tranzacionale bazate pe reguli.
Aplicaii cu funcionaliti necesare pentru a sprijini colaborarea, evaluarea scenariilor,
gestionarea riscurilor, precum i captarea deciziilor.

Exist deci multe oportuniti pentru introducerea unor tehnologii Big Data n sectorul
guvernamental, inclusiv n securitatea cibernetic; tehnologii de analiza seturilor de date de
mari dimensiuni n domeniul tiinei i cercetrii, precum i data mining utilizate pentru a
preveni comiterea de acte de teroare i / sau pentru a preveni risipa, frauda i abuzurile;
fuziunea datelor i informatica medical, pentru a numi doar cteva. Toate aceste probleme
de afaceri reflect caracteristicile legate de Big Data - volume masive de date, mare varietate
de date, integrarea tehnicilor de analiz, precum i o nevoie de scalabilitate crescut. Cu toate
acestea, exist percepia conform creia costurile iniiale reduse pentru software-ul de Big
Data, cum ar fi Hadoop, sugereaz un mod rentabil pentru a nlocui infrastructura existent,
sugernd faptul c Hadoop (i variantele sale comerciale) sunt complementare formulelor
existente de business intelligence, analizei i metodelor deja livrate din arhitecturile existente.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 86


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

n calcularea costurilor totale pentru arhitectura de Big Data trebuie incluse cele aferente a
patru factori majori: oameni, software, hardware i date.

Big Data poate aduga valoare ca resurs utilizat pentru a spori analiza i modelarea
predictiv i pentru a impulsiona fluxuri masive de date. Utilizatorii de date pentru afaceri ar
trebui ns s fie contieni de faptul c, n timp ce costurile iniiale ale software-ului open
source pentru tehnologiile de Big Data au fost reduse, acest fapt nu este neaprat valabil i
pentru costul total de dezvoltare, operare i de ntreinere. Introducerea analizei de Big Data
ar trebui s se concentreze pe cazuri de utilizare a lor n afaceri i pe msuri clar definite de
performan demonstrnd valoarea adus afacerii i, cu siguran, n guvernare, este de
neconceput renunarea la tehnologia existent pentru una n curs de dezvoltare. Mai degrab,
Big Data ar trebui s fie parte integrant a unei strategii globale de analiz, care nu poate
trece peste cele mai bune practici asociate cu aderarea la ciclul de via din dezvoltarea
sistemului.

Trebuie ns recunoscut i pericolul de a ignora nevoia de a capta, gestiona i analiza


eficient cantiti masive de date. Fie c este vorba de identificarea rapid a ameninrilor
cibernetice, expunerea insidioas la metode de comportament fraudulos sau de meninerea
responsabilitii pentru costurile crescnde de susinere a extinderii programelor sociale, nu
poate fi ignorat necesitatea unor sisteme de calcul de nalt performan scalabile, care s
sprijine activitile critice din guvern.

Exemple de utilizare a Big Data

O reacie impulsiv la beneficiile promise de Big Data este finanarea i iniierea de


proiecte pilot pentru a evalua tehnologiile aferente, utiliznd costuri iniiale sczute sau chiar
nule (cum ar fi pentru produse gratuite sau produse open-source). Cu toate acestea, adoptarea
tehnologiei de Big Data nu va produce imediat beneficii.

Ca i n adoptarea oricrei noi tehnologii, beneficiile trebuie s fie ncadrate n


contextul valorii de business aduse organizaiei i nu innd seama de reacia mass-mediei,
curiozitii tiinifice sau chiar fricii de "a fi lsat n urm". Succesul unui sistem pilot de Big
Data trebuie s fie msurat n raport cu ndeplinirea obiectivelor propuse pentru mbuntirea
performanei, creterea vitezei de execuie, obinerea de rezultate mai precise sau cu
capacitatea de a absorbi i a folosi seturi mai mari i mai diverse de date. Prin urmare, aceste
caracteristici trebuie luate n considerare pentru a stabili dac o soluie de Big Data este
potrivit pentru o anumit problem de afaceri:

Volume mari de date - S-ar putea sugera c ceea ce calific datele ca fiind de "mare"
dimensiune este faptul c practic cantitatea de date depete capacitatea existent de
prelucrare a datelor ntr-un timp util. Procesele de afaceri care beneficiaz de volume crescute
de date sunt potrivite pentru soluii Big Data.

Varietate semnificativ a datelor - Acest lucru sugereaz probleme de afaceri care pot
beneficia de potenialul de a extrage buci semnificative de informaii din datele provenind
din surse diferite, cu structur i coninut variate.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 87


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Limitri privind performana sistemului / Intensitatea analizei - Procesele de afaceri


care sunt blocate ca urmare a unor ntrzieri de calcul (cum ar fi algoritmi compleci de
calcul cu cerine restrictive sau algoritmi euristici care ncearc s optimizeze global
soluiile), volume de date sau restricii asociate cu varietatea datelor, viteza fluxului de date,
latena accesului la date i / sau disponibilitatea datelor.

Potenial de paralelizare - Aceasta se refer la probleme de afaceri care pot fi defalcate n


uniti mai mici de lucru care pot fi executate simultan. Performanele execuiei acestor
procese de afaceri pot fi mbuntite prin paralelismul datelor sau paralelizarea aplicat unor
segmente de date distribuite independente.

Ca productor important i consumator de seturi de date de mari dimensiuni (i de


dimensiuni n cretere), ageniile guvernamentale sunt zone fertile care pot beneficia de
tehnologia de Big Data. Dup cum este sugerat n Tabelul 4, sectorul public se confrunt cu
multe probleme de afaceri care prezint una sau mai multe dintre criteriile de conformitate
menionate i pentru care se pot msura cu claritate mbuntirile obinute ca urmare a
implementrii Big Data.
Tabelul 4. Probleme guvernamentale de afaceri potrivite pentru o soluie de Big Data

Problema Descriere / Exemple Adecvarea soluiei de Big Data


de afaceri
Securitate Monitorizarea activitilor i Numeroase fluxuri de date cu o varietate
cibernetic comportamentelor n reea semnificativ de structur, format i coninut,
pentru a identifica modele cum ar fi DNS, DHCP, NetFlow, log-uri Web,
cunoscute sau suspecte de alerte, date de configurare, audituri, e-mailuri i
acces care indic o bre, fluxuri de date n reele sociale.
inclusiv atacuri asupra Cantiti masive de date de la fiecare surs,
serviciului, scurgeri de date, rat foarte mare de streaming.
atacuri asupra site-urilor Web Performan afectat de nevoia de a capta,
i pentru a detecta spionajul organiza i analiza cantiti masive de date.
cibernetic.
Sarcini paralele care includ numeroase
comparaii aplicate bazei de cunotine pentru
cutarea de tipare cunoscute, precum i analiz
continu pentru identificarea modelelor
emergente de comportament suspect.
Fraude, Tranziia de la detectarea Absorbia i analiza unor cantiti masive de
pierderi i fraudei existente i istoric de tranzacie.
abuzuri recuperarea plilor Seturi multiple de date, inclusiv seturi
necuvenite ctre identificarea structurate de tranzacii de la o larg varietate
proactiv a comportamentului de organizaii, precum i date demografice din
fraudulos nainte de surse nestructurate.
efectuarea plilor. Se Algoritmi de calcul intensiv pentru
utilizeaz modele n reea dezvoltarea de modele predictive pentru
pentru a identifica metode identificarea fraudei i abuzului.
colaborative de fraud i abuz
i a declana rapid investigaii Analizarea i compararea n paralel a unor
ct mai eficiente. modele diferite.
Securitate Acordarea de sprijin n caz de Utilizarea unor colecii mari de date.
i protecie dezastru natural, atac terorist, Absorbirea i utilizarea de seturi de date

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 88


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

dezastru provocat de om sau


eterogene.
pentru a identifica ameninri
Favorizarea crerii de modele mari pentru
poteniale la adresa simulare
securitii. i analiz.
Analiza Diverse activiti de fuziune a Cantiti masive de date transmise la viteze
datelor de datelor care combin datele progresiv mai mari.
la senzori furnizate de senzori pentru Colectarea i fuziunea de informaii de la
analiz i orientare. diferite tipuri de maini / senzori.
Integrarea i analiza unei Algoritmi care necesit analiz statistic
cantiti masive de date scalabil.
tiinifice sau de inginerie
obinute de la senzori,
inclusiv date despre reeaua
electric, vreme, date
climatice, bioinginerie sau
date GPS.
Analiza, Colectarea, colaionarea i Masive i colecii n cretere de documente.
partajarea indexarea de documente de la Numeroase surse cu structur redus sau
i cutarea o mare varietate de agenii, inexistent.
documentel partajarea documentelor Corelarea cu seturi de date structurate
or inter-organizaionale, oferind existente.
acces la cutare pentru
cercetare. Paralelizarea sarcinilor, ceea ce permite
scalabilitate pentru cutri simultane
Informatic Analizarea calitii asistenei Volume explosive de documente, imagini i
medical medicale, compararea date provenind de la senzori.
eficacitii cercetrii, Utilizarea a numeroase sisteme pentru
monitorizarea sntii gestionarea ntr-o varietate de moduri a
populaiei i management. dosarelor medicale electronice.
Utilizarea de algoritmi compleci de analiz a
formelor pentru analiza procedurile i
corelarea rezultatelor.
Necesitatea scalabilitii n toate aspectele
activitilor.

Big Data ca parte a unei arhitecturi cu informaii unificate

Exist oportuniti clare pentru a obine avantaje din ncorporarea metodelor i


tehnologiilor de Big Data n noile arhitecturi hibride de Big Data (cum se poate vedea n
ncorporarea de tehnologii n Hadoop propuse de liderii n modaliti curente de depozitare a
datelor cum ar fi Oracle, IBM, Pivotal i Teradata. Astfel, ar fi naiv s presupunem c
investiii semnificative n infrastructur i ani de dezvoltare de aplicaii ar putea fi pur i
simplu nlocuii cu orice nou tehnologie, bazat pe produse open-source n mare parte
nesigure. Aceste abordri necesit abiliti n tehnici cum ar fi MapReduce, care sunt greu de
stpnit pentru cele mai multe ageniilor guvernamentale i mult mai puin ieftine. Multe
aplicaiile guvernamentale din Tabelul 4 au fost deja abordate ntr-un anumit fel utiliznd
tehnologii deja disponibile, aa c poate fi mai nelept s se caute oportuniti pentru a mri
mediul existent dect s se ncerce reconstruirea lui de la zero.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 89


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Prin urmare, o abordare mai rezonabil urmrete impulsionarea obinerii de beneficii


prin utilizarea Big Data ntr-un mod care completeaz managementul existent al datelor i
cadrul de analiz. Acest fapt sugereaz integrarea treptat a proiectelor selectate de Big Data
n organizaie ca parte a unei strategii informaionale cuprinztoare i a unui plan de realizare
a unei arhitecturi informaionale unificate. Ar trebui antrenat o comunitate de utilizatori de
afaceri crora s li se solicite opiniile cu privire la modul n care accesul mai larg la analiza
bazat pe volume masive de date poate mbunti potenialul de succes n afaceri. De
asemenea, ar trebui s evalueze msura n care problemele lor prezint caracteristicile care le
fac potrivite pentru o soluie de Big Data.

Totodat, ar trebui s identifice criterii de performan, s se neleag cum tehnicile


specifice de Big Data mbuntesc performanele i problemele de scalabilitate i, n general
s evalueze impactul potenial pozitiv al unei soluii de Big Data.

Odat ce se trage concluzia c scenariile de afaceri pot fi mbuntite prin


ncorporarea tehnologiilor de Big Data, trebuie s se examineze modul de a integra
instrumentele, tehnicile, precum i competene necesare pentru producionalizare n cadrul
mediului existent de gestionare a informaiilor, cum ar fi:

Procesare intens paralel (PIP), conceput pentru a oferi att performan scalabil liniar
cu ct sunt adugate mai multe noduri de prelucrare, ct i elasticitate pentru a permite
aplicaiilor s utilizeze puterea de procesare necesar pentru a executa cererea.

Dispozitive analitice, constnd din sisteme hardware de specialitate organizate n jurul unui
cadru PIP combinat cu vitez crescut, reele de lime de band larg i canale de I / O.
Aceste sisteme sunt special realizate pentru aplicaii de nalt performan consumatoare de
cantiti masive de date.

Etichetare i prelucrare semantice care pot fi utilizate pentru a organiza ontologii i


ierarhii referitoare la termeni de afaceri, sensul lor n funcie de context i metodele de
armonizare a conceptelor implicite.

Analiz de text, tot mai importan pentru extragerea de informaii relevante din cantitile
masive de date nestructurate disponibile i utilizarea de ontologii semantice pentru analiza.

Prelucrare eveniment complex (referit i ca prelucrare flux de evenimente) care permite


scanarea i analiza formelor pentru monitorizare n timp real i secvenele de evenimente
reprezentate implicit n fluxuri de date diferite.

Mesaje i fluxuri de date cu laten sczut, care sunt eseniale pentru prevenirea scderii
performanelor datorat blocrilor cauzate de tranzaciile din reea necesare schimbului de
date.

Dezvoltarea, execuia, testarea i implementarea aplicaiilor de Big Data, cum ar fi


suita de instrumente Hadoop, care ofer o palet de instrumente pentru dezvoltarea de
aplicaii, programare, execuie, gestionare a datelor, precum i diverse alte instrumente de
sprijin pentru aplicaie.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 90


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Fiecare dintre aceste tipuri de tehnologii contribuie la capacitatea de a efectua analize


de Big Data, dar cnd vine vorba de dezvoltarea unui soluii de Big Data, dezvoltarea de
aplicaii de management i analiz de Big Data este indisolubil legat de cele mai bune
practici generale de gestionare a informaiilor.

Multe analize vor combina profilele existente n depozite de date tradiionale cu


aplicaii de Big Data, n timp ce rezultatele aplicaiilor algoritmice trebuie reintroduse n
infrastructura existent n moduri care mbuntesc aplicaiile care sunt deja i vor rmne n
utilizare.

Cu alte cuvinte: n viitorul apropiat sau pe termen mediu, aplicaiile nou-dezvoltate


care exploateaz tehnici de Big Data trebuie s se bazeze pe mediile tradiionale existente de
date structurate, care sunt n prezent folosite pentru a rezolva problemele guvernamentale.

Noiuni de baz n domeniul utilizrii Big Data n proiecte guvernamentale pilot

Nu exist nici o ndoial c alura i strlucirea unei noi tehnologii pot fi orbitoare, iar
primul punct critic de luat n considerare pentru orice proiect de Big Data este de a-l ncepe
innd mereu cont de beneficiile ce trebuie aduse afacerii i de a se concentra mereu pe
afacere. Implementarea tehnologiei fr a ine cont de starea curent i rezultatul final dorit
poate duce la stagnare i insucces n finalizarea proiectului.

Drept urmare, putem presupune c utilizatorii au fost angajai n proiect i c au fost


identificai unul sau mai muli specialiti n Big Data. Acesta este momentul n care agenia
este pregtit pentru a ncepe o abordare mai general a evalurii propunerii de Big Data,
astfel nct un proiect pilot rezonabil poate fi proiectat, care va fi privit n viitor ca un
indicativ de valoare.

Va fi identificat cu atenie posibilitatea de a aborda o anumit problem specific


folosind Big Data, punnd n balan beneficiile poteniale i nivelul de efort implicat. Pentru
rezolvarea problemei selectate, poate fi propus un proiect pilot pentru dezvoltarea unei
aplicaii cu Big Data. n cazul n care proiectul este considerat un succes, el poate fi folosit ca
model pentru determinarea volumului de munc necesar pentru a trece aplicaia n faza de
producie. Nivelul de efort necesar cuprinde integrarea abordrii ca parte a managementului
informaiilor unificate i a arhitecturii de procesare ca parte a sistemului de producie pe
durata ciclului de via.

Acestea fiind spuse, odat ce s-a decis abordarea proiectului pilot de Big Data i
bugetul a fost aprobat i alocat, este necesar utilizarea unei liste de verificare a sarcinilor de
ndeplinit pentru demararea proiectului-pilot:

1. Definirea criteriilor de succes, care sunt legate de aciuni cheie cum ar fi creterea
veniturilor, scderea costurilor, mbuntirea relaiilor cu cetenii sau reducerea riscului.

2. Stabilirea cerinelor pentru achiziia de date prin discuii cu proprietarii proceselor de


afaceri pentru a nelege ce tipuri de seturi de date ar fi valoroase ca parte a aplicaiei de Big
Data, precum i sursele lor, mijloacele prin care aceste date sunt achiziionate, metoda de
obinere a datelor, frecvena de remprosptare a datelor, orice metadate disponibile (sau
necesare), i critic, volumul de date.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 91


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

3. Caracterizarea scenariilor de utilizare a datelor prin examinarea modului n care seturi


de date vor fi modelate i utilizate. Aceasta include examinarea modelelor datelor, preciznd
politici pentru pstrarea datelor, deciznd cu privire la tipurile de analize care trebuie
efectuate i tipurile de rapoarte care trebuie generate i integrarea operaional n cadrul
proceselor de afaceri selectate.

4. Evaluarea cerinelor platformei aplicaiei pentru proiectarea, construirea, execuia i


testarea pilot. Se identific cerinele de componente tehnologice necesare i se elaboreaz un
plan de dobndire a acestor resurse.

5. Evaluarea cerinelor de competene care depesc stereotipul "specialist n date":


ingineri de sistem, programatori cu experien cu nalt performan n calcul paralel /
distribuit / managementul datelor i practicieni n integrarea datelor, precum i practicieni n
business intelligence.

6. Selectarea platformei pilot prin contactarea potenialilor furnizori ai tehnologiei i


solicitarea ajutorului lor pentru furnizarea unei platforme, precum i evaluarea modului n
care instrumentele open source cum pot fi instalate pe hardware-ul propus. Compararea
opiunilor disponibile i selectarea uneia pentru pilot.

7. Pregtirea mediului de dezvoltare pentru proiectul pilot prin instalarea i configurarea


hardware, stocarea, gestionarea, integrarea, raportarea / analiza datelor i dezvoltarea
componentelor aplicaiei pentru a permite proiectarea, dezvoltarea i testarea acesteia.

8. Activarea metodelor de integrare a datelor pentru accesarea, analiza i stocarea datelor


ntr-un mod care s sprijine nevoia pentru nalt performan.

9. Instituirea de metrici de performan care sunt definite la nceputul procesului ca msuri


specifice care sunt puse n aplicare prin msurare continu.

10. Proiectarea, dezvoltarea i testarea aplicaiei n cadrul unui mediu de dezvoltare care
permite programarea, executarea iterativ, depanarea i analiza performanelor pentru a ajuta
la optimizarea vitezei de execuie. Testele corespunztoare este necesar s fi fost deja
dezvoltate i pot fi executate punnd la dispoziie rezultate obinute.

11. Evaluarea indicatorilor de performan i verificarea ca valorile obinute de ctre


sistemul pilot sunt n concordan cu valorile anticipate i obiectivele de performan.

n acest moment, ar trebui s fie clar dac sau nu Soluia de Big Data are potenial de
a aduga valoare afacerii. Cu toate acestea, acest fapt nu poate fi unicul factor decisiv, mai
ales atunci cnd intenia este de a include aceste noi tehnologii n mediul existent. Alte
consideraii includ posibilitatea trecerii tehnologiei n mediul de producie, cum se aliniaz cu
tehnologiile existente, efortul implicat n scalarea aplicaiei pentru a satisface nevoile de
producie, formarea i gestionarea competenelor, dezvoltarea unui plan de integrare i
asigurarea c tehnologia este scalabil pentru un numr mai mare de utilizatori, fiecare
tinznd spre performane tot mai mari.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 92


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

Recomandri pentru Guvern

Ageniile guvernamentale ar trebui s exploreze tehnologii viabile economic de


gestionare a nregistrrilor automate i soluii pentru a reduce povara responsabilitilor de
administrare a nregistrrilor. Tehnologia este n continu evoluie pentru a oferi soluii
avansate pentru a sprijini backup-ul datelor, recuperarea, precum i cerinele de arhivare.
Infrastructura de stocare, care este capabil s satisfac cerinele specifice legate de volumul
de date, viteza i varietatea (trei din patru "V", aa cum este descris n cadrul Big Data) va fi
esenial pentru ageniile guvernamentale pentru a utiliza i procesa cu succes Big Data. O
mai mare vizibilitate a informaiilor organizaionale - mpreun cu capacitatea de a produce
documentaia atunci cnd este nevoie - permite ageniilor sporirea eficienei i productivitii
angajailor, rspunsul la ntrebri, luarea de decizii n cunotin de cauz, prin conectarea
informaiilor corelate sau necorelate i furnizarea de informaiile necesare pentru
transparen, colaborare i guvernare participativ.

Ageniile guvernamentale ar trebui s gseasc n mod strategic soluii pentru


creterea tot a mare a volumului de date, cum ar fi planuri care abordeaz stocarea datelor
tradiionale, precum i stocarea informaiilor digitale - structurate i nestructurate i metadate.
Constrngerile bugetare foreaz ageniile s redimensioneze modul de stocare a informaiilor
Big Data. Planurile ar trebui s includ stocarea pe niveluri, band, backup i recuperare n
Cloud, precum i o analiz a costurilor n raport cu beneficiile multiplelor opiuni de stocare.
Banda ofer stocarea eficient, eficiena din punct de vedere al costurilor i de ncredere
pentru datele inactive i, rareori solicitate. Aceasta permite ageniilor guvernamentale s
pstreze date valoroase companiei securizate pe band. Majoritatea informaiilor
guvernamentale sunt probabil inactive. Banda ofer depozitare pe tot parcursul vieii,
capacitate mare pentru pstrarea datelor pe termen lung pentru a sprijini pstrarea, precum i
arhivarea datelor inactive. Backup-ul pe band i recuperarea ofer o opiune mai sigur i
mai economic dect soluiile bazate pe disc, dar este nevoie de un management mai
complicat. Stocarea datelor pe disc i pe band fa de stocarea numai pe disc poate oferi un
mediu de stocare mai ieftin pentru datele inactive, care s permit ageniilor optimizarea
procesele de backup la faa locului i offsite. Backup-ul, recuperarea i arhivarea bazate pe
Cloud ofer beneficii diferite i pot juca un rol complementar ntr-o strategie de stocare.
Pentru datele care sunt n continu schimbare i necesit acces scurt i n timp real,
tehnologia Cloud ofer o soluie excelent de backup i recuperare. Aceasta permite micarea
mai rapid i mai frecvent i regsirea practic instantanee a datelor. n timp ce soluiile
bazate pe Cloud pot fi, pe termen lung, mai scumpe dect cele cu band, ele ofer backup
automat i arhivare rapid care ajut la reducerea volumului de munc n IT.

Folosirea tehnologiei Cloud pentru backup, recuperare, precum i pentru activiti de


arhivare ofer un sistem flexibil, scalabil, ajutnd la meninerea sczut a costurilor, n timp
ce resursele necesare pentru a gestiona procesele aferente sunt minimizate.

Multe agenii regndesc rolul modului tradiional de stocare i implementeaz


abordri combinate rentabile utiliznd banda pentru arhivare, discurile pentru nregistrri
frecvent solicitate i stocarea n Cloud pentru informaii Big Data.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 93


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

O abordare strategic pentru stocare permite ageniilor s produc documentaia


atunci cnd este nevoie, sporete eficiena i productivitatea angajailor i ofer informaiile
necesare pentru transparen, colaborare i guvernare participativ.

4.6. Utilizarea bunelor practici n domeniul Big Data

4.6.1. Aspecte generale teoretice legate de bunele practici


Cteva din caracteristicile principale ale bunelor practici sunt prezentate de
(Stenstrom, 2006):

1) Caracteristici referitoare la funcionalitate: a) seturi de funcii care genereaz


nvarea; b) practici care i-au dovedit validitatea prin obinerea de rezultate bune; c)
realizri care pot fi transferate oriunde ca seturi funcionale.
2) Caracteristici referitoare la procesare: a) metode care ajut la atingerea
obiectivelor definite pentru o activitate; b) utilizarea cercetrii pentru stabilirea
procedurilor de colectare a datelor.
3) Caracteristici inovatoare i transformatoare: a) Bunele practici sunt inovative i,
n consecin, acestea permit introducerea de noi proceduri i abordri; b) bunele
practici sunt asociate cu proiecte de succes; c) bunele practici pot fi resurse pentru alte
noi bune practici deoarece ele conin elemente necesare n rezolvarea unor probleme
i, deci, pot fi transformate s se potriveasc unor situaii diferite.
Pornind de la aceste caracteristici, n domeniul Big Data, putem identifica urmtoarele
criterii preliminare pentru bune practici:

Ele ofer soluii unor probleme sau introduc noi proceduri.


Ele ofer posibiliti noi de nelegere a unor mecanisme economice i sociale.
Ele asigur o utilizare mai eficient a datelor
Ele asigur luarea nor decizii mai bune pe baza rezultatelor obinute din analizarea
datelor de tip Big Data.
Ele asigur integrarea unor surse de date eterogene.
Ele permit evaluarea performanelor sectorului public.

4.6.2. Bune practici pentru managementul Big Data


ntr-un mediu Big Data specialitii IT trebuie s se asigure c (ExecBlueprints, 2013):

Prin utilizarea unor instrumente de date se monitorizeaz frecvent performana pentru


a localiza gtuirile, cderile sistemului i anomaliile;
Sunt logate toate interaciunile din cadrul sistemului, incluznd statisticile, datele
despre evenimente i datele despre tranzacii;
n mod fizic i operaional, depozitul Big Data ader la toate reglementrile
aplicabile;
Depozitele de date sunt administrate n mod unitar peste seturile mari de date;
Un ghid de bune practici este dezvoltat i revzut n mod regulat astfel nct el s
rmn actualizat i corect, fiind aplicat la unitile de business;

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 94


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

O bibliotec a infrastructurii IT (ITIL) documenteaz planurile, efortul i schimbrile,


asociate cu depozitul Big Data;
Politicile i procedurile sunt n mod continuu actualizate ca s rspund noilor
tehnologii i reglementrilor;
Problemele sunt rezolvate n mod incremental, prin ajustri minore, pentru a evita
ieirea n afara cadrului normal ntr-un mod dezastruos.

4.6.3. Studiu de caz Proiectul European Anticorupie


n cadrul proiectului European Anticorruption Policies Revisited-Global Trends and
European Responses to the Challenge of Corruption, la care particip douzeci de grupuri
de cercetare din douzeci de ri, cu perioad de desfurare ntre anii 2012 i 2017, una din
activitile importante const n Msurarea Riscului Corupiei utiliznd Big Data generate n
cadrul achiziiilor publice din Europa Central i de Est.

Centrul de cercetare a corupiei de la Budapesta (Corruption Research Center


Budapest - CRCB) este o organizaie neguvernamental, care este format dintr-o echip
interdisciplinar de cercettori din domeniul politicii, economiti, cercettori din domeniul
informaticii i avocai. CRCB a colectat n ultimii ani cantiti imense de date neexploatate
nainte, din cteva ri din Europa, calculnd din aceste seturi de date riscul corupiei i
evideniind cartelurile, prin utilizarea unor metode cantitative i calitative. CRCB a definit
mai muli indicatori care sunt bazai pe date administrative. Aceste date sunt preluate de la
agenii publice i de la departamente funcionale, unele din aceste date fiind publice, iar altele
fiind private n cadrul organizaiilor internaionale, private sau publice. Astfel prin analizarea
unor cantiti mari de date diferite, se poate depista c, dei unele licitaii apar ca fiind
impariale, corecte, deschise, furniznd acces egal competitorilor, ele sunt, de fapt, incorecte
(Figura 22).

Figura 22. Carteluri Unele firme liciteaz mpreun cu un ctigtor i pierd periodic

Astfel, se poate descoperi din analiza datelor c un singur ofertant a transmis o ofert,
apelul pentru licitaie nu a fost publicat ntr-o publicaie oficial, c a fost utilizat o
procedur de urgen pentru a urgenta procesul, procesul de licitaie a fost anulat sau a fost

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 95


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

relansat, criteriilor nefinanciare le-a fost acordat o prea mare importan, contractele au fost
modificate n timpul implementrii, valoarea sau durata contractului au crescut. Construirea
unor indicatori de guvernare de generaie nou utiliznd Big Data necesit, n timp real,
disponibilitatea datelor din surse electronice. Aceste seturi de date sunt derivate din sisteme
tranzacionale ale administraiei publice, la nivel de micro-date, care descriu comportamentul
actorilor din sistem. Datele trebuie s fie legate pentru a genera constatri comparabile ntre
ri, organizaii i n timp (Karippacheril, 2014), (Fazekas, 2014).

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 96


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

4. Concluzii i planul de continuare


Datorit volumelor din ce n ce mai mari de date din cadrul organizaiilor, stocarea i
procesarea acestora cu ajutorul sistemelor de baze de date clasice a devenit din ce n ce mai
dificil. Astfel a fost necesar dezvoltarea unor tehnologii care s stocheze ct mai eficient
datele, cu o redundan ct mai mic i care sa aplice tehnici de procesare paralel pentru
reducerea timpului necesar extragerii informaiilor dorite.

Printre problemele legate de integrarea Big Data se numr varietatea surselor de


date, calitatea datelor ce urmeaz a fi integrate i vizualizarea datelor.

Una dintre cele mai utilizate tehnologii de integrare Big Data este MapReduce,
fiind utilizat de companii precum Google, Yahoo sau Facebook deoarece ofer o serie de
avantaje: suport pentru seturi foarte mari de date distribuite n clustere de computere i
posibilitatea de procesare att a datelor structurate ct i a celor nestructurate.

Big Data este o oportunitate de a descoperi perspective n tipuri noi i emergente de


date i de coninut, pentru a crea un business mai agil i pentru a rspunde ntrebrilor care
anterior erau considerate de neatins.

Capacitatea de a utiliza Big Data pentru a conduce la rezultate mai bune n afaceri
face ca acesta s fie foarte atractiv.

Big Data nseamn schimbarea n profunzime a modului de operare a business-ului


prin trecerea de la modelul bazat, majoritar, pe experiena decidentului, la cel bazat pe
informaii cu valoare real pentru afacere i organizaie n sine.

Accelerarea creterii volumului de date va servi doar la rezolvarea problemelor


rezultate din complexitatea inerent a managementului informaiilor guvernamentale i din
analizele necesare n afaceri. Infrastructura existent este extrem de inadecvat pentru a
permite niveluri corecte de agilitate pentru a face fa provocrilor din urmtoarele decenii.
Acum este momentul de a evalua cu grij managementul existent n ageniile guvernamentale
i cerinele de analiz a informaiilor, lund n considerare necesitatea de a continua
sprijinirea eficient a programelor existente i, n acelai timp, a schimbrilor politice
viitoare. Este momentul potrivit pentru Big Data i analiza lor.

Trebuie nceput lund n considerare obiectivele cheie de afaceri i determinnd


gradul n care capabilitile de analiz a datelor sunt limitate de platformele tehnologice
existente. Este necesar examinarea tipurilor de probleme de afaceri care urmeaz s fie
abordate pentru a evalua adecvarea lor la o soluie tehnologic de Big Data. Trebuie luai n
considerare factorii cheie de performan operaional cum ar fi: scalabilitate n raport cu
volumele de date i scopul analizei, extensibilitate a mediului de a crete n pas cu cererea i
elasticitatea n a satisface cererea de sarcini de lucru analitice mixte dintr-o varietate de
afaceri pentru consumatori de informaii diferii. Este necesar concentrarea pe variabilele
cheie: volumele de date, varietatea datelor, nevoia de performan i paralelizarea.

Se face apoi dezvoltarea planului strategic pentru a evalua alternativele de Big Data.
Se apreciaz cerinele de performan care sunt utilizate pentru a selecta furnizori i produse
diferite. Clarificarea criteriilor de succes permite cea mai bun determinare a valorii. Planul

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 97


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

strategic trebuie s alinieze tehnologiile de Big Data cu infrastructurile de Business


Intelligence i de analiz existente. Cu ct Big Data ctig teren, suntem n pragul unei noi
ere n managementul informaiilor. Datele de mari dimensiuni pot aduga valoare prin
consolidarea analizei i practicilor de modelare predictive. Cu toate acestea, este binevenit
investirea de efort pentru definirea corespunztoare a domeniului programului de Big Data
pentru a-l alinia cu mediul existent. Big Data vor fi o parte integrant a unei strategii globale
de analiz, dar nu pot ocoli cele mai bune practici asociate cu aderarea la ciclul de via al
dezvoltrii sistemului.

Rezultatele prezentate n lucrare confirm realizarea obiectivelor etapei actuale i se


constituie ntr-o baz solid de informaii necesare pentru realizarea etapei urmtoare
Analiza tehnologiilor, bunelor practici i a soluiilor de eGuvernare care utilizeaz Big
Data la nivel naional, european i internaional.

Pornind de la rezultatele obinute, n etapa urmtoare colectivul de cercetare are de


realizat urmtoarele activiti:

- Identificarea i analiza tehnologiilor, bunelor practici i a soluiilor implementate n


sisteme informaionale guvernamentale
- Analiza soluiilor de Cloud Computing ca suport pentru tehnologii Big Data
- Determinarea unui set de caracteristici reprezentative pentru dezvoltarea de servicii
bazate pe Big Data pentru sisteme informaionale guvernamentale
- Diseminarea rezultatelor prin Comunicri i articole n reviste din ar i/sau din
strintate

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 98


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

5. Bibliografie
1. Adelaide O'Brien, 2012, The Impact of Big Data on Government WHITE PAPER,
October 2012, IDC Government Insights, pp.1-12.
2. Anuganti, V., Typical Big Data Architecture. 2012. Retrieved from:
http://venublog.com/2012/11/30/typical-big-data-architecture/.
3. Apache Software Foundation. (2013a). Welcome to Apache Hadoop. Retrieved from
http://hadoop.apache.org/.
4. Apache Software Foundation. (2013b). Welcome to Apache HBase. Retrieved from
http://hbase. apache.org/.
5. Apache Software Foundation. (2013c). Architecture overview: What is the difference
between HBase and Hadoop/HDFS? Retrieved from
http://hbase.apache.org/book/ architecture. html#arch.overview.
6. Awadallah, A., Graham, D., Hadoop and the data warehouse: When to use which.
Dayton, OH: Teradata Corporation. 2011. Retrieved from
http://www.teradata.com/white-papers/Hadoop-and-the-Data-Warehouse-When-to-Use-
Which/.
7. Azzini, A., Ceravolo, P., Consistent process mining over big data triple stores, n
Proceeding of the International Congress on Big Data (Big Data '13), pp. 5461, 2013.
8. Bodapati, V., Data Integration Ecosystem for Big Data and Analytics. 2013. Retrieved
from: http://smartdatacollective.com/raju-bodapati/103326/data-integration-ecosystem-
big-data-and-analytics.
9. Buyya, R., Yeo, C. S., Venugopal, S., Broberg, J., Brandic, I., Cloud computing and
emerging IT platforms: Vision, hype, and reality for delivering computing as the 5th
utility. Future Generation Computer Systems, vol. 25, no. 6, pp. 599-616, 2009.
10. Cao, L., Weiss, G., Yu, P., A brief introduction to agent mining, Autonomous Agent
Multi-Agent Systems, vol. 25, pp. 419424, 2012.
11. Cattell, R., Scalable SQL and NoSQL data stores. ACM SIGMOD Record 39(4), pp. 12
27, 2011.
12. Chan, J. O., An Architecture for Big Data Analytics, Communications of the IIMA;
2013, vol. 13, no. 2, pp.1-13.
13. Chen, H., Chiang, R. H. L., Storey, V. C., Business intelligence and analytics: From
big data to big impact. MIS Quarterly, vol. 36, no. 4, pp. 1165-1188, 2012.
14. CommVault, 5 Ways to illuminate your dark data, 2014, http://nth.com/wp-
content/uploads/2015/03/5_Ways_to_Illuminate_Your_Dark_Data.pdf.
15. David Loshin, Big Data and Government: Business Drivers and Best Practices, 2013
16. Dayley Alan: File Analysis Innovation Delivers an Understanding of Unstructured Dark
Data, Gartner Inc. Innovation Insight, March 2013.
17. Execblueprints, Ideas to Build Upon & Action Points, ExecBlueprints, Copyright
Books24x7, 2013.
18. Fazekas, Mihly., Istvn Jnos Tth - Three indicators of institutionalised grand
corruption using administrative data, Explanatory note for the U4 - Proxy Workshop,
Bergen, Norway, 4/2/2014,
http://www.crcb.eu/wpcontent/uploads/2014/01/CRCB_3%20indicators%20of%20inst%2
0grand%20corr_U4ProxyChallenge_2014.pdf.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 99


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

19. Gartner, Answering Big Data's 10 Biggest Vision and Strategy Questions. August
2014. (http://www.gartner.com/doc/2822220?refval=&pcp=mpe).
20. Gartner: 10 Big Data Software Requirements, http://www.information-
management.com/gallery/Big-Data-Required-Software-Applications-10026664-1.html,
accesat august 2015.
21. Gang-Hoon Kim, Silvana Trimi, Ji-Hyong Chung, Big-Data Applications n the
Government Sector. Communications of the ACM, 57(3), 2014, pp: 78-85.
22. Gantz, J., D. Reinsel, Extracting value from chaos. IDC iView, 2011, pp 112.
23. Hadoop, A., Hadoop, 2009, http://hadoop.apache.org/.
24. Hedlund, B., Understanding Hadoop clusters and the network. 2011. Retrieved from
http://bradhedlund.com/2011/09/10/understanding-hadoop-clusters-and-the-network/.
25. Herodotou, H., i alii, Starfish: A self-tuning system for big data analytics, ser.
CIDR2011, 2011.
26. Hindman, B., Konwinski, A., Zaharia, M., Ghodsi, A., Joseph, A. D., Katz, R., Shenker,
S., Stoica, I., Mesos: a platform for fine-grained resource sharing n the data center,
Proceedings of the 8th USENIX conference on Networked systems design and
implementation, p. 22, 2011. [Online]. Available:
http://dl.acm.org/citation.cfm?id=1972457.1972488.
27. Howard, J.H., M.L. Kazar, S.G. Menees, D.A. Nichols, M. Satyanarayanan, R.N.
Sidebotham, M.J. WEST, Scale and performance n a distributed file system. ACM
Trans Computing Systems 6(1), 1988, pp. 5181.
28. Hurwitz, J., Alan Nugent, Fern Halper, Marcia Kaufman, Big Data For Dummies, ISBN
1118504224, 2013, pp. 1-336.
29. Karippacheril, Tina George., Robert P. Beschel, Measuring Corruption Risk using
Big Public Procurement Data n Central & Eastern Europe,
http://blogs.worldbank.org/governance/measuring-corruption-risk-using-big-public-
procurement-data-central-eastern-europe, 2014.
30. Kevin O'Dell, How-to: Select the Right Hardware for Your New Hadoop Cluster,
http://blog.cloudera.com/blog/2013/08/how-to-select-the-right-hardware-for-your-new-
hadoop-cluster/, 2013.
31. Khan, N., Yaqoob, I., Hashem, I. A. T., et al., Big Data: Survey, Technologies,
Opportunities, and Challenges, The Scientific World Journal, vol. 2014, Article ID
712826, 18 pagini, 2014. doi:10.1155/2014/712826.
32. Kim, H., Raman, A., Liu, F., Lee, J., August, D. I., Scalable speculative parallelization
on commodity clusters. Proceedings of the 2010 43rd Annual IEEE/ACM International
Symposium on Microarchitecture (MICRO 43), pp. 3-14, 2010. doi: 10.11.09/
MICRO.2010.19.
33. Labrinidis, A., H.V. Jagadish, Challenges and opportunities with big data. Proceedings of
Very Large Data Base Endowment, 2012, 5(12), pp. 2032-2033.
34. Laney, D., 3-d data management: controlling data volume, velocity and variety. META
Group Research Note, 6 February 2001.
35. Loshin, David., Big Data Analytics From Strategic Planning to Enterprise
Integration with Tools, Techniques, NoSQL, and Graph, Morgan Kaufmann -Elsevier
Inc., 2013, ISBN: 978-0-12-417319-4, pp. 1-120.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 100


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

36. Marz, N., Warren, J., Big data - Principles and best practices of scalable realtime data
systems (Chapter 1), 2014.
37. MccormicK, Douglas., Samsung, Nokia Show 5G Tech at NI Week,
http://spectrum.ieee.org/tech-talk/at-work/test-and-measurement/samsung-nokia-show-
5g-tech-at-ni-week, 2015.
38. Mcfedries, Paul., Beyond Just Big Data, We need new words to describe the
coming wave of machine-generated information,
http://spectrum.ieee.org/computing/software/beyond-just-big-data, 2015.
39. Minelli, M., Chambers, M., Dhiraj, A., Big data, big analytics: Emerging business
intelligence and analytic trends for todays businesses, 2013. Hoboken, NJ: John
Wiley & Sons, Inc.
40. Morabito, V., Big Data and Analytics. Springer International Publishing Switzerland
2015. DOI 10.1007/978-3-319-10665-6_2.
41. Mac Creary, D., Kelly, A. (2014). Making Sense of NoSQL: A guide for managers and
the rest of us. Manning, ISBN-13: 978-1617291074, ISBN-10: 1617291072.
42. Obama (2012.) Obama Administration Unveils Big Data Initiative: Announces $200
Million n New R&D Investments, accessed via
http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_press_release_fin
al_2.pdf
43. Oracle, Big Data: A Big Deal for Public Sector Organizations. Oracles big data
solutions, 2012.
https://www.google.ro/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&uact=8
&ved=0CC0QFjAAahUKEwjQ_67qu5HHAhUCWRQKHbnDDyM&url=http%3A%2F
%2Fwww.oracle.com%2Fus%2Findustries%2Fpublic-sector%2Fpublic-sector-big-data-
br-1676649.pdf&ei=qcHBVZCHG4KyUbmHv5gC&usg=AFQjCNFHaDsyH6PJi
VQ1feOIMX7_vq1fyA&sig2=KW5VsoW5RCjcH5cQX7LzeA
44. Rivera, Janessa., Rob Van Der Meulen, Gartner's 2014 Hype Cycle for Emerging
Technologies Maps the Journey to Digital Business,
http://www.gartner.com/newsroom/id/2819918, 2014.
45. Rouda, Nik., Mark Peters, IBM: The Optimal Storage Platform for Big Data, White
paper, The Enterprise Strategy Group, March, 2015.
46. Sonra-1, Admin., Data Warehousing n the age of Big Data. The end of an era?, 2015,
http://sonra.io/data-warehousing-in-the-age-of-big-data-the-end-of-an-era/.
47. Sonra-2, Admin., Data Warehousing n the Age of Big Data. RDBMS Scalability,
Exploding Data Volumes and License Costs, http://sonra.io/data-warehousing-in-the-
age-of-big-data-rdbms-scalability-exploding-data-volumes-and-license-costs/.
48. Stenstrom, M., Laine, K., Towards good practices for practice-oriented assessment n
European vocational education, Institute for Educational Research, University of
Jyvskyl, Finland, http://www.ktl-julkaisukauppa.fi/, ISSN 1456-5153, 2006, pp. 1-68.
49. ODriscoll, A., Daugelaite, J., Sleator, R. D., Big data, Hadoop and cloud computing
n genomics, Journal of Biomedical Informatics, vol. 46, no. 5, pp. 774781, 2013.
50. Sathi, A., Big data analytics: Disruptive technologies for changing the game. 2012. Boise,
ID: MC Press.
51. Shvachko, K., Kuang, H., Radia, S., Chansler, R., The hadoop distributed file system,
n MSST, 2010, pp. 110.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 101


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

52. Sindol, D., Big Data Basics - Part 3 - Overview of Hadoop, 2014, Retrieved from:
https://www.mssqltips.com/sqlservertip/3140/big-data-basics--part-3--overview-of-
hadoop/.
53. Stonebraker, M., etintemel, U., Zdonik, S., The 8 requirements of real-time stream
processing, SIGMOD Rec., vol. 34, no. 4, pp. 4247, Dec. 2005. [Online]. Available:
http://doi.acm.org/10.1145/1107499.1107504.
54. Tantisiriroj, W., Patil, S., Gibson, G., Data intensive file systems for internet services:
A rose by any other name. 2008. Pittsburgh, PA: Parallel Data Laboratory, Carnegie
Mellon University. Retrieved from http://www.pdl.cs.cmu.edu/PDL-FTP/PDSI/CMU-
PDL-08-114.pdf.
55. Twardowski, B., Ryzko, D. Multi-agent architecture for real-time Big Data
processing. In 2014 IEEE/WIC/ACM International Joint Conferences on Web
Intelligence (WI) and Intelligent Agent Technologies (IAT). IEEE 2014, pp. 333-337,
doi: 10.1109/WI-IAT.2014.185.
56. Vavilapalli, V. K., Murthy, A. C., Douglas, C., Agarwal, S., Konar, M., Evans R., Graves,
T., Lowe, J., Shah, H., Seth, S., Saha, B., Curino, C., OMalley, O., Radia, S., Reed, B.,
Baldeschwieler, E., Apache hadoop yarn: Yet another resource negotiator, n
Proceedings of the 4th Annual Symposium on Cloud Computing, ser. SOCC 13. New
York, NY, USA: ACM, 2013, pp. 5:15:16. [Online]. Available:
http://doi.acm.org/10.1145/2523616.2523633.
57. Zhu, Y., Shasha, D., Statstream: Statistical monitoring of thousands of data streams
n real time, n Proceedings of the 28th International Conference on Very Large Data
Bases, ser. VLDB 02. VLDB Endowment, 2002, pp. 358369. [Online]. Available:
http://dl.acm.org/citation.cfm?id=1287369.1287401.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 102


ICI CS 143 Utilizarea tehnologiilor Big Data n sistemele informaionale guvernamentale

6. Anexa - Glosar de termeni


Big Data Volum crescut, vitez crescut i varietate mare de active de
informaie care cer eficien, forme inovative ale procesrii
informaiei pentru nelegere mbuntit i luare decizii.
Business intelligence Un set de tehnici i instrumente pentru transformarea datelor
(inteligena n afaceri) brute n informaii semnificative i utile n scopuri de
analiz de afaceri.
Crowdsourcing Procesul obinerii serviciilor, ideilor sau coninutului
necesare prin solicitarea contribuiilor de la un grup mare de
oameni, i n special de la comunitatea online, mai degrab
dect de la angajaii tradiionali sau de la furnizori.
Data Scientist Rolul critic pentru extragerea perspectiv de la active de
(specialist n date) informaie i iniiativele "big data" care necesit o
combinaie larg de competene.
OLAP O tehnic bazat pe calculator pentru analiz multi-
(analiza online a datelor) dimensional a datelor afacerii.

Dark data Activele de informaii colectate de organizaii, procesare i


(date ntunecate) stocare n timpul activitilor de afaceri obinuite, care nu
reuesc n general s fie utilizate n alte scopuri (de
exemplu, analiz, relaii de afaceri i valorificare direct);
stocarea i securizarea datelor suport de obicei cheltuieli n
plus (i cteodat risc crescut) dect valoare [Gartner].
Big Data Analytics-BDA Aplicarea capacitilor analitice (descript pe seturi de date
(analiza big data) uriae, variate i n schimbare.

Internet of Things (IoT) Internetul lucrurilor (sau al obiectelor) se refer la soluiile


tehnologice bazate pe Internet care permit interconectarea i
comunicarea ntre cele mai diverse dispozitive.
Analytics Procese de analiz a datelor.
Loosse coupling Legturi slabe, este o abordare a interconectare a
componentelor ntr-un sistem sau reea, astfel nct aceste
componente, numite elemente, depind unele de altele ct
mai puin posibil.
Sinks Colectoare de date
Bucketing concept Alt tehnic pentru descompunerea tabelei de date n mai
multe pri uor de mnuit.

Etapa I - Studiu referitor la abordarea Big Data n sectorul public 103

Вам также может понравиться