Вы находитесь на странице: 1из 27

Curs 1

Sisteme informatice BI
Analiza tipurilor de SI destinate asistarii deciziilor

Sisteme informatice pt management la nivel tactic (MIS = Management Information System)


destinate asigurarii rapoartelor sintetice necesare in procesul fundamentarii deciziilor curente, tactice,
controlului si planificarii pe termen scurt
Sisteme suport de decizie (DSS = Decision Support System)
ofera managerilor modele complexe si aprofundate de analiza in vederea fundamentarii deciziilor
Sisteme informatice de BI sau suport al executivului
Reprezinta sisteme informatice destinate conducerii strategice si permit luarea unor decizii
nestructurate, altele decat cele de rutina

Caracteristica
Nivel de decizie vizat
Beneficiari
Tipuri de info
furnizate

MIS
Operational, tactic
Manageri la nivel
operational
Info si indicatori ai
activitatii curente

Ofera previziuni si
predictii ale evolutiei
indicatorilor de
activitate
Tipuri de rapoarte

Rar, la cerere

Tipuri de info de iesire


ale sistemelor

Detaliate

detaliate, statice, rar


cu facilitati de analiza
multidim

DSS
Tactic si strategic
Manageri la nivel
tactic
Info si indicatori ai
activitatii curente, la
nivel departamental
sau organizational
Uneori, in cazul ind de
nivel central si
organizational

SBI
strategic
Manageri executivi, la
nivel strategic
Info si indicatori
strategici, indicatorii
cheie de performanta

detaliate, sintetice,
dinamica, cu unele
facilitati de analiza
multidim
Detaliate/agregate

sintetice, flexibile si
dinamice, cu facilitati
de analiza multidim

Ogligatoriu, pt ind de
performanta

De sinteza

BI Domenii aparute

Sisteme de raportare dinamice, multidim, care sa ofere suport pt decizii predictive


Au determinat dezvoltarea domeniului de BI, care a devenit realitate odata cu emergenta noilor tehnologii
Analiza datelor
In conditiile in care orice companie din zilele noastre lucreaza cu seturi de date de mari dim si genereaza
zilnic volume mari de date, este deosebit de important ca aceste date sa fie analizate si factorii de decizie sa
le utilizeze in scopul cresterii performantei organizatiei
Organizarea datelor in volume mari de date care sa raspunda rapid la cerinte complexe si la interogari intrun timp cat mai redus

BI functia de vizualizare interactiva


Analizarea datelor generate de activitatile unei companii este o activitate solicitanta, care implica
resurse de timp si umane considerabile. Reprezentarile vizuale simplifica lucrurile, permitandu-le
utilizatorilor din orice nivel al companiei sa inteleaga mai bine datele pe baza carora sa-si indeplineasca
obiectivele

Un sistem BI de tip operational vine in ajutorul utiliz non-tehnici cu modalitati de prelucare si


vizualizare a datelor foarte rapide si intuitive, permitand persoanelor din orice nivel al companiei sa
puna intrebari si sa primeasca raspunsuri

BI functia de accesare a datelor


Un sistem BI de ultima generatie poate prelucra si analiza un volum imens de date, din surse variate,
aducand la un click distanta informatii consolidate. Indiferent de volumul de date, acestea pot fi
reprezentate si analizate printr-un nr nelimitat de vizualizari
Vizual, trendurile sau problemele pot fi mai usor de observat, iar deciziile sunt luate mult mai simplu
cand informatia este prezenta clar
Analiza datelor intr-un sistem BI nu se rezuma doar la cateva grafice statice, pe intervale de timp mai
mari. Acestea pot fi studiate in profunzime, trecerea de la o imagine de ansamblu la detalii specifice
facandu-se foarte usor

BI functia de comunicare a informatiilor


Vizualizarile interactive pot fi asamblate intr-un dashboard interactiv, pt o viziune de ansamblu, care
poate fi impartasit cu alti oameni. In functie de facilitatile sist BI sau ale platformei pe care este
dezvoltat, dashboard-urile pot fi impartasite oricui, prin internet
Utilizatorii pot interactiona direct cu dashboard-ul: pot filtra, sorta si rearanja informatia. Dashboardurile pot fi impartasite si prin alte metode: incorporate pe un site, blog, pot fi folosite in prezentari
exportate intr-un format static

Solutii actuale de BI
1.
2.
3.
4.
5.

Optimizarea proceselor de afaceri


Asigurarea suportului pt EIS
Identificarea unor noi oportunitati de afaceri
Consolidarea business-ului curent
Pregatirea previziunilor de business

Curs 2
SIBI Solutia informatica pt managementul strategic
1992 un sistem ce integreaza informatii din surse interne si externe facand posibile monitorizarea si
prezentarea ind cheie catre managerii executivi prin intermediul unor formate si rapoarte flexibile si adaptabile
cerintelor acestora
1995 un SI proiectat pt a satisface cerintele de afaceri ale managerilor executivi. Acesta furnizeaza acces
rapid si direct la rapoarte si informatii temporale. Interfata sist este prietenoasa, oferind reprezentari grafice,
raportare de exceptie si facilitati de navigare pe niveluri ierarhice cu functii de drill-down. De asemenea ofera acces
la servicii online si posta electronica
BI se refera la SI de identificare, extragere si analizare a datelor disponibile intr-o companie, sist ale caror
scop este de a oferi un suport real pt luarea de decizii de business
SI de tip BI = instrumente destinate managerilor solutii care ofera managementului unei companii
informatiile necesare pt imbunatatirea performantei generale a acesteia
SI de BI = SI complex ce dispune de o interfata prietenoasa si ofera acces rapid si direct la info corecte si
relevante privind domeniile si activitatile principale ale afacerilor si permite analiza ind cheie de performanta,
ajutand la indeplinirea functiilor manageriale si la atingerea obiectivelor strategice ale organizatiei.

SI de BI = sist proiectat pt a satisface cerintele senior managerilor, pt a concentra, organiza si filtra datele
interne si externe ale organizatiei a.i acestea sa poata fi mai bine utilizate

BI operational
Sustine activitatile zilnice prin functionalitati specifice: informatii actualizate in timp real, acces securizat
la date din orice locatie, analize usor de realizat de catre orice utiliz, fara sprijin specializat etc
Migrare spre management bazat pe obiective clare, masurabile, asumate de catre companie si angajati
la nivel executional. Angajatul trebuie sa poata lua decizii pt atingerea propriului obiectiv.
Intervine in aceste companii, oferind acces la info relevanta pt fiecare nivel si viteza decizionala
Presupune in plus depistarea trendurilor, problemelor si altor factori imediat dupa ce apar,
permitandu-le angajatilor sa le rezolve imediat si nu la cateva zile, cand acestea pot lua amploare si pot
avea un impact puternic nefavorabil asupra companiei
Implementarea acestui sist pp o cultura organizationala in care rolul angajatului nu mai este pur
executional, acesta devine decident

Democratizarea BI
= disponibilitatea info in timp real si din orice locatie, acces la sistem pt mai multe categorii de utiliz si relevanta
scazuta
Sist BI clasice se bazeaza in principal pe informatie obtinuta in intervale de timp mai mari. Acest tip de info
este foarte important pt a observa trenduri, probleme, zone de business care necesita imbunatatiri.

Curs 3
BI caracteristici generale

Ofera vizualizari istorice, actuale si predictive ale operatiunilor de afaceri


Ofera factorilor de decizie cunostinte obtinute din prelucrarea datelor, prin aplicarea modelelor mate si a
algoritmilor
Pp analize dezvoltate ce impun utilizarea modelelor avansate de optimizare, invatare inductiva si predictie
Contin un set de modele mate si metodologii de analiza care sa exploateze sistematic date disponibile pt a
prelua info si cunostinte utilzate in sprijinirea proceselor decizionale

Caracteristici functionale ale SI de BI

Contin un nivel de date distinct


Ofera facilitati de agregare a datelor
Permit raportarea de exceptie
Permit analiza tendintelor
Ofera o interfata prietenoasa cu utiliz
Contin instrumente de analiza dinamica a info
Ofera facilitati de modelare
Ofera facilitati de comunicare si legaturi automate la surse de date externe

Caracteristici tehnice ale SI de BI

Permit accesul la info globale ale organizatiei


Ofera acces la datele curente, istorice si previzionate
Analiza datelor se realizeaza direct, online, bazandu-se pe analiza multidim a datelor
Prezinta sintetic ind de performanta cheie ai organizatiei (KPI)

Caracteristici de calitate ale BI: usor de utilizat


Utiliz finali folosesc cu usurinta rapoarte BI, pt ca sunt suficient de user friendly si ajuta la
interpretarea datelor

Rezultatul final generat de instrumentele de BI este in cele mai multe cazuri foarte usor de interpretat si
gestionat dpdv al informatiilor finale pt factorii de decizie si nivelurile de organizare
O solutie de BI trebuie sa fie aliniata la procesele de business a.i sa fie utilizata in mod eficient

Caracteristici de calitate ale BI: flexibilitate


Aplicatiile BI sunt accesate si utilizate pe mai multe tipuri de SO: Linux sau Windows
Este posibila trecerea usoara de la o versiune la alta

Caracteristici de calitate ale BI: securitatea datelor


Serverele pt stocarea obiectelor de BI au BD criptate pt a securiza informatiile legate de directoare,
rapoarte, utiliz
Furnizorii mari de instrumente BI utilizeaza algoritmi de criptare specializati pt a indeplini aceste cerinte,
puse in aplicare de catre experti specializati

Caracteristici de calitate ale BI: Minimizarea riscurilor


Pp dpdv operational asigurarea unor functionalitati de analiza a tipologiilor de lucru si a fluxurilor
informationale
Managerii au nevoie sa fie la curent cu decursul activitatilor din cadrul organizatiei pt a putea minimiza
riscurile si apoi max oportunitatile care apar
Persoanele in functii de conducere pot sa extraga, sa sintetizeze si sa analizeze informatia, dar si sa o
partajeze la nivelul diferitelor departamente sau nivele decizionale

Caract de calitate ale BI: cresterea profitabilitatii


Se obtine cu ajutorul unor tehnici de identificare a profilelor utiliz, a comportamentelor de utilizare a
serviciilor oferite de produs, a unor caract de segmentare bazate pe investigarea datelor istorice din
depozitul de date
Particularizarea ofertei catre clienti cat si facilitarea fluxurilor de vanzare a produsului prin intermediul
unor analize sofisticate pot fi propuse spre dezvoltare alte produse si servicii

Caract de calitate ale BI: asigurarea conformitatii


Instrumentele de BI permit furnizarea de servicii pt a asigura respectarea cerintelor si reglementarilor
legislative si de a crea un mediu pt elementele operationale, de inregistrare si calitate a datelor, pt
stocarea acestora pe perioade mai mari de timp
Valoarea adaugata de BI este aceea ca asigura organizatiile sa respecte regulamentele domeniului in
care activeaza si legislatia guvernamentala

Beneficiile oferite de SI de BI
Prin accesul rapid la info critice faciliteaza atingerea obiectivelor organizationale
Pe baza analizei ind cheie prezentati creste calitatea deciziilor luate si astfel se ofera suportul pt un
avantaj competitional
Min timpul destinat procesului decizional si ofera un control mai bun in organizatie
Prin analizele dinamice a info critice permite anticiparea prob si identificarea rapida a oportunitatilor
de afaceri
Pe baza posibilitatilor de previziune permite identificarea unor tendinte ale procesului de afaceri si
planificarea unor activitati si stabilirea unor obiective la nivel strategic

Curs 4
Arhitectura SIBI arhitectura sist suport de decizie
4 nivele distincte:
1. Gestiunea datelor nivel de baza, a surselor de date, a SGBD si a dictionarelor metadatelor
2. Gestiunea modelelor nivelul unde se prelucreaza, se transforma si se extrag informatiile si include modele
de analiza si previziune a datelor destinate satisfacerii cerintelor manageriale de nivel inalt
3. Interfata nivel superior prin care utiliz poate comunica cu sist si il poate comanda
4. Telecomunicatiile se refera la retele de calculatoare, dispozitive de comunicatii, modul cum e organizat
hardware-ul in retea, suportul pt software-ul distribuit si cum sunt integrate si conectate fizic componentele
sist
Arhitectura SIE poate fi privita si dpdv al nivelurilor de realizare, de jos in sus, piramidal, pe 3 niveluri:
1. Nivelul datelor (bottom-tier) nivelul surselor de date pt EIS in care are loc integrarea tuturor surselor
relevante de date din interiorul organizatiei din modulele operationale si exteriorul organizatiei, procese de
extragere, transformare si incarcare a datelor si depozitele de date din care se extrag date pt analiza
2. Nivelul de analiza(middle-tier) nivelul de analiza a datelor cu ajutorul tehnologiilor OLAP si data mining si
prin extragerea datelor din depozite prin interogari SQL
3. Nivelul de prezentare(top-tier) nivelul de prezentare si utilizare a datelor prin instrumente grafice,
rapoarte, interfete web etc

Tehnologii utilizate la realizarea arhitecturii

Depozitele de date = modalitate de integrare si organizare a datelor din surse omogene si neomogene,
provenite din sist tranzactionale, dar si din fisiere externe, integrate dupa anumite criterii, supuse unui
proces de extragere, transformare si incarcare, stocate agregat pe nivele ierarhice, destinate prelucrarilor
si analizelor dinamice, fiind solutia optima de organizare a datelor pt SI de decizie si executive
Def:
Stocare centralizata a datelor detaliate, provenite din toate sursele relevante din cadrul unei organizatii
si permite interogarea dinamica si analiza detaliata a tuturor info
Colectie de date orientate pe subiecte, integrate, istorice si nevolatile destinata sprijinirii procesului de
luare a deciziilor manageriale

Analiza comparativa a performantelor obtinute in urma implementarii diferitelor tipuri de depozite de date
a) In functie de aria de cuprindere:
Depozitul central al organizatiei (Enterprise Warehouse)
Centru de date(Datamart DM)
Depozitul virtual (Virtual warehouse)
b) In functie de aria de cuprindere a proceselor decizionale
Depozitul de date de tip organizational sau galactic (GDW)
Depozitul de date orientat pe procese de afaceri (BPDW)
Depozitul de date departamental (DDW)
Centru de date de tip proces de afaceri (BPDM)
Centru de date departamental (DDM)
Tipuri de depozite de date:
1) Depozit de date organizational
2) Centru de date
Modalitati de implementare:
-

Date agregate stocate separat

Realizare virtuala

Tehnologii utilizate la realizarea arhitecturii


Tehnologia OLAP = modalitate de prelucrare si analiza dinamica si avansata a datelor, oferind decidentilor
posibilitatea de a obtine propria perspectiva asupra datelor, de creare flexibila si obtinerea directa a situatiilor
centralizate si sintetice, dar si cu posibilitatea de navigare in detaliu, cu facilitati de previzionare si simulare a unor
situatii viitoare, fiind o solutie eficienta de analiza a datelor din depozitele de date. Permite aplicarea de formule si
modele asupra dimensiunilor si ierarhiilor, previziuni pe perioade diferite de timp, analiza in adancime (drill-down),
extragerea unui subset de date pt vizualizare, rotatii in cadrul dim
Def:
Tehnologie software ce permite analistilor, managerilor si persoanelor cu functie de conducere sa
analizeze datele printr-un acces rapid, consistent si interactiv si sa le vizualizeze intr-un mod cat mai
variat

Modelul multidim pt SI executive model piramidal


Nivelul I sau nivelul organizational compus din dimensiuni si fapte cu caracter general, valabile pentru activitatile
intregii organizatii, de exemplu dimensiunea <timp>, <zona geografica>. Nivelul datelor este detaliat cu mai multe
ierarhii pe fiecare dimensiune.

Nivelul II sau nivelul departamental compus din dimensiuni i fapte cu caracter departamental, valabile
pentru anumite activiti, de regul grupate pe departamente sau centre, este un nivel al data mart-urilor, de
exemplu aici s-ar regsi dimensiunea <cont contabil> sau <client>/<furnizor>. Nivelul datelor este semiagregat, cu ierarhii specializate pe care s se poat naviga.
Nivelul III sau nivelul strategic compus din dimensiuni i fapte derivate din cele de baz i din cele
departamentale, avnd i elemente proprii, valabile doar pentru analiza strategic, de exemplu dimensiunea
<intercompanie>. Nivelul datelor este agregat, sintetic, ierarhiile fiind compuse i derivate din cele de baz i
cele departamentale.

Arhitectura SBI Model multidimensional pentru sistemele informatice de bi


model piramidal
Avantaje:
Flexibilitate
Model real al cerinelor de afaceri
Performan n navigare (drill-down, roll-up)
Construcie incremental
Suport pentru MIS, DSS
Dezavantaje:
Complexitate mare
Performan scazut la interogare
Necesitatea de abordare pe dou direcii top-down i bottom-up

TEHNOLOGII UTILIZATE LA REALIZAREA ARHITECTURII


DATA MINING se intenioneaz descoperirea unor cunotine noi, neintuitive, care pot contrazice percepia
intuitiv, fiind deci informaii complet necunoscute la momentul realizrii procesului de data mining.
Tehnicile de data mining urmresc obinerea de rspunsuri la intrebri de genul:
- Care sunt cauzele unui anumit fenomen?,
- Cum se pot obine anumite rezultate?.
DEFINIIE: Prin data mining se nelege procesul de extragere a cunotinelor din bazele sau depozitele de date,
cunotine necunoscute anterior, valide i n acelai timp operaionale. [C. Bodea, 1998]

Curs 5
DD-delimitare
Ralph Kimball [2], depozitul de date ofera acces la datele organizaionale; datele coninute sunt consistente; datele
pot fi separate i combinate n funcie de fiecare dimensiune sau aspect al afacerii. Depozitul de date include, de
asemenea, un set de instrumente pentru interogare, analiz i prezentare a informaiilor; reprezint locul n care
sunt publicate datele folosite; calitatea datelor coninute n depozit reprezinta o premis pentru reingineria
afacerii".
Barry Devlin [3], un depozit de date nseamn o stocare a datelor, unitar, complet i consistent, obinut dintro varietate de surse, disponibil utilizatorilor finali ntr-un mod uor perceptibil i utilizabil n contextul afacerii.
Sam Anahory [4] subliniaz finalitatea depozitelor de date preciznd c un depozit de date include datele i
procesele manageriale care fac informaiile disponibile, permind managerilor s ia decizii corect fundamentate
Corey si Abbey (Oracle) definesc depozitul de date ca fiind: o colectie de informatii strategice derivate direct din
sistemele OLTP si alte surse externe. Scopul specific al depozitului de date este de a oferi suport de decizie si nu
suport pentru activitatea operativ.
Firma IBM folosete pentru depozite de date termenul Information Warehouse. Dup unii autori, viziunea IBM se
refer mai degrab la conectivitatea global a diverselor surse de date, fiind un fel de middleware generalizat
bazat pe arhitectura proprie DRDA Distributed Relatinal Database Architecture.
De altfel, n literatura de specialitate se folosesc simultan cei doi termeni pentru depozite de date: Data Warehouse
si Information Warehouse.
Dupa Efraim Turban [5], scopul unui data (sau information) warehouse este de a realiza un fond de date (data
repository) care s fac accesibile datele operaionale ntr-o form acceptabil pentru asistarea deciziilor i pentru
alte aplicaii".

DD-scopurile
depozitul de date asigur accesul la datele organizaiei. Accesul trebuie s fie imediat, la cerere, i s fie
performant. Nu este acceptabil ca acest acces s fie realizat prin intermediul altei persoane sau s fie
prea lent.
accesul presupune existena unor utilitare care s fie foarte uor de folosit. Managerii vor trebui s
obin diferite rapoarte printr-o simpl apsare de buton.
datele dintr-un depozit de date trebuie s fie consistente. Consistena nseamna c atunci cnd dou
persoane solicit date despre vnzrile dintr-o anumit regiune s primeasc aceleai date, chiar dac
ele au fost cerute la momente de timp diferite. Dac datele nu au fost complet ncrcate atunci
utilizatorul va fi avertizat cu privire la acest lucru i este sftuit s atepte pn ce vor fi complet
ncrcate.
datele ntr-un depozit de date pot fi separate i combinate cerina clasic de mprire i grupare a
datelor.

depozitele de date nu reprezint doar datele ci i un set de utilitare pentru a interoga, analiza,
prezenta informaiile.
depozitele de date sunt locurile unde publicm datele folosite. Datele nu sunt doar acumulate la un loc
i pstrate, ci sunt asamblate dintr-o varietate de surse, sunt corectate de erori, li se asigur calitatea
necesar i abia apoi devin utilizabile.
calitatea datelor din depozitele de date este un factor determinant pentru procesul de reculegere a
datelor. Se ntlneste frecvent situaia n care datele sunt de bun calitate, dar nu sunt colectate n
ntregime sau sunt opionale.

DD-aria de cuprindere
o
o
o
o

Un depozit de ntreprindere colecteaz toate informaiile despre subiecte care privesc ntreaga
organizaie[6].
furnizeaz un volum extins de date;
conine date detaliate, dar i date agregate, iar ca ordin de mrime pornete de la civa gigabytes pn la
sute de gigabytes, terabytes sau mai mult.
poate fi implementat pe tradiionalele mainframes, pe superservere UNIX sau pe platforme cu arhitecturi
paralele. Acesta necesit cheltuieli mai mari pentru modelare i ani de zile pentru proiectare i realizare.

DD-aria de cuprindere
o
o
o

o
o

Un data mart conine un subset al volumului de date din organizaie, specific unui grup de utilizatori[7].
Domeniul este limitat la subiecte specifice. De exemplu, un data mart pentru marketing limiteaza subiectele
la clienti, articole, vnzri. Datele coninute n data mart sunt de obicei agregate.
Data marts sunt, n mod curent, implementate pe servere departamentale mai ieftine care se bazeaza pe
UNIX sau Windows/NT. Ciclul de implementare a unui data mart este mai curnd msurat n sptmni
dect n luni sau ani. Ca atare, un data mart poate fi considerat un subansamblu al unui depozit de date mai
uor de construit i ntreinut i mai puin scump.
Un depozit virtual este un set de viziuni (views) asupra bazelor de date operaionale[8]. Un depozit virtual
este uor de construit, dar necesit capaciti suplimentare pe serverele de baze de date
Pentru eficiena procesrii interogrilor, numai unele din viziunile de agregare pot fi materializate.

DD-componentele arhitecturii
Arhitectura unui depozit de date are 3 componente principale :
1. depozitul de date propriu-zis i sistemul de gestiune a depozitului de date
2. sistemul de achizitie a datelor din sistemele OLTP i din alte surse
3. sistemul de analiz i prezentare a datelor din depozitul de date

DD-arhitectura simplificata
Exist mai multe tipuri de date:
1.
2.
3.
4.

metadate (date despre date);


date agregate la un nivel primar;
date agregate la un nivel superior;
date detaliate.

Sursele de date pentru depozit pot fi:


-

BD operaionale curente,
BD vechi arhivate
BD externe

Desi cresc redundanta, sunt importante pt ca


asigura un timp de raspuns cat mai mic

Etapele pentru construierea depozitului de date:


1) extragerea datelor din bazele de date operaionale i sursele externe n cadrul depozitului, urmat de
copierea datelor
2) curarea datelor i ncrcarea datelor corecte n cadrul depozitului de date
3) obinerea datelor agregate cerute de utilizatori.

DD-instrumente software
-

instrumente necesare utilizatorilor (pentru acces rapid la date): ex. limbaj de interogare gen SQL,
generatoare de rapoarte
instrumente specializate pentru asisterea deciziilor (obinerea de grafice, diagrame, etc.): instrumente OLAP
i Data Mining
Instrumentele OLAP se bazeaz pe reprezentarea multidimensional a datelor (cubul de date) i permite
analiza interactiv i rapid a datelor prin operaiuni de tip roll-up, drill-down, slice, dice etc. Utilizatorul
poate obine rezultate imediate parcurgnd dinamic dimensiunile cubului de date, lucrnd cu niveluri
diferite de sintez/ detaliere.

DD-arhitectura complexa
-

O arhitectur mai complex este aceea n care se folosete un sistem de purificare i integrare a datelor
precum i multiple sisteme data mart proiectate pentru compartimente ale ntreprinderii.
sursele de date pot fi sisteme operaionale i fiiere. Acestea sunt extrase, curate, stocate i integrate n
depozitul de date. Depozitul de date refer de asemenea i mai multe sisteme data mart proiectate pentru
compartimentele nterprinderii.
Datele din cadrul depozitului de date sunt n final folosite de utilizatori pentru efectuarea de analiz,
obinerea de rapoarte i transformarea datelor n cunotine (mining).

DD-nivele de realizare
Modulul operaional
o
o
o

datele unei companii sunt de obicei pstrate sub form diferit la locaii diferite.
datele pot proveni de la aplicaii de mainframe sau de la sisteme distribuite din cadrul companiilor cum ar fi
sisteme de gestiune a comenzilor, de eliberare a facturilor, de contabilitate financiar.
indiferent de originea lor, datele trebuie s fie colectate i aduse ntr-o form consistent pentru a putea fi
folosite. Acest proces se numete transformarea datelor i reprezint baza pe care se construiete un
depozit de date consistent, de nalt calitate. Transformarea datelor presupune un proces de extragere,
condiionare, curare, fuziune, unificare pe adres, punctare, validare i ncrcare.

Modulul central al depozitului de date


o
o

partea central a unui depozit de date l constituie SGBD i serverul principal pe care acesta ruleaz.
Din punct de vedere al implementrii unui depozit de date exist n acest moment 2 tendine:
1. implementarea unui sistem distribuit, descentralizat unde datele sunt pstrate n uniti independente
(Independent Data Marts) fiecare conine datele relevante pentru un anumit aspect al operaiilor unei
instituii;
2. implementarea unei surse de date unice, centralizate la care au acces utilizatorii din toate
deparetamentele unei instituii.

Modulul strategic, de afaceri


o
o

Valoarea final a unui depozit de date este determinat de avantajele pe care le ofer utilizatorului final n
diferite procese de luare a deciziilor i analiza.
Prin folosirea diferitelor unelte de acces la informaie i data mining disponibile pe pia, utilizatorii pot
obine informaii care i vor ajuta n procesele de stabilire a strategiei firmei.

Nivelul de jos (bottom-tier) este constituit din serverul depozitului de date i este, n multe cazuri, un sistem
de baze de date relaionale. n cadrul acestui nivel datele sunt extrase, curite, transformate i ncrcate n
depozitul de date.

Datele din bazele de date operaionale i din sursele externe sunt extrase utiliznd programe de aplicaii tip
interfa cunoscute sub numele de ,,gateways".
Un gateway este sprijinit de SGBD-ul de baz i permite programelor client s genereze cod SQL pentru a fi
executat de server.
Exemple de gateways:
-

ODBC (Open DataBase Connection) si OLE-DB (Open Linking and Embedding for DataBases) la Microsoft;
JDBC (Java DataBase Connection)

DD-arhitectura pe trei niveluri


1) Nivelul mediu (middle-tier) bazat pe un server OLAP care este implementat n mod obinuit, utiliznd fie un
model relaional OLAP (ROLAP), fie un model multidimensional(MOLAP).
Modelul ROLAP este o extensie a unui SGBDR care mapeaz operaiunile pe date multidimensionale la
operaiunile relaionale standard. Modelul MOLAP este dedicat i implementeaz direct descrierea datelor i a operaiunilor
multidimensionale.
2) Nivelul superior (top-tier) este nivelul client care conine instrumente pentru generarea interogrilor i a
rapoartelor, instrumente de analiz i/sau instrumente data mining (Ex: analiza trendului, predicii etc.).
Nivelul 1 este reprezentat de sistemele operaionale ce gestioneaz date curente i care sunt folosite
pentru procesarea tranzaciilor i interogrilor: stocuri, producie, pli, etc
Nivelul 2 este reprezentat de depozitul de date. n cadrul acestui nivel, datele sunt curite i prelucrate
pentru a suporta una sau mai multe data mart-uri.
Acest nivel poate const din mai multe structuri de date: ODS (operational data store) i depozite de
date. ODS-urile integreaz datele din sistemele tranzacionale, fiind de asemenea utile i pentru
prelucrri de tip suport de decizie i prelucrri analitice care rspund cerinelor managementului
operativ.
Depozitele de date furnizeaz date integrate, folosite n special pentru sprijinirea lurii deciziilor n
cadrul unei organizaii.
Acest nivel este deseori iniial ignorat, sau uitat, fiind adugat mai trziu, atunci cnd dimensiunea
aplicaiilor suport decizie se extinde incluznd mai multe data mart-uri.
3) Nivelul 3 se numete data mart. Acest nivel este specializat pentru un anumit department, sau grup de
utilizatori ca de exemplu: vnzri/analiti marketing,analiti financiari, relaii cu clienii, etc.
Motivele pentru care aceast arhitectur nu este folosit sunt complexitatea ei, costurile, iar
implementarea ei dureaz timp ndelungat.
Concepia greit este c depozitul de date trebuie s fie construit n totalitate nainte ca realizarea data
mart-ului inial s nceap. Acest lucru nu e adevrat. Realizarea n mod incremental a depozitului de
date s-a dovedit a fi o metod folosit cu succes, putnd ndeplini cerinele n continu dezvoltare ale
clienilor.
n concluzie arhitectura pe trei niveluri, presupune
1. preluarea datelor din cadrul sistemelor de date operaionale
2. transformarea, extragerea i curarea acestor date ntr-un depozit de date, acesta fiind folosit pentru
construirea uneia sau mai multor data mart-uri, ce ndeplinesc cerinele utilizatorilor finale.
3. Orice Sursa. Datele colectate n depozitul de date Oracle pot proveni dintr-o varietate de surse, att
operaionale (interne) ct i externe.

DD- arhitectura ORACLE


Orice Date. Datorit profilului utilizatorilor depozitului de date, proiectanii de sisteme sunt pui n fata
unui set divers de cerine.
Accesul la date trebuie s fie rapid, direct si intuitiv.
Majoritatea utilizatorilor necesit interogri direte si analize n detaliu, n timp ce ali utilizatori au
cerine de analize complexe.
Sursele de date trebuie s fie capabile de manevrarea a noi formate de date: date audio, video, texte i
spaiale. Mai mult, cerine de volume de date istorice mari pot conduce la BD foarte mari (Very Large
DataBases - VLDB). Pentru a satisface aceste cerine, Oracle furnizeaz att soluii relationale (Oracle)
ct i multidimensional (Express Server).
Orice Acces. Oracle ofer o suit de instrumente ce permite tuturor utilizatorilor accesul la date,
inclusiv: interogri i raportri ad-hoc, analiza n detaliu, modelare, previziune i analize de tip "ce se
intimpl dac".

Curs 6
DD modele multidim
Depozitele de date i instrumentele OLAP sunt bazate pe modele multidimensionale de date. Aceste modele
vizualizeaz datele sub forma unui cub de date (data cub).
Cubul de date permite modelarea i vizualizarea datelor n dimensiuni multiple. El este definit prin
dimensiuni i fapte. Dimensiunile exprim perspectivele n care o anumit organizaie dorete s
pstreze nregistrarile privitoare la tranzaciile desfurate.

DD descrierea modelelor
Modelele de date multidemensionale enumerate mai sus pot fi descrise i printr-un limbaj de programare care
dispune de comenzi adecvate.
Limbajul SQL bazat pe data mining (DMQL Data Mining Query Language) conine i primitive pentru
definirea depozitelor de date i a data marts.

DD comenzi de definire
Comanda pentru definirea cubului are urmtoarea sintax:
Define cube (nume_cub) as [(list_dimensiuni)]: (list_valori)
Comanda pentru definirea dimensiunilor are urmtoarea sintax:
Define dimension (nume_dimensiune) as (atribut_sau_list_subdimensiune)

DD definire schema stea


Define cube vnzri-stea [timp, produs, furnizor, zon]: vnzri_lei = sum(vnzri_lei), cant_vndut=count(*)
Define dimension timp as (cheie_timp, zi, zi_din_spt, lun, trimestru, an)
Define dimension produs as (cheie_produs, nume_produs, categorie, tip tip_marc)
Define dimension furnizor as (cheie_furnizor, nume_furnizor, tip_furnizor)
Define dimension zon as (cheie_zon, den_zon, strada, locaie, jude, regiune, cod_potal)

Dd schema fulg de zapada


Modelul fulg de zpad este o variant a modelului stea n care o parte din tabelele dimensiune sunt
normalizate, iar datele sunt mprite n tabele suplimentare.
Rezult o schem reprezentat ntr-un grafic similar unui fulg de zpad.
Diferena major ntre modelul fulg de zpad i modelul stea este c tabelele dimensiune din modelul
fulg de zpad pot fi pstrate n forma normalizat, ceea ce determin o redundan redus. Asemenea
tabele sunt uor de ntreinut i astfel se economisete spaiu de stocare, deoarece un tabel dimensiune
mare poate deveni enorm cnd structura dimensional este inclus n coloane. Totui aceast economie
de spaiu este neglijabil n comparaie cu volumul foarte mare de date din tabelul de fapte.
Mai mult, structura fulg de zpad poate reduce eficacitatea browsing-ului cnd mai multe join-uri
trebuie executate la o interogare. De aceea, schema fulg de zpad este mai puin rspndit fa de
schema stea n proiectarea depozitelor de date

DD comenzi de definire fulg de zapada


Define cube vnzri-fulg_de_nea [timp, produs, furnizor, zon]: vnzri_lei = sum(vnzri_lei),
cant_vndut=count(*)
Define dimension timp as (cheie_timp, zi, zi_din_spt, lun, trimestru, an)
Define dimension produs as (cheie_produs, nume_produs, categorie, tip, marc(cheie_marc, tip_marc))
Define dimension furnizor as (cheie_furnizor, nume_furnizor, tip_furnizor)
Define dimension zon as (cheie_zon, den_zon, localitate (cheie_localitate, localitate, strada, jude, regiune,
cod_potal))

DD schema galaxie
Aplicaii sofisticate pot solicita tabele multiple de fapte care partajeaz tabelele dimensiune.
Acest gen de schem poate fi vzut ca o colecie de stele i, de aici, denumirea de schem galaxie sau
constelaie de fapte (fact constellation).

DD reguli pt definirea cubului de date


Un cub de date este definit prin msurile i dimensiunile pe care le conine. De exemplu, un cub pentru
analiza vnzrilor poate include ca msuri pre-produs-vndut, cost-produs-vndut, cantitate-vndut,
iar ca dimensiuni zon, produs, timp.
Din punct de vedere multidimensional n spaiul cub de date poate fi definit un set de perechi valoaredimensiune Ex (timp = trim2, zon = Bucureti, produs = Ulei RO3 Regular Activ 30 S2).
O msur ntr-un cub de date este o funcie numeric ce poate fi evaluat n fiecare punct din spaiul
cubului de date. Msurile reprezint valorile centrale care sunt analizate prin cubul de date. Valoarea
msurii este calculat pentru un punct dat prin agregarea datelor corespondente perechii respective
valoare-dimensiune, diferite pentru punctul dat.

DD masuri distributive
O funcie de agregare este distributiv dac poate fi calculat n mod distributiv.
Presupunem c datele sunt mprite n n seturi. Calcularea funciei pe fiecare partiie determin o
valoare agregat. Dac rezultatul obinut prin aplicarea funciei asupra a n valori agregate este acelai cu
cel obinut prin aplicarea funciei asupra tuturor datelor fr partiionare, funcia poate fi calculat n
manier distributiv.
De exemplu, funcia count( ) poate fi calculat pentru cubul de date printr-o prim partiionare a cubului
ntr-un set de subcuburi, calculnd count( ) pentru fiecare subcub i apoi nsumnd rezultatele obinute
pentru fiecare subcub. Din acest motiv funcia count( ) este o funcie agregat distributiv.

DD masuri algebrice
O funcie agregat este algebric, dac poate fi calculat printr-o funcie algebric cu M argumente (unde M este
un ntreg pozitiv), fiecare din ele obinut prin aplicarea unei funcii agregate distributive.
De exemplu, AVG( ) poate fi calculat prin sum( )/count( ) unde ambele funcii sum( ) i count( ) sunt
funcii agregate distributive.
n mod similar se poate demonstra c min( ), max( ) i abaterea standard sunt funcii algebrice agregate.
Msura este algebric dac este obinut prin aplicarea unei funcii algebrice agregate.

DD masuri holistice
O funcie agregat este holistic, dac aceasta nu este limitat constant pe spaiul de stocaj cerut de deschiderea
subagregrii. n acest caz nu exist o funcie algebric avnd M argumente (unde M este o constant) care
caracterizeaz calculul.
Exemple comune de funcii holistice sunt: median( ), mode ( ), rank( ).
O msur holistic este obinut prin aplicarea unei funcii agregate de tip holistic.

DD structura unui cub de date


Timp (cheie_timp, zi, zi_din_spt, trim, an)
Produs (cheie_produs, nume_produs, categorie, tip, tip_marc)
Furnizor (cheie_furnizor, nume_furnizor, tip_furnizor)
Zon (cheie_zon, den_zon, strada, locaie, jude, regiune, cod_potal)
Vnzri (cheie_timp, cheie_produs, cheie_furnizor, cheie_zon, cant_vndut, pre)

DD- interogare relationala


SELECT v.cheie_timp, v.cheie_produs, v.cheie_furnizor, v.cheie_zon,
SUM (v.cant_vndut*v.pre), SUM (v.cant_vndut)
FROM timp t, produs p, furnizor f, zon z, vnzri v
WHERE v.cheie_timp = t.cheie_timp and
v.cheie_produs = p.cheie_produs and
v.cheie_furnizor = f.cheie_furnizor and
v.cheie_zon = z.cheie_zon
GROUP BY v.cheie_timp, v.cheie_produs, v.cheie.furnizor, v.cheie_zon

DD eficienta interogarilor
Depozitele de date conin volume imense de date. Serverele OLAP cerute de interogrile DSS pot da rspunsuri n
timp de cteva secunde
De aceea este crucial pentru sistemele data warehouse s dispun de tehnici de tip cub foarte eficiente
pentru calcule, metode de acces i de procesare a interogrilor. n centru analizelor multidimensionale
de date st eficiena calculelor de agregare la intersecia multor seturi de dimensiuni
n termeni SQL aceste agregri sunt referite prin group by
O abordare a calculelor tip cub extinde SQL prin includerea operatorului compute cube. Operatorul
compute cube calculeaz agregri asupra tuturor subseturilor, pe dimensiunile specificate n operaie.

DD exemple COMPUTE CUBE


Compute the sum of vanzari, grouping by produs and oras
Compute the sum of vanzari, grouping by produs
Compute the sum of vanzari, grouping by oras

Curs 7
Data mining
Mineritul de date (data mining = DM), cunoscut si ca descoperire de cunostinte in BD (knowledge-discovery in
databases = KDD), este procesul de cautare automata de sabloane, tipare semnificative in volume foarte mari de
date.

Solutiile de DM in SBI
Solutiile de DM descopera si verifica automat sau semiautomat legaturi intre evenimente corelate.
Sunt necesare datorita volumului de date tot mai mare, complexitatii datelor si multitudinii relatiilor
dintre ele.

Provenienta datelor
-

Tehnologiile avansate din ultimele decenii au permis colectarea in baze de date puternice a unor cantitati
imense de date pe anumite perioade si din cele mai diverse domenii.
Datele provin din aplicatiile software folosite in eBusiness, precum aplicatiile financiare, ERP, CRM, fisierele
de log ale site-urilor Web.

DM extragere si transformare
-

Aceste date ne ofera posibilitatea obtinerii unor informatii si cunostinte dintr-un depozit imens de date
Data mining permit extragerea unor informatii si transforma date in cunostinte aplicand diversi algoritmi
precum arbori de decizie, grupari (clustering), asociatii, serii de timp.

Utilizarea tiparelor
Tiparele obtinute pot fi utilizate pentru:

rapoarte;
strategii de marketing;
strategii financiare;
previzionari

Rata renuntarii clientilor


Cati dintre clienti renunta la serviciile unei companii si apeleaza la serviciile unui competitor?
Analiza ratei renuntarii clientilor asista managerii de marketing sa inteleaga motivele pentru care un client opteaza
sau nu pentru un produs, sa-si imbunatateasca relatia cu clientii si sa creasca gradul de fidelitate.

Vanzarea incrucisata
-

Magazinele online, folosesc acesta tehnica pentru a-si imbunatati vanzarile.


Recomandarile pot fi rezultatul unei analize de data mining.

Detectarea fraudelor
Cat de adevarata este o reclamatie de dauna?

O analiza de data mining poate ajuta in identificarea acelor daune cu o probabilitate mare de a fi
fraude.

Managementul riscului
Trebuie acordat un imprumut unui client? .
Prin tehnici de data mining se poate calcula nivelul de risc al unui client, pe baza unui istoric al acestuia.

Segmentarea clientilor
Segmentarea clientilor ajuta :
-

sa inteleaga profilele clientilor;


sa vina in intampinarea cerintelor lor.

Reclame care au legatura cu continutul unui site


Ce banner ar trebui afisat pentru un vizitator al site-ului?
Retail-erii web si portalurile web incearca sa personalizeze continutul paginilor web in functie de profilul
vizitatorului web.
Folosind un istoric al paginilor prin care navigheaza un vizitator si un istoric al cumparaturilor, se pot
aplica tehnici de data mining pentru a selecta bannere si clipuri publicitare specifice profilului
navigatorului web.

Previzionarea vanzarilor
Cat voi vinde saptamana viitoare? Cat trebuie sa fie stocul pe luna urmatoare?
Pentru astfel de intrebari un raspuns poate fi dat utilizand tehnicile data mining de previzionare.

Metode si tehnici aplicate in cazuri concrete de business


Probleme analitice
Clasificare: Incadrarea cazurilor in clase predefinite
Ex: analiza riscului de credite (alg: arbori de decizie)
Segmentarea: Taxonomia grupurii cazurilor similare
Ex: analiza profilului clientilor (alg: clustering)
Asocierea: Calcularea avansata pt corectii
Ex: analiza cosului de cumparaturi (alg: arbori de decizie)
Prognoza seriilor de timp: previziuni
Ex: previzionarea vanzarilor (alg: serii de timp)
Predictia (analiza seriilor): prredictia unei valori pt un caz nou pe baza valoriilor cazurilor similare
Ex: predictia venitului clientilor
Analiza deviatiei: descoperirea cazurilor unui segment analizat difera de toate celelalte cazuri
Ex: detectarea fraudelor cartilor de credit

Operatii. Clasificarea
Clasificarea este una din cele mai populare operatii in data-mining si este folosita:
in probleme business precum rata renuntarii clientilor;
in managementul riscului;
in reclamele care au legatura cu continutul unui site.
Clasificarea consta in gruparea cazurilor pe baza unui atribut predictibil. Fiecare caz contine un set de
atribute, dintre care unul este atributul de clasificare (atributul predictibil). Operatia consta in gasirea unui model
care descrie atributul predictibil ca o functie de alte atribute luate ca valori de intrare. In setul de date, clasa este

atributul cu doua stari: Da si Nu. Pentru a antrena un model de clasificare, trebuie cunoscute valorile clasei fiecarui
caz din setul de date, valori pe care le gasim de obicei in datele istorice.
Exemplu: C: D(a1,a2,...an) -->V, atunci C(xi)=y, y cunoscut, xi D, unde D(a1,a2,...an) este setul de date al modelului
ce urmeaza a fi instruit.
Algoritmii de data mining care necesita un set de date pe care sa se realizeze o operatie de antrenareinstruire se numesc algoritmi dirijati.
Algoritmi de clasificare:
arborii de decizie;
retelele neuronale;
Nave Bayes.

Operatii. Clustering
Clustering-ul se mai numeste si segmentare si este utilizat in identificarea gruparilor naturale a cazurilor,
grupari bazate pe un set de atribute. Cazurile din cadrul aceluiasi grup au mai multe valori similare ale atributelor.
Algoritmul de segmentare grupeaza, de exemplu, pe baza celor doua atribute varsta si venitul setul de date
in trei segmente:
Cluster 1: cuprinde populatia tanara cu un venit scazut;
Cluster 2: cuprinde populatia de varsta medie cu venituri;
Cluster 3: cuprinde populatia de varsta inaintata cu un venit scazut.
Segmentarea este o operatie de data mining nedirijata, nu exista nici un atribut care sa conduca procesul
de instruire, toate atributele parametri de intrare sunt tratate in mod egal.
Cei mai multi algoritmi de clustering isi construiesc modelul prin iteratii care se opresc cand modelul este
acoperit in intregime, adica atunci cand limitele acestor segmente sunt stabilizate.

Operatii. Asocierea
Asocierea se mai numeste si analiza cosului de cumparaturi si este o alta operatie des utilizata in datamining.
Exemplu de problema business ce utilizeaza asocierea:
-

analiza unui tabel de tranzactii de vanzare si identificarea acelor elemente care sunt intalnite cel mai des in
acelasi cos de cumparaturi.

Utilizarea de baza a asocierii consta in identificarea seturilor comune de produse si reguli pentru vanzarea
incrucisata. In termenii asocierii, fiecare produs, sau mai general, fiecare pereche atribut-valoare este considerat
un item.
Asocierea are 2 scopuri:
sa gaseasca cele mai frecvente seturi de item-uri si regulile de asociere.
Cei mai multi algoritmi ating aceste obiective scanand setul de date initial de mai multe ori.
Pragul frecventei este definit de utilizator inainte de procesarea modelului.
De exemplu, un prag de 2% inseamna ca modelul analizeaza doar acele elemente care apar in cel putin 2% din
cosurile de cumparaturi. Un set de elemente poate arata astfel: M = {Produs = Pepsi, Produs= Cipsuri,
Produs=Popcorn}. Fiecare set de elemente are o masura ce reprezinta numarul de elemente pe care il contine
(cardinalul multimii M). Masura acestui set de elemente este 3: card(M)=3.
In afara de identificarea seturilor de elemente frecvente pe baza unui prag de frecventa, cei mai multi
algoritmi de asociere gasesc si regulile de asociere.

Exemplu: O regula de asociere are forma: (A,B) => C cu o probabilitate p, unde A, B, C sunt seturile frecvente
de elemente. In literatura de data-mining, aceasta probabilitate se numeste incredere .
Probabilitatea este o valoare pe care utilizatorul trebuie s-o specifice inainte de instruirea unui model de
asociere.
Exemplu: {Produs = Pepsi, Produs = Cipsuri} => Produs = Popcorn cu o probabilitate de 80%.
Interpretarea este urmatoarea: daca un client cumpara Pepsi si Cipsuri, atunci exista o probabilitate de 80% ca el sa
cumpere si Popcorn.

Operatii. Regresia
Regresia este similara clasificarii, diferenta majora intre cele doua modele este aceea ca in cazul regresiei
atributul predictibil este un numar continuu.
Regresia liniara si regresia logistica sunt cele mai utilizate metode de regresie. Alte tehnici de regresie sunt
arborii de regresie si retelele neuronale.
Exemplu de problema rezolvata prin acest model: calcularea vitezei vantului in functie de temperatura,
presiunea aerului si umiditate.

Operatii. Prognoza
Prognoza este o alta metoda importanta in data mining si ofera raspunsuri la intrebari precum: care va fi
nivelul actiunilor X la bursa de maine?
De obicei, ca valori de intrare sunt serii de timp, de exemplu sir de numere cu un atribut reprezentand
timpul. Aceste serii de timp contin de obicei observatii auxiliare, ordonate.
Tehnicile de prognoza lucreaza cu tendinte generale si periodicitati. Cea mai utilizata tehnica serie de timp
este ARIMA: modelul AutoRegressive Integrated Moving Average.

Analiza secventiala
Analiza secventiala este utilizatata pentru gasirea de pattern-uri intr-o serie discreta. O secventa este
alcatuita dintr-o serie de valori discrete(sau stari).
De exemplu, o secventa ADN este o serie lunga alcatuita din 4 stari diferite: A, G, C si T. Cumparaturile unui
client pot fi de asemenea modelate ca o secventa de date.
Seria de secventa
Contin stari (valori discrete)

Seria de timp
Contin observatii adiacente dependente
Contin numere continue

Datele pentru secvente si asociatii sunt similare in sensul ca fiecarui caz ii corespunde o multime de
elemente si stari.
Intr-un model de secventa, cumpararea unui calculator inainte de a cumpara microfoane este o secventa
diferita de cumpararea unor microfoane inaintea unui calculator. Intr-un algoritm de asociere, aceste secvente ar
putea fi considerate identice, ca fiind un singur set de elemente {Calculator, microfoane}.

Modele de secventa vs modele de asociere


Modele de secvente
Sunt analizate starile de tranzitie

Modele de asociere
Valoarea fiecarui element dintr-un cos de cumparaturi
= valoarea oricarui alt element si independent

Analiza secventiala
Analiza secventelor este o metoda data mining relativ noua. Devine din ce in ce mai importanta in principal
din 2 motive:
-

analiza fisierelor log a siteurilor Web


analiza ADN-ului.

In prezent exista cateva tehnici de analiza a secventelor precum lanturile Markov

Analiza deviatiei
Analiza deviatiei (=detectarea fraudei) are ca scop gasirea acelor cazuri rare care se comporta diferit de
majoritate.
Ex utilizare: detectarea fraudelor cartilor de credit, detectarea spargerii retelelor informatice, analiza erorilor
in productie etc
Aceasta operatie este inca in stadiu de cercetare, deoarece nu exista in tehnici standard pentru analiza
deviatiei. De obicei pentru acest model analistii dezvolta variante modificate ale arborilor de decizie sau ale
algoritmilor de retele neuronale. Pentru a genera reguli semnificative, trebuie sa stabileasca multimi de cazuri
anormale in cadrul multimilor care sunt antrenate.

Curs 8
1. Cerintele functionale ale sist OLAP

Analiza dinamic a datelor;


Acces rapid la date;
Surse de date multiple;
Sincronizarea surselor de date;
Analiza istoric;
Grad de generalizare ridicat

Erik Thomsen:
Cerinele logice;
o Structurare complet a dimensiunilor prin ierarhizare
o Realizarea eficient a calculelor i prelucrarilor
o Flexibilitate
o Independena reprezentrilor fa de structura modelului
Cerinele fizice
o Acces rapid i direct
o Suport multiutilizator

E.F. Codd 18 reguli:


A. Caracteristici de baz
Regula
1
2
3
4
5

viziune conceptual multidimensional bazata pe viziunea sau modelul existent in organizatie


manipularea intuitiv si flexibila a datelor (Ex: navigare pe nivelurile ierarhiilor, analize pe sectiuni de
date)
accesibilitate - s ofere acces la o singur viziune logic a datelor din organizaie
varietate surse date stocate in MOLAP(multidim), ROLAP(relationale), HOLAP (hibride)
modele de analiza OLAP - s suporte patru modele de analiz: explicativ, direct, contemplativ i
formativ (s permit cel puin realizarea rapoartelor parametrizate, analize de tip ce se ntmpl
dac..?, operaii de tip drill-down/roll-up i slice/dice)

6
7

arhitectura client/server accesul utiliz prin client, prelurare multidim prin server
transparenta acces transparent la surse de date eterogene, analiza datelor sa poata fi realizata cu
ajutorul instrumentelor client: grafice, calcul tabelar
suport multiutiliz - acces concurent i distribuit la sursele de date, fiind asigurate ns integritatea i
securitatea acestora.

B. Caracteristici speciale
Regula
9
10
11
12

denormalizarea datelor - prelucrarea datelor ntr-un mediu OLAP nu trebuie s afecteze sursele externe
din care provin acestea.
stocarea rezultatelor generate de sistemul OLAP - datele trebuie stocate i prelucrate separat de
sursele relaionale datorit diferenelor existente ntre modele i a cerinelor de procesare
manipularea valorilor lips - nu pot fi tratate n acelai mod ca orice alt valoare
modul de tratare a valorilor lips - tratate individual, deoarece ele afecteaz calculele n diferite moduri

C. Modul de prezentare a datelor


Regula
13
14
15

flexibilitatea rapoartelor mod accesibil de prezentare a datelor pt utiliz a.i sa poata aranja cu usurinta
datele pe diverse dim pe axe
performana raportrii - dimensiunea sau modul de organizare a datelor nu ar trebui s influeneze
performana n raportare.
ajustarea automat a nivelului fizic modificare automata a schema fizicii a BD n funcie de tipul
modelului logic i de volumul datelor.

D. Controlul dimensiunilor
Regula
16

17
18

dimensionalitate generic - dimensiunile proiectate trebuie s fie echivalente structural i operaional,


adic s permit ierarhii multiple i toate tipurile de operaii multidimensionale i n acelai timp s
poate fi actualizate.
dimensiuni i niveluri de agregare nelimitate numr maxim de 15-20 de dimensiuni
operaii ntre dimensiuni nerestrictive - operaii ntre diverse dimensiuni, fr restricii

2. Arhitectura sist OLAP


Modalitatea de organizare i stocare a datelor:
-

Fiiere client
BDR
BD multidimensionale

Procesarea datelor:
-

Nucleul SQL
Motorul client multidimensional
Motorul server multidimensional

Arhitecturile cele mai utilizate dintre aceste tipuri de combinaii sunt urmtoarele:
-

OLAP relaional (ROLAP) din care OLAP hibrid (Hybrid OLAP sau HOLAP)
OLAP multidimensional (MOLAP) din care OLAP client (Desktop OLAP sau DOLAP)
OLAP client (DOLAP)

3. Modelul de date multidim


Dimensiunile - un atribut structural al unui cub ce const dintr-o list de membrii, pe care utilizatorii i
considera ca fiind de acelai tip (de exemplu toate lunile, trimestrele, anii formeaz dimensiunea Timp).
Dimensiunile reprezint un mod foarte concis, intuitiv de organizare i selectare a datelor pentru
explorare i analiz.

Ierarhiile - membrii dimensiunilor pot fi organizai pe baza relaiilor de tip printe-copil, unde un
membru printe reprezint agregarea membrilor copil. Rezultatul este o ierarhie i relaiile printecopil sunt relaii ierarhice
Nivelurile - reprezint poziii n cadrul ierarhiilor. Relaiile ntre diferite nivele sunt relaii de tipul
printe-copil.
Atribute dimensiunile conin atribute care reprezint calificative specifice.
Tabelele de fapte sunt tabelele centrale. Acestea conin atribute de tip msuri (metrici) i chei
externe ctre tabelele dimensiuni. Faptele sunt de obicei date numerice care pot fi nsumate i
analizate pe diferite nivele.
Metricile (msurile) corespund atributelor (faptelor) din tabelele de fapte i sunt de regul de natur
numeric (de exemplu: volumul vnzrilor, costurile, stocurile disponibile).
Metadatele - date care descriu coninutul depozitului i furnizeaz trimiteri directe la date. Tot la nivelul
metadatelor se definesc i diverse vederi (views) asociate unor categorii specifice de utilizatori.
Schema modelului este o colecie de obiecte, incluznd tabelele, viziunile, indeci i sinonime.
Schema de tip Stea - este cel mai simplu i mai frecvent utilizat model. Obiectele sale sunt dispuse n
form de stea, n centru aflndu-se una sau mai multe tabele de fapte de care sunt legate dimensiunile.
Suport 2 tipuri de interogri: consultare i jonciuni multiple
Schema de tip Fulg de Nea - este o variant a modelului stea n care o parte din tabelele dimensiune sunt
normalizate (=> redundanta scazuta), iar datele sunt distribuite n tabele suplimentare. Rezult o schem
reprezentat ntr-un grafic similar unui fulg de zpad.
Cuburi de date - spaiu cartezian definit pe toate dimensiunile depozitului de date. Acesta poate fi numit
cub de date, fiind un spaiu de date logic i nu unul fizic. Seciunile bidimensionale sunt numite tablouri.
Axele cubului sunt reprezentate de dimensiuni, la intersecia acestora fiind variabilele sau msurile.
Consiliul OLAP definete cubul ndimensional ca fiind un grup de celule de date aranjate dup dimensiunile
datelor. O matrice tridimensional poate fi vizualizat ca un cub cu fiecare dimensiune formnd o fa a
cubului

4. Operatii realizate asupra modelului multidim


1. Navigarea pe nivelele ierarhice (Drill Down i Roll Up) reprezint operaii de navigare n cadrul ierarhiilor
dimensiunilor, prin agregare pe nivelele superioare sau detaliere pe nivelele inferioare. Roll-Up si drill-down
sunt operaii de schimbare a vederii de-a lungul nivelelor unei ierarhii.
2. Rotaii (=data-slicing) reprezint operaiile cele mai uzuale n structurile de date multidimensionale i
ofer utilizatorului posibilitatea de a alege perspectiva asupra datelor pe care o va utiliza. Fiecare rotaie
pune n eviden o nou perspectiv, aducnd n prim plan o structur bidimensional, o faet (slice).
3. Seciuni - reprezint viziuni sau imagini (views) specifice diverselor categorii de utilizatori, prin operaii de
secionare prin care se obin "felii" bidimensionale (slices). Tehnica aceasta const n limitarea unor
atribute la anumite valori i obinerea unui cub de date redus (procedeu numit data dicing)

5. Modele de date multidim utilizate in sis OLAP


Dou direcii importante au clasificat diversitatea de modele:
-

dezvoltarea unor extensii ale modelului relaional i utilizarea acestora n cadrul sistemelor OLAP
Ex extensii: schema tip stea, modelul tip fulg de nea, schem galaxie, schem constelaie.
dezvoltarea modelelor bazate pe cuburi n-dimensionale.
Ex: tehnica ME/R pentru proiectarea schemei multidimensionale conine o entitate denumit nivel al
dimensiunii, o relaie tip 1:n denumit fact relationship i o relaie binar denumit relaie de clasificare a
dou niveluri ierarhice.
Din punct de vedere al nivelului de realizare, modelele bazate pe cub sunt:

modele conceptuale ofer concepte apropiate de modul n care utilizatorii percep datele i sunt
independente de implementare.
modele logice ofer concepte ce pot fi nelese de utilizatorii finali dar depind de tipul de SGBD utilizat.

modele fizice ofer concepte legate de modul n care sunt stocate fizic datele (descrierea datelor pe suport
fizic), depinznd de SGBD-ul utilizat.

6. Locul tehnologiei OLAP in arhitectura depozitului de date


Sunt patru niveluri n cadrul mediului arhitectural:
1.

Operaional - reprezentat de sursele, datele care populeaz depozitul de date. Datele operaionale sunt
supuse tranzaciilor, volatile, stocate la nivel de tranzacie n form normalizat sau proprie n sistem OLTP.
2. Atomic sau al depozitului de date - conine date cu caracter istoric ale nivelului tranzacional, prelucrate i
transformate ntr-un format multidimensional mult mai potrivit pentru suportul de decizii.
3. Departamental - data mart sau OLAP - Un data mart OLAP va fi limitat la submulimea mrimilor statistice
disponibile i dimensiunilor necesare pentru a studia problemele specifice afacerilor.
4. Individual - Instrumentele de vizualizare a cererilor, precum grafice, prezentri, rapoarte dinamice,
browserele Web, toate aparin acestui nivel. Aplicaiile clienilor, care conin informaii despre bugete,
prognoze, recomandri cu privire la alocarea resurselor i multe altele se afl n data mart la acest nivel al
arhitecturii.

Curs 9
DD instrumente software
Actuate Software(Report Server, Reporting System, Web Agent)
Hewlett-Packard(Intelligent Warehouse)
Hyperion(OLAP, Spider-Man)
IBM(Data Propagator, DB2 Database Server, Enterprise Copy Manager, Data Hub for OS/2, Data Hub for Unix,
FlowMark, DataGuide, Applications System, Visualizer family, Intelligent Decision Server, Query Managemnet
Facility, Intelligent Miner);
Informatica(PowerMart)
Information Advantage(DecisionSuite, WebOLAP)
Microsoft(Microsoft SQL Server)
NCR(Teradata)
Oracle(Oracle8, Discoverer/2000, Oracle Express server, Warehouse Builder)
Prism Solutions(Prism Warehouse Manager, Prism Change Manager, Prism Directory Manager)
SAS Institute(SAS Data Warehouse, Warehouse Administrator, SAS System, SAS/MDDB)
Siemens-Pyramid(Smart Warehouse)
Smart Corporation(Smart DB Workbench)

Categorii si tehnologii si instrumente


Tehnologiile si instrumentele din zona data warehouse pot fi mprite n 2 mari categorii:
Hardware - se refer la serverele data warehouse i la SO pe care ruleaz;
Software- se refer att la principalele instrumente care sunt folosite pentru a extrage, cura, integra,
popula, stoca, accesa, distribui i prezenta datele din depozit, ct i la metadatele ce documenteaz
depozitul de date.

SIBI categorii de hardware


n cazul depozitelor de date se recomand folosirea a 2 categorii de sisteme hardware:
sisteme pentru multiprocesarea simetric (Symmetric Multiprocessing - SMP), caracterizate prin
conectarea mai multor procesoare pe acelai nod i prin scalabilitate
Arhitectura SMP conine mai multe procesoare care mpart o memorie comun, precum i aceleai
intrri i ieiri. Performanele acestei arhitecturi depind direct de performana magistralei care
conecteaz componentele.
sisteme pentru procesarea paralel masiv (Massively Parallel Processing - MPP), ce conin mai multe
noduri, pe care se pot dispune unul sau mai multe procesoare.
Arhitectura MPP permite folosirea mai multor procesoare independente conectate n reea, fiecare
procesor are propria sa copie a sistemului operaional i poate funciona ca un procesor independent.

SIBI-criterii pt selectia hardware


Scalabilitatea. Soluia data warehouse este scalabil n termeni de spaiu i putere de procesare. Acest
criteriu este foarte important dac depozitul de date este proiectat s aib o rat de cretere mare.
Stabilitatea financiar a furnizorului. Furnizorul trebuie s dovedeasc faptul c este un juctor viabil n
segmentul hardware respectiv, iar performanele sale financiare indic stabilitate.
Raportul pre/performan. Produsele trebuie comparate ntre ele prin prisma raportului
pret/performan. Se va selecta echipamentul la care acest raport este optim.
Termenul de livrare. Trebuie s se analizeze dac furnizorul poate oferi echipamentele n timpul
necesar, pentru ca proiectul data warehouse s nu fie ntrziat.
Asisten dupa livrare. Furnizorul trebuie s fie capabil s ofere asisten dupa livrarea echipamentelor ;
n acest caz se va analiza timpul de raspuns la problemele aprute i modul n care ele vor fi rezolvate.

SIBI-platforme hardware
Digital. AlphaServer i Digital Unix;
-

HP. HP9000 Enterprise Parallel Server;


IBM. RS6000, AS/400 ;
Microsoft. Windows NT, 2000, XP;
Sequent. Sequent NUMA-Q i sistemul de operare DYNIX.

DD instrumente software
Instrumente de extragere i transformare a datelor;
Instrumente (tehnologii) de stocare a datelor n depozit;
Instrumente de accesare i utilizare a depozitului de date.

DD-instrumente de extragere
Exist 2 metode de baz pentru extragerea datelor din cadrul sistemelor operaionale:
1. extragerea n mas- depozitul de date este mprosptat periodic prin extragerea datelor din sistemele surs
2. replicarea. Instrumentele de replicare a datelor pot asigura migrarea datelor ntre sisteme, respectiv dintro BD n alta. Aceste instrumente constituie o alternativ bun pentru cazurile n care nu avem acces la
codurile surs.
Pentru a realiza o replicare eficient a datelor trebuie asigurate urmtoarele conditii :
o s existe o conectare prin retea i o interfa corespunztoare de acces la BD
o s fie asigurat accesul la dicionarul BD pentru a identifica datele care urmeaz s fie replicate
o structura datelor surs trebuie s fie compatibil cu structura datelor destinaie pentru a evita
utilizarea unor transformari complexe ale datelor replicate, transformri care vor ngreuna controlul
replicrii datelor.

n categoria tehnologiilor pentru replicarea datelor intr o varietate de produse care asigur :

transferul fisierelor de date;


gestiunea copiilor de date ;
mecanisme de sincronizare a copiilor de date
replicarea BD

Exemple de instrumente de extragere :


Passport (Apertus Carleton)
ETI Extract (Evolutionary Technologies)
InfoPump (Platinum).

DD-instrumente de transformare
Instrumentele de transformare au rolul de a modifica datele extrase ntr-un anumit format necesar pentru
a putea fi stocate n cadrul depozitului de date.
Facilitile oferite de ctre aceste instrumente sunt:
-

partiionarea i consolidarea cmpurilor


standardizarea(se refer la standardele i conveniile n ceea ce privete abrevierile, tipurile de date, etc.),
deduplicarea(definirea de reguli pentru a identifica date duplicate).

DD- instrumente pentru asigurarea calitatii datelor


Data Quality Workbench (DataFlux);
-

Content Tracker (Pine Cone Systems);


Quality Manager (Prism);
Integrity Data Reengineering (Vality Technology).

DD-instrumente pentru metadate


Exemple de instrumente pentru depozite de metadate:
-

Warehouse Control Center (Apertus Carleton);


PowerMart Repository (Informatica);
Warehouse Control Center (Intellidex);
Prism Warehouse Directory (Prism).

Instrumente OLAP
Cele mai cunoscute sunt instrumentele OLAP (On-Line Analytical Processing) care permit utilizatorilor s
realizeze interogri ad-hoc asupra depozitului de date.
Suita instrumentelor OLAP se mparte deocamdat n 2 categorii principale :
MOLAP - Instrumentele MOLAP ofer faciliti analitice pentru BD multidimensionale i au un timp de
raspuns foarte mic, datorit structurii eficiente de stocare a datelor. Aceste instrumente ofer i
functionaliti privind realizarea de previziuni i diverse calcule statistice.
ROLAP. Instrumentele ROLAP ofera faciliti analitice pentru bazele de date relaionale.
Exemple de instrumente OLAP : Essbase OLAP (Arbor Software); Powerplay (Cognos); R/OLAP/XL (Intranet
Business Systems).

Instumente pentru realizarea rapoartelor


Exist la ora actual 2 categorii principale de instrumente pentru producerea rapoartelor:

Generatoare de rapoarte; Exemple de instrumente pentru realizarea rapoartelor: IQ/SmartServer (IQ


Software);
Generatoarele de rapoarte permit utilizatorilor s creeze rapoarte parametrizate care pot fi lansate n
execuie ori de cte ori este nevoie. Aceste generatoare necesit un efort inial de programare pentru
definirea modelului de raport, iar o data ce modelul corect a fost definit, generarea raportului
presupune doar apelarea.
Crystal Reports (Seagate Software)
Serverele de rapoarte sunt similare cu generatoarele de rapoarte, dar au capabiliti suplimentare care
permit utilizatorilor s gestioneze momentele de producere a rapoartelor. Programnd generarea
rapoartelor pentru perioade de timp n care personalul nu lucreaza, depozitul de date va putea fi astfel
folosit pentru realizarea interogarilor ad-hoc. Unele servere de rapoarte pot avea si functionaliti
legate de distribuirea rapoartelor.

Instrumente data mining


Instrumentele data mining au rolul de a cuta modele n depozitul de date, pentru a evidenia cunotinte
noi despre organizatie i mediul n care ii desfaoara activitatea.

Instumente pentru realizarea rapoartelor


Modulul data mining lucreaza cel mai bine cu date la nivel elementar (date tranzactionale), ceea ce implic
necesitatea unor spaii de memorare voluminoase. O condiie necesar pentru ca operaiunea de data mining s
dea rezultate corecte este aceea ca datele care sunt analizate s fie corecte. Un set de date care conin erori sau
inconsistene va genera abateri de la situatia real care influeneaz rezultatele analizei.

Exemple de produse data mining


KnowledgeSTUDIO (ANGOSS);
-

Data Surveyor (Data Distilleries);


Intelligent Miner (IBM);
Clementine (Integral Solutions);
PATTERN (Magnify);
Decision Series (NeoVista Software);
Syllogic Data Mining Tool (Syllo

Sisteme de alertare
Aceste sisteme au rolul de a atrage atenia utilizatorului asupra datelor care sunt definite ca exceptii.
O organizatie, de regula, implementeaza 3 tipuri de alerte:
Alerte operaionale din sisteme operaionale individuale - au fost implementate n aplicaiile OLTP i
sunt, de regul, folosite pentru a evidenia exceptiile legate de sistemele operaionale
Alerte operaionale din magazinele de date operaionale (ODS) - necesita date operaionale integrate
i, de aceea, sunt posibil de implementat doar n sistemele ODS
Alerte decizionale din depozitul de date - necesit comparatii ntre valori de date istorice. De exemplu,
un manager de vnzari poate dori sa fie atenionat atunci cnd vnzrile pentru luna curent sunt mai
mici cu mai mult de 12% fa de vnzrile din aceeai lun a anului trecut.
Exemple de produse care pot fi folosite ca sisteme de alertare:
o
o

Dynamic Query Messenger (Compulogic);


Activator Module, Contet Tracker (Pine Cone Systems).

Instrumente de modelare
Aceste instrumente permit utilizatorilor s dezvolte un model att pentru BD surs, ct i pentru BD
destinaie. Este de preferat ca ele s poata genera i structurile de date pe baza specificaiilor din model, precum i

modelul datelor pe baza structurilor deja existente n bazele de date. Instrumentele de modelare a datelor ajut
foarte mult auditorii sistemelor pentru a-i forma o viziune clar asupra datelor i a legaturilor dintre ele.
Exemple de instrumente pentru modelarea datelor:
o
o
o

Terrain (Cayenne Software);


Syntagma Designer (Relational Matters);
PowerDesigner WarehouseArchitect (Sybase).

Instrumente pentru gestiune


Aceste instrumente au rolul de a sprijini administratorii depozitului de date in activitile zilnice de
administrare a depozitului de date. Instrumentele de acest tip pot automatiza diverse aspecte ale administrrii
depozitului; de exemplu, unele se axeaz pe procesul de ncrcare a datelor, altele pe identificarea celor mai
frecvente interogri, altele pe identificarea datelor care nu sunt folosite etc.
Exemple:
o
o

Usage Traker, Refreshment Tracker (Pine Cone Systems);


Enterprise Control and Coordination (Red Brick Systems).

Curs 10
SOLUII DE DEZVOLTARE A SISTEMELOR INFORMATICE PENTRU INTELIGENA
AFACERII
Metodologii si ciclul de dezvoltare
Constrngerile mediului decizional actual:
-

Piata
Date
Timp
Acces
Informatii si cunostinte
Organizatia

CARACTERISICI ALE SISTEMELOR INFORMATICE PENTRU INTELIGENA AFACERII


Caracteristici funcionale:

Conin un nivel de date distinct;


Ofer faciliti de agregare a datelor;
Permit raportarea de excepie;
Permit analiza tendinelor;
Ofer o interfa prietenoas cu utilizatorii;
Conin instrumente de analiz dinamic a informaiilor;
Ofer faciliti de modelare;
Ofer faciliti de comunicare i legturi automate la surse de date externe;

Caracteristici tehnice:

Permit accesul la informaii globale ale organizaiei;


Ofer acces la datele curente, istorice i previzionate;
Analiza datelor se realizeaz direct, online, bazndu-se pe analiza multidimensional a datelor;
Prezint sintetic indicatorii de performan cheie ai organizaiei (KPI);

Factorii de risc
1.
2.
3.
4.

Tehnologie
Complexitate
Integrare
Investitie

Fazele de dezoltare
1.
2.
3.
4.
5.
6.

Studiul cerintelor de afaceri


Elaborarea prototipului
Evaluarea prototipului
Realizarea functionalitatilor complete
Implementarea in organizatie
Evaluare

Etapa
Studiul de
fezabilitate
Planificare
Analiza

Proiectare

Proiectare

Implementare

Evaluarea oportunitatilor de realizare


Evaluarea infrastructurii ntreprinderii
Planificarea proiectului
Definirea cerintelor
Analiza datelor
Realizarea prototipului
Analiza metadatelor
Proiectarea datelor
Proiectarea procesului ETL
Proiectarea depozitului metadatelor
Realizarea procesului ETL
Realizarea aplicatiei
Extragerea cunostintelor din date
Construirea depozitului metadatelor
Implementarea sist
Evaluarea sist

Criterii de evaluare:
1.
2.
3.
4.
5.
6.

Performanta
Interfata friendly
Suport decizional strategic
Integrare
Mentenanta
Flexibilitate si scalabilitate

Curs 11
Solutii practice
SOLUII DE TEHNOLOGII I INSTRUMENTE ORACLE UTILIZATE N REALIZAREA
SISTEMELOR INFORMATICE DE BI
1) Componente pentru stocarea i pregtirea datelor n vederea analizei:
OBI Warehouse Builder i ODI pentru proiectarea, implementarea i mentenana depozitelor de date;

OBI Discoverer Administrator pentru realizarea i administrarea unei viziuni orientate pe business a
datelor relaionale;
OBI Administrator pentru structurarea datelor n vederea analizei avansate.
2) Componente pentru analiza datelor i realizarea de rapoarte:
OBI Discoverer Desktop i OBI Answers pentru realizarea de rapoarte dinamice (ad-hoc);
Oracle Reports pentru realizarea de rapoarte statice la nivelul ntregii companii;
Oracle Data Miner pentru realizarea procesului de data mining;
3) Componente pentru publicarea i interaciunea cu rapoartele create:
OBI Discoverer Portlet Provider pentru publicarea rapoartelor n OracleAS Portal
OBI Dashboard pentru publicarea rapoartelor ad-hoc ntr-un tablou de bord;
Oracle Reports pentru distribuirea i publicarea rapoartelor n mediul organizaiei, pe web prin
integrarea cu E-Business Suite sau OracleAS Portal;

Вам также может понравиться