Академический Документы
Профессиональный Документы
Культура Документы
Sisteme informatice BI
Analiza tipurilor de SI destinate asistarii deciziilor
Caracteristica
Nivel de decizie vizat
Beneficiari
Tipuri de info
furnizate
MIS
Operational, tactic
Manageri la nivel
operational
Info si indicatori ai
activitatii curente
Ofera previziuni si
predictii ale evolutiei
indicatorilor de
activitate
Tipuri de rapoarte
Rar, la cerere
Detaliate
DSS
Tactic si strategic
Manageri la nivel
tactic
Info si indicatori ai
activitatii curente, la
nivel departamental
sau organizational
Uneori, in cazul ind de
nivel central si
organizational
SBI
strategic
Manageri executivi, la
nivel strategic
Info si indicatori
strategici, indicatorii
cheie de performanta
detaliate, sintetice,
dinamica, cu unele
facilitati de analiza
multidim
Detaliate/agregate
sintetice, flexibile si
dinamice, cu facilitati
de analiza multidim
Ogligatoriu, pt ind de
performanta
De sinteza
BI Domenii aparute
Solutii actuale de BI
1.
2.
3.
4.
5.
Curs 2
SIBI Solutia informatica pt managementul strategic
1992 un sistem ce integreaza informatii din surse interne si externe facand posibile monitorizarea si
prezentarea ind cheie catre managerii executivi prin intermediul unor formate si rapoarte flexibile si adaptabile
cerintelor acestora
1995 un SI proiectat pt a satisface cerintele de afaceri ale managerilor executivi. Acesta furnizeaza acces
rapid si direct la rapoarte si informatii temporale. Interfata sist este prietenoasa, oferind reprezentari grafice,
raportare de exceptie si facilitati de navigare pe niveluri ierarhice cu functii de drill-down. De asemenea ofera acces
la servicii online si posta electronica
BI se refera la SI de identificare, extragere si analizare a datelor disponibile intr-o companie, sist ale caror
scop este de a oferi un suport real pt luarea de decizii de business
SI de tip BI = instrumente destinate managerilor solutii care ofera managementului unei companii
informatiile necesare pt imbunatatirea performantei generale a acesteia
SI de BI = SI complex ce dispune de o interfata prietenoasa si ofera acces rapid si direct la info corecte si
relevante privind domeniile si activitatile principale ale afacerilor si permite analiza ind cheie de performanta,
ajutand la indeplinirea functiilor manageriale si la atingerea obiectivelor strategice ale organizatiei.
SI de BI = sist proiectat pt a satisface cerintele senior managerilor, pt a concentra, organiza si filtra datele
interne si externe ale organizatiei a.i acestea sa poata fi mai bine utilizate
BI operational
Sustine activitatile zilnice prin functionalitati specifice: informatii actualizate in timp real, acces securizat
la date din orice locatie, analize usor de realizat de catre orice utiliz, fara sprijin specializat etc
Migrare spre management bazat pe obiective clare, masurabile, asumate de catre companie si angajati
la nivel executional. Angajatul trebuie sa poata lua decizii pt atingerea propriului obiectiv.
Intervine in aceste companii, oferind acces la info relevanta pt fiecare nivel si viteza decizionala
Presupune in plus depistarea trendurilor, problemelor si altor factori imediat dupa ce apar,
permitandu-le angajatilor sa le rezolve imediat si nu la cateva zile, cand acestea pot lua amploare si pot
avea un impact puternic nefavorabil asupra companiei
Implementarea acestui sist pp o cultura organizationala in care rolul angajatului nu mai este pur
executional, acesta devine decident
Democratizarea BI
= disponibilitatea info in timp real si din orice locatie, acces la sistem pt mai multe categorii de utiliz si relevanta
scazuta
Sist BI clasice se bazeaza in principal pe informatie obtinuta in intervale de timp mai mari. Acest tip de info
este foarte important pt a observa trenduri, probleme, zone de business care necesita imbunatatiri.
Curs 3
BI caracteristici generale
Rezultatul final generat de instrumentele de BI este in cele mai multe cazuri foarte usor de interpretat si
gestionat dpdv al informatiilor finale pt factorii de decizie si nivelurile de organizare
O solutie de BI trebuie sa fie aliniata la procesele de business a.i sa fie utilizata in mod eficient
Beneficiile oferite de SI de BI
Prin accesul rapid la info critice faciliteaza atingerea obiectivelor organizationale
Pe baza analizei ind cheie prezentati creste calitatea deciziilor luate si astfel se ofera suportul pt un
avantaj competitional
Min timpul destinat procesului decizional si ofera un control mai bun in organizatie
Prin analizele dinamice a info critice permite anticiparea prob si identificarea rapida a oportunitatilor
de afaceri
Pe baza posibilitatilor de previziune permite identificarea unor tendinte ale procesului de afaceri si
planificarea unor activitati si stabilirea unor obiective la nivel strategic
Curs 4
Arhitectura SIBI arhitectura sist suport de decizie
4 nivele distincte:
1. Gestiunea datelor nivel de baza, a surselor de date, a SGBD si a dictionarelor metadatelor
2. Gestiunea modelelor nivelul unde se prelucreaza, se transforma si se extrag informatiile si include modele
de analiza si previziune a datelor destinate satisfacerii cerintelor manageriale de nivel inalt
3. Interfata nivel superior prin care utiliz poate comunica cu sist si il poate comanda
4. Telecomunicatiile se refera la retele de calculatoare, dispozitive de comunicatii, modul cum e organizat
hardware-ul in retea, suportul pt software-ul distribuit si cum sunt integrate si conectate fizic componentele
sist
Arhitectura SIE poate fi privita si dpdv al nivelurilor de realizare, de jos in sus, piramidal, pe 3 niveluri:
1. Nivelul datelor (bottom-tier) nivelul surselor de date pt EIS in care are loc integrarea tuturor surselor
relevante de date din interiorul organizatiei din modulele operationale si exteriorul organizatiei, procese de
extragere, transformare si incarcare a datelor si depozitele de date din care se extrag date pt analiza
2. Nivelul de analiza(middle-tier) nivelul de analiza a datelor cu ajutorul tehnologiilor OLAP si data mining si
prin extragerea datelor din depozite prin interogari SQL
3. Nivelul de prezentare(top-tier) nivelul de prezentare si utilizare a datelor prin instrumente grafice,
rapoarte, interfete web etc
Depozitele de date = modalitate de integrare si organizare a datelor din surse omogene si neomogene,
provenite din sist tranzactionale, dar si din fisiere externe, integrate dupa anumite criterii, supuse unui
proces de extragere, transformare si incarcare, stocate agregat pe nivele ierarhice, destinate prelucrarilor
si analizelor dinamice, fiind solutia optima de organizare a datelor pt SI de decizie si executive
Def:
Stocare centralizata a datelor detaliate, provenite din toate sursele relevante din cadrul unei organizatii
si permite interogarea dinamica si analiza detaliata a tuturor info
Colectie de date orientate pe subiecte, integrate, istorice si nevolatile destinata sprijinirii procesului de
luare a deciziilor manageriale
Analiza comparativa a performantelor obtinute in urma implementarii diferitelor tipuri de depozite de date
a) In functie de aria de cuprindere:
Depozitul central al organizatiei (Enterprise Warehouse)
Centru de date(Datamart DM)
Depozitul virtual (Virtual warehouse)
b) In functie de aria de cuprindere a proceselor decizionale
Depozitul de date de tip organizational sau galactic (GDW)
Depozitul de date orientat pe procese de afaceri (BPDW)
Depozitul de date departamental (DDW)
Centru de date de tip proces de afaceri (BPDM)
Centru de date departamental (DDM)
Tipuri de depozite de date:
1) Depozit de date organizational
2) Centru de date
Modalitati de implementare:
-
Realizare virtuala
Nivelul II sau nivelul departamental compus din dimensiuni i fapte cu caracter departamental, valabile
pentru anumite activiti, de regul grupate pe departamente sau centre, este un nivel al data mart-urilor, de
exemplu aici s-ar regsi dimensiunea <cont contabil> sau <client>/<furnizor>. Nivelul datelor este semiagregat, cu ierarhii specializate pe care s se poat naviga.
Nivelul III sau nivelul strategic compus din dimensiuni i fapte derivate din cele de baz i din cele
departamentale, avnd i elemente proprii, valabile doar pentru analiza strategic, de exemplu dimensiunea
<intercompanie>. Nivelul datelor este agregat, sintetic, ierarhiile fiind compuse i derivate din cele de baz i
cele departamentale.
Curs 5
DD-delimitare
Ralph Kimball [2], depozitul de date ofera acces la datele organizaionale; datele coninute sunt consistente; datele
pot fi separate i combinate n funcie de fiecare dimensiune sau aspect al afacerii. Depozitul de date include, de
asemenea, un set de instrumente pentru interogare, analiz i prezentare a informaiilor; reprezint locul n care
sunt publicate datele folosite; calitatea datelor coninute n depozit reprezinta o premis pentru reingineria
afacerii".
Barry Devlin [3], un depozit de date nseamn o stocare a datelor, unitar, complet i consistent, obinut dintro varietate de surse, disponibil utilizatorilor finali ntr-un mod uor perceptibil i utilizabil n contextul afacerii.
Sam Anahory [4] subliniaz finalitatea depozitelor de date preciznd c un depozit de date include datele i
procesele manageriale care fac informaiile disponibile, permind managerilor s ia decizii corect fundamentate
Corey si Abbey (Oracle) definesc depozitul de date ca fiind: o colectie de informatii strategice derivate direct din
sistemele OLTP si alte surse externe. Scopul specific al depozitului de date este de a oferi suport de decizie si nu
suport pentru activitatea operativ.
Firma IBM folosete pentru depozite de date termenul Information Warehouse. Dup unii autori, viziunea IBM se
refer mai degrab la conectivitatea global a diverselor surse de date, fiind un fel de middleware generalizat
bazat pe arhitectura proprie DRDA Distributed Relatinal Database Architecture.
De altfel, n literatura de specialitate se folosesc simultan cei doi termeni pentru depozite de date: Data Warehouse
si Information Warehouse.
Dupa Efraim Turban [5], scopul unui data (sau information) warehouse este de a realiza un fond de date (data
repository) care s fac accesibile datele operaionale ntr-o form acceptabil pentru asistarea deciziilor i pentru
alte aplicaii".
DD-scopurile
depozitul de date asigur accesul la datele organizaiei. Accesul trebuie s fie imediat, la cerere, i s fie
performant. Nu este acceptabil ca acest acces s fie realizat prin intermediul altei persoane sau s fie
prea lent.
accesul presupune existena unor utilitare care s fie foarte uor de folosit. Managerii vor trebui s
obin diferite rapoarte printr-o simpl apsare de buton.
datele dintr-un depozit de date trebuie s fie consistente. Consistena nseamna c atunci cnd dou
persoane solicit date despre vnzrile dintr-o anumit regiune s primeasc aceleai date, chiar dac
ele au fost cerute la momente de timp diferite. Dac datele nu au fost complet ncrcate atunci
utilizatorul va fi avertizat cu privire la acest lucru i este sftuit s atepte pn ce vor fi complet
ncrcate.
datele ntr-un depozit de date pot fi separate i combinate cerina clasic de mprire i grupare a
datelor.
depozitele de date nu reprezint doar datele ci i un set de utilitare pentru a interoga, analiza,
prezenta informaiile.
depozitele de date sunt locurile unde publicm datele folosite. Datele nu sunt doar acumulate la un loc
i pstrate, ci sunt asamblate dintr-o varietate de surse, sunt corectate de erori, li se asigur calitatea
necesar i abia apoi devin utilizabile.
calitatea datelor din depozitele de date este un factor determinant pentru procesul de reculegere a
datelor. Se ntlneste frecvent situaia n care datele sunt de bun calitate, dar nu sunt colectate n
ntregime sau sunt opionale.
DD-aria de cuprindere
o
o
o
o
Un depozit de ntreprindere colecteaz toate informaiile despre subiecte care privesc ntreaga
organizaie[6].
furnizeaz un volum extins de date;
conine date detaliate, dar i date agregate, iar ca ordin de mrime pornete de la civa gigabytes pn la
sute de gigabytes, terabytes sau mai mult.
poate fi implementat pe tradiionalele mainframes, pe superservere UNIX sau pe platforme cu arhitecturi
paralele. Acesta necesit cheltuieli mai mari pentru modelare i ani de zile pentru proiectare i realizare.
DD-aria de cuprindere
o
o
o
o
o
Un data mart conine un subset al volumului de date din organizaie, specific unui grup de utilizatori[7].
Domeniul este limitat la subiecte specifice. De exemplu, un data mart pentru marketing limiteaza subiectele
la clienti, articole, vnzri. Datele coninute n data mart sunt de obicei agregate.
Data marts sunt, n mod curent, implementate pe servere departamentale mai ieftine care se bazeaza pe
UNIX sau Windows/NT. Ciclul de implementare a unui data mart este mai curnd msurat n sptmni
dect n luni sau ani. Ca atare, un data mart poate fi considerat un subansamblu al unui depozit de date mai
uor de construit i ntreinut i mai puin scump.
Un depozit virtual este un set de viziuni (views) asupra bazelor de date operaionale[8]. Un depozit virtual
este uor de construit, dar necesit capaciti suplimentare pe serverele de baze de date
Pentru eficiena procesrii interogrilor, numai unele din viziunile de agregare pot fi materializate.
DD-componentele arhitecturii
Arhitectura unui depozit de date are 3 componente principale :
1. depozitul de date propriu-zis i sistemul de gestiune a depozitului de date
2. sistemul de achizitie a datelor din sistemele OLTP i din alte surse
3. sistemul de analiz i prezentare a datelor din depozitul de date
DD-arhitectura simplificata
Exist mai multe tipuri de date:
1.
2.
3.
4.
BD operaionale curente,
BD vechi arhivate
BD externe
DD-instrumente software
-
instrumente necesare utilizatorilor (pentru acces rapid la date): ex. limbaj de interogare gen SQL,
generatoare de rapoarte
instrumente specializate pentru asisterea deciziilor (obinerea de grafice, diagrame, etc.): instrumente OLAP
i Data Mining
Instrumentele OLAP se bazeaz pe reprezentarea multidimensional a datelor (cubul de date) i permite
analiza interactiv i rapid a datelor prin operaiuni de tip roll-up, drill-down, slice, dice etc. Utilizatorul
poate obine rezultate imediate parcurgnd dinamic dimensiunile cubului de date, lucrnd cu niveluri
diferite de sintez/ detaliere.
DD-arhitectura complexa
-
O arhitectur mai complex este aceea n care se folosete un sistem de purificare i integrare a datelor
precum i multiple sisteme data mart proiectate pentru compartimente ale ntreprinderii.
sursele de date pot fi sisteme operaionale i fiiere. Acestea sunt extrase, curate, stocate i integrate n
depozitul de date. Depozitul de date refer de asemenea i mai multe sisteme data mart proiectate pentru
compartimentele nterprinderii.
Datele din cadrul depozitului de date sunt n final folosite de utilizatori pentru efectuarea de analiz,
obinerea de rapoarte i transformarea datelor n cunotine (mining).
DD-nivele de realizare
Modulul operaional
o
o
o
datele unei companii sunt de obicei pstrate sub form diferit la locaii diferite.
datele pot proveni de la aplicaii de mainframe sau de la sisteme distribuite din cadrul companiilor cum ar fi
sisteme de gestiune a comenzilor, de eliberare a facturilor, de contabilitate financiar.
indiferent de originea lor, datele trebuie s fie colectate i aduse ntr-o form consistent pentru a putea fi
folosite. Acest proces se numete transformarea datelor i reprezint baza pe care se construiete un
depozit de date consistent, de nalt calitate. Transformarea datelor presupune un proces de extragere,
condiionare, curare, fuziune, unificare pe adres, punctare, validare i ncrcare.
partea central a unui depozit de date l constituie SGBD i serverul principal pe care acesta ruleaz.
Din punct de vedere al implementrii unui depozit de date exist n acest moment 2 tendine:
1. implementarea unui sistem distribuit, descentralizat unde datele sunt pstrate n uniti independente
(Independent Data Marts) fiecare conine datele relevante pentru un anumit aspect al operaiilor unei
instituii;
2. implementarea unei surse de date unice, centralizate la care au acces utilizatorii din toate
deparetamentele unei instituii.
Valoarea final a unui depozit de date este determinat de avantajele pe care le ofer utilizatorului final n
diferite procese de luare a deciziilor i analiza.
Prin folosirea diferitelor unelte de acces la informaie i data mining disponibile pe pia, utilizatorii pot
obine informaii care i vor ajuta n procesele de stabilire a strategiei firmei.
Nivelul de jos (bottom-tier) este constituit din serverul depozitului de date i este, n multe cazuri, un sistem
de baze de date relaionale. n cadrul acestui nivel datele sunt extrase, curite, transformate i ncrcate n
depozitul de date.
Datele din bazele de date operaionale i din sursele externe sunt extrase utiliznd programe de aplicaii tip
interfa cunoscute sub numele de ,,gateways".
Un gateway este sprijinit de SGBD-ul de baz i permite programelor client s genereze cod SQL pentru a fi
executat de server.
Exemple de gateways:
-
ODBC (Open DataBase Connection) si OLE-DB (Open Linking and Embedding for DataBases) la Microsoft;
JDBC (Java DataBase Connection)
Curs 6
DD modele multidim
Depozitele de date i instrumentele OLAP sunt bazate pe modele multidimensionale de date. Aceste modele
vizualizeaz datele sub forma unui cub de date (data cub).
Cubul de date permite modelarea i vizualizarea datelor n dimensiuni multiple. El este definit prin
dimensiuni i fapte. Dimensiunile exprim perspectivele n care o anumit organizaie dorete s
pstreze nregistrarile privitoare la tranzaciile desfurate.
DD descrierea modelelor
Modelele de date multidemensionale enumerate mai sus pot fi descrise i printr-un limbaj de programare care
dispune de comenzi adecvate.
Limbajul SQL bazat pe data mining (DMQL Data Mining Query Language) conine i primitive pentru
definirea depozitelor de date i a data marts.
DD comenzi de definire
Comanda pentru definirea cubului are urmtoarea sintax:
Define cube (nume_cub) as [(list_dimensiuni)]: (list_valori)
Comanda pentru definirea dimensiunilor are urmtoarea sintax:
Define dimension (nume_dimensiune) as (atribut_sau_list_subdimensiune)
DD schema galaxie
Aplicaii sofisticate pot solicita tabele multiple de fapte care partajeaz tabelele dimensiune.
Acest gen de schem poate fi vzut ca o colecie de stele i, de aici, denumirea de schem galaxie sau
constelaie de fapte (fact constellation).
DD masuri distributive
O funcie de agregare este distributiv dac poate fi calculat n mod distributiv.
Presupunem c datele sunt mprite n n seturi. Calcularea funciei pe fiecare partiie determin o
valoare agregat. Dac rezultatul obinut prin aplicarea funciei asupra a n valori agregate este acelai cu
cel obinut prin aplicarea funciei asupra tuturor datelor fr partiionare, funcia poate fi calculat n
manier distributiv.
De exemplu, funcia count( ) poate fi calculat pentru cubul de date printr-o prim partiionare a cubului
ntr-un set de subcuburi, calculnd count( ) pentru fiecare subcub i apoi nsumnd rezultatele obinute
pentru fiecare subcub. Din acest motiv funcia count( ) este o funcie agregat distributiv.
DD masuri algebrice
O funcie agregat este algebric, dac poate fi calculat printr-o funcie algebric cu M argumente (unde M este
un ntreg pozitiv), fiecare din ele obinut prin aplicarea unei funcii agregate distributive.
De exemplu, AVG( ) poate fi calculat prin sum( )/count( ) unde ambele funcii sum( ) i count( ) sunt
funcii agregate distributive.
n mod similar se poate demonstra c min( ), max( ) i abaterea standard sunt funcii algebrice agregate.
Msura este algebric dac este obinut prin aplicarea unei funcii algebrice agregate.
DD masuri holistice
O funcie agregat este holistic, dac aceasta nu este limitat constant pe spaiul de stocaj cerut de deschiderea
subagregrii. n acest caz nu exist o funcie algebric avnd M argumente (unde M este o constant) care
caracterizeaz calculul.
Exemple comune de funcii holistice sunt: median( ), mode ( ), rank( ).
O msur holistic este obinut prin aplicarea unei funcii agregate de tip holistic.
DD eficienta interogarilor
Depozitele de date conin volume imense de date. Serverele OLAP cerute de interogrile DSS pot da rspunsuri n
timp de cteva secunde
De aceea este crucial pentru sistemele data warehouse s dispun de tehnici de tip cub foarte eficiente
pentru calcule, metode de acces i de procesare a interogrilor. n centru analizelor multidimensionale
de date st eficiena calculelor de agregare la intersecia multor seturi de dimensiuni
n termeni SQL aceste agregri sunt referite prin group by
O abordare a calculelor tip cub extinde SQL prin includerea operatorului compute cube. Operatorul
compute cube calculeaz agregri asupra tuturor subseturilor, pe dimensiunile specificate n operaie.
Curs 7
Data mining
Mineritul de date (data mining = DM), cunoscut si ca descoperire de cunostinte in BD (knowledge-discovery in
databases = KDD), este procesul de cautare automata de sabloane, tipare semnificative in volume foarte mari de
date.
Solutiile de DM in SBI
Solutiile de DM descopera si verifica automat sau semiautomat legaturi intre evenimente corelate.
Sunt necesare datorita volumului de date tot mai mare, complexitatii datelor si multitudinii relatiilor
dintre ele.
Provenienta datelor
-
Tehnologiile avansate din ultimele decenii au permis colectarea in baze de date puternice a unor cantitati
imense de date pe anumite perioade si din cele mai diverse domenii.
Datele provin din aplicatiile software folosite in eBusiness, precum aplicatiile financiare, ERP, CRM, fisierele
de log ale site-urilor Web.
DM extragere si transformare
-
Aceste date ne ofera posibilitatea obtinerii unor informatii si cunostinte dintr-un depozit imens de date
Data mining permit extragerea unor informatii si transforma date in cunostinte aplicand diversi algoritmi
precum arbori de decizie, grupari (clustering), asociatii, serii de timp.
Utilizarea tiparelor
Tiparele obtinute pot fi utilizate pentru:
rapoarte;
strategii de marketing;
strategii financiare;
previzionari
Vanzarea incrucisata
-
Detectarea fraudelor
Cat de adevarata este o reclamatie de dauna?
O analiza de data mining poate ajuta in identificarea acelor daune cu o probabilitate mare de a fi
fraude.
Managementul riscului
Trebuie acordat un imprumut unui client? .
Prin tehnici de data mining se poate calcula nivelul de risc al unui client, pe baza unui istoric al acestuia.
Segmentarea clientilor
Segmentarea clientilor ajuta :
-
Previzionarea vanzarilor
Cat voi vinde saptamana viitoare? Cat trebuie sa fie stocul pe luna urmatoare?
Pentru astfel de intrebari un raspuns poate fi dat utilizand tehnicile data mining de previzionare.
Operatii. Clasificarea
Clasificarea este una din cele mai populare operatii in data-mining si este folosita:
in probleme business precum rata renuntarii clientilor;
in managementul riscului;
in reclamele care au legatura cu continutul unui site.
Clasificarea consta in gruparea cazurilor pe baza unui atribut predictibil. Fiecare caz contine un set de
atribute, dintre care unul este atributul de clasificare (atributul predictibil). Operatia consta in gasirea unui model
care descrie atributul predictibil ca o functie de alte atribute luate ca valori de intrare. In setul de date, clasa este
atributul cu doua stari: Da si Nu. Pentru a antrena un model de clasificare, trebuie cunoscute valorile clasei fiecarui
caz din setul de date, valori pe care le gasim de obicei in datele istorice.
Exemplu: C: D(a1,a2,...an) -->V, atunci C(xi)=y, y cunoscut, xi D, unde D(a1,a2,...an) este setul de date al modelului
ce urmeaza a fi instruit.
Algoritmii de data mining care necesita un set de date pe care sa se realizeze o operatie de antrenareinstruire se numesc algoritmi dirijati.
Algoritmi de clasificare:
arborii de decizie;
retelele neuronale;
Nave Bayes.
Operatii. Clustering
Clustering-ul se mai numeste si segmentare si este utilizat in identificarea gruparilor naturale a cazurilor,
grupari bazate pe un set de atribute. Cazurile din cadrul aceluiasi grup au mai multe valori similare ale atributelor.
Algoritmul de segmentare grupeaza, de exemplu, pe baza celor doua atribute varsta si venitul setul de date
in trei segmente:
Cluster 1: cuprinde populatia tanara cu un venit scazut;
Cluster 2: cuprinde populatia de varsta medie cu venituri;
Cluster 3: cuprinde populatia de varsta inaintata cu un venit scazut.
Segmentarea este o operatie de data mining nedirijata, nu exista nici un atribut care sa conduca procesul
de instruire, toate atributele parametri de intrare sunt tratate in mod egal.
Cei mai multi algoritmi de clustering isi construiesc modelul prin iteratii care se opresc cand modelul este
acoperit in intregime, adica atunci cand limitele acestor segmente sunt stabilizate.
Operatii. Asocierea
Asocierea se mai numeste si analiza cosului de cumparaturi si este o alta operatie des utilizata in datamining.
Exemplu de problema business ce utilizeaza asocierea:
-
analiza unui tabel de tranzactii de vanzare si identificarea acelor elemente care sunt intalnite cel mai des in
acelasi cos de cumparaturi.
Utilizarea de baza a asocierii consta in identificarea seturilor comune de produse si reguli pentru vanzarea
incrucisata. In termenii asocierii, fiecare produs, sau mai general, fiecare pereche atribut-valoare este considerat
un item.
Asocierea are 2 scopuri:
sa gaseasca cele mai frecvente seturi de item-uri si regulile de asociere.
Cei mai multi algoritmi ating aceste obiective scanand setul de date initial de mai multe ori.
Pragul frecventei este definit de utilizator inainte de procesarea modelului.
De exemplu, un prag de 2% inseamna ca modelul analizeaza doar acele elemente care apar in cel putin 2% din
cosurile de cumparaturi. Un set de elemente poate arata astfel: M = {Produs = Pepsi, Produs= Cipsuri,
Produs=Popcorn}. Fiecare set de elemente are o masura ce reprezinta numarul de elemente pe care il contine
(cardinalul multimii M). Masura acestui set de elemente este 3: card(M)=3.
In afara de identificarea seturilor de elemente frecvente pe baza unui prag de frecventa, cei mai multi
algoritmi de asociere gasesc si regulile de asociere.
Exemplu: O regula de asociere are forma: (A,B) => C cu o probabilitate p, unde A, B, C sunt seturile frecvente
de elemente. In literatura de data-mining, aceasta probabilitate se numeste incredere .
Probabilitatea este o valoare pe care utilizatorul trebuie s-o specifice inainte de instruirea unui model de
asociere.
Exemplu: {Produs = Pepsi, Produs = Cipsuri} => Produs = Popcorn cu o probabilitate de 80%.
Interpretarea este urmatoarea: daca un client cumpara Pepsi si Cipsuri, atunci exista o probabilitate de 80% ca el sa
cumpere si Popcorn.
Operatii. Regresia
Regresia este similara clasificarii, diferenta majora intre cele doua modele este aceea ca in cazul regresiei
atributul predictibil este un numar continuu.
Regresia liniara si regresia logistica sunt cele mai utilizate metode de regresie. Alte tehnici de regresie sunt
arborii de regresie si retelele neuronale.
Exemplu de problema rezolvata prin acest model: calcularea vitezei vantului in functie de temperatura,
presiunea aerului si umiditate.
Operatii. Prognoza
Prognoza este o alta metoda importanta in data mining si ofera raspunsuri la intrebari precum: care va fi
nivelul actiunilor X la bursa de maine?
De obicei, ca valori de intrare sunt serii de timp, de exemplu sir de numere cu un atribut reprezentand
timpul. Aceste serii de timp contin de obicei observatii auxiliare, ordonate.
Tehnicile de prognoza lucreaza cu tendinte generale si periodicitati. Cea mai utilizata tehnica serie de timp
este ARIMA: modelul AutoRegressive Integrated Moving Average.
Analiza secventiala
Analiza secventiala este utilizatata pentru gasirea de pattern-uri intr-o serie discreta. O secventa este
alcatuita dintr-o serie de valori discrete(sau stari).
De exemplu, o secventa ADN este o serie lunga alcatuita din 4 stari diferite: A, G, C si T. Cumparaturile unui
client pot fi de asemenea modelate ca o secventa de date.
Seria de secventa
Contin stari (valori discrete)
Seria de timp
Contin observatii adiacente dependente
Contin numere continue
Datele pentru secvente si asociatii sunt similare in sensul ca fiecarui caz ii corespunde o multime de
elemente si stari.
Intr-un model de secventa, cumpararea unui calculator inainte de a cumpara microfoane este o secventa
diferita de cumpararea unor microfoane inaintea unui calculator. Intr-un algoritm de asociere, aceste secvente ar
putea fi considerate identice, ca fiind un singur set de elemente {Calculator, microfoane}.
Modele de asociere
Valoarea fiecarui element dintr-un cos de cumparaturi
= valoarea oricarui alt element si independent
Analiza secventiala
Analiza secventelor este o metoda data mining relativ noua. Devine din ce in ce mai importanta in principal
din 2 motive:
-
Analiza deviatiei
Analiza deviatiei (=detectarea fraudei) are ca scop gasirea acelor cazuri rare care se comporta diferit de
majoritate.
Ex utilizare: detectarea fraudelor cartilor de credit, detectarea spargerii retelelor informatice, analiza erorilor
in productie etc
Aceasta operatie este inca in stadiu de cercetare, deoarece nu exista in tehnici standard pentru analiza
deviatiei. De obicei pentru acest model analistii dezvolta variante modificate ale arborilor de decizie sau ale
algoritmilor de retele neuronale. Pentru a genera reguli semnificative, trebuie sa stabileasca multimi de cazuri
anormale in cadrul multimilor care sunt antrenate.
Curs 8
1. Cerintele functionale ale sist OLAP
Erik Thomsen:
Cerinele logice;
o Structurare complet a dimensiunilor prin ierarhizare
o Realizarea eficient a calculelor i prelucrarilor
o Flexibilitate
o Independena reprezentrilor fa de structura modelului
Cerinele fizice
o Acces rapid i direct
o Suport multiutilizator
6
7
arhitectura client/server accesul utiliz prin client, prelurare multidim prin server
transparenta acces transparent la surse de date eterogene, analiza datelor sa poata fi realizata cu
ajutorul instrumentelor client: grafice, calcul tabelar
suport multiutiliz - acces concurent i distribuit la sursele de date, fiind asigurate ns integritatea i
securitatea acestora.
B. Caracteristici speciale
Regula
9
10
11
12
denormalizarea datelor - prelucrarea datelor ntr-un mediu OLAP nu trebuie s afecteze sursele externe
din care provin acestea.
stocarea rezultatelor generate de sistemul OLAP - datele trebuie stocate i prelucrate separat de
sursele relaionale datorit diferenelor existente ntre modele i a cerinelor de procesare
manipularea valorilor lips - nu pot fi tratate n acelai mod ca orice alt valoare
modul de tratare a valorilor lips - tratate individual, deoarece ele afecteaz calculele n diferite moduri
flexibilitatea rapoartelor mod accesibil de prezentare a datelor pt utiliz a.i sa poata aranja cu usurinta
datele pe diverse dim pe axe
performana raportrii - dimensiunea sau modul de organizare a datelor nu ar trebui s influeneze
performana n raportare.
ajustarea automat a nivelului fizic modificare automata a schema fizicii a BD n funcie de tipul
modelului logic i de volumul datelor.
D. Controlul dimensiunilor
Regula
16
17
18
Fiiere client
BDR
BD multidimensionale
Procesarea datelor:
-
Nucleul SQL
Motorul client multidimensional
Motorul server multidimensional
Arhitecturile cele mai utilizate dintre aceste tipuri de combinaii sunt urmtoarele:
-
OLAP relaional (ROLAP) din care OLAP hibrid (Hybrid OLAP sau HOLAP)
OLAP multidimensional (MOLAP) din care OLAP client (Desktop OLAP sau DOLAP)
OLAP client (DOLAP)
Ierarhiile - membrii dimensiunilor pot fi organizai pe baza relaiilor de tip printe-copil, unde un
membru printe reprezint agregarea membrilor copil. Rezultatul este o ierarhie i relaiile printecopil sunt relaii ierarhice
Nivelurile - reprezint poziii n cadrul ierarhiilor. Relaiile ntre diferite nivele sunt relaii de tipul
printe-copil.
Atribute dimensiunile conin atribute care reprezint calificative specifice.
Tabelele de fapte sunt tabelele centrale. Acestea conin atribute de tip msuri (metrici) i chei
externe ctre tabelele dimensiuni. Faptele sunt de obicei date numerice care pot fi nsumate i
analizate pe diferite nivele.
Metricile (msurile) corespund atributelor (faptelor) din tabelele de fapte i sunt de regul de natur
numeric (de exemplu: volumul vnzrilor, costurile, stocurile disponibile).
Metadatele - date care descriu coninutul depozitului i furnizeaz trimiteri directe la date. Tot la nivelul
metadatelor se definesc i diverse vederi (views) asociate unor categorii specifice de utilizatori.
Schema modelului este o colecie de obiecte, incluznd tabelele, viziunile, indeci i sinonime.
Schema de tip Stea - este cel mai simplu i mai frecvent utilizat model. Obiectele sale sunt dispuse n
form de stea, n centru aflndu-se una sau mai multe tabele de fapte de care sunt legate dimensiunile.
Suport 2 tipuri de interogri: consultare i jonciuni multiple
Schema de tip Fulg de Nea - este o variant a modelului stea n care o parte din tabelele dimensiune sunt
normalizate (=> redundanta scazuta), iar datele sunt distribuite n tabele suplimentare. Rezult o schem
reprezentat ntr-un grafic similar unui fulg de zpad.
Cuburi de date - spaiu cartezian definit pe toate dimensiunile depozitului de date. Acesta poate fi numit
cub de date, fiind un spaiu de date logic i nu unul fizic. Seciunile bidimensionale sunt numite tablouri.
Axele cubului sunt reprezentate de dimensiuni, la intersecia acestora fiind variabilele sau msurile.
Consiliul OLAP definete cubul ndimensional ca fiind un grup de celule de date aranjate dup dimensiunile
datelor. O matrice tridimensional poate fi vizualizat ca un cub cu fiecare dimensiune formnd o fa a
cubului
dezvoltarea unor extensii ale modelului relaional i utilizarea acestora n cadrul sistemelor OLAP
Ex extensii: schema tip stea, modelul tip fulg de nea, schem galaxie, schem constelaie.
dezvoltarea modelelor bazate pe cuburi n-dimensionale.
Ex: tehnica ME/R pentru proiectarea schemei multidimensionale conine o entitate denumit nivel al
dimensiunii, o relaie tip 1:n denumit fact relationship i o relaie binar denumit relaie de clasificare a
dou niveluri ierarhice.
Din punct de vedere al nivelului de realizare, modelele bazate pe cub sunt:
modele conceptuale ofer concepte apropiate de modul n care utilizatorii percep datele i sunt
independente de implementare.
modele logice ofer concepte ce pot fi nelese de utilizatorii finali dar depind de tipul de SGBD utilizat.
modele fizice ofer concepte legate de modul n care sunt stocate fizic datele (descrierea datelor pe suport
fizic), depinznd de SGBD-ul utilizat.
Operaional - reprezentat de sursele, datele care populeaz depozitul de date. Datele operaionale sunt
supuse tranzaciilor, volatile, stocate la nivel de tranzacie n form normalizat sau proprie n sistem OLTP.
2. Atomic sau al depozitului de date - conine date cu caracter istoric ale nivelului tranzacional, prelucrate i
transformate ntr-un format multidimensional mult mai potrivit pentru suportul de decizii.
3. Departamental - data mart sau OLAP - Un data mart OLAP va fi limitat la submulimea mrimilor statistice
disponibile i dimensiunilor necesare pentru a studia problemele specifice afacerilor.
4. Individual - Instrumentele de vizualizare a cererilor, precum grafice, prezentri, rapoarte dinamice,
browserele Web, toate aparin acestui nivel. Aplicaiile clienilor, care conin informaii despre bugete,
prognoze, recomandri cu privire la alocarea resurselor i multe altele se afl n data mart la acest nivel al
arhitecturii.
Curs 9
DD instrumente software
Actuate Software(Report Server, Reporting System, Web Agent)
Hewlett-Packard(Intelligent Warehouse)
Hyperion(OLAP, Spider-Man)
IBM(Data Propagator, DB2 Database Server, Enterprise Copy Manager, Data Hub for OS/2, Data Hub for Unix,
FlowMark, DataGuide, Applications System, Visualizer family, Intelligent Decision Server, Query Managemnet
Facility, Intelligent Miner);
Informatica(PowerMart)
Information Advantage(DecisionSuite, WebOLAP)
Microsoft(Microsoft SQL Server)
NCR(Teradata)
Oracle(Oracle8, Discoverer/2000, Oracle Express server, Warehouse Builder)
Prism Solutions(Prism Warehouse Manager, Prism Change Manager, Prism Directory Manager)
SAS Institute(SAS Data Warehouse, Warehouse Administrator, SAS System, SAS/MDDB)
Siemens-Pyramid(Smart Warehouse)
Smart Corporation(Smart DB Workbench)
SIBI-platforme hardware
Digital. AlphaServer i Digital Unix;
-
DD instrumente software
Instrumente de extragere i transformare a datelor;
Instrumente (tehnologii) de stocare a datelor n depozit;
Instrumente de accesare i utilizare a depozitului de date.
DD-instrumente de extragere
Exist 2 metode de baz pentru extragerea datelor din cadrul sistemelor operaionale:
1. extragerea n mas- depozitul de date este mprosptat periodic prin extragerea datelor din sistemele surs
2. replicarea. Instrumentele de replicare a datelor pot asigura migrarea datelor ntre sisteme, respectiv dintro BD n alta. Aceste instrumente constituie o alternativ bun pentru cazurile n care nu avem acces la
codurile surs.
Pentru a realiza o replicare eficient a datelor trebuie asigurate urmtoarele conditii :
o s existe o conectare prin retea i o interfa corespunztoare de acces la BD
o s fie asigurat accesul la dicionarul BD pentru a identifica datele care urmeaz s fie replicate
o structura datelor surs trebuie s fie compatibil cu structura datelor destinaie pentru a evita
utilizarea unor transformari complexe ale datelor replicate, transformri care vor ngreuna controlul
replicrii datelor.
n categoria tehnologiilor pentru replicarea datelor intr o varietate de produse care asigur :
DD-instrumente de transformare
Instrumentele de transformare au rolul de a modifica datele extrase ntr-un anumit format necesar pentru
a putea fi stocate n cadrul depozitului de date.
Facilitile oferite de ctre aceste instrumente sunt:
-
Instrumente OLAP
Cele mai cunoscute sunt instrumentele OLAP (On-Line Analytical Processing) care permit utilizatorilor s
realizeze interogri ad-hoc asupra depozitului de date.
Suita instrumentelor OLAP se mparte deocamdat n 2 categorii principale :
MOLAP - Instrumentele MOLAP ofer faciliti analitice pentru BD multidimensionale i au un timp de
raspuns foarte mic, datorit structurii eficiente de stocare a datelor. Aceste instrumente ofer i
functionaliti privind realizarea de previziuni i diverse calcule statistice.
ROLAP. Instrumentele ROLAP ofera faciliti analitice pentru bazele de date relaionale.
Exemple de instrumente OLAP : Essbase OLAP (Arbor Software); Powerplay (Cognos); R/OLAP/XL (Intranet
Business Systems).
Sisteme de alertare
Aceste sisteme au rolul de a atrage atenia utilizatorului asupra datelor care sunt definite ca exceptii.
O organizatie, de regula, implementeaza 3 tipuri de alerte:
Alerte operaionale din sisteme operaionale individuale - au fost implementate n aplicaiile OLTP i
sunt, de regul, folosite pentru a evidenia exceptiile legate de sistemele operaionale
Alerte operaionale din magazinele de date operaionale (ODS) - necesita date operaionale integrate
i, de aceea, sunt posibil de implementat doar n sistemele ODS
Alerte decizionale din depozitul de date - necesit comparatii ntre valori de date istorice. De exemplu,
un manager de vnzari poate dori sa fie atenionat atunci cnd vnzrile pentru luna curent sunt mai
mici cu mai mult de 12% fa de vnzrile din aceeai lun a anului trecut.
Exemple de produse care pot fi folosite ca sisteme de alertare:
o
o
Instrumente de modelare
Aceste instrumente permit utilizatorilor s dezvolte un model att pentru BD surs, ct i pentru BD
destinaie. Este de preferat ca ele s poata genera i structurile de date pe baza specificaiilor din model, precum i
modelul datelor pe baza structurilor deja existente n bazele de date. Instrumentele de modelare a datelor ajut
foarte mult auditorii sistemelor pentru a-i forma o viziune clar asupra datelor i a legaturilor dintre ele.
Exemple de instrumente pentru modelarea datelor:
o
o
o
Curs 10
SOLUII DE DEZVOLTARE A SISTEMELOR INFORMATICE PENTRU INTELIGENA
AFACERII
Metodologii si ciclul de dezvoltare
Constrngerile mediului decizional actual:
-
Piata
Date
Timp
Acces
Informatii si cunostinte
Organizatia
Caracteristici tehnice:
Factorii de risc
1.
2.
3.
4.
Tehnologie
Complexitate
Integrare
Investitie
Fazele de dezoltare
1.
2.
3.
4.
5.
6.
Etapa
Studiul de
fezabilitate
Planificare
Analiza
Proiectare
Proiectare
Implementare
Criterii de evaluare:
1.
2.
3.
4.
5.
6.
Performanta
Interfata friendly
Suport decizional strategic
Integrare
Mentenanta
Flexibilitate si scalabilitate
Curs 11
Solutii practice
SOLUII DE TEHNOLOGII I INSTRUMENTE ORACLE UTILIZATE N REALIZAREA
SISTEMELOR INFORMATICE DE BI
1) Componente pentru stocarea i pregtirea datelor n vederea analizei:
OBI Warehouse Builder i ODI pentru proiectarea, implementarea i mentenana depozitelor de date;
OBI Discoverer Administrator pentru realizarea i administrarea unei viziuni orientate pe business a
datelor relaionale;
OBI Administrator pentru structurarea datelor n vederea analizei avansate.
2) Componente pentru analiza datelor i realizarea de rapoarte:
OBI Discoverer Desktop i OBI Answers pentru realizarea de rapoarte dinamice (ad-hoc);
Oracle Reports pentru realizarea de rapoarte statice la nivelul ntregii companii;
Oracle Data Miner pentru realizarea procesului de data mining;
3) Componente pentru publicarea i interaciunea cu rapoartele create:
OBI Discoverer Portlet Provider pentru publicarea rapoartelor n OracleAS Portal
OBI Dashboard pentru publicarea rapoartelor ad-hoc ntr-un tablou de bord;
Oracle Reports pentru distribuirea i publicarea rapoartelor n mediul organizaiei, pe web prin
integrarea cu E-Business Suite sau OracleAS Portal;