Data Mining

dal web usage mining al social data mining
Contesto Data mining Il processo di personalizzazione

Sistemi di personalizzazione
Progetto
Diffusione delluso di internet
Laumento della complessit dellambiente competitivo delle aziende Laumento della concorrenza Lincremento dei dati e linformation overload
Marketing relazionale
Data mining
Personalizzazione
Il data mining
il processo di esplorazione e analisi di un insieme di dati, generalmente di grandi dimensioni, per individuare eventuali regolarit, estrarre conoscenza e ricavare regole ricorrenti significative (Vercellis,2006, p.77)
Attributo1 Esempio1 Esempio2 Esempio3 Esempio i Esempio m
Attributo2
Attributo n
Classe Classe1 Classe2 Classe1
xij
Classe (yi)
Apprendimento supervisionato presente un attributo target, che rappresenta la classe di appartenenza per ciascun record:
le classi alle quali ricondurre le osservazioni sono gi note, lanalisi deve spiegare come le osservazioni si aggreghino a una classe piuttosto che a un'altra, in base ai valori assunti rispetto agli altri attributi disponibili.
Apprendimento non supervisionato, il dataset di riferimento non prevede alcun attributo target:
Esse mirano ad individuare ricorrenze, affinit e difformit e a determinare raggruppamenti di record omogenei al loro interno e diversi rispetto agli altri.
Classificazione Clustering Regole associative
La classificazione consiste nellassegnare agli oggetti esaminati letichetta di una classe scelta tra un insieme predefinito di classi
A partire da un insieme di osservazioni riferite al passato, per le quali nota la classe di appartenenza, vengono costruiti i modelli di classificazione
I modelli individuano legami ricorrenti tra le variabili esplicative per descrivere le osservazioni appartenenti ad una medesima classe
Metodo di apprendimento supervisionato
I legami individuati vengono tradotti in regole di classificazione da impiegare per predire la classe di appartenenza di osservazioni delle quali noto solo il valore degli attributi esplicativi
Il caso Carla rappresentato dal punto nero in uno spazio a quattro dimensioni. La posizione nello spazio determinata dai valori assunti da Carla rispetto ai quattro attributi.
In un problema di classificazione si deve

definire uno spazio di ipotesi F, che rappresentano le possibili relazioni di dipendenza tra la classe e il vettore degli attributi predittivi. scegliere un algoritmo che identifichi la funzione f capace di descrivere in modo soddisfacente la relazione tra gli attributi e la classe
Funzione che descrive la relazione tra attributi e classe
Training:
si estrae un sottoinsieme T del dataset D, denominato training set (66% dei casi) lalgoritmo di classificazione viene applicato al training set per ricavare le regole di classificazione che consentono di attribuire a ciascuna osservazione x la corrispondente classe target y.
Test: le regole con il training sono impiegate per classificare la
restante parte delle osservazioni del dataset D, (33% del dataset) per le quali noto il valore della classe target
Si valuta laccuratezza del modello, confrontando la classe predetta dal classificatore con quella a cui realmente appartengono gli esempi.
Predizione: il modello scelto viene usato per classificare nuovi esempi.
Il clustering si propone di identificare raggruppamenti omogenei di record, mediante la definizione di opportune metriche e delle relative nozioni di distanza e similarit tra coppie di osservazioni.
Le osservazioni in ogni cluster devono essere quanto pi simili possibile tra loro e dissimili dalle osservazioni degli altri gruppi. Metodo di apprendimento non supervisionato
Cluster
Metodi di partizione:
suddividono il dataset in un numero predeterminato di sottogruppi assegnano inizialmente le osservazioni ai cluster applicano iterativamente una tecnica di riallocazione delle osservazioni per accrescere la qualit della suddivisione, fin quando non si raggiunge la convergenza
Metodi gerarchici suddividono i dati in sottogruppi, in base a diverse soglie di omogeneit.

Agglomerativi: formano un cluster per ogni osservazione (cluster atomici) che in varie iterazioni successive vengono aggregati formando cluster di dimensioni sempre maggiori Suddivisione: collocano tutte le osservazioni in un solo cluster, che, in varie iterazioni successive, viene suddiviso in raggruppamenti di dimensioni minori.
Rintracciano associazioni tra elementi del database del tipo Sono un metodo locale, cio nei dati scoprono pattern che sono applicabili solo a una piccola percentuale di esempi
Confidenza: corrisponde alla frazione di transazioni contenenti entrambi gli oggetti rispetto a quelle che contengono solo il primo oggetto Supporto: il rapporto tra la frazione di transazioni che contengono sia A che B rispetto a tutte le transazioni del dataset. Esso indica la frequenza con cui A e B compaiono insieme nelle transazioni. (Agrawal e Srikant,1994)
Preso I, linsieme di tutti gli item. Una transazione T definita come un insieme di item che si presentano insieme. Una regola associativa unimplicazione di natura probabilistica tra due insiemi di item A e B, sottoinsiemi di I, rappresentata come Essa indica che la presenza in una transazione degli item compresi nel sottoinsieme A implica la presenza degli oggetti in B con certa probabilit.
AB.
Obiettivo: classificare i visitatori in gruppi omogenei in base ai rispettivi profili comportamentali. Sito www.microsoft.com
Pagine visitate da 32.711 utenti in una settimana
C, 10908, 10908 V, 1108 V, 1017 C, 10909, 10909 V, 1113 V, 1009 V, 1034 C, 10910, 10910
V, 1026
V, 1017
Ogni visitatore identificato da unetichetta (C), poi tradotta in codice numerico (109**), ed seguito da una o pi righe che indicano le pagine visitate (V), anchesse identificate da un codice numerico (da 1000 a 1295).
Click stream
Societ che vende prodotti software e hardware on line Obiettivo: prevedere il comportamento di visita al sito degli utenti Dati:
dataset ottenuto dallelaborazione di un log file, contenente i dati relativi agli accessi al sito per un periodo di circa due anni. attributi luser id dellutente, una variabile con la data di accesso e una con la pagina richiesta, per un totale di 250.711 richieste, corrispondenti a 22.527 visitatori Il sito ha 36 pagine
Richieste Id utente Data accesso Pagina richiesta
250.711
Da questo iniziale dataset ne viene ricavato un altro, organizzato per sessioni

sessioni Durata sessione Orario inizio Numero di click Pag. 1 Pag. 2 Pag.3 . . Pag. 36
Cluster analysis preliminare per ottenere quattro cluster di comportamento omogenei rispetto alle tre variabili: orario di accesso, durata della sessione e numero di click.
Dal dataset iniziale si deriva una matrice di dati organizzata per visitatori con una variabile categorica che descrive quante volte ogni pagina stata visitata. Le 296 pagine del sito sono state raggruppate in 13 categorie omogenee.
Codice cliente 10001 10002 10003 Inizial e Help Svago office Windo w Altro Soft. Down load Altro Int. Svilup po Hardw are Biz Info Area
1 1 2
1 1 1
1 0 0
0 0 0
0 0 0
0 0 2
0 0 0
0 3 0
0 0 0
0 0 0
5 0 0
0 0 0
0 0 2
Modelli: Clustering Mappe di Kohonen
Test di cross validation:

sono stati creati due dataset con i risultati ottenuti dai due diversi procedimenti, aggiungendo al dataset iniziale la variabile categorica che assegna losservazione ad uno dei 10 cluster. Su questi dataset stata realizzata la classificazione per verificare quale modello pi accurato.
Tre cluster di utenti
profili monotematici di utenti, che visitano soltanto unarea specifica, profili politematici di utenti che visitano tutte le aree del sito, profili intermedi di professionisti dellinformatica, che visitano le pagine relative allo sviluppo, a particolari software e al download
Come realizzarla
Ogni azione che adatta linformazione o il servizio fornito da un sito web ai bisogni di un utente specifico, sfruttando la conoscenza acquisita:
dallanalisi del comportamento di navigazione dellutente (usage data) dagli interessi individuali inseriti nel profilo utente combinanti con altre informazioni del web: contenuto e la struttura del sito web
(Eirinaki e Vazirgiannis, 2003)
Raccolta dei web data User profiling
Analisi dei dati

Web usage mining
Content Based filtering Collaborative filtering
Tipo di personalizzazione
Contenuto Interfaccia Presentazione
Raccolta dei web data

Le informazioni sullutente Dati ambientali: informazioni sul dispositivo usato per interagire con il sistema Informazioni sul contesto duso Usage data
Dati demografici: nome, sesso, et, luogo di abitazione, il titolo di studio, numero di telefono, il reddito; Conoscenza dellutente: la familiarit dellutente con i concetti del dominio e la sua expertise per quel dominio; Saper fare dellutente: sapere cosa lutente sa fare e distinguere tra cosa gli familiare e cosa pu realizzare che pu essere particolarmente importante per la vendita di prodotti e servizi complessi (computer, ADSL e simili); Interessi e preferenze, di solito riferiti alle categorie di prodotti venduti dal negozio on line o a specifiche propriet di tali prodotti; Bisogni: le disabilit per le quali necessario un servizio accessibile Scopi: lutente pu comprare qualcosa per s o un regalo per qualcuno altro un assistente di un negozio on line potrebbe aiutare lutente a trovare la soluzione meno costosa o la pi efficace o bilanciare richieste conflittuali
Lutente pu usare diversi tipi di hardware per accedere al sito: un desktop PC, un laptop, un telefono cellulare, un PDA,
Ogni dispositivo ha differenti caratteristiche: la dimensione dello schermo la capacit e la memoria di calcolo, i meccanismi di input e output (tastiera, mouse, interfaccia vocale,etc). I dati ambientali riguardano: la versione del browser, la piattaforma usata, la disponibilit di plug-ins, i firewall che bloccano le applet, la banda disponibile, la velocit di processing, i dispositivi di visualizzazione, informazioni geografiche in base alle quali adattare la lingua e i contenuti locali.
Lutente pu interagire con il negozio on line in situazioni differenti, a casa, in treno, mentre cammina o guida, durante una riunione. Il contesto duso costituito da:
il contesto fisico include la location dellutente e le condizioni ambientali come la luce, il rumore, la temperatura, il tempo di connessione, la velocit di spostamento, il contesto sociale include la comunit o il gruppo a cui lutente appartiene, il compito che sta realizzando e la relazione con le persone che lo circondano mentre interagisce con lapplicazione.
Gli usage data sono i dati derivanti dai log file e rappresentano il comportamento dei visitatori.
Ogni accesso ad una pagina web registrato nel log di accesso del server. Nel log ci sono campi predefiniti:
Remote host Remote log User name Date and Request Status Bytes name login time Ip
Referrer: lurl di provenienza dellutente User agent: il software che lutente usa per navigare nel sito Cookies: se il sito visitato li usa
... 213.213.31.41 [15/Apr/2000:04:00:04 +0200] GET http://www.unipi.it/images/h/h_home.gif HTTP/1.1" 200 1267 MmTaUg00pdA00001fvkwsM4000 http://www.unipi.it MSIE+6.0 Dove

213.213.31.41 indica lindirizzo IP del computer che ha fatto la richiesta della pagina 15/Apr/2000:04:00:04 la data lora della transazione, GET il metodo di transazione (che pu essere GET o POST), http://www.unipi.it/images/h/h home.gif indica lURL richiesta dallutente, HTTP/1.1 il protocollo HTTP usato, 200 il codice di ritorno HTTP (200 per le transazioni riuscite), 1267 la grandezza in bytes della risposta inviata al cliente MmTaUg00pdA00001fvkwsM4000 indica il cookie inviato al browser del cliente, http://www.unipi.it il cosiddetto campo referrer, lURL di provenienza dellutente, MSIE+6.0 indica il browser usato dallutente.
User profile un record di dati strutturati, contenente informazioni dellutente: gli identificatori, le caratteristiche, le capacit, i bisogni e gli interessi, le preferenze, il comportamento precedente in contesti rilevanti per predire o influenzare il comportamento futuro (Van Dijk et alt., 2005)
Profili statici e dinamici Acquisizione dei dati implicita ed esplicita
Io sono Io sono + Preferisco Mi piace Possiedo Voglio Faccio Conosco

..
Identificatori: nome utente, password, domande segrete,etc Me: personalit, Preferenze: musica, arte, notizie, cibo, viaggi, etc Interessi: pittura, immersioni, internet, etc Circostanze: studio, cerco casa/lavoro/unauto, organizzo un viaggio, etc Obiettivi: carriera, vita sociale, etc Comportamento: lavoro, ascolto musica, etc Expertise: fisica quantistica, giardinaggio, motori, etc
.
Fonte: adattamento da (van Dijk et alt., 2005, p.13)
Web usage mining Content-based filtering Collaborative filtering
Preprocessing Pattern discovery

Regole associative: sono usate per trovare correlazioni tra pagine visitate assieme in una sessione. Indicano la possibile relazione tra pagine anche se non sono direttamente connesse e possono rilevare associazioni tra gruppi di utenti con specifici interessi Sequential pattern: unestensione delle regole associative per rilevare pattern di co-occorrenze in un certa sequenza temporale Clustering: User cluster: gruppi di utenti che sembrano comportarsi in modo simile mentre navigano Page cluster: pagine che sembrano interrelate concettualmente nella percezione degli utenti Classificazione: riconduce le pagine o gli utenti ad una serie di classi predeterminate
Analisi dei pattern estratti
Un framework per la personalizzazione dei siti web basata sugli usage data. Mining degli usage data per la personalizzazione dei siti web
Regole associative e itemsets Clustering Transactions Usage Clusters
Il processo di raccomandazione
Realizzare le raccomandazioni direttamente dagli itemsets. Calcolare le raccomandazioni in base ai clusters di URL
Struttura del Web Personalizer

Componente off line Preparazione dei dati File del sito e metadati Usage Mining
Transaction clustering Usage clustering

Pulizia dei dati Identificazione degli utenti e delle transazioni Statistiche duso
Cluster di URL
Server Log
File delle transazioni utente Association rule discovery Itemset frequenti
Motore di Raccomandazione
Componente on line
Fonte: adattamento da (Mobasher et al., 2000)
Sessione attiva
Raccomandazioni
Web server
Client browser
Obiettivo: costruire dei modelli del comportamento di navigazione degli utenti nel portale Vivacity.it per fornire agli utenti unorganizzazione del sito personalizzata e proattiva. Compiti specifici:
predire se un utente sar interessato a visitare una specifica sezione del sito sulla base alle sezioni visitate precedentemente. predire il sesso dellutente in base alle pagine web visitate
Dati:
i log di accesso al portale un periodo di 5 mesi, corrispondenti a pi di 7 milioni di richieste. Informazioni aggiuntive per il 15% di utenti registrati
Struttura del sito: il portale presentava unarea nazionale con notizie, forum, informazioni, barzellette, etc. e pi di 30 sezioni locali con informazioni specifiche per ogni citt Costruzione dellontologia del sito
Predire se un utente sar interessato a visitare una specifica sezione del sito sulla base alle sezioni visitate precedentemente
Le sezioni sono state usate come attributi: scelta una sezione come classe le altre sono diventate gli attributi esplicativi. Applicando lalgoritmo dellalbero decisionale C4.5 si ottenuto
Recall (numero di utenti interessati riconosciuti rispetto a tutti gli utenti interessati) di circa il 50%, cio nel fare le previsioni riesce a raggiungere il 50% di utenti potenzialmente interessati. Precision (numero di utenti interessati rispetto al totale degli utenti riconosciuti) di circa il 90%, cio cerano pochi errori di predizione.
Predire il sesso dellutente in base alle pagine web visitate

Dati degli utenti registrati, corrispondenti al 15% del dataset, in quanto solo per queste persone era noto il sesso. Linsieme degli utenti registrati stato diviso nel training e nel test set, corrispondenti al 67% e al 33% degli utenti registrati. Gli attributi sono rappresentati dalle pagine o sezioni del sito e la classe dal sesso dellutente. Il modello migliore stato ottenuto dallalbero decisionale C4.5, che ha presentato un errore di classificazione del 39,8%, ritenuto non soddisfacente. Gli autori hanno spiegato il mancato miglioramento dellaccuratezza del modello in base alla scarsa capacit di discriminazione dellontologia usata e alle caratteristiche delle sessioni, troppo brevi e con pochi click, per fornire pattern di accesso distintivi per il sesso degli utenti
(Baglioni et al., 2003).
Pu essere difficile ottenere informazioni dai log file:

I log file hanno lo scopo di raccogliere informazioni per il debug del web server e non per il data mining.
Il web usage mining tralascia le informazioni legate al contenuto ed alla struttura del sito.
Sono basati sulle preferenze dellutente, il sistema ne traccia il comportamento e gli presenta item simili a quelli che ha preferito in passato
www.amazon.com
Richiede che a ciascun oggetto sia associato del contenuto e che esso sia analizzato
Fornendo raccomandazioni strettamente associate alluser profile, non vengono suggeriti nuovi prodotti
Non permette il suggerimento casuale di prodotti (serendipity)
C-Log : web log migliorati grazie allintroduzione di campi aggiuntivi relativi alle categorie semantiche derivate dallanalisi del contenuto
Lintegrazione delle caratteristiche di contenuto nel processo di personalizzazione permette di ampliare il set di raccomandazione
Fonte: Adattamento da (Eirinaki et al., 2003)
Meccanismo di pubblicazione
Motore di raccomandazione
Clusters dei documenti
Usage pattern
Clustering dei documenti

Contenuto del sito web
Web Usage Mining
C- Logs Tassonomia
Tesaurus Creazione dei C-Logs
Preprocessing dei dati Web Logs
Web Log Preprocessati
Gruber (1993) definisce unontologia la specificazione esplicita di una concettualizzazione La concettualizzazione una rappresentazione formale della realt come percepita e organizzata da un agente, indipendentemente dal vocabolario utilizzato e dalloccorrenza in una specifica situazione. La costruzione di unontologia richiede:
lesplicitazione dei concetti relativi a un dominio la loro presentazione in un formato comprensibile agli esseri umani e leggibile dalle macchine
Rendono la conoscenza riusabile in diverse applicazioni e domini Rappresentano:

un insieme di concetti, una gerarchia di questi concetti le relazioni tra loro.
La forma tipica dellontologia per il web costituita da una tassonomia e un insieme di regole di inferenza La tassonomia definisce le classi di oggetti e le relazioni tra loro Classi, sottoclassi e relazioni tra le entit sono strumenti molto potenti da usare sul web, perch permettono
di esprimere un gran numero di relazioni tra le entit, assegnano le propriet alle classi fanno ereditare alle sottoclassi le propriet delle classi del livello superiore.
Le regole di inferenza permettono di trarre automaticamente delle conclusioni dalle ontologie.
Nella fase di preprocessing, si usano:

la conoscenza di dominio gli usage data i metadati delle pagine del sito
Nella fase on line, si usano

la conoscenza di dominio lattuale sessione attiva dellutente il profilo utente individuale i profili duso aggregati
Preparazione dei dati
Usage Mining
Files del sito e metadati Preprocessing dei dati Usage data Identificazione delle pageviews, sessioni, utenti e transazioni
Derivazione dei profili aggregati
Profili duso
Conoscen za di dominio
File delle transazioni utente
Transaction clustering pageview/item clustering Association rule discovery Sequential pattern discovery
Fonte: adattamento da (Dai e Mobasher, 2002)
Profili duso aggregati
Motore di Raccomandazione
Profilo duso individua le

Conoscenza
Profilo utente integrato
Raccomandazioni
Sessione attiva
di dominio
Web server
Client browser
Fonte: adattamento da Dai e Mobasher, 2002
Invita lutente a diffondere le sue preferenze e in cambio gli propone degli item che potrebbero essere di suo interesse, in base al principio che utenti con comportamenti simili hanno interessi simili.
www.amazon.com
Web usage mining Content-based filtering Collaborative filtering Social data mining
Ottenere le informazioni necessarie alla costruzione degli user profile dalle tracce di attivit sociale presenti in rete (dai social network)
User profile capaci di rispecchiare meglio gli utenti, person model per riflettere la loro maggiore generalit
Fonti: siti web dove gruppi di persone producono contenuti come parte della loro normale attivit di navigazione sul web. Crawler: estrarre ed aggregare linformazione, potenzialmente utile attraverso tecniche computazionali adatte. Interfaccia: presentare le informazioni estratte attraverso uninterfaccia utente che permetta di valutare gli item, selezionarli ed organizzarli in significative raccolte personali.
User profile un record di dati strutturati, contenente informazioni dellutente: gli identificatori, le caratteristiche, le capacit, i bisogni e gli interessi, le preferenze, il comportamento precedente in contesti rilevanti per predire o influenzare il comportamento futuro (Van Dijk et alt., 2005)
Profili statici e dinamici Acquisizione dei dati implicita ed esplicita
Manuali/Automatici
Tecniche per la generazione degli user profile automaticamente:

Categorizzazione dei testi Regole di selezione dellinformazione per rappresentare i bisogni degli utenti
Limite: richiedono un notevole sforzo iniziale per la loro definizione
Limite: questi sistemi hanno bisogno di un gran numero di esempi
Integrazione delle due tecniche:
User profile basati su regole semplici e facili da definire. User profile basati sul contenuto sufficientemente ricco Migliorare gli user profile in base ai feedback degli utenti
(Kuflik e Shoval, 2003)
I profili nei social network permettono di ricostruire una rappresentazione dei pi ampi interessi di una persona
Nei social network professionali le categorie riguardano gli studi, le esperienze lavorative precedenti, le competenze professionali e gli interessi lavorativi, etc. Nei social network che mirano a creare relazioni di amicizia sono la musica, i libri, i film, i programmi televisivi, gli sport e il cibo preferito. Una categoria particolare quella passion/general interest/hobby e interest. Queste passioni sono pi generali per una persona, per la concezione di s e per la propria identificazione.
Grafo di una comunit:

gli utenti sono rappresentati come nodi le relazioni collaborative sono rappresentate come legami diretti (archi) tra i nodi
Per descrivere la struttura di questi grafi si possono usare modelli analitici dei network, che in una notazione matematica, descrivono la distribuzione dei link tra i nodi dei network:
Small Word Free Scale
Un network Small World soddisfa due condizioni non deve crescere nel tempo la probabilit di connessione tra due punti qualsiasi del network deve essere uguale per tutti i punti. La distanza tra le persone cresce in proporzione al logaritmo del numero di membri del network, quindi laumento del numero dei membri del network influenza la distanza fra loro.
Il famoso esperimento di Milgram ha evidenziato in modo empirico il fenomeno Small World in una rete sociale.
Lesperimento esaminava il numero di persone che un messaggio aveva bisogno di attraversare per raggiungere un perfetto sconosciuto. Il numero dei passaggi necessari per raggiungere la destinazione risult di soli sei passi In generale si stabil che il numero di passaggi necessari in una catena di contatti umani pi piccola di quanto ci si aspetti Nei sistemi Small World esistono delle catene di conoscenze di lunghezza limitata che connettono una qualsiasi coppia di persone sconosciute
In un network Small World ci si aspetta di trovare un gruppo ampiamente unificato, un network in cui sia impossibile nascondersi per quanto interconnesso.
I network free scale:
crescono nel tempo presentano delle preferenze nella connessione tra alcuni nodi con altri (preferential attachment):
esistono nodi (hub) che hanno molte connessioni e questo rimane inalterato anche aumentando il numero di nodi nella rete.
Le caratteristiche di questi due modelli permettono di spiegare:
Descrivere un sistema sociale come:
il modo in cui i network si organizzano in strutture sociali stabili, la relazione tra potere e struttura sociale come labbandono di alcuni individui non distrugge il network lefficienza della trasmissione da punto a punto nel network Small World permette di spiegare i ritmi di rapida diffusione dei messaggi Scale Free indica la presenza di un potere specifico e una distribuzione di potere con influenza informale
mostrano una maggiore tolleranza quando fronteggiano opposizione e attacchi generali sono pi vulnerabili ad attacchi sistematici e ben diretti
InterestMap un network di interconnessioni tra interessi e identit
stato costruito:
Estrazione di 100.000 user profile da due social network Riconoscimento dello stile di delimitazione degli interessi Estrazione di liste segmentate di keyword e key-phrase dal linguaggio naturale degli user profile Inserimento gli interessi estratti in grandi ontologie di libri, musica, film, etc. e una categoria speciale per le passioni
Esso
pu essere usato per: la classificazione delle identit lassociazione di persone in base agli interessi Il suggerimento di oggetti interessanti
Grande ontologia formale con:

21.000 descrittori di interessi 1.000 descrittori di identit per riflettere i molti tipi di passioni dei profili
Gli user profile sono stati normalizzati rispetto ai concetti di questa ontologia
I profili normalizzati permettono di apprendere la forza della relazione semantica tra tutti i descrittori di interessi e i descrittori di identit ed usarli per costruire il grafo della mappa.
Si ricostruita la forza delle relazioni semantiche tra due descrittori e tra i profili, in modo da rappresentare il grafo della InterestMap
dai profili normalizzati lalgoritmo di apprendimento valuta ogni possibile coppia di descrittori (identit/interesse; interesse/interesse) nel profilo che possono avere una correlazione e aggiorna le coppie
La mappa ottenuta caratterizzata da

identity hub (nodi descrittori di identit): organizzano la moltitudine di interessi, permettendo di formare cluster intorno alle identit. taste clique (gruppi di gusti): gruppi di utenti che hanno un insieme di gusti in comune. Quando la coesione forte i taste clique tendono a comportarsi come un solo identity hub.
Per realizzare le raccomandazioni

descrittori e ricondotto ai nodi della mappa, attivando un certo pattern nella rete a partire dai nodi attivati inizialmente, lattivazione si diffonde verso lesterno in modo che emergano i nodi vicini pi strettamente legati ai nodi iniziali. il vicinato semantico (i top N nodi descrittori di interessi attivati) rappresenta le raccomandazioni prodotte attraverso la mappa. Un insieme dei nodi del vicinato semantico saranno nodi descrittori di identit, quelli pi forti e vicini possono essere considerati come identit riconosciute per il nuovo profilo. i suggerimenti realizzati usando InterestMap sono risultati molto accurati e intelligibili visivamente perch ogni singolo interesse inserito in una parte di network pi ampia
il profilo di un nuovo utente viene normalizzato nellontologia dei
(Liu e Maes, 2005)
Non richiede la valutazione esplicita degli oggetti da parte degli utenti I testi e i commenti disponibili sul web sono gi tanti che non si pone il problema di raggiungere la massa critica necessaria per ottenere suggerimenti di buona qualit User profile pi ricchi Recupera le relazioni sociali tra gli utenti considerando i link inseriti negli user profile e pu sfruttare la fiducia alla base di queste relazioni Con la generazione automatica degli user profile supera in parte la soggettivit delle valutazioni degli utenti
Rispetto della privacy Tecniche di analisi del linguaggio naturale nelle community
Come analizzarlo
Fonte: adattamento da (Glance et al., 2005).
Il sistema colleziona
discussioni sul web riguardanti un particolare dominio le classifica tra argomenti appartenenti al dominio specifico realizza unanalisi del sentiment degli argomenti
Il modello proposto costituito da:

Il sistema del contenuto: scandisce il web alla ricerca dei blog, dei message board e del contenuto Usenet e riempie gli indici di ricerca interni Il sistema di produzione, usando query booleane nei motori di ricerca e un classificatore addestrato su un campione causale di messaggi, recupera il contenuto e lo analizza, ottenendo prima un insieme di messaggi taggati (in base allargomento ed alla polarit) e poi estraendo i fatti (una tripla di brand, caratteristiche e polarit) ll sistema analitico realizza le analisi interattive con le tradizionali tecniche di text mining
Un messaggio viene strutturato come un albero le cui foglie possono essere:

la citazione dellintestazione, la citazione del messaggio precedente, la firma il corpo del testo.
I blocchi di testo sono stati segmentati in paragrafi e poi in frasi

Le frasi vengono definite come unit testuali pi grandi di una parola, ma pi piccole di una frase intera. Lestrazione delle frasi-chiave (keyphrase) permette di ridurre la dimensionalit e riassumere i documenti perci possono essere usate come misura di similarit tra i documenti.
Analisi delle discussioni on line sui palmari Dell Axim
i commenti riguardanti questo prodotto coprono il 12% delle discussioni sui dispositivi portatili polarit abbastanza bassa (3,4), cio i commenti non sono molto favorevoli.
Top-down:
consultare i messaggi negativi estrarre le keyword e le keyphrases, che descrivono un sentimento negativo nei confronti del prodotto. Le 8 keyword e le 8 keyphrase estratte dai messaggi negativi riguardo Dell Axim hanno che i malumori degli utenti sono dovuti:
molte schede SD sono incompatibili con Dell Axim sono necessari degli aggiornamenti per far funzionare correttamente Axim con Internet Explorer
Bottom-up
costruire il grafo corrispondente alla discussione per i prodotti Dell Axim presente in un forum di dispositivi portatili molto frequentato.
Dallanalisi del grafo emerso che i messaggi sono organizzati in tre diverse discussioni. Analizzando le citazioni si scoperto che i clienti non sono soddisfatti
per la qualit dellaudio per le porte a raggi infrarossi (IR)
Fonte: adattamento da (Glance et al., 2005).
La diffusione del web semantico

Integrazione del contenuto nel processo di personalizzazione
Diffusione delle comunit virtuali

Interazione pi facile tra gli utenti
Sistemi di personalizzazione migliori, pi efficaci e meno intrusivi per gli utenti

Data Mining

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Data Mining

Загружено:

Авторское право:

Доступные форматы

dal web usage mining al social data mining

Contesto Data mining Il processo di personalizzazione

Diffusione delluso di internet

Attributo1 Esempio1 Esempio2 Esempio3 Esempio i Esempio m

Classe Classe1 Classe2 Classe1

Classificazione Clustering Regole associative

In un problema di classificazione si deve

Test: le regole con il training sono impiegate per classificare la

Predizione: il modello scelto viene usato per classificare nuovi esempi.

Metodi gerarchici suddividono i dati in sottogruppi, in base a diverse soglie di omogeneit.

Da questo iniziale dataset ne viene ricavato un altro, organizzato per sessioni

Modelli: Clustering Mappe di Kohonen

Test di cross validation:

Tre cluster di utenti

Raccolta dei web data User profiling

Analisi dei dati

Raccolta dei web data

Io sono Io sono + Preferisco Mi piace Possiedo Voglio Faccio Conosco

Fonte: adattamento da (van Dijk et alt., 2005, p.13)

Web usage mining Content-based filtering Collaborative filtering

Preprocessing Pattern discovery

Analisi dei pattern estratti

Struttura del Web Personalizer

Transaction clustering Usage clustering

File delle transazioni utente Association rule discovery Itemset frequenti

Predire il sesso dellutente in base alle pagine web visitate

(Baglioni et al., 2003).

Pu essere difficile ottenere informazioni dai log file:

Web usage mining Content-based filtering Collaborative filtering

Fonte: Adattamento da (Eirinaki et al., 2003)

Clusters dei documenti

Clustering dei documenti

Web Usage Mining

Tesaurus Creazione dei C-Logs

Preprocessing dei dati Web Logs

Web Log Preprocessati

Rendono la conoscenza riusabile in diverse applicazioni e domini Rappresentano:

Le regole di inferenza permettono di trarre automaticamente delle conclusioni dalle ontologie.

Nella fase di preprocessing, si usano:

Nella fase on line, si usano

Preparazione dei dati

Derivazione dei profili aggregati

File delle transazioni utente

Fonte: adattamento da (Dai e Mobasher, 2002)

Profili duso aggregati

Profilo duso individua le

Profilo utente integrato

Fonte: adattamento da Dai e Mobasher, 2002

Web usage mining Content-based filtering Collaborative filtering

Tecniche per la generazione degli user profile automaticamente:

Integrazione delle due tecniche:

(Kuflik e Shoval, 2003)

Grafo di una comunit:

I network free scale:

Le caratteristiche di questi due modelli permettono di spiegare:

Descrivere un sistema sociale come:

InterestMap un network di interconnessioni tra interessi e identit

Grande ontologia formale con:

La mappa ottenuta caratterizzata da

Per realizzare le raccomandazioni

(Liu e Maes, 2005)

Fonte: adattamento da (Glance et al., 2005).

Il modello proposto costituito da:

Un messaggio viene strutturato come un albero le cui foglie possono essere: