Академический Документы
Профессиональный Документы
Культура Документы
Progetto
Laumento della complessit dellambiente competitivo delle aziende Laumento della concorrenza Lincremento dei dati e linformation overload
Marketing relazionale
Data mining
Personalizzazione
Il data mining
il processo di esplorazione e analisi di un insieme di dati, generalmente di grandi dimensioni, per individuare eventuali regolarit, estrarre conoscenza e ricavare regole ricorrenti significative (Vercellis,2006, p.77)
Attributo2
Attributo n
xij
Classe (yi)
Apprendimento supervisionato presente un attributo target, che rappresenta la classe di appartenenza per ciascun record:
le classi alle quali ricondurre le osservazioni sono gi note, lanalisi deve spiegare come le osservazioni si aggreghino a una classe piuttosto che a un'altra, in base ai valori assunti rispetto agli altri attributi disponibili.
Apprendimento non supervisionato, il dataset di riferimento non prevede alcun attributo target:
Esse mirano ad individuare ricorrenze, affinit e difformit e a determinare raggruppamenti di record omogenei al loro interno e diversi rispetto agli altri.
La classificazione consiste nellassegnare agli oggetti esaminati letichetta di una classe scelta tra un insieme predefinito di classi
A partire da un insieme di osservazioni riferite al passato, per le quali nota la classe di appartenenza, vengono costruiti i modelli di classificazione
I modelli individuano legami ricorrenti tra le variabili esplicative per descrivere le osservazioni appartenenti ad una medesima classe
Metodo di apprendimento supervisionato
I legami individuati vengono tradotti in regole di classificazione da impiegare per predire la classe di appartenenza di osservazioni delle quali noto solo il valore degli attributi esplicativi
Il caso Carla rappresentato dal punto nero in uno spazio a quattro dimensioni. La posizione nello spazio determinata dai valori assunti da Carla rispetto ai quattro attributi.
Training:
si estrae un sottoinsieme T del dataset D, denominato training set (66% dei casi) lalgoritmo di classificazione viene applicato al training set per ricavare le regole di classificazione che consentono di attribuire a ciascuna osservazione x la corrispondente classe target y.
restante parte delle osservazioni del dataset D, (33% del dataset) per le quali noto il valore della classe target
Si valuta laccuratezza del modello, confrontando la classe predetta dal classificatore con quella a cui realmente appartengono gli esempi.
Il clustering si propone di identificare raggruppamenti omogenei di record, mediante la definizione di opportune metriche e delle relative nozioni di distanza e similarit tra coppie di osservazioni.
Le osservazioni in ogni cluster devono essere quanto pi simili possibile tra loro e dissimili dalle osservazioni degli altri gruppi. Metodo di apprendimento non supervisionato
Cluster
Metodi di partizione:
suddividono il dataset in un numero predeterminato di sottogruppi assegnano inizialmente le osservazioni ai cluster applicano iterativamente una tecnica di riallocazione delle osservazioni per accrescere la qualit della suddivisione, fin quando non si raggiunge la convergenza
Rintracciano associazioni tra elementi del database del tipo Sono un metodo locale, cio nei dati scoprono pattern che sono applicabili solo a una piccola percentuale di esempi
Confidenza: corrisponde alla frazione di transazioni contenenti entrambi gli oggetti rispetto a quelle che contengono solo il primo oggetto Supporto: il rapporto tra la frazione di transazioni che contengono sia A che B rispetto a tutte le transazioni del dataset. Esso indica la frequenza con cui A e B compaiono insieme nelle transazioni. (Agrawal e Srikant,1994)
Preso I, linsieme di tutti gli item. Una transazione T definita come un insieme di item che si presentano insieme. Una regola associativa unimplicazione di natura probabilistica tra due insiemi di item A e B, sottoinsiemi di I, rappresentata come Essa indica che la presenza in una transazione degli item compresi nel sottoinsieme A implica la presenza degli oggetti in B con certa probabilit.
AB.
Obiettivo: classificare i visitatori in gruppi omogenei in base ai rispettivi profili comportamentali. Sito www.microsoft.com
Pagine visitate da 32.711 utenti in una settimana
C, 10908, 10908 V, 1108 V, 1017 C, 10909, 10909 V, 1113 V, 1009 V, 1034 C, 10910, 10910
V, 1026
V, 1017
Ogni visitatore identificato da unetichetta (C), poi tradotta in codice numerico (109**), ed seguito da una o pi righe che indicano le pagine visitate (V), anchesse identificate da un codice numerico (da 1000 a 1295).
Click stream
Societ che vende prodotti software e hardware on line Obiettivo: prevedere il comportamento di visita al sito degli utenti Dati:
dataset ottenuto dallelaborazione di un log file, contenente i dati relativi agli accessi al sito per un periodo di circa due anni. attributi luser id dellutente, una variabile con la data di accesso e una con la pagina richiesta, per un totale di 250.711 richieste, corrispondenti a 22.527 visitatori Il sito ha 36 pagine
Richieste Id utente Data accesso Pagina richiesta
250.711
Cluster analysis preliminare per ottenere quattro cluster di comportamento omogenei rispetto alle tre variabili: orario di accesso, durata della sessione e numero di click.
Dal dataset iniziale si deriva una matrice di dati organizzata per visitatori con una variabile categorica che descrive quante volte ogni pagina stata visitata. Le 296 pagine del sito sono state raggruppate in 13 categorie omogenee.
Codice cliente 10001 10002 10003 Inizial e Help Svago office Windo w Altro Soft. Down load Altro Int. Svilup po Hardw are Biz Info Area
1 1 2
1 1 1
1 0 0
0 0 0
0 0 0
0 0 2
0 0 0
0 3 0
0 0 0
0 0 0
5 0 0
0 0 0
0 0 2
profili monotematici di utenti, che visitano soltanto unarea specifica, profili politematici di utenti che visitano tutte le aree del sito, profili intermedi di professionisti dellinformatica, che visitano le pagine relative allo sviluppo, a particolari software e al download
Come realizzarla
Ogni azione che adatta linformazione o il servizio fornito da un sito web ai bisogni di un utente specifico, sfruttando la conoscenza acquisita:
dallanalisi del comportamento di navigazione dellutente (usage data) dagli interessi individuali inseriti nel profilo utente combinanti con altre informazioni del web: contenuto e la struttura del sito web
(Eirinaki e Vazirgiannis, 2003)
Tipo di personalizzazione
Contenuto Interfaccia Presentazione
Dati demografici: nome, sesso, et, luogo di abitazione, il titolo di studio, numero di telefono, il reddito; Conoscenza dellutente: la familiarit dellutente con i concetti del dominio e la sua expertise per quel dominio; Saper fare dellutente: sapere cosa lutente sa fare e distinguere tra cosa gli familiare e cosa pu realizzare che pu essere particolarmente importante per la vendita di prodotti e servizi complessi (computer, ADSL e simili); Interessi e preferenze, di solito riferiti alle categorie di prodotti venduti dal negozio on line o a specifiche propriet di tali prodotti; Bisogni: le disabilit per le quali necessario un servizio accessibile Scopi: lutente pu comprare qualcosa per s o un regalo per qualcuno altro un assistente di un negozio on line potrebbe aiutare lutente a trovare la soluzione meno costosa o la pi efficace o bilanciare richieste conflittuali
Lutente pu usare diversi tipi di hardware per accedere al sito: un desktop PC, un laptop, un telefono cellulare, un PDA,
Ogni dispositivo ha differenti caratteristiche: la dimensione dello schermo la capacit e la memoria di calcolo, i meccanismi di input e output (tastiera, mouse, interfaccia vocale,etc). I dati ambientali riguardano: la versione del browser, la piattaforma usata, la disponibilit di plug-ins, i firewall che bloccano le applet, la banda disponibile, la velocit di processing, i dispositivi di visualizzazione, informazioni geografiche in base alle quali adattare la lingua e i contenuti locali.
Lutente pu interagire con il negozio on line in situazioni differenti, a casa, in treno, mentre cammina o guida, durante una riunione. Il contesto duso costituito da:
il contesto fisico include la location dellutente e le condizioni ambientali come la luce, il rumore, la temperatura, il tempo di connessione, la velocit di spostamento, il contesto sociale include la comunit o il gruppo a cui lutente appartiene, il compito che sta realizzando e la relazione con le persone che lo circondano mentre interagisce con lapplicazione.
Gli usage data sono i dati derivanti dai log file e rappresentano il comportamento dei visitatori.
Ogni accesso ad una pagina web registrato nel log di accesso del server. Nel log ci sono campi predefiniti:
Remote host Remote log User name Date and Request Status Bytes name login time Ip
Referrer: lurl di provenienza dellutente User agent: il software che lutente usa per navigare nel sito Cookies: se il sito visitato li usa
... 213.213.31.41 [15/Apr/2000:04:00:04 +0200] GET http://www.unipi.it/images/h/h_home.gif HTTP/1.1" 200 1267 MmTaUg00pdA00001fvkwsM4000 http://www.unipi.it MSIE+6.0 Dove
213.213.31.41 indica lindirizzo IP del computer che ha fatto la richiesta della pagina 15/Apr/2000:04:00:04 la data lora della transazione, GET il metodo di transazione (che pu essere GET o POST), http://www.unipi.it/images/h/h home.gif indica lURL richiesta dallutente, HTTP/1.1 il protocollo HTTP usato, 200 il codice di ritorno HTTP (200 per le transazioni riuscite), 1267 la grandezza in bytes della risposta inviata al cliente MmTaUg00pdA00001fvkwsM4000 indica il cookie inviato al browser del cliente, http://www.unipi.it il cosiddetto campo referrer, lURL di provenienza dellutente, MSIE+6.0 indica il browser usato dallutente.
User profile un record di dati strutturati, contenente informazioni dellutente: gli identificatori, le caratteristiche, le capacit, i bisogni e gli interessi, le preferenze, il comportamento precedente in contesti rilevanti per predire o influenzare il comportamento futuro (Van Dijk et alt., 2005)
Profili statici e dinamici Acquisizione dei dati implicita ed esplicita
Identificatori: nome utente, password, domande segrete,etc Me: personalit, Preferenze: musica, arte, notizie, cibo, viaggi, etc Interessi: pittura, immersioni, internet, etc Circostanze: studio, cerco casa/lavoro/unauto, organizzo un viaggio, etc Obiettivi: carriera, vita sociale, etc Comportamento: lavoro, ascolto musica, etc Expertise: fisica quantistica, giardinaggio, motori, etc
.
Un framework per la personalizzazione dei siti web basata sugli usage data. Mining degli usage data per la personalizzazione dei siti web
Regole associative e itemsets Clustering Transactions Usage Clusters
Il processo di raccomandazione
Realizzare le raccomandazioni direttamente dagli itemsets. Calcolare le raccomandazioni in base ai clusters di URL
Cluster di URL
Server Log
Motore di Raccomandazione
Componente on line
Fonte: adattamento da (Mobasher et al., 2000)
Sessione attiva
Raccomandazioni
Web server
Client browser
Obiettivo: costruire dei modelli del comportamento di navigazione degli utenti nel portale Vivacity.it per fornire agli utenti unorganizzazione del sito personalizzata e proattiva. Compiti specifici:
predire se un utente sar interessato a visitare una specifica sezione del sito sulla base alle sezioni visitate precedentemente. predire il sesso dellutente in base alle pagine web visitate
Dati:
i log di accesso al portale un periodo di 5 mesi, corrispondenti a pi di 7 milioni di richieste. Informazioni aggiuntive per il 15% di utenti registrati
Struttura del sito: il portale presentava unarea nazionale con notizie, forum, informazioni, barzellette, etc. e pi di 30 sezioni locali con informazioni specifiche per ogni citt Costruzione dellontologia del sito
Predire se un utente sar interessato a visitare una specifica sezione del sito sulla base alle sezioni visitate precedentemente
Le sezioni sono state usate come attributi: scelta una sezione come classe le altre sono diventate gli attributi esplicativi. Applicando lalgoritmo dellalbero decisionale C4.5 si ottenuto
Recall (numero di utenti interessati riconosciuti rispetto a tutti gli utenti interessati) di circa il 50%, cio nel fare le previsioni riesce a raggiungere il 50% di utenti potenzialmente interessati. Precision (numero di utenti interessati rispetto al totale degli utenti riconosciuti) di circa il 90%, cio cerano pochi errori di predizione.
Il web usage mining tralascia le informazioni legate al contenuto ed alla struttura del sito.
Sono basati sulle preferenze dellutente, il sistema ne traccia il comportamento e gli presenta item simili a quelli che ha preferito in passato
www.amazon.com
Richiede che a ciascun oggetto sia associato del contenuto e che esso sia analizzato
Fornendo raccomandazioni strettamente associate alluser profile, non vengono suggeriti nuovi prodotti
Non permette il suggerimento casuale di prodotti (serendipity)
C-Log : web log migliorati grazie allintroduzione di campi aggiuntivi relativi alle categorie semantiche derivate dallanalisi del contenuto
Lintegrazione delle caratteristiche di contenuto nel processo di personalizzazione permette di ampliare il set di raccomandazione
Meccanismo di pubblicazione
Motore di raccomandazione
Usage pattern
C- Logs Tassonomia
Gruber (1993) definisce unontologia la specificazione esplicita di una concettualizzazione La concettualizzazione una rappresentazione formale della realt come percepita e organizzata da un agente, indipendentemente dal vocabolario utilizzato e dalloccorrenza in una specifica situazione. La costruzione di unontologia richiede:
lesplicitazione dei concetti relativi a un dominio la loro presentazione in un formato comprensibile agli esseri umani e leggibile dalle macchine
La forma tipica dellontologia per il web costituita da una tassonomia e un insieme di regole di inferenza La tassonomia definisce le classi di oggetti e le relazioni tra loro Classi, sottoclassi e relazioni tra le entit sono strumenti molto potenti da usare sul web, perch permettono
di esprimere un gran numero di relazioni tra le entit, assegnano le propriet alle classi fanno ereditare alle sottoclassi le propriet delle classi del livello superiore.
Usage Mining
Files del sito e metadati Preprocessing dei dati Usage data Identificazione delle pageviews, sessioni, utenti e transazioni
Profili duso
Conoscen za di dominio
Transaction clustering pageview/item clustering Association rule discovery Sequential pattern discovery
Motore di Raccomandazione
Raccomandazioni
Sessione attiva
di dominio
Web server
Client browser
Invita lutente a diffondere le sue preferenze e in cambio gli propone degli item che potrebbero essere di suo interesse, in base al principio che utenti con comportamenti simili hanno interessi simili.
www.amazon.com
Web usage mining Content-based filtering Collaborative filtering Social data mining
Ottenere le informazioni necessarie alla costruzione degli user profile dalle tracce di attivit sociale presenti in rete (dai social network)
User profile capaci di rispecchiare meglio gli utenti, person model per riflettere la loro maggiore generalit
Fonti: siti web dove gruppi di persone producono contenuti come parte della loro normale attivit di navigazione sul web. Crawler: estrarre ed aggregare linformazione, potenzialmente utile attraverso tecniche computazionali adatte. Interfaccia: presentare le informazioni estratte attraverso uninterfaccia utente che permetta di valutare gli item, selezionarli ed organizzarli in significative raccolte personali.
User profile un record di dati strutturati, contenente informazioni dellutente: gli identificatori, le caratteristiche, le capacit, i bisogni e gli interessi, le preferenze, il comportamento precedente in contesti rilevanti per predire o influenzare il comportamento futuro (Van Dijk et alt., 2005)
Profili statici e dinamici Acquisizione dei dati implicita ed esplicita
Manuali/Automatici
User profile basati su regole semplici e facili da definire. User profile basati sul contenuto sufficientemente ricco Migliorare gli user profile in base ai feedback degli utenti
I profili nei social network permettono di ricostruire una rappresentazione dei pi ampi interessi di una persona
Nei social network professionali le categorie riguardano gli studi, le esperienze lavorative precedenti, le competenze professionali e gli interessi lavorativi, etc. Nei social network che mirano a creare relazioni di amicizia sono la musica, i libri, i film, i programmi televisivi, gli sport e il cibo preferito. Una categoria particolare quella passion/general interest/hobby e interest. Queste passioni sono pi generali per una persona, per la concezione di s e per la propria identificazione.
Per descrivere la struttura di questi grafi si possono usare modelli analitici dei network, che in una notazione matematica, descrivono la distribuzione dei link tra i nodi dei network:
Small Word Free Scale
Un network Small World soddisfa due condizioni non deve crescere nel tempo la probabilit di connessione tra due punti qualsiasi del network deve essere uguale per tutti i punti. La distanza tra le persone cresce in proporzione al logaritmo del numero di membri del network, quindi laumento del numero dei membri del network influenza la distanza fra loro.
Il famoso esperimento di Milgram ha evidenziato in modo empirico il fenomeno Small World in una rete sociale.
Lesperimento esaminava il numero di persone che un messaggio aveva bisogno di attraversare per raggiungere un perfetto sconosciuto. Il numero dei passaggi necessari per raggiungere la destinazione risult di soli sei passi In generale si stabil che il numero di passaggi necessari in una catena di contatti umani pi piccola di quanto ci si aspetti Nei sistemi Small World esistono delle catene di conoscenze di lunghezza limitata che connettono una qualsiasi coppia di persone sconosciute
In un network Small World ci si aspetta di trovare un gruppo ampiamente unificato, un network in cui sia impossibile nascondersi per quanto interconnesso.
crescono nel tempo presentano delle preferenze nella connessione tra alcuni nodi con altri (preferential attachment):
esistono nodi (hub) che hanno molte connessioni e questo rimane inalterato anche aumentando il numero di nodi nella rete.
il modo in cui i network si organizzano in strutture sociali stabili, la relazione tra potere e struttura sociale come labbandono di alcuni individui non distrugge il network lefficienza della trasmissione da punto a punto nel network Small World permette di spiegare i ritmi di rapida diffusione dei messaggi Scale Free indica la presenza di un potere specifico e una distribuzione di potere con influenza informale
mostrano una maggiore tolleranza quando fronteggiano opposizione e attacchi generali sono pi vulnerabili ad attacchi sistematici e ben diretti
stato costruito:
Estrazione di 100.000 user profile da due social network Riconoscimento dello stile di delimitazione degli interessi Estrazione di liste segmentate di keyword e key-phrase dal linguaggio naturale degli user profile Inserimento gli interessi estratti in grandi ontologie di libri, musica, film, etc. e una categoria speciale per le passioni
Esso
pu essere usato per: la classificazione delle identit lassociazione di persone in base agli interessi Il suggerimento di oggetti interessanti
Gli user profile sono stati normalizzati rispetto ai concetti di questa ontologia
I profili normalizzati permettono di apprendere la forza della relazione semantica tra tutti i descrittori di interessi e i descrittori di identit ed usarli per costruire il grafo della mappa.
Si ricostruita la forza delle relazioni semantiche tra due descrittori e tra i profili, in modo da rappresentare il grafo della InterestMap
dai profili normalizzati lalgoritmo di apprendimento valuta ogni possibile coppia di descrittori (identit/interesse; interesse/interesse) nel profilo che possono avere una correlazione e aggiorna le coppie
Non richiede la valutazione esplicita degli oggetti da parte degli utenti I testi e i commenti disponibili sul web sono gi tanti che non si pone il problema di raggiungere la massa critica necessaria per ottenere suggerimenti di buona qualit User profile pi ricchi Recupera le relazioni sociali tra gli utenti considerando i link inseriti negli user profile e pu sfruttare la fiducia alla base di queste relazioni Con la generazione automatica degli user profile supera in parte la soggettivit delle valutazioni degli utenti
Rispetto della privacy Tecniche di analisi del linguaggio naturale nelle community
Come analizzarlo
Il sistema colleziona
discussioni sul web riguardanti un particolare dominio le classifica tra argomenti appartenenti al dominio specifico realizza unanalisi del sentiment degli argomenti
i commenti riguardanti questo prodotto coprono il 12% delle discussioni sui dispositivi portatili polarit abbastanza bassa (3,4), cio i commenti non sono molto favorevoli.
Top-down:
consultare i messaggi negativi estrarre le keyword e le keyphrases, che descrivono un sentimento negativo nei confronti del prodotto. Le 8 keyword e le 8 keyphrase estratte dai messaggi negativi riguardo Dell Axim hanno che i malumori degli utenti sono dovuti:
molte schede SD sono incompatibili con Dell Axim sono necessari degli aggiornamenti per far funzionare correttamente Axim con Internet Explorer
Bottom-up
costruire il grafo corrispondente alla discussione per i prodotti Dell Axim presente in un forum di dispositivi portatili molto frequentato.
Dallanalisi del grafo emerso che i messaggi sono organizzati in tre diverse discussioni. Analizzando le citazioni si scoperto che i clienti non sono soddisfatti
per la qualit dellaudio per le porte a raggi infrarossi (IR)