Slides

Sistemas de recomendao
Mrcio Bortolini dos Santos
antes...
agora...
H uma sobrecarga de informao
Muitas vezes inteis
Gastamos muito tempo escolhendo
A lot of times, people dont know what they want until you show it to them. Steve Jobs
We are leaving the Information age, and entering into the Recommendation age. Chris Anderson, from book Long Tail
O que recomendar
Amigos
Que carro comprar?
Compre este..
Famlia
Recomendaes sociais
Avalie itens
Sistema
Que carro comprar?
Compre este..
Recomendaes por interaes
Sistemas de recomendao
Os sistemas de recomendao surgiram para auxiliar no processo social de indicar e receber indicaes
So projetados para nos sugerir coisas de nosso interesse.
Motivao
Netflix
2/3 dos aluguis de filmes vm de recomendaes
Google News
38% das notcias mais clicadas vm de recomendao
Amazon
35% das vendas vm de recomendao
Estratgias de Recomendao
Existem algumas estratgias empregadas para efetuar as recomendaes.

Reategui e Cazella (2005) definem cinco estratgias mais utilizadas para recomendao.
listas de recomendao
Vantagens/Desvantagens
Principal vantagem a facilidade de implementao., basta manter-se listas de acordo com as necessidades de marketing, de aumento de lucratividade, de disseminao de informaes, etc. A desvantagem que as recomendaes no so dirigidas a cada usurio independentemente, mas sim a todos os usurios sem distino, ou seja ao pblico em geral, no sendo personalizadas para um usurio especfico.
Avaliaes de usurios
Avaliaes de usurios
Suas recomendaes
Suas recomendaes
Obteno dos dados dos usurios
Implcita Explcita
Usurios que se interessaram por X tambm se interessaram por Y
a forma mais complexa de recomendao, pois ela exige uma anlise bastante profunda dos hbitos dos usurios, de modo que possa identificar padres e recomendar itens com base nestes padres (Reategui e Cazella, 2005).
Associao por contedo
Obteno dos dados dos itens
Reategui e Cazella (2005), definem que, nesta estratgia, a recomendao feita com base no contedo de um item em especfico, por exemplo um autor, um compositor, um editor, etc. Para tal, se faz necessrio encontrar associaes entre os itens, porm estas esto num escopo mais restrito.
Estratgias de Recomendao
Existem algumas estratgias empregadas para efetuar as recomendaes.

Reategui e Cazella (2005) definem cinco estratgias mais utilizadas para recomendao.
Vantagens/Desvantagens
Principal vantagem a facilidade de implementao., basta manter-se listas de acordo com as necessidades de marketing, de aumento de lucratividade, de disseminao de informaes, etc. A desvantagem que as recomendaes no so dirigidas a cada usurio independentemente, mas sim a todos os usurios sem distino, ou seja ao pblico em geral, no sendo personalizadas para um usurio especfico.
Avaliaes de usurios
Avaliaes de usurios
Suas recomendaes
Suas recomendaes
Implcita Explcita
a forma mais complexa de recomendao, pois ela exige uma anlise bastante profunda dos hbitos dos usurios, de modo que possa identificar padres e recomendar itens com base nestes padres (Reategui e Cazella, 2005).
Obteno dos dados dos itens
Reategui e Cazella (2005), definem que, nesta estratgia, a recomendao feita com base no contedo de um item em especfico, por exemplo um autor, um compositor, um editor, etc. Para tal, se faz necessrio encontrar associaes entre os itens, porm estas esto num escopo mais restrito.
Tcnicas de Recomendao
Colaborativos Baseados em contedo Hbridos Segundo Reategui e Cazella (2005), so estas tcnicas fundamentam o funcionamento dos sistemas de recomendao.
Colaborativos
A essncia est na troca de experincias entre as pessoas que possuem interesses comuns. Filtra as avaliaes dos usurios. Recomenda itens para usurios com perfis semelhantes.
Colaborativos
Usurio Antnio Jssica Marcos Juliana Paulo Rosana x x x x x x Tablet x Desktop Smartphone x x x x x x Notebook Ultrabook Celular
Colaborativos
Passos Armazenamento das informaes dos usurios. Clculo de semelhana entre os usurios. Agrupamento de usurios com preferncias semelhantes. Predio da pontuao de um item para o usurio baseado nas avaliaes dos usurios mais semelhantes a ele
Colaborativos
Forma de avaliao dos usurios KNN (K vizinhos mais prximos)

similaridade de um usurio-alvo com outros usurios
Colaborativos Similaridade
Distncia euclidiana
Funo do Cosseno
Funo do Cosseno
Predizer da pontuao de um item
Mais formalmente, a pontuao R(u,i) do item i para o usurio u estimada baseada na pontuao R(u,i) atribuda ao mesmo item i pelos usurios u que so similares ao usurio em questo. O valor de uma pontuao desconhecida ru,i para o usurio u e item i normalmente computado como uma agregao de pontuaes de outros usurios (por exemplo, os N mais similares) para o mesmo item i.
Exemplo:
Supondo a existncia de um sistema de recomendao de leituras onde os usurios tem acesso aos livros e podem avali-los quanto a satisfao. Para este feedback uma escala Likert de 5 pontos disponibilizada (5 significa adorei e 1 significa detestei o item). Uma matriz de relao usurios x itens pode ser disponibilizada.
Esta matriz nos apresenta a relao usurio x item, onde 5 usurios pontuaram 5 itens (A, B, C, D e E). A esparcialidade desta matriz seria de 8%, ou seja, apenas 8% das avaliaes possveis no foram feitas. Estes itens no avaliados so potenciais recomendaes.
Primeiro Passo
Calcula-se o peso em relao a similaridade do usurio-alvo:. Para tanto utiliza-se uma tcnica denominada de k-nearest-neighbor ou userbased. A definio da similaridade pode ser realizada atravs de diversos coeficientes, sendo mais comumente aplicado o coeficiente de correlao de Pearson. Observa-se a necessidade de mais de uma avaliao em comum para que a correlao seja vivel, e os resultados variam entre 1 para similaridade total, e -1 para total dissimilaridade.
Colaborativos
Coeficiente de Pearson
Similaridade
assumindo na correlao U1 = a e U2 = u, teramos:
Mdia das avaliaes de a em comum com u Mdia das avaliaes de u em comum com a Avaliao que a deu para o item i Avaliao que u deu para o item i Alta similaridade = Mdia similaridade Nada pode ser dito Nada pode ser dito
Colaborativos
Segundo Passo
Seleciona-se um subconjunto de usurios com maiores similaridades : Baseado no resultado do coeficiente de Pearson definido este subconjunto (com foco no usurio alvo da recomendao U1).
Colaborativos
Segundo Passo
Calculam-se as predies (Recomendaes): tendo um item a ser recomendado para um usurio alvo (item que este usurio no teve acesso). No exemplo o objetivo predizer quanto o usurio U1 daria de avaliao para o item B se tivesse acesso a ele.
Colaborativos
Clculo da predio: assumindo U1 = a como usurio alvo e B o item a ser predito
?
Nota da predio de um item i para um usurio a (considera a partir de 3 pontos) Mdia das avaliaes do usurio-alvo a considerando os artigos em comum com todos os seus similares. Mdia das avaliaes do usurio similar u considerando artigos em comum com o usurio-alvo a. Coeficiente de similaridade entre a e u. Avaliao dada por u ao item i.
Recomendaria este item?
Colaborativos Vantagens
Independncia de contedo Gerao de recomendaes baseadas em preferncias dos usurios Possibilidade de produzir recomendaes inesperadas e de alta qualidade.
Colaborativos Desvantagens
Problema do primeiro avaliador Problema de pontuaes esparsas Similaridade Novo item/usurio Custo de processamento (Escalabilidade)
Baseados em contedo
Analisam as descries de itens e de usurios. Podem recomendar itens parecidos com outros itens que o usurio teve interesse no passado. til para produtos que contenham alguma informao textual.
Modelos para recuperao da informao

Modelo booleano Modelo booleano estendido Modelo de Espao Vetorial (VSM) ou Modelo Vetorial Modelo Probabilstico Modelo baseado em agrupamento
Modelo booleano
Se baseia na teoria de conjuntos e na lgebra booleana Documentos (D) so representados como conjuntos de termos de indexao As consultas (Q) so formuladas atravs de expresses booleanas formadas por termos e conectivos de boole (and, or e not)
Modelo booleano
Expresso booleana (modelos andbooleanos) or conjuntos
Modelo booleano
Um documento s pode ser dito como relevante ou norelevante H a necessidade de especificao de consultas complexas incapaz de se representar pesos associados aos termos desejados
Modelo booleano estendido

Considera o peso dos termos nos documentos e permite que o usurio especifique as relevncias dos termos para uma determinada consulta Esse modelo se baseia na interpretao dos operadores de consulta conjuntivas e disjuntivas em termos de distncias euclidianas em um espao t-dimensional

Considerando dois termos: Para expresses conjuntivas o ponto (1,1) o mais desejvel. Quanto menor a distncia do documento em relao a este ponto, maior a similaridade em relao busca. Nas expresses disjuntivas o ponto (0,0) representa que nenhum dos termos da expresso de busca est presente no documento.

Considerando dois termos t1 e t2 O espao de busca ser bidimensional O documento representado por um vetor de pesos Os pesos definem a posio no espao euclidiano

A similaridade entre um documento di = (w1i, w2i) e uma consulta q = t1 or t2 dada por:
Modelo de Espao Vetorial (VSM)

definido como sendo um modelo baseado em contedo, com pesos associados aos termos de indexao e, cujo resultado da funo de similaridade dado na forma de ranking.

Cada termo possu um peso atrelado a si, para permitir distino entre os termos de acordo com sua importncia. Os pesos podem variar entre 0 e 1.

O VSM utiliza um espao n-dimensional para representar os termos. Neste espao, n (ou nmero de dimenses) representa o nmero de termos distintos. Para cada vetor de documentos, ou de consulta, os pesos representam as coordenadas do vetor na dimenso correspondente.

trata como sendo vetores de valores reais contendo os pesos de cada termo (wij) dos documentos. A matriz escrita na forma di = (wi1, wi2, , win), onde wij corresponde ao peso do j-simo (j = 1, 2, ..., n) termo do i-simo documento (i = 1, 2, ..., n). Sendo assim, a coleo de objetos representada como sendo uma matriz (D) de termos de tamanho n x m onde n o nmero de documentos e m o nmero de termos.

O princpio do VSM baseado na correlao inversa entre a distncia ou ngulo entre vetores de termos no espao e a similaridade entre os documentos que eles representam.
Clculo de similaridade
Clculo de Similaridade
tf*idf tf: frequncia do termo no documento idf: frequncia inversa do documento
Modelo Probabilstico
Baseado na teoria das probabilidades como meio para modelar o processo de recuperao de informao. A similaridade calculada pela probabilidade de tal documento (D) ser relevante a tal consulta (Q), caso os termos (t) da consulta apaream no documento
Presume-se que a distribuio dos termos, nos documentos da coleo, uma informao que capaz de determinar a relevncia ou no de um documento em responder a uma dada consulta. Quando vetores de documentos e consultas (termos envolvidos em ambas) so suficientemente similares, a probabilidade de relevncia correspondente alta o suficiente, para ser considerada a recuperao do documento em resposta consulta
Cada documento representado por um vetor de termos, porm este difere do modelo de espao vetorial apresentado na seo anterior pois no h um peso atrelado a cada termo mas sim um valor binrio.
probabilidade de um documento que possui o termo de indexao ser relevante probabilidade de um documento que no possui o termo de indexao no ser relevante probabilidade de um documento que possui o termo de indexao no ser relevante probabilidade de um documento que no possui o termo de indexao ser relevante
Um documento dj relevante a uma consulta q quando:
Assim, dada uma consulta q, o modelo probabilstico atribui a cada documento d (como medida de similaridade) um peso Wd/q
Aplicando a regra de Bayes:
probabilidade de se selecionar aleatoriamente um documento dj do conjunto de documentos relevantes probabilidade de se selecionar um documento dj do conjunto de documentos no-relevantes probabilidade que um documento selecionado aleatoriamente de uma coleo inteira seja relevante probabilidade que um documento selecionado aleatoriamente de uma coleo inteira no seja relevante
Considerando que P(Rel) e P(Rel) inicialmente a mesma para todo documento da coleo tem-se:
Sabendo-se que aps transformaes algbricas pode-se escrever
expresso utilizada para classificao computacional pelo modelo probabilstico
1 P(ti|Rel) constante para todo termo de indexao ki e igual a 0,5 (50% de possibilidade de ser ou no relevante); P(ti|Rel) = 0,5 2 a distribuio dos termos de indexao entre os documentos norelevantes pode ser aproximada da distribuio dos termos de indexao entre os todos documentos da coleo; P(ti|Rel) = ni / N
ni o nmero de documentos que contm o termo de indexao N o nmero total de documentos da coleo
Modelo Probabilstico vantagens
Necessidade da suposio da separao inicial dos documentos nos conjuntos relevantes ou no-relevantes No leva em conta a frequncia com que um termo de indexao ocorre no documento (somente considera pesos binrios) Adoo da suposio da independncia dos termos
Modelo Probabilstico vantagens
O ranking dos documentos realizado em ordem decrescente da probabilidade de relevncia.
Modelo baseado em agrupamento

Para a extrao e armazenamento dos dados so utilizados conceitos de recuperao de informao e rede neural. Para a busca explorada a organizao dos metadados de itens no banco de dados para promover mecanismos eficazes para a sua localizao e reuso.

Nessa abordagem itens so representados por termos, que so extrados automaticamente, normalizados e armazenados em repositrios. Essas informaes so utilizadas no agrupamento dos itens. Aps a normalizao dos termos so obtidas as frequncias de ocorrncia no item e calculados os pesos
fi a frequncia do termo i n a quantidade total de itens ni a quantidade de itens que possuem o termo i.

O agrupamento realizado atravs da identificao de conjuntos de itens similares. Para a recuperao de informao so utilizadas duas formas alternativas, uma que utiliza o modelo espao vetorial e outra usando o modelo booleano, que, aplicados aos agrupamentos, trazem ao usurio o conjunto resposta.
Baseados em contedo Vantagens
No possui o problema do primeiro avaliador Possui capacidade de recomendar todos os itens Aplica esquema de atribuio de pesos aos termos Utiliza estratgia de casamento parcial Documentos so ordenados de acordo com o grau de similaridade
Baseados em contedo Desvantagens
No considera aspectos como qualidade do texto e renome do autor Super especializao Contedo dos dados pouco estruturados No considerar a correlao entre os termos de indexao
Hbrido
Faz uso de umas ou mais tcnicas de recomendao Pode ser feita:

implementando ambos mtodos separadamente e combinando os resultados incorporando algumas caractersticas da abordagem baseada em contedos na a abordagem colaborativa construindo um modelo unificado que incorpora as caractersticas de ambos
Hbrido
Minerao de textos
Por que extrair informao?
Processo de Extrao
Formao da base de conhecimento
Preparao dos dados Processamento de linguagem natural
Organizao e Clculos, inferncias estruturao para busca e extrao de conhecimento Recuperao da informao Minerao de dados
Pr-processamento
Tokenizao Normalizao StopWords Stemming
Tokenizao
Interpreta o texto transformado em termos

Exemplo:
Vdeo com a definio de Funo Afim.
w = [Vdeo, com, a, definio, de, Funo, Afim, .]
Normalizao
1 - Case Folding : processo de converso de todos os caracteres de um mesmo documento para um formato comum.
Silla e Kaestner (2002) Exemplo: Objeto, oBjEtO, OBjEtO, oBEJTO = OBJETO ou objeto
Normalizao
2 - remoo smbolos que no tenham importncia para o texto do documento

Exemplo: (. , ; : " ! ? / \ | % + { } [ ] ( ) *)
Normalizao
3 Remoo de acentuao Antes:

w = [Vdeo, com, a, definio, de, Funo, Afim, .]
Aps:
w = [video, com, a, definicao, de, funcao, afim]
StopWords
Remoo de palavras que no tenham relevncia o, a, seus, ela, e, com, de Antes:
w = [video, com, a, definicao, de, funcao, afim]
Depois: w = [video, definicao, funcao, afim]
Stemming Normalizao Morfolgica

Normalizao lingustica. As formas variantes de um termos so reduzidas a uma forma comum denominada stem. Converte cada palavra para o seu radical. Elimina: sufixos representados por flexes verbais , plural e gnero das palavras
Silla e Kaestner, 2002; Yamada et al.,2012

Exemplo:
brasileira, brasileiro, brasileirinha, brasileiresco, brasileiras, brasileiros stem: brasil

Algoritmos para stemming mtodo do stemmer S mtodo de Porter mtodo de Lovins
Este considerado o mtodo mais simples, pois consiste na eliminao de apenas alguns finais de palavras. Geralmente remove somente sufixos que formam o plural.
mtodo do stemmer S
Identifica de diferentes inflexes referentes mesma palavra e sua substituio por um radical comum. Reduz do plural, troca de sufixos, retira de sufixos, remove de sufixos padres e remove vogal e ao final da palavra
mtodo de Porter
Seu algoritmo remove apenas um sufixo por palavra, retirando o sufixo mais longo conectado mesma
mtodo de Lovins

Orengo e Huyck (2001)

Antes: w = (vdeo, definio, funo, afim)
Depois: ser w = (vid, defin, func, afim)
Indexao
mapear os termos de um documento em uma estrutura de dados especfica chamada de ndice
Amazonas et al. (2008)
ndice Invertido e o ndice Sequencial
Indexao
ndice Invertido
Indexao
ndice Sequencial
Minerao
A minerao de dados um processo de identicao de padres vlidos, novos, potencialmente teis e compreensveis disponveis nos dados. O principal objetivo desta etapa a descoberta de co-relacionamentos entre os dados e seus documentos.
(Morais e Ambrosio, 2007)
Dvidas?
Fontes
BONFIM, Marcello Erick. RECUPERAO DE DOCUMENTOS TEXTO USANDO MODELOS PROBABILISTICOS ESTENDIDOS. Iniciao Cientfica Cesumar, v. 11, n. 2, 2009. LOPES, Rafael Barbolo. sistemas de recomendao <http://www.slideshare.net/barbolo/sistemas-de-recomendacao> Gois, Adriana; Berg, Anderson; Teixeira, Joyce V. . Sistemas de recomendao < http://www.slideshare.net/berg_pe/sistemas-de-recomendao-9889295> Cazella, . Slvio Csar . SISTEMAS DE RECOMENDAO. < http://www.nuted.ufrgs.br/compoa_2012_1/SRFColaborativa.pdf> MORAIS, Edison Andrade Martins; AMBRSIO, Ana Paula L. Minerao de Textos. Relatrio TcnicoInstituto de Informtica (UFG), 2007. GERALDO, Andr Pinto. Aplicando algoritmos de minerao de regras de associao para recuperao de informaes multilngues. 2009. BAEZA-YATES e RIBEIRO-NETO apud LOPES, Giseli Rabello - Sistema de Recomendao para Bibliotecas Digitais sob a Perspectiva da Web Semntica. Porto Alegre: Programa de Ps-Graduao em Computao, 2007. BASU, Chumki et al. Recommendation as classification: Using social and content-based information in recommendation. In: AAAI/IAAI. 1998. p. 714-720. BRADLEY, Keith; SMYTH, Barry. Improving recommendation diversity. In:Proceedings of the Twelfth National Conference in Artificial Intelligence and Cognitive Science (AICS- 01). 2001. GOLDBERG et.al. apud HERLOCKER, Jonathan Lee. Understanding and improving automated collaborative filtering systems. 2000. Tese de Doutorado. University of Minnesota.
Fontes
FERREIRA, Vinicius Hartmann. Sistema de Recomendao de Objetos de Aprendizagem. TCC (graduao em Cincia da Computao) - Universidade do Vale do Itaja, Itaja, 2009. Disponvel em : <http://Siaibib01.univali.br/pdf/Vinicius Hartmann Ferreira.pdf>. LOPES, Giseli Rabello - Sistema de Recomendao para Bibliotecas Digitais sob a Perspectiva da Web Semntica. Porto Alegre: Programa de Ps-Graduao em Computao, 2007. HERLOCKER, Jonathan Lee. Understanding and improving automated collaborative filtering systems. 2000. Tese de Doutorado. University of Minnesota. KIM, Byeong Man et al. A new approach for combining content-based and collaborative filters. Journal of Intelligent Information Systems, v. 27, n. 1, p. 79-91, 2006. LICHTNOW, Daniel et al. O uso de tcnicas de recomendao para apoio aprendizagem colaborativa. Revista Brasileira de Informtica na Educao. vol. 14, n.3, set. 2006. PAZZANI, Michael J.; BILLSUS, Daniel. Content-based recommendation systems. In: The adaptive web. Springer Berlin Heidelberg, 2007. p. 325-341. SALTON, Gerard; BUCKLEY, Christopher. Term Weighting Approaches in Automatic Text Retrieval. Information Processing & Management 24 (5), 513-523, 1988. VIEIRA, Felipe Jos Rocha; NUNES, Maria Augusta Silveira Netto. DICA: Sistema de Recomendao de Objetos de Aprendizagem Baseado em Contedo. Scientia Plena, v. 8, n. 5, 2012. ZAINA, L., BRESSAN, G., CARDIERI, M., RODRIGUES JNIOR, J.. e-LORS: Uma Abordagem para Recomendao de Objetos de Aprendizagem. Revista Brasileira de Informtica na Educao, 20, abr. 2012. Disponvel em: <http://www.brie.org/pub/index.php/rbie/article/view/1289>. Acesso em: 15 Mai. 2013.

Slides

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Slides

Загружено:

Авторское право:

Доступные форматы

Sistemas de recomendao

Mrcio Bortolini dos Santos

H uma sobrecarga de informao

Muitas vezes inteis

Gastamos muito tempo escolhendo

Que carro comprar?

Que carro comprar?

Recomendaes por interaes

So projetados para nos sugerir coisas de nosso interesse.

2/3 dos aluguis de filmes vm de recomendaes

38% das notcias mais clicadas vm de recomendao

35% das vendas vm de recomendao

Existem algumas estratgias empregadas para efetuar as recomendaes.

Obteno dos dados dos usurios

Usurios que se interessaram por X tambm se interessaram por Y

Usurios que se interessaram por X tambm se interessaram por Y

Usurios que se interessaram por X tambm se interessaram por Y

Obteno dos dados dos usurios

Associao por contedo

Associao por contedo

Associao por contedo

Associao por contedo

Obteno dos dados dos itens

Existem algumas estratgias empregadas para efetuar as recomendaes.

Obteno dos dados dos usurios

Usurios que se interessaram por X tambm se interessaram por Y

Usurios que se interessaram por X tambm se interessaram por Y

Usurios que se interessaram por X tambm se interessaram por Y

Obteno dos dados dos usurios

Associao por contedo

Associao por contedo

Associao por contedo

Associao por contedo

Obteno dos dados dos itens

Forma de avaliao dos usurios KNN (K vizinhos mais prximos)

assumindo na correlao U1 = a e U2 = u, teramos:

Recomendaria este item?

Modelos para recuperao da informao

Modelo booleano estendido

Modelo booleano estendido

Modelo booleano estendido

Modelo booleano estendido

Modelo de Espao Vetorial (VSM)

Modelo de Espao Vetorial (VSM)

Modelo de Espao Vetorial (VSM)

Modelo de Espao Vetorial (VSM)

Modelo de Espao Vetorial (VSM)

Modelo de Espao Vetorial (VSM)

expresso utilizada para classificao computacional pelo modelo probabilstico

Modelo Probabilstico vantagens

Modelo Probabilstico vantagens

O ranking dos documentos realizado em ordem decrescente da probabilidade de relevncia.

Modelo baseado em agrupamento

Modelo baseado em agrupamento

Modelo baseado em agrupamento

Modelo baseado em agrupamento

Baseados em contedo Vantagens

Baseados em contedo Desvantagens

Faz uso de umas ou mais tcnicas de recomendao Pode ser feita:

Por que extrair informao?

Formao da base de conhecimento

Preparao dos dados Processamento de linguagem natural

Interpreta o texto transformado em termos

Vdeo com a definio de Funo Afim.