Вы находитесь на странице: 1из 126

Sistemas de recomendao

Mrcio Bortolini dos Santos

antes...

agora...

H uma sobrecarga de informao

Muitas vezes inteis

Gastamos muito tempo escolhendo

A lot of times, people dont know what they want until you show it to them. Steve Jobs

We are leaving the Information age, and entering into the Recommendation age. Chris Anderson, from book Long Tail

O que recomendar

Amigos

Que carro comprar?

Compre este..
Famlia

Recomendaes sociais

Avalie itens

Sistema

Que carro comprar?

Compre este..

Recomendaes por interaes

Sistemas de recomendao
Os sistemas de recomendao surgiram para auxiliar no processo social de indicar e receber indicaes

So projetados para nos sugerir coisas de nosso interesse.

Motivao
Netflix

2/3 dos aluguis de filmes vm de recomendaes

Google News

38% das notcias mais clicadas vm de recomendao

Amazon

35% das vendas vm de recomendao

Estratgias de Recomendao

Existem algumas estratgias empregadas para efetuar as recomendaes.


Reategui e Cazella (2005) definem cinco estratgias mais utilizadas para recomendao.

listas de recomendao

listas de recomendao

Vantagens/Desvantagens
Principal vantagem a facilidade de implementao., basta manter-se listas de acordo com as necessidades de marketing, de aumento de lucratividade, de disseminao de informaes, etc. A desvantagem que as recomendaes no so dirigidas a cada usurio independentemente, mas sim a todos os usurios sem distino, ou seja ao pblico em geral, no sendo personalizadas para um usurio especfico.

Avaliaes de usurios

Avaliaes de usurios

Suas recomendaes

Suas recomendaes

Obteno dos dados dos usurios

Implcita Explcita

Usurios que se interessaram por X tambm se interessaram por Y

Usurios que se interessaram por X tambm se interessaram por Y

Usurios que se interessaram por X tambm se interessaram por Y

Obteno dos dados dos usurios

a forma mais complexa de recomendao, pois ela exige uma anlise bastante profunda dos hbitos dos usurios, de modo que possa identificar padres e recomendar itens com base nestes padres (Reategui e Cazella, 2005).

Associao por contedo

Associao por contedo

Associao por contedo

Associao por contedo

Obteno dos dados dos itens

Reategui e Cazella (2005), definem que, nesta estratgia, a recomendao feita com base no contedo de um item em especfico, por exemplo um autor, um compositor, um editor, etc. Para tal, se faz necessrio encontrar associaes entre os itens, porm estas esto num escopo mais restrito.

Estratgias de Recomendao

Existem algumas estratgias empregadas para efetuar as recomendaes.


Reategui e Cazella (2005) definem cinco estratgias mais utilizadas para recomendao.

listas de recomendao

listas de recomendao

Vantagens/Desvantagens
Principal vantagem a facilidade de implementao., basta manter-se listas de acordo com as necessidades de marketing, de aumento de lucratividade, de disseminao de informaes, etc. A desvantagem que as recomendaes no so dirigidas a cada usurio independentemente, mas sim a todos os usurios sem distino, ou seja ao pblico em geral, no sendo personalizadas para um usurio especfico.

Avaliaes de usurios

Avaliaes de usurios

Suas recomendaes

Suas recomendaes

Obteno dos dados dos usurios

Implcita Explcita

Usurios que se interessaram por X tambm se interessaram por Y

Usurios que se interessaram por X tambm se interessaram por Y

Usurios que se interessaram por X tambm se interessaram por Y

Obteno dos dados dos usurios

a forma mais complexa de recomendao, pois ela exige uma anlise bastante profunda dos hbitos dos usurios, de modo que possa identificar padres e recomendar itens com base nestes padres (Reategui e Cazella, 2005).

Associao por contedo

Associao por contedo

Associao por contedo

Associao por contedo

Obteno dos dados dos itens

Reategui e Cazella (2005), definem que, nesta estratgia, a recomendao feita com base no contedo de um item em especfico, por exemplo um autor, um compositor, um editor, etc. Para tal, se faz necessrio encontrar associaes entre os itens, porm estas esto num escopo mais restrito.

Tcnicas de Recomendao

Colaborativos Baseados em contedo Hbridos Segundo Reategui e Cazella (2005), so estas tcnicas fundamentam o funcionamento dos sistemas de recomendao.

Colaborativos

A essncia est na troca de experincias entre as pessoas que possuem interesses comuns. Filtra as avaliaes dos usurios. Recomenda itens para usurios com perfis semelhantes.

Colaborativos
Usurio Antnio Jssica Marcos Juliana Paulo Rosana x x x x x x Tablet x Desktop Smartphone x x x x x x Notebook Ultrabook Celular

Colaborativos
Passos Armazenamento das informaes dos usurios. Clculo de semelhana entre os usurios. Agrupamento de usurios com preferncias semelhantes. Predio da pontuao de um item para o usurio baseado nas avaliaes dos usurios mais semelhantes a ele

Colaborativos

Forma de avaliao dos usurios KNN (K vizinhos mais prximos)


similaridade de um usurio-alvo com outros usurios

Colaborativos Similaridade
Distncia euclidiana

Colaborativos Similaridade
Funo do Cosseno

Colaborativos Similaridade
Funo do Cosseno

Colaborativos Similaridade
Predizer da pontuao de um item
Mais formalmente, a pontuao R(u,i) do item i para o usurio u estimada baseada na pontuao R(u,i) atribuda ao mesmo item i pelos usurios u que so similares ao usurio em questo. O valor de uma pontuao desconhecida ru,i para o usurio u e item i normalmente computado como uma agregao de pontuaes de outros usurios (por exemplo, os N mais similares) para o mesmo item i.

Colaborativos Similaridade
Exemplo:
Supondo a existncia de um sistema de recomendao de leituras onde os usurios tem acesso aos livros e podem avali-los quanto a satisfao. Para este feedback uma escala Likert de 5 pontos disponibilizada (5 significa adorei e 1 significa detestei o item). Uma matriz de relao usurios x itens pode ser disponibilizada.

Colaborativos Similaridade

Esta matriz nos apresenta a relao usurio x item, onde 5 usurios pontuaram 5 itens (A, B, C, D e E). A esparcialidade desta matriz seria de 8%, ou seja, apenas 8% das avaliaes possveis no foram feitas. Estes itens no avaliados so potenciais recomendaes.

Colaborativos Similaridade
Primeiro Passo
Calcula-se o peso em relao a similaridade do usurio-alvo:. Para tanto utiliza-se uma tcnica denominada de k-nearest-neighbor ou userbased. A definio da similaridade pode ser realizada atravs de diversos coeficientes, sendo mais comumente aplicado o coeficiente de correlao de Pearson. Observa-se a necessidade de mais de uma avaliao em comum para que a correlao seja vivel, e os resultados variam entre 1 para similaridade total, e -1 para total dissimilaridade.

Colaborativos
Coeficiente de Pearson

Similaridade

assumindo na correlao U1 = a e U2 = u, teramos:

Mdia das avaliaes de a em comum com u Mdia das avaliaes de u em comum com a Avaliao que a deu para o item i Avaliao que u deu para o item i Alta similaridade = Mdia similaridade Nada pode ser dito Nada pode ser dito

Colaborativos
Segundo Passo
Seleciona-se um subconjunto de usurios com maiores similaridades : Baseado no resultado do coeficiente de Pearson definido este subconjunto (com foco no usurio alvo da recomendao U1).

Colaborativos
Segundo Passo
Calculam-se as predies (Recomendaes): tendo um item a ser recomendado para um usurio alvo (item que este usurio no teve acesso). No exemplo o objetivo predizer quanto o usurio U1 daria de avaliao para o item B se tivesse acesso a ele.

Colaborativos
Clculo da predio: assumindo U1 = a como usurio alvo e B o item a ser predito

?
Nota da predio de um item i para um usurio a (considera a partir de 3 pontos) Mdia das avaliaes do usurio-alvo a considerando os artigos em comum com todos os seus similares. Mdia das avaliaes do usurio similar u considerando artigos em comum com o usurio-alvo a. Coeficiente de similaridade entre a e u. Avaliao dada por u ao item i.

Recomendaria este item?

Colaborativos Vantagens

Independncia de contedo Gerao de recomendaes baseadas em preferncias dos usurios Possibilidade de produzir recomendaes inesperadas e de alta qualidade.

Colaborativos Desvantagens
Problema do primeiro avaliador Problema de pontuaes esparsas Similaridade Novo item/usurio Custo de processamento (Escalabilidade)

Baseados em contedo

Analisam as descries de itens e de usurios. Podem recomendar itens parecidos com outros itens que o usurio teve interesse no passado. til para produtos que contenham alguma informao textual.

Modelos para recuperao da informao


Modelo booleano Modelo booleano estendido Modelo de Espao Vetorial (VSM) ou Modelo Vetorial Modelo Probabilstico Modelo baseado em agrupamento

Modelo booleano

Se baseia na teoria de conjuntos e na lgebra booleana Documentos (D) so representados como conjuntos de termos de indexao As consultas (Q) so formuladas atravs de expresses booleanas formadas por termos e conectivos de boole (and, or e not)

Modelo booleano
Expresso booleana (modelos andbooleanos) or conjuntos

Modelo booleano
Um documento s pode ser dito como relevante ou norelevante H a necessidade de especificao de consultas complexas incapaz de se representar pesos associados aos termos desejados

Modelo booleano estendido


Considera o peso dos termos nos documentos e permite que o usurio especifique as relevncias dos termos para uma determinada consulta Esse modelo se baseia na interpretao dos operadores de consulta conjuntivas e disjuntivas em termos de distncias euclidianas em um espao t-dimensional

Modelo booleano estendido


Considerando dois termos: Para expresses conjuntivas o ponto (1,1) o mais desejvel. Quanto menor a distncia do documento em relao a este ponto, maior a similaridade em relao busca. Nas expresses disjuntivas o ponto (0,0) representa que nenhum dos termos da expresso de busca est presente no documento.

Modelo booleano estendido


Considerando dois termos t1 e t2 O espao de busca ser bidimensional O documento representado por um vetor de pesos Os pesos definem a posio no espao euclidiano

Modelo booleano estendido


A similaridade entre um documento di = (w1i, w2i) e uma consulta q = t1 or t2 dada por:

Modelo de Espao Vetorial (VSM)


definido como sendo um modelo baseado em contedo, com pesos associados aos termos de indexao e, cujo resultado da funo de similaridade dado na forma de ranking.

Modelo de Espao Vetorial (VSM)


Cada termo possu um peso atrelado a si, para permitir distino entre os termos de acordo com sua importncia. Os pesos podem variar entre 0 e 1.

Modelo de Espao Vetorial (VSM)


O VSM utiliza um espao n-dimensional para representar os termos. Neste espao, n (ou nmero de dimenses) representa o nmero de termos distintos. Para cada vetor de documentos, ou de consulta, os pesos representam as coordenadas do vetor na dimenso correspondente.

Modelo de Espao Vetorial (VSM)

Modelo de Espao Vetorial (VSM)


trata como sendo vetores de valores reais contendo os pesos de cada termo (wij) dos documentos. A matriz escrita na forma di = (wi1, wi2, , win), onde wij corresponde ao peso do j-simo (j = 1, 2, ..., n) termo do i-simo documento (i = 1, 2, ..., n). Sendo assim, a coleo de objetos representada como sendo uma matriz (D) de termos de tamanho n x m onde n o nmero de documentos e m o nmero de termos.

Modelo de Espao Vetorial (VSM)


O princpio do VSM baseado na correlao inversa entre a distncia ou ngulo entre vetores de termos no espao e a similaridade entre os documentos que eles representam.

Clculo de similaridade

Clculo de Similaridade
tf*idf tf: frequncia do termo no documento idf: frequncia inversa do documento

Modelo Probabilstico
Baseado na teoria das probabilidades como meio para modelar o processo de recuperao de informao. A similaridade calculada pela probabilidade de tal documento (D) ser relevante a tal consulta (Q), caso os termos (t) da consulta apaream no documento

Modelo Probabilstico
Presume-se que a distribuio dos termos, nos documentos da coleo, uma informao que capaz de determinar a relevncia ou no de um documento em responder a uma dada consulta. Quando vetores de documentos e consultas (termos envolvidos em ambas) so suficientemente similares, a probabilidade de relevncia correspondente alta o suficiente, para ser considerada a recuperao do documento em resposta consulta

Modelo Probabilstico
Cada documento representado por um vetor de termos, porm este difere do modelo de espao vetorial apresentado na seo anterior pois no h um peso atrelado a cada termo mas sim um valor binrio.

Modelo Probabilstico

probabilidade de um documento que possui o termo de indexao ser relevante probabilidade de um documento que no possui o termo de indexao no ser relevante probabilidade de um documento que possui o termo de indexao no ser relevante probabilidade de um documento que no possui o termo de indexao ser relevante

Modelo Probabilstico
Um documento dj relevante a uma consulta q quando:

Assim, dada uma consulta q, o modelo probabilstico atribui a cada documento d (como medida de similaridade) um peso Wd/q

Modelo Probabilstico
Aplicando a regra de Bayes:

probabilidade de se selecionar aleatoriamente um documento dj do conjunto de documentos relevantes probabilidade de se selecionar um documento dj do conjunto de documentos no-relevantes probabilidade que um documento selecionado aleatoriamente de uma coleo inteira seja relevante probabilidade que um documento selecionado aleatoriamente de uma coleo inteira no seja relevante

Modelo Probabilstico
Considerando que P(Rel) e P(Rel) inicialmente a mesma para todo documento da coleo tem-se:

Modelo Probabilstico
Sabendo-se que aps transformaes algbricas pode-se escrever

expresso utilizada para classificao computacional pelo modelo probabilstico

Modelo Probabilstico
1 P(ti|Rel) constante para todo termo de indexao ki e igual a 0,5 (50% de possibilidade de ser ou no relevante); P(ti|Rel) = 0,5 2 a distribuio dos termos de indexao entre os documentos norelevantes pode ser aproximada da distribuio dos termos de indexao entre os todos documentos da coleo; P(ti|Rel) = ni / N
ni o nmero de documentos que contm o termo de indexao N o nmero total de documentos da coleo

Modelo Probabilstico vantagens

Necessidade da suposio da separao inicial dos documentos nos conjuntos relevantes ou no-relevantes No leva em conta a frequncia com que um termo de indexao ocorre no documento (somente considera pesos binrios) Adoo da suposio da independncia dos termos

Modelo Probabilstico vantagens

O ranking dos documentos realizado em ordem decrescente da probabilidade de relevncia.

Modelo baseado em agrupamento


Para a extrao e armazenamento dos dados so utilizados conceitos de recuperao de informao e rede neural. Para a busca explorada a organizao dos metadados de itens no banco de dados para promover mecanismos eficazes para a sua localizao e reuso.

Modelo baseado em agrupamento


Nessa abordagem itens so representados por termos, que so extrados automaticamente, normalizados e armazenados em repositrios. Essas informaes so utilizadas no agrupamento dos itens. Aps a normalizao dos termos so obtidas as frequncias de ocorrncia no item e calculados os pesos

Modelo baseado em agrupamento

fi a frequncia do termo i n a quantidade total de itens ni a quantidade de itens que possuem o termo i.

Modelo baseado em agrupamento


O agrupamento realizado atravs da identificao de conjuntos de itens similares. Para a recuperao de informao so utilizadas duas formas alternativas, uma que utiliza o modelo espao vetorial e outra usando o modelo booleano, que, aplicados aos agrupamentos, trazem ao usurio o conjunto resposta.

Baseados em contedo Vantagens

No possui o problema do primeiro avaliador Possui capacidade de recomendar todos os itens Aplica esquema de atribuio de pesos aos termos Utiliza estratgia de casamento parcial Documentos so ordenados de acordo com o grau de similaridade

Baseados em contedo Desvantagens

No considera aspectos como qualidade do texto e renome do autor Super especializao Contedo dos dados pouco estruturados No considerar a correlao entre os termos de indexao

Hbrido

Faz uso de umas ou mais tcnicas de recomendao Pode ser feita:


implementando ambos mtodos separadamente e combinando os resultados incorporando algumas caractersticas da abordagem baseada em contedos na a abordagem colaborativa construindo um modelo unificado que incorpora as caractersticas de ambos

Hbrido

Minerao de textos

Por que extrair informao?

Processo de Extrao

Formao da base de conhecimento

Preparao dos dados Processamento de linguagem natural

Organizao e Clculos, inferncias estruturao para busca e extrao de conhecimento Recuperao da informao Minerao de dados

Pr-processamento
Tokenizao Normalizao StopWords Stemming

Tokenizao

Interpreta o texto transformado em termos


Exemplo:

Vdeo com a definio de Funo Afim.

w = [Vdeo, com, a, definio, de, Funo, Afim, .]

Normalizao

1 - Case Folding : processo de converso de todos os caracteres de um mesmo documento para um formato comum.
Silla e Kaestner (2002) Exemplo: Objeto, oBjEtO, OBjEtO, oBEJTO = OBJETO ou objeto

Normalizao

2 - remoo smbolos que no tenham importncia para o texto do documento


Exemplo: (. , ; : " ! ? / \ | % + { } [ ] ( ) *)

Normalizao

3 Remoo de acentuao Antes:


w = [Vdeo, com, a, definio, de, Funo, Afim, .]

Aps:
w = [video, com, a, definicao, de, funcao, afim]

StopWords
Remoo de palavras que no tenham relevncia o, a, seus, ela, e, com, de Antes:
w = [video, com, a, definicao, de, funcao, afim]

Depois: w = [video, definicao, funcao, afim]

Stemming Normalizao Morfolgica


Normalizao lingustica. As formas variantes de um termos so reduzidas a uma forma comum denominada stem. Converte cada palavra para o seu radical. Elimina: sufixos representados por flexes verbais , plural e gnero das palavras
Silla e Kaestner, 2002; Yamada et al.,2012

Stemming Normalizao Morfolgica


Exemplo:

brasileira, brasileiro, brasileirinha, brasileiresco, brasileiras, brasileiros stem: brasil

Stemming Normalizao Morfolgica


Algoritmos para stemming mtodo do stemmer S mtodo de Porter mtodo de Lovins

Stemming Normalizao Morfolgica

Este considerado o mtodo mais simples, pois consiste na eliminao de apenas alguns finais de palavras. Geralmente remove somente sufixos que formam o plural.

mtodo do stemmer S

Stemming Normalizao Morfolgica

Identifica de diferentes inflexes referentes mesma palavra e sua substituio por um radical comum. Reduz do plural, troca de sufixos, retira de sufixos, remove de sufixos padres e remove vogal e ao final da palavra

mtodo de Porter

Stemming Normalizao Morfolgica

Seu algoritmo remove apenas um sufixo por palavra, retirando o sufixo mais longo conectado mesma

mtodo de Lovins

Stemming Normalizao Morfolgica


Orengo e Huyck (2001)

Stemming Normalizao Morfolgica


Antes: w = (vdeo, definio, funo, afim)

Depois: ser w = (vid, defin, func, afim)

Indexao
mapear os termos de um documento em uma estrutura de dados especfica chamada de ndice
Amazonas et al. (2008)

ndice Invertido e o ndice Sequencial

Indexao
ndice Invertido

Indexao
ndice Sequencial

Minerao
A minerao de dados um processo de identicao de padres vlidos, novos, potencialmente teis e compreensveis disponveis nos dados. O principal objetivo desta etapa a descoberta de co-relacionamentos entre os dados e seus documentos.
(Morais e Ambrosio, 2007)

Dvidas?

Fontes
BONFIM, Marcello Erick. RECUPERAO DE DOCUMENTOS TEXTO USANDO MODELOS PROBABILISTICOS ESTENDIDOS. Iniciao Cientfica Cesumar, v. 11, n. 2, 2009. LOPES, Rafael Barbolo. sistemas de recomendao <http://www.slideshare.net/barbolo/sistemas-de-recomendacao> Gois, Adriana; Berg, Anderson; Teixeira, Joyce V. . Sistemas de recomendao < http://www.slideshare.net/berg_pe/sistemas-de-recomendao-9889295> Cazella, . Slvio Csar . SISTEMAS DE RECOMENDAO. < http://www.nuted.ufrgs.br/compoa_2012_1/SRFColaborativa.pdf> MORAIS, Edison Andrade Martins; AMBRSIO, Ana Paula L. Minerao de Textos. Relatrio TcnicoInstituto de Informtica (UFG), 2007. GERALDO, Andr Pinto. Aplicando algoritmos de minerao de regras de associao para recuperao de informaes multilngues. 2009. BAEZA-YATES e RIBEIRO-NETO apud LOPES, Giseli Rabello - Sistema de Recomendao para Bibliotecas Digitais sob a Perspectiva da Web Semntica. Porto Alegre: Programa de Ps-Graduao em Computao, 2007. BASU, Chumki et al. Recommendation as classification: Using social and content-based information in recommendation. In: AAAI/IAAI. 1998. p. 714-720. BRADLEY, Keith; SMYTH, Barry. Improving recommendation diversity. In:Proceedings of the Twelfth National Conference in Artificial Intelligence and Cognitive Science (AICS- 01). 2001. GOLDBERG et.al. apud HERLOCKER, Jonathan Lee. Understanding and improving automated collaborative filtering systems. 2000. Tese de Doutorado. University of Minnesota.

Fontes
FERREIRA, Vinicius Hartmann. Sistema de Recomendao de Objetos de Aprendizagem. TCC (graduao em Cincia da Computao) - Universidade do Vale do Itaja, Itaja, 2009. Disponvel em : <http://Siaibib01.univali.br/pdf/Vinicius Hartmann Ferreira.pdf>. LOPES, Giseli Rabello - Sistema de Recomendao para Bibliotecas Digitais sob a Perspectiva da Web Semntica. Porto Alegre: Programa de Ps-Graduao em Computao, 2007. HERLOCKER, Jonathan Lee. Understanding and improving automated collaborative filtering systems. 2000. Tese de Doutorado. University of Minnesota. KIM, Byeong Man et al. A new approach for combining content-based and collaborative filters. Journal of Intelligent Information Systems, v. 27, n. 1, p. 79-91, 2006. LICHTNOW, Daniel et al. O uso de tcnicas de recomendao para apoio aprendizagem colaborativa. Revista Brasileira de Informtica na Educao. vol. 14, n.3, set. 2006. PAZZANI, Michael J.; BILLSUS, Daniel. Content-based recommendation systems. In: The adaptive web. Springer Berlin Heidelberg, 2007. p. 325-341. SALTON, Gerard; BUCKLEY, Christopher. Term Weighting Approaches in Automatic Text Retrieval. Information Processing & Management 24 (5), 513-523, 1988. VIEIRA, Felipe Jos Rocha; NUNES, Maria Augusta Silveira Netto. DICA: Sistema de Recomendao de Objetos de Aprendizagem Baseado em Contedo. Scientia Plena, v. 8, n. 5, 2012. ZAINA, L., BRESSAN, G., CARDIERI, M., RODRIGUES JNIOR, J.. e-LORS: Uma Abordagem para Recomendao de Objetos de Aprendizagem. Revista Brasileira de Informtica na Educao, 20, abr. 2012. Disponvel em: <http://www.brie.org/pub/index.php/rbie/article/view/1289>. Acesso em: 15 Mai. 2013.

Вам также может понравиться