Академический Документы
Профессиональный Документы
Культура Документы
antes...
agora...
A lot of times, people dont know what they want until you show it to them. Steve Jobs
We are leaving the Information age, and entering into the Recommendation age. Chris Anderson, from book Long Tail
O que recomendar
Amigos
Compre este..
Famlia
Recomendaes sociais
Avalie itens
Sistema
Compre este..
Sistemas de recomendao
Os sistemas de recomendao surgiram para auxiliar no processo social de indicar e receber indicaes
Motivao
Netflix
Google News
Amazon
Estratgias de Recomendao
listas de recomendao
listas de recomendao
Vantagens/Desvantagens
Principal vantagem a facilidade de implementao., basta manter-se listas de acordo com as necessidades de marketing, de aumento de lucratividade, de disseminao de informaes, etc. A desvantagem que as recomendaes no so dirigidas a cada usurio independentemente, mas sim a todos os usurios sem distino, ou seja ao pblico em geral, no sendo personalizadas para um usurio especfico.
Avaliaes de usurios
Avaliaes de usurios
Suas recomendaes
Suas recomendaes
Implcita Explcita
a forma mais complexa de recomendao, pois ela exige uma anlise bastante profunda dos hbitos dos usurios, de modo que possa identificar padres e recomendar itens com base nestes padres (Reategui e Cazella, 2005).
Reategui e Cazella (2005), definem que, nesta estratgia, a recomendao feita com base no contedo de um item em especfico, por exemplo um autor, um compositor, um editor, etc. Para tal, se faz necessrio encontrar associaes entre os itens, porm estas esto num escopo mais restrito.
Estratgias de Recomendao
listas de recomendao
listas de recomendao
Vantagens/Desvantagens
Principal vantagem a facilidade de implementao., basta manter-se listas de acordo com as necessidades de marketing, de aumento de lucratividade, de disseminao de informaes, etc. A desvantagem que as recomendaes no so dirigidas a cada usurio independentemente, mas sim a todos os usurios sem distino, ou seja ao pblico em geral, no sendo personalizadas para um usurio especfico.
Avaliaes de usurios
Avaliaes de usurios
Suas recomendaes
Suas recomendaes
Implcita Explcita
a forma mais complexa de recomendao, pois ela exige uma anlise bastante profunda dos hbitos dos usurios, de modo que possa identificar padres e recomendar itens com base nestes padres (Reategui e Cazella, 2005).
Reategui e Cazella (2005), definem que, nesta estratgia, a recomendao feita com base no contedo de um item em especfico, por exemplo um autor, um compositor, um editor, etc. Para tal, se faz necessrio encontrar associaes entre os itens, porm estas esto num escopo mais restrito.
Tcnicas de Recomendao
Colaborativos Baseados em contedo Hbridos Segundo Reategui e Cazella (2005), so estas tcnicas fundamentam o funcionamento dos sistemas de recomendao.
Colaborativos
A essncia est na troca de experincias entre as pessoas que possuem interesses comuns. Filtra as avaliaes dos usurios. Recomenda itens para usurios com perfis semelhantes.
Colaborativos
Usurio Antnio Jssica Marcos Juliana Paulo Rosana x x x x x x Tablet x Desktop Smartphone x x x x x x Notebook Ultrabook Celular
Colaborativos
Passos Armazenamento das informaes dos usurios. Clculo de semelhana entre os usurios. Agrupamento de usurios com preferncias semelhantes. Predio da pontuao de um item para o usurio baseado nas avaliaes dos usurios mais semelhantes a ele
Colaborativos
Colaborativos Similaridade
Distncia euclidiana
Colaborativos Similaridade
Funo do Cosseno
Colaborativos Similaridade
Funo do Cosseno
Colaborativos Similaridade
Predizer da pontuao de um item
Mais formalmente, a pontuao R(u,i) do item i para o usurio u estimada baseada na pontuao R(u,i) atribuda ao mesmo item i pelos usurios u que so similares ao usurio em questo. O valor de uma pontuao desconhecida ru,i para o usurio u e item i normalmente computado como uma agregao de pontuaes de outros usurios (por exemplo, os N mais similares) para o mesmo item i.
Colaborativos Similaridade
Exemplo:
Supondo a existncia de um sistema de recomendao de leituras onde os usurios tem acesso aos livros e podem avali-los quanto a satisfao. Para este feedback uma escala Likert de 5 pontos disponibilizada (5 significa adorei e 1 significa detestei o item). Uma matriz de relao usurios x itens pode ser disponibilizada.
Colaborativos Similaridade
Esta matriz nos apresenta a relao usurio x item, onde 5 usurios pontuaram 5 itens (A, B, C, D e E). A esparcialidade desta matriz seria de 8%, ou seja, apenas 8% das avaliaes possveis no foram feitas. Estes itens no avaliados so potenciais recomendaes.
Colaborativos Similaridade
Primeiro Passo
Calcula-se o peso em relao a similaridade do usurio-alvo:. Para tanto utiliza-se uma tcnica denominada de k-nearest-neighbor ou userbased. A definio da similaridade pode ser realizada atravs de diversos coeficientes, sendo mais comumente aplicado o coeficiente de correlao de Pearson. Observa-se a necessidade de mais de uma avaliao em comum para que a correlao seja vivel, e os resultados variam entre 1 para similaridade total, e -1 para total dissimilaridade.
Colaborativos
Coeficiente de Pearson
Similaridade
Mdia das avaliaes de a em comum com u Mdia das avaliaes de u em comum com a Avaliao que a deu para o item i Avaliao que u deu para o item i Alta similaridade = Mdia similaridade Nada pode ser dito Nada pode ser dito
Colaborativos
Segundo Passo
Seleciona-se um subconjunto de usurios com maiores similaridades : Baseado no resultado do coeficiente de Pearson definido este subconjunto (com foco no usurio alvo da recomendao U1).
Colaborativos
Segundo Passo
Calculam-se as predies (Recomendaes): tendo um item a ser recomendado para um usurio alvo (item que este usurio no teve acesso). No exemplo o objetivo predizer quanto o usurio U1 daria de avaliao para o item B se tivesse acesso a ele.
Colaborativos
Clculo da predio: assumindo U1 = a como usurio alvo e B o item a ser predito
?
Nota da predio de um item i para um usurio a (considera a partir de 3 pontos) Mdia das avaliaes do usurio-alvo a considerando os artigos em comum com todos os seus similares. Mdia das avaliaes do usurio similar u considerando artigos em comum com o usurio-alvo a. Coeficiente de similaridade entre a e u. Avaliao dada por u ao item i.
Colaborativos Vantagens
Independncia de contedo Gerao de recomendaes baseadas em preferncias dos usurios Possibilidade de produzir recomendaes inesperadas e de alta qualidade.
Colaborativos Desvantagens
Problema do primeiro avaliador Problema de pontuaes esparsas Similaridade Novo item/usurio Custo de processamento (Escalabilidade)
Baseados em contedo
Analisam as descries de itens e de usurios. Podem recomendar itens parecidos com outros itens que o usurio teve interesse no passado. til para produtos que contenham alguma informao textual.
Modelo booleano
Se baseia na teoria de conjuntos e na lgebra booleana Documentos (D) so representados como conjuntos de termos de indexao As consultas (Q) so formuladas atravs de expresses booleanas formadas por termos e conectivos de boole (and, or e not)
Modelo booleano
Expresso booleana (modelos andbooleanos) or conjuntos
Modelo booleano
Um documento s pode ser dito como relevante ou norelevante H a necessidade de especificao de consultas complexas incapaz de se representar pesos associados aos termos desejados
Clculo de similaridade
Clculo de Similaridade
tf*idf tf: frequncia do termo no documento idf: frequncia inversa do documento
Modelo Probabilstico
Baseado na teoria das probabilidades como meio para modelar o processo de recuperao de informao. A similaridade calculada pela probabilidade de tal documento (D) ser relevante a tal consulta (Q), caso os termos (t) da consulta apaream no documento
Modelo Probabilstico
Presume-se que a distribuio dos termos, nos documentos da coleo, uma informao que capaz de determinar a relevncia ou no de um documento em responder a uma dada consulta. Quando vetores de documentos e consultas (termos envolvidos em ambas) so suficientemente similares, a probabilidade de relevncia correspondente alta o suficiente, para ser considerada a recuperao do documento em resposta consulta
Modelo Probabilstico
Cada documento representado por um vetor de termos, porm este difere do modelo de espao vetorial apresentado na seo anterior pois no h um peso atrelado a cada termo mas sim um valor binrio.
Modelo Probabilstico
probabilidade de um documento que possui o termo de indexao ser relevante probabilidade de um documento que no possui o termo de indexao no ser relevante probabilidade de um documento que possui o termo de indexao no ser relevante probabilidade de um documento que no possui o termo de indexao ser relevante
Modelo Probabilstico
Um documento dj relevante a uma consulta q quando:
Assim, dada uma consulta q, o modelo probabilstico atribui a cada documento d (como medida de similaridade) um peso Wd/q
Modelo Probabilstico
Aplicando a regra de Bayes:
probabilidade de se selecionar aleatoriamente um documento dj do conjunto de documentos relevantes probabilidade de se selecionar um documento dj do conjunto de documentos no-relevantes probabilidade que um documento selecionado aleatoriamente de uma coleo inteira seja relevante probabilidade que um documento selecionado aleatoriamente de uma coleo inteira no seja relevante
Modelo Probabilstico
Considerando que P(Rel) e P(Rel) inicialmente a mesma para todo documento da coleo tem-se:
Modelo Probabilstico
Sabendo-se que aps transformaes algbricas pode-se escrever
Modelo Probabilstico
1 P(ti|Rel) constante para todo termo de indexao ki e igual a 0,5 (50% de possibilidade de ser ou no relevante); P(ti|Rel) = 0,5 2 a distribuio dos termos de indexao entre os documentos norelevantes pode ser aproximada da distribuio dos termos de indexao entre os todos documentos da coleo; P(ti|Rel) = ni / N
ni o nmero de documentos que contm o termo de indexao N o nmero total de documentos da coleo
Necessidade da suposio da separao inicial dos documentos nos conjuntos relevantes ou no-relevantes No leva em conta a frequncia com que um termo de indexao ocorre no documento (somente considera pesos binrios) Adoo da suposio da independncia dos termos
fi a frequncia do termo i n a quantidade total de itens ni a quantidade de itens que possuem o termo i.
No possui o problema do primeiro avaliador Possui capacidade de recomendar todos os itens Aplica esquema de atribuio de pesos aos termos Utiliza estratgia de casamento parcial Documentos so ordenados de acordo com o grau de similaridade
No considera aspectos como qualidade do texto e renome do autor Super especializao Contedo dos dados pouco estruturados No considerar a correlao entre os termos de indexao
Hbrido
implementando ambos mtodos separadamente e combinando os resultados incorporando algumas caractersticas da abordagem baseada em contedos na a abordagem colaborativa construindo um modelo unificado que incorpora as caractersticas de ambos
Hbrido
Minerao de textos
Processo de Extrao
Organizao e Clculos, inferncias estruturao para busca e extrao de conhecimento Recuperao da informao Minerao de dados
Pr-processamento
Tokenizao Normalizao StopWords Stemming
Tokenizao
Normalizao
1 - Case Folding : processo de converso de todos os caracteres de um mesmo documento para um formato comum.
Silla e Kaestner (2002) Exemplo: Objeto, oBjEtO, OBjEtO, oBEJTO = OBJETO ou objeto
Normalizao
Normalizao
Aps:
w = [video, com, a, definicao, de, funcao, afim]
StopWords
Remoo de palavras que no tenham relevncia o, a, seus, ela, e, com, de Antes:
w = [video, com, a, definicao, de, funcao, afim]
Este considerado o mtodo mais simples, pois consiste na eliminao de apenas alguns finais de palavras. Geralmente remove somente sufixos que formam o plural.
mtodo do stemmer S
Identifica de diferentes inflexes referentes mesma palavra e sua substituio por um radical comum. Reduz do plural, troca de sufixos, retira de sufixos, remove de sufixos padres e remove vogal e ao final da palavra
mtodo de Porter
Seu algoritmo remove apenas um sufixo por palavra, retirando o sufixo mais longo conectado mesma
mtodo de Lovins
Indexao
mapear os termos de um documento em uma estrutura de dados especfica chamada de ndice
Amazonas et al. (2008)
Indexao
ndice Invertido
Indexao
ndice Sequencial
Minerao
A minerao de dados um processo de identicao de padres vlidos, novos, potencialmente teis e compreensveis disponveis nos dados. O principal objetivo desta etapa a descoberta de co-relacionamentos entre os dados e seus documentos.
(Morais e Ambrosio, 2007)
Dvidas?
Fontes
BONFIM, Marcello Erick. RECUPERAO DE DOCUMENTOS TEXTO USANDO MODELOS PROBABILISTICOS ESTENDIDOS. Iniciao Cientfica Cesumar, v. 11, n. 2, 2009. LOPES, Rafael Barbolo. sistemas de recomendao <http://www.slideshare.net/barbolo/sistemas-de-recomendacao> Gois, Adriana; Berg, Anderson; Teixeira, Joyce V. . Sistemas de recomendao < http://www.slideshare.net/berg_pe/sistemas-de-recomendao-9889295> Cazella, . Slvio Csar . SISTEMAS DE RECOMENDAO. < http://www.nuted.ufrgs.br/compoa_2012_1/SRFColaborativa.pdf> MORAIS, Edison Andrade Martins; AMBRSIO, Ana Paula L. Minerao de Textos. Relatrio TcnicoInstituto de Informtica (UFG), 2007. GERALDO, Andr Pinto. Aplicando algoritmos de minerao de regras de associao para recuperao de informaes multilngues. 2009. BAEZA-YATES e RIBEIRO-NETO apud LOPES, Giseli Rabello - Sistema de Recomendao para Bibliotecas Digitais sob a Perspectiva da Web Semntica. Porto Alegre: Programa de Ps-Graduao em Computao, 2007. BASU, Chumki et al. Recommendation as classification: Using social and content-based information in recommendation. In: AAAI/IAAI. 1998. p. 714-720. BRADLEY, Keith; SMYTH, Barry. Improving recommendation diversity. In:Proceedings of the Twelfth National Conference in Artificial Intelligence and Cognitive Science (AICS- 01). 2001. GOLDBERG et.al. apud HERLOCKER, Jonathan Lee. Understanding and improving automated collaborative filtering systems. 2000. Tese de Doutorado. University of Minnesota.
Fontes
FERREIRA, Vinicius Hartmann. Sistema de Recomendao de Objetos de Aprendizagem. TCC (graduao em Cincia da Computao) - Universidade do Vale do Itaja, Itaja, 2009. Disponvel em : <http://Siaibib01.univali.br/pdf/Vinicius Hartmann Ferreira.pdf>. LOPES, Giseli Rabello - Sistema de Recomendao para Bibliotecas Digitais sob a Perspectiva da Web Semntica. Porto Alegre: Programa de Ps-Graduao em Computao, 2007. HERLOCKER, Jonathan Lee. Understanding and improving automated collaborative filtering systems. 2000. Tese de Doutorado. University of Minnesota. KIM, Byeong Man et al. A new approach for combining content-based and collaborative filters. Journal of Intelligent Information Systems, v. 27, n. 1, p. 79-91, 2006. LICHTNOW, Daniel et al. O uso de tcnicas de recomendao para apoio aprendizagem colaborativa. Revista Brasileira de Informtica na Educao. vol. 14, n.3, set. 2006. PAZZANI, Michael J.; BILLSUS, Daniel. Content-based recommendation systems. In: The adaptive web. Springer Berlin Heidelberg, 2007. p. 325-341. SALTON, Gerard; BUCKLEY, Christopher. Term Weighting Approaches in Automatic Text Retrieval. Information Processing & Management 24 (5), 513-523, 1988. VIEIRA, Felipe Jos Rocha; NUNES, Maria Augusta Silveira Netto. DICA: Sistema de Recomendao de Objetos de Aprendizagem Baseado em Contedo. Scientia Plena, v. 8, n. 5, 2012. ZAINA, L., BRESSAN, G., CARDIERI, M., RODRIGUES JNIOR, J.. e-LORS: Uma Abordagem para Recomendao de Objetos de Aprendizagem. Revista Brasileira de Informtica na Educao, 20, abr. 2012. Disponvel em: <http://www.brie.org/pub/index.php/rbie/article/view/1289>. Acesso em: 15 Mai. 2013.