Вы находитесь на странице: 1из 9

discorrer que a Classificao de Texto a tarefa de rotular ou atribuir a um texto categorias que representam um assunto definido anteriormente.

. Assim, uma das principais caractersticas da classificao de texto a necessidade da existncia de um conjunto das categorias que nortearo tal classificao. A tcnica de Anlise de Sentimentos uma forma de classificao de textos. Assim, tambm, est associada ideia de categorias (por exemplo, positiva, negativa, neutra) e busca, a partir de uma juno de algoritmos, desde tcnicas tradicionais para processamento de texto (Stemming, stopword) at algoritmos que possibilitam o treinamento a partir de um conjunto de dados, entender o valor sentimental de um determinado texto. Para realizar a tarefa de atribuir o valor sentimental de um documento, esse trabalho usa como estratgia a aplicao de tcnicas de classificao de texto. A Utilizao de classificao baseia-se na ideia de que textos com valor sentimental semelhante tenham contedos semelhantes e, ao descobrir como identificar um texto com um tipo de sentimento, possvel identificar textos semelhantes. Para auxiliar essa tarefa, foi escolhido a ferramenta RapidMiner. Entre os principais motivos da escolha esto o acervo de funcionalidades disponibilizadas e o ambiente fornecido para a manipulao dessas funcionalidades. Esse Artigo composto de duas partes: uma breve reviso literria sobre Anlise de Sentimentos e a descrio do uso da ferramenta RapidMiner na anlise de sentimentos de um conjunto de textos.

2. Anlise de Sentimentos
Segundo o dicionrio Houaiss (online), a etimologia da palavra sentimento expressa a faculdade de receber as impresses, sensao, conhecimento, fato de saber qualquer coisa; opinio. De certa forma, esse significado est relacionado com as indicaes da palavra sentimento apresentadas por Pang (2006), que so divididas em dois grupos: o primeiro relaciona a palavra a uma atitude, pensamento ou julgamento advindo de um sentimento, ou seja, uma predileo, a uma viso especfica ou a uma determinada noo, que seria uma espcie de parecer; e o segundo grupo, que pode indicar uma emoo, um sentimento refinado (sensibilidade delicada muitas vezes expressa na literatura), idealismo emocional, um sentimento romntico ou nostlgico beirando ao sentimentalismo. Para Pang (2006), o significado da palavra sentimento apresentado no primeiro grupo (atitude, julgamento e viso), foi o ponto que ele usou para concentrar seus trabalhos no que tange anlise de sentimentos. O trabalho desenvolvido nesse artigo tem como base o sentido de sentimento relacionado a opinio, assim, buscar-se- uma anlise de textos que tem um carter opinativo e no meramente expresses acerca de fatos. Por exemplo, a seguinte sentena Palmas capital do Tocantins expressa um fato, no um sentimento. J na sentena Palmas a melhor capital do Brasil, tem-se um opinio acerca da cidade de Palmas, valorada de forma positiva. Na anlise de um texto, necessrio considerar os elementos que o compe. Liu (2010, p. 4, 5) apresenta o conceito de objeto computacional e considera que tal objeto pode ser formalmente decomposto baseado na relao das suas partes: Objeto: um objeto O uma entidade que pode ser um produto, pessoa, evento, organizao, tpico etc. Este objeto associado a um par O: (T, A), onde T a
162 GONALVES, R., BRITO, P. F. Utilizao da Ferramenta RapidMiner no Processo de Anlise de Sentimentos. In: ENCONTRO DE COMPUTAO E INFORMTICA DO TOCANTINS, 14., 2012, Palmas. Anais... Palmas: CEULP/ULBRA, 2012. p. 162-171. Disponvel em http://ulbra-to.br/encoinfo/artigos/2012/Utilizacao_da_Ferramenta_RapidMiner_no_Processo_de_Analise_de Sentimentos .pdf.

hierarquia de componentes (partes), subcomponentes, e assim por diante, e o A o conjunto de atributos do objeto. Ento, um componente tem seu prprio conjunto de subcomponentes e atributos; Trecho de opinio sobre uma caracterstica: um trecho de texto referente a um parecer sobre uma caracterstica f de um objeto O avaliados em um documento d um grupo de sentenas seguidas que expressam uma opinio positiva ou negativa sobre f; Caracterstica explcita e implcita: se alguma caracterstica f ou algum de seus sinnimos aparecerem na sentena s, f chamada de caracterstica explcita. Se nem a caracterstica f e nenhum de seus sinnimos aparecem em s, mas f est implcito, ento f chamada de caracterstica implcita em s; Titular/autor da opinio: o titular/autor da opinio pode ser uma pessoa ou uma empresa que expressa suas opinies, tambm conhecido como fonte de opinio; Opinio: uma opinio sobre uma caracterstica f uma atitude, viso, emoo ou avaliao positiva ou negativa sobre uma caracterstica f expressa por um autor da opinio; Orientao da opinio: a orientao de uma opinio sobre uma caracterstica f indica o quanto essa opinio positiva, negativa ou neutra. A orientao da opinio tambm conhecida como orientao do sentimento, polaridade da opinio, ou orientao semntica. Liu (2012) fez uma sntese da sistematizao anterior, ao discorrer que uma opinio um sentimento, emoo e/ou ponto de vista sobre uma entidade ou uma caracterstica dessa entidade por um emissor. Mas, quando se trabalha com um texto, muitas vezes, a ideia que se tem segue um formato de rvore, ou seja, um n que representa uma entidade-pai (por exemplo, um canal de TV) est diretamente relacionado com suas entidades-filho (por exemplo, os programas daquele canal). Assim, a opinio dada sobre um determinado programa influenciar na orientao da opinio do canal de TV da qual ele faz parte. A direo da opinio concebida por Liu (2010, p.5), a partir da quntupla (ej, fjk, soijkl, hi, tl), onde: ej: Entidade que se trata a opinio fjk: Caracterstica da entidade soijkl: valor sentimental hj: Emissor da opinio tl: Momento em que a opinio foi expressada Assim, dado o exemplo de uma entidade sendo uma Rede de TV, podemos supor que a direo da opinio est relacionada prpria entidade e suas caractersticas (alcance /aberta ou por assinatura, programas, quadro de atores/atrizes). O valor sentimental a orientao da opinio e pode ser medido de forma direta, por exemplo, positivo, negativo ou neutro, ou em um dado intervalo entre positivo e negativo. J o autor da opinio, pode ser um escritor de blog, um usurio de uma rede social, autor de artigo,
GONALVES, R., BRITO, P. F. Utilizao da Ferramenta RapidMiner no Processo de Anlise de Sentimentos. In: ENCONTRO DE COMPUTAO E INFORMTICA DO TOCANTINS, 14., 2012, Palmas. Anais... Palmas: CEULP/ULBRA, 2012. p. 162-171. Disponvel em http://ulbra-to.br/encoinfo/artigos/2012/Utilizacao_da_Ferramenta_RapidMiner_no_Processo_de_Analise_de_Sentimentos.pdf. 163

que emitiu um parecer sobre a entidade em questo. Geralmente, trabalha-se com a ideia de vrias opinies para entender a tendncia do valor sentimental, mas pode acontecer de um determinado autor ter uma grande relevncia em um contexto e isso geralmente deve ser ponderado na avaliao do valor sentimental. E, por ltimo, o tempo na qual a opinio foi expressa, pois isso pode propiciar a atribuio de importncia sentena e a identificao da variao da opinio em um dado intervalo de tempo.

3. RapidMiner
O RapidMiner10 uma ferramenta open-source que fornece um ambiente visual para realizao de processos de data mining. Essa ferramenta disponibiliza um grande conjunto de funcionalidades, chamadas de operadores, que lhe d certa independncia em relao a outras ferramentas, e ainda conta com um conjunto de extenses que fornece uma maior amplitude no que tange a contextos de utilizao (por exemplo, para processamento web, para textos). A seguir so apresentados os operadores utilizados nesse Artigo, sendo que os cinco primeiros foram disponibilizados pela extenso de processamento de texto: Process Documents from files Tokenize Filter Stopword Filter Token (by Lenght) Stem X-Validation Svm (linear) Apply Model Performance

Com o objetivo de verificar a viabilidade da ferramenta, foi utilizado uma base de teste11 criada por Pang et al (2002). Essa base composta por uma srie de reviews de filmes, escritos em lngua inglesa. E em relao ao valor sentimental, h na base 1000 reviews de valor positivo e 1000 de valor negativo. Na Figura 1 so apresentados dois exemplos de arquivos:

10 http://rapid-i.com/content/view/181/190/ 11 Disponivel em: http://www.cs.cornell.edu/People/pabo/movie-review-data/


164 GONALVES, R., BRITO, P. F. Utilizao da Ferramenta RapidMiner no Processo de Anlise de Sentimentos. In: ENCONTRO DE COMPUTAO E INFORMTICA DO TOCANTINS, 14., 2012, Palmas. Anais... Palmas: CEULP/ULBRA, 2012. p. 162-171. Disponvel em http://ulbra-to.br/encoinfo/artigos/2012/Utilizacao_da_Ferramenta_RapidMiner_no_Processo_de_Analise_de Sentimentos .pdf.

Figura 1: Exemplos dos arquivos da base de teste, tendo um exemplo negativo (esquerda) e um negativo (direita)

Para a exemplificao do ambiente, tm-se trs processos: processamento e preparao dos textos, treinamento da ferramenta e testes dos resultados. 3.1. Processamento e Preparao de Textos A anlise de sentimento, por se tratar de uma forma de processamento de texto, requer que os objetos a serem trabalhados passem por uma preparao de seu contedo. Para esse primeiro processo, foi selecionado um conjunto de 925 arquivos de cada grupo. Para a realizao dessa etapa foi utilizado os operadores apresentados na Figura 2.

Figura 2: Pr-processamento de documentos.

O primeiro operador, chamado de Process documents from files, recebe como entrada uma coleo de arquivos, resultando em uma coleo processada de documentos, que armazenado pelo operador Write AML. O processamento interno do Process documents from files (que um operador composto) apresentado na Figura 3:

Figura 3: Processo de preparao de documentos

O operador Tokenize segmenta o documento em um conjunto de palavras, gerando os tokens que so necessrios nas etapas seguintes. O operador Filter Stopwords remove as palavras que so consideradas stopwords, isto , palavras sem nenhum valor para o processo, como preposies, artigos etc e, como os reviews esto em ingls, foi necessrio a lista de stopwords desse idioma, que disponibilizado pelo RapidMiner. Em seguida, aplica-se o operador Filter Tokens (by Length) que tem como funo eliminar as palavras que no estejam dentro de um determinado intervalo de tamanho, que nesse caso o menor tamanho 2 letras e o maior 50. E, por fim, aplicado o stemming (reduo ao radical da palavra) nos termos remanescentes. Para esse procedimento, a ferramenta utiliza o algoritmo de Porter, que baseado em uma srie de regras condicionais que so aplicadas em sequncia. Essas regras so dispostas em cinco passos relacionados com a remoo dos sufixos das palavras.
GONALVES, R., BRITO, P. F. Utilizao da Ferramenta RapidMiner no Processo de Anlise de Sentimentos. In: ENCONTRO DE COMPUTAO E INFORMTICA DO TOCANTINS, 14., 2012, Palmas. Anais... Palmas: CEULP/ULBRA, 2012. p. 162-171. Disponvel em http://ulbra-to.br/encoinfo/artigos/2012/Utilizacao_da_Ferramenta_RapidMiner_no_Processo_de_Analise_de_Sentimentos.pdf. 165

Como resultado dessa etapa, gerada uma representao do documento, que so os documentos processados. Essa representao composta pelos termos extrados desse processo e a relao com o documento em questo. A forma de representao utilizada para esse Trabalho a Binary Term Occurrence, que indica se o termo existe ou no no documento, conforme apresentado na Figura 4:

Figura 4: Representao dos documentos

Conforme pode ser observado na Figura 4, cada linha contm a representao de um documento. Essa representao composta de dois tipos de atributos: atributos especiais e atributos regulares. Nos atributos especiais esto armazenados o nome do arquivo (coluna metada_file) e o grupo que esse documento pertence (coluna label). Os demais atributos (regulares) indicam a presena ou no do termo no documento. No trabalho em questo, foram encontrados 24454 atributos regulares. 3.2. Treinamento da ferramenta O segundo processo, que utiliza como entrada o resultado do processo anterior, consiste em treinar a ferramenta para classificar documentos futuros em valores sentimentais positivos ou negativos. Para este trabalho, foi utilizado o algoritmo de SVM (Support Vector Machine), porque de conhecimento da equipe de pesquisa e pelo estudo dos relatos encontrados na literatura da rea, como pode ser visto nos trabalhos de Mullen e Collier (2004), Li e Wu (2010). Segundo Vapnik (1995) apud Kinto (2011, p.8), SVM um classificador linear que, usando um hiperplano, separa um conjunto de amostras positivas de um conjunto de amostras negativas. Geometricamente, esse mtodo pode ser visto como uma tentativa de busca da melhor superfcie 1, no conjunto de todas as superfcies 1, 2, ... n no espao r-dimensional que separa os exemplos de treinamentos positivos dos negativos (superfcie de deciso). Assim, tem-se que i separa os exemplos positivos dos negativos, buscando maximizar a distncia entre as superfcies limtrofes positivas e negativas.
166 GONALVES, R., BRITO, P. F. Utilizao da Ferramenta RapidMiner no Processo de Anlise de Sentimentos. In: ENCONTRO DE COMPUTAO E INFORMTICA DO TOCANTINS, 14., 2012, Palmas. Anais... Palmas: CEULP/ULBRA, 2012. p. 162-171. Disponvel em http://ulbra-to.br/encoinfo/artigos/2012/Utilizacao_da_Ferramenta_RapidMiner_no_Processo_de_Analise_de Sentimentos .pdf.

No RapidMiner, o processo de treinamento realizado por um operador, denominado SVM (Linear), que recebe um conjunto de dados rotulados, isto , a representao do documento e sua respectiva classe. Como forma de avaliar o resultado do treinamento, foi elabora o processo que est apresentado na Figura 5

Figura 5: Processo de treinamento e validao

O operador Validation realiza a tarefa de avaliar o treinamento, recebendo como entrada as representaes dos documentos atravs do operador Read AML e gravando a funo de classificao gerada atravs do operador Write Model. Internamente, o operador de validao foi configurado conforme a Figura 6.

Figura 6: Processo de treinamento

Conforme apresentado na Figura 6-A, tem-se a entrada dos dados de treinamento e, aps isso, aplicado o operador SVM (Linear), que fornece uma funo de classificao. A partir disso, na Figura 6-B, tem-se o envio da funo de classificao para a rea de Testing, em que avaliada sua preciso. Na rea de Testing so aplicados dois operadores: Apply SVM e Performance. O primeiro operador (Figura 6-C) classifica um elemento ou mais elementos de acordo com uma funo de classificao, sendo que para isso necessrio receber duas entradas: a funo de classificao e um conjunto de dados. Vale ressaltar que esse conjunto de dados o mesmo usado na etapa de treinamento, pois a partir disso que ser avaliada a eficincia da funo de classificao. O segundo operador da rea de Testing (Figura 6-D) tem como entrada o resultado da classificao, e a partir disso, avalia e gera os resultados do treinamento. Os resultados gerados so apresentados nas Figuras 7 e 8.

GONALVES, R., BRITO, P. F. Utilizao da Ferramenta RapidMiner no Processo de Anlise de Sentimentos. In: ENCONTRO DE COMPUTAO E INFORMTICA DO TOCANTINS, 14., 2012, Palmas. Anais... Palmas: CEULP/ULBRA, 2012. p. 162-171. Disponvel em http://ulbra-to.br/encoinfo/artigos/2012/Utilizacao_da_Ferramenta_RapidMiner_no_Processo_de_Analise_de_Sentimentos.pdf. 167

Figura 7: Accuracy, Precision e recall do treinamento.

Accuracy indica a taxa de acerto, isto , a relao de documentos classificados corretamente, para qualquer classe, em relao a todos os documentos existentes. Precision indica a taxa de preciso, isto , a relao de documentos classificados corretamente para uma classe em relao a todos os que foram classificados para essa classe. E recall indica a taxa de cobertura, isto , a relao de documentos classificados corretamente para uma classe em relao a todos os documentos que deveriam ser classificados para essa classe. De acordo com os resultados apresentados na Figura 7, percebe-se que o treinamento gerou uma funo que classifica a maioria dos documentos como sendo de valor sentimental negativo, o que gerou uma alta cobertura, mas com uma preciso mediana. Alm dos resultados apresentados na Figura 7, tambm disponibilizado o grfico de ROC (receiver operating characteristic), que apresentado na Figura 8.

Figura 8: Grfico da taxa de receiver operating characteristic

Esse grfico tem como objetivo mostrar a eficincia do classificador, tendo como base a relao entre os dados classificados corretamente para uma classe e os valores que so classificados incorretamente para essa classe. Uma curva mais acentuada indica melhor eficincia da funo classificadora.

168 GONALVES, R., BRITO, P. F. Utilizao da Ferramenta RapidMiner no Processo de Anlise de Sentimentos. In: ENCONTRO DE COMPUTAO E INFORMTICA DO TOCANTINS, 14., 2012, Palmas. Anais... Palmas: CEULP/ULBRA, 2012. p. 162-171. Disponvel em http://ulbra-to.br/encoinfo/artigos/2012/Utilizacao_da_Ferramenta_RapidMiner_no_Processo_de_Analise_de Sentimentos .pdf.

3.3. Teste dos resultados Para testar os resultados, foram utilizados os 150 documentos que no serviram como objetos de treinamento, sendo 75 de classificao positiva e 75 de classificao negativa. O processo de teste apresentado na Figura 9.

Figura 9: Aplicao da funo de classificao

Nesse processo, foi utilizado o mesmo tipo de operador da fase de treinamento, o Apply SVM. As entradas so do mesmo tipo e a funo de classificao utilizada a mesma que foi treinada no processo anterior, sendo carregada pelo operador Read Model. Em relao aos dados a serem classificados, o operador recebe uma coleo de documentos gerados pelo Process Documents from files, configura de forma semelhante ao apresentado na Figura 3. A diferena principal o fato de que os documentos processados nessa etapa no terem sido usados na fase de treinamento. Esse teste foi aplicado para cada grupo de reviews. Para os reviews de polaridade positiva 36 dos 75 foram classificados corretamente. E para os reviews negativos 40 dos 75 foram classificados corretamente.

4. Consideraes finais
O aprendizado da ferramenta RapidMiner foi facilitado pelo modelo de utilizao das funcionalidades, bem como pela documentao disponibilizada. Tambm foi verificado que os operadores disponibilizados atenderam as necessidades existentes para a aplicao do conceito de Anlise de Sentimentos. A funo de classificao SVM gerada apresentou um baixo valor de cobertura (recall) tanto para documentos de valor sentimental positivo, quanto para os negativos. Foi testado outro tipo de funo de classificao, uma funo SVM no linear. Essa nova funo teve performance semelhante funo utilizada, sendo apenas mais lenta na etapa de treinamento. Como o SVM trabalha com base nos termos extrados dos documentos, talvez um dos motivos da baixa performance seja a quantidade desses termos, o que gera a necessidade de treinar o SVM com um conjunto maior e menor de documentos para verificar se h melhora ou no. Tem-se, assim, como trabalho futuro o treinamento com um conjunto diferenciado de dados. Em relao aos trabalhos futuros, tambm pode-se estudar a viabilidade da aplicao da tcnica de Anlise de Sentimentos no RapidMiner em documentos na lngua portuguesa. Tendo como base que a questo do vocabulrio em uma dada lngua necessrio na etapa de preparao dos documentos, isso significa que a ferramenta
GONALVES, R., BRITO, P. F. Utilizao da Ferramenta RapidMiner no Processo de Anlise de Sentimentos. In: ENCONTRO DE COMPUTAO E INFORMTICA DO TOCANTINS, 14., 2012, Palmas. Anais... Palmas: CEULP/ULBRA, 2012. p. 162-171. Disponvel em http://ulbra-to.br/encoinfo/artigos/2012/Utilizacao_da_Ferramenta_RapidMiner_no_Processo_de_Analise_de_Sentimentos.pdf. 169

dever expandir seus operadores de processamento de texto. Isso pode ser possvel atravs de atualizaes da comunidade de desenvolvimento da ferramenta e/ou implementaes prprias.

5. Referncias Bibliogrficas
BORKO, Harold, BERNICK, Myrna. Automatic Document Classification. Journal of the ACM. V. 10, p. 151-162, 1963. JOACHIMS, Thorsten. Text Categorization with Support Vector Machine: Learning with Many Relevante Feauture. ECML '98 Proceedings of the 10th European Conference on Machine Learning, p. 137-142 KINTO, Eduardo Akira. Otimizao e anlise das mquinas de vetores de suporte aplicadas classificao de documentos. 2011. 145 p. LI, Na, WU, Desheng Dash. Using text mining and sentiment analysis for online forums hotspot detection and forecast. Decision Support Systems. p. 354-368. 2010. LIU, B. Sentiment Analysis and Subjectivity. In: INDURKHYA, N.; DAMERAU, F. J. (Eds.). Handbook of Natural Language Processing. Connecticut: Chapman and Hall/CRC. 2010. LIU, B. Sentiment Analysis and Opinion Mining. 2012. Morgan & Claypool Publishers. MULLEN, Tony, COLLIER, Nigel. Sentiment analysis using support vector machines with diverse information sources. In: Proceedings of EMNLP. p. 412-418. 2004. PANG, Bo. Automatic Analysis of Document Sentiment. 2006. 126 p. PANG, Bo, LEE, Lillian, VAITHYANATHAN, Shivakumar. Thumbs up? Sentiment Classification using Machine Learning Techniques. In: Proceeding of EMNLP. p. 79-86. 2002. SEBASTIANI, Fabrizio. Machine learning in automated text categorization. ACM Computing Surveys, p. 1-47, 2002.

170 GONALVES, R., BRITO, P. F. Utilizao da Ferramenta RapidMiner no Processo de Anlise de Sentimentos. In: ENCONTRO DE COMPUTAO E INFORMTICA DO TOCANTINS, 14., 2012, Palmas. Anais... Palmas: CEULP/ULBRA, 2012. p. 162-171. Disponvel em http://ulbra-to.br/encoinfo/artigos/2012/Utilizacao_da_Ferramenta_RapidMiner_no_Processo_de_Analise_de Sentimentos .pdf.

Вам также может понравиться