Вы находитесь на странице: 1из 3

GETWEETS: FERRAMENTA PARA EXTRAO DE POSTAGENS NO TWITTER

Cleyton Vanut Cordeiro de Magalhes1, Ronnie Edson de Souza Santos2 e Jorge da Silva Correia Neto3

Introduo
Recentemente, as redes sociais virtuais obtiveram grande notoriedade devido popularizao de sites que se encaixam neste conceito, como o Orkut, Facebook, e Twitter. A proliferao das mdias sociais proporciona um cenrio caracterizado pela potencializao da circulao de informao, provendo assim, um ambiente para organizao e compartilhamento de conhecimento. Estes ambientes conquistaram ao longo dos ltimos anos um espao fiel na vida das pessoas, atendendo aos mais diferenciados assuntos e gostos. Os diversos tipos de mdias sociais fornecem uma oportunidade para conhecer as preferncias, avaliaes, sentimentos e opinies de um grande nmero de usurios sobre contedos, produtos, servios, entidades e at pessoas [1]. Dessa forma, pode-se destacar o interesse de muitas empresas em recorrer s redes sociais em busca de bases de informao relevantes que as auxiliem no processo de tomada de deciso. Assim, estas empresas investem na construo de data warehouses que buscam organizar os dados corporativos da melhor maneira, fornecendo informaes aos gerentes e diretores para decises de nvel ttico-estratgicas [2]. Neste cenrio em que as mdias sociais vm sendo utilizadas de forma cada vez mais estratgica, as organizaes capazes de obter um alto grau de engajamento nestas mdias so consideradas como inovadoras e focadas em seu pblico alvo [3]. Assim, estas empresas tem voltado seu interesse para estas redes. Dentre as aplicaes de microblogging, o Twitter um dos mais utilizados, com aproximadamente 200 milhes de usurios no mundo, mais de 65 milhes no Brasil [4], e as empresas buscam utilizar este servio para obter o mximo de informaes que possam ser relevantes na otimizao de seus servios. Desta forma, com a grande quantidade de informao disponvel nas redes sociais, o processo de extrao vem sendo amplamente utilizadas em diversas reas, incluindo cincias sociais, comportamentais, economia e marketing [5]. Entretanto, apesar da disponibilidade destas informaes, o processo de encontr-las e extra-las ainda encontra-se defasado, sendo realizado muitas vezes de forma manual. O Twitter, apesar de ser uma das redes mais utilizadas, uma das redes em que extrair informaes

ainda bastante complicado, pelo fato de seu contedo ser bastante dinmico, pois atualizado constantemente por seus usurios, tornando assim, as informaes bastante volteis. Assim, com o intuito de aprimorar o processo de extrao de informaes em mdias sociais, especificamente no Twitter, este artigo descreve uma ferramenta, o Getweets, desenvolvida pelos autores, capaz de extrair e armazenar informaes contidas nesta rede para uso posterior em diversas situaes.

Material e mtodos
Esta pesquisa foi realizada baseando-se em uma abordagem de carter exploratrio-descritivo utilizando um estudo de caso. O estudo exploratrio definido como uma pesquisa que tem por objetivo proporcionar maior familiaridade com um problema, a fim de tornlo mais explcito, principalmente ao tratar-se de um tema pouco investigado ou que no tenha sido abordado anteriormente [6]. O estudo de caso uma inquirio emprica que investiga um fenmeno contemporneo, quando a fronteira entre o fenmeno e o contexto no claramente evidente e onde mltiplas fontes de evidncia so utilizadas [7]. Para o desenvolvimento da aplicao, foi utilizada a linguagem de programao Java e a biblioteca Twitter4J, que possibilita a integrao da linguagem com o Twitter, encapsulando as funcionalidades do Twitter e fornecendo-as atravs da sua API, a qual permite escrever cdigos apenas em Java, sem a necessidade de tratar solicitaes e respostas do Twitter. Alm disso, a API conta com o suporte OAuth, que se trata de um protocolo de autenticao que possibilita que os dados de determinada conta possam sem acessados sem necessidade de informar senha, facilitando assim, o desenvolvimento de aplicaes [8]. Para a realizao do estudo, a ferramenta desenvolvida foi utilizada para extrao e armazenamento dos dados de trs perfis de empresas de comrcio eletrnico cadastradas no Twitter. Os tweets (mensagens postadas no Twitter) enviados por usurios que citavam alguma das trs empresas foram salvos pela aplicao, para que posteriormente pudessem ser analisadas atravs de uma ferramenta de data warehouse, visando fazer uma anlise sobre a reputao destas empresas na mdia social Twitter. A

________________ 1, 2 Graduando do Curso de Sistemas de Informao da Universidade Federal Rural de Pernambuco - UFRPE, Unidade Acadmica de Serra Talhada UAST. E-mail: (cleyton.vanut , ronnie.gd) @gmail.com 3 Professor Assistente da Unidade Acadmica de Educao a Distncia e Tecnologia. Universidade Federal Rural de Pernambuco (UFRPE), Recife. E-mail: jorgecorreianeto@gmail.com

mesma pesquisa foi realizada manualmente, salvando os tweets que citavam as empresas atravs do mecanismo de busca oferecido pela prpria rede social utilizando como palavra-chave o nickname da empresa, como por exemplo: @nomedaempresa.

Resultados
Esta pesquisa resultou em uma ferramenta capaz de extrair os tweets de determinado perfil do Twitter e armazen-los em um banco de dados relacional. Assim, atravs desta aplicao foram salvas as mensagens que citavam o perfil de alguma das trs empresas de comrcio eletrnico no Twitter, visando a posterior anlise da reputao das empresas atravs de uma ferramenta de data warehouse. A aplicao desenvolvida dispe de uma interface grfica simples composta de duas abas: uma para cadastro dos perfis do que se deseja obter nas mensagens, e uma para visualizao das postagens dos perfis cadastrados. A aba de cadastro (figura 1) permite que as mensagens de determinado perfil sejam descarregadas atravs da funo descarregar, tambm presente nesta aba. Para realizar o cadastro do perfil necessrio utilizar um @ antes do nickname do usurio. Nesta aba tambm possvel visualizar dados referentes conta cadastrada, como nmero de seguidores, bem como o nmero de perfis que est seguindo. Dados como o nickname, nome e descrio do perfil tambm podem ser visualizados. A aba de visualizao (figura 2) possibilita que o usurio visualize postagens que esto circulando na rede em tempo real e tambm permite que todos os dados armazenados no banco sejam apresentados na tela. Assim, esta ferramenta foi utilizada em um estudo de caso para o processo de extrao e armazenagem das postagens que citavam trs perfis de empresas de comrcio eletrnico. Os dados adquiridos atravs da aplicao foram comparados com os resultados de uma busca realizada manualmente no mecanismo oferecido pela prpria rede (figura 3).

que apesar do grande nmero de benefcios, possui em determinadas situaes, acesso limitado aos dados. A ferramenta desenvolvida cumpre com o propsito definido no sentido de obteno e armazenamento das postagens, o que um ponto importante, devido ao dinamismo presente no Twitter, que pode acarretar na indisponibilidade dos dados aps determinado tempo. Sendo assim, a ferramenta desenvolvida possui como vantagem a velocidade para extrao dos dados, porm, em alguns casos perde em nmero de postagens salvas para a abordagem de extrao manual. Outra vantagem da ferramenta o fato desta extrair alm dos tweets, outros dados referentes aos perfis, como descrio, nmero de seguidores, nmero de perfis que a conta est seguindo, entre outros. Alm disso, o processo de visualizao de postagens que ainda no foram salvas no banco de dados, utilizando a ferramenta bem mais rpido do que utilizando um navegador web, pelo fato da ferramenta extrair apenas dados textuais, evitando assim o carregamento de imagens e outros dados que possam vir a atrasar o processo. Pretende-se como trabalho futuro, implementar um mecanismo que possibilite que a ferramenta seja capaz de realizar extraes programadas em intervalos de tempo determinados pelo usurio, visando evitar a perda de postagens, otimizando assim o processo.

Referncias
[1] CHEN, H; ZIMBRA, D. AI and Opinion Mining. IEEE Computer Society. 2010. LILLIE, R.D. 1965. Histopathologic Technic and Practical Histochemistry. New York, McGrawHill Book Company. 751p. SALES, F. S.; SILVA, J. D. D. F&D OLAP: Uma Ferramenta OLAP web com Gerenciamento de Metadados em xml. Universidade Catlica do Salvador, 2007. ROSA, R; RUSSEL, R. O Desafio das Organizaes nas Redes Sociais: Um olhar no Twitter da Natura, da Vivo e do Submarino. V ABRAPCORP: Redes Sociais, Comunicao, Organizao. So Paulo, 2011. G1. Usurios do Twitter enviam 200 milhes de tuites por dia. Acesso em 17 set. 2011. Disponvel em: http://g1.globo.com/tecnologia/noticia/2011/07/usuarios-doTwitter-enviam-200-milhoes-de-tuites-por-dia.html. Wasserman, S. e Faust, K. (1994) Social network analysis: methods and applications, vol. 8 of Structural analysis in the social sciences. Cambridge Univ. Press, Cambridge. LUCIANO, E. M.; TESTA M. G.; ROHDE L. R. Gesto de Servios de Tecnologia da Informao: Identificando a Percepo de Benefcios e Dificuldades para a sua Adoo. Anais do XXI EnANPAD, Anais... Rio de Janeiro, RJ. 2007. YIN, Robert K.. Case Study Research - Design and Methods. Sage Publications Inc., USA, 1989. Twitter4J. A Java API for Twitter library. Disponvel em http://twitter4j.org/en/index.html. Acesso em 14 set. 2011.

[2]

[3]

[4]

Discusso
O resultado da utilizao da ferramenta se mostrou superior extrao manual dos dados realizada atravs da busca site. O tempo para realizao da extrao dos dados na ferramenta bem menor, tornando assim, o processo de extrao mais eficaz. Como dificuldades encontradas no desenvolvimento podem ser citadas as restries da biblioteca Twitter4J,

[5]

[6]

[7] [8]

Figura 1. Tela de cadastro da aplicao.

Figura 2.

Tela de visualizao da aplicao.

Figura 3. Exemplo de busca realizada pelo mecanismo de busca oferecido pelo Twitter.

Вам также может понравиться