Академический Документы
Профессиональный Документы
Культура Документы
87
INTRODUO
Como coletar dados para uma investigao cientfica?A resposta a essa indagao fundamental em qualquer incurso metodolgica para definio de um desenho de pesquisa.
Para trilhar uma resposta a essa pergunta, comeamos afirmando que no h uma soluo
unvoca, pois isso depender do tipo de problema de pesquisa, ou seja, do que se quer saber. Um fsico pesquisando sobre dilatao do metais no precisar aplicar um survey, do
mesmo modo que um cientista poltico no precisar de um microscpio para pesquisar
sobre interaes sociais.
Deixando a caricatura de lado, podemos apontar aqui ao menos dois tipos de dados: os
observacionais e os de percepo. Os dados de percepo podem capturar informaes
como a compreenso que os indivduos tm sobre a realidade a partir dos conhecimentos
adquiridos pelos sentidos (viso, audio, tato, paladar) no cotidiano, ou seja, a percepo
uma construo relacional que pode ocorrer atravs de um relao face-to-face ou de
uma relao secundria. Assim, podemos entender como dados de percepo a opinio, as
crenas e informaes gerais sobre a experincia dos indivduos (HAIR JR. & Et. al., 2005;
SPECK, 2000).
A percepo dos indivduos sobre algo ou alguma coisa no pode ser observada diretamente, ou seja, dados de percepo no podem ser coletados via procedimento de observao
1 Doutorando em Cincia Poltica pela Universidade Federal de Minas Gerais (UFMG) e pesquisador do
Centro de Estudos Legislativo (CEL/UFMG). Mestrado em Sociologia e Graduao em Cincias Sociais pela
Universidade Federal de Alagoas (UFAL).
2 Doutorando em Cincia Poltica pela Universidade Federal de Minas Gerais (UFMG) e pesquisador do
Centro de Estudos Legislativos (CEL/UFMG). Possui Mestrado em Cincia Poltica pela Universidade Federal do Rio Grande do Sul (UFRGS) e Bacharelado em Cincia Sociais pela Universidade Federal de Santa
Maria (UFSM).
Revista Poltica Hoje - 2a Edio - Volume 24 - p. 87-101
89
direta. Assim, necessitamos de um arcabouo metodolgico especfico, a exemplo do survey, este mtodo tem sido largamente utilizado para identificar a percepo dos indivduos
sobre corrupo tanto em estudos de escala mundial ou escala regionais e locais, entre
essas pesquisas esto da Transparncia Internacional, do Latino-Barmetro, World Values
Survey (WVS).
A principal vantagem do survey ir onde a observao no consegue, ou seja, coleta caractersticas referentes ao que as concepes polticas, religiosas, como tambm percepes da
realidade se um dado local mais ou menos democrtico, mais ou menos liberal, mais ou
menos burocratizado, mais ou menos corrupto. Sua principal desvantagem que a percepo est sujeita ao tipo de treinamento que o pesquisador teve, como tambm a influncias
da mdia, inclusive como o indivduo entrevistado acordou (HAIR JR. & Et. al., 2005;
SPECK; 2000, BABBIE, 1999).
Enquanto que atravs de observaes sistemticas (de pessoas, de eventos ou fenmenos)
e muitas das vezes exaustivas, podendo ser coletados de forma humana, mecnica ou eletrnica, ou seja, os dados de observao podem ser coletados por pessoas em observao
atenta ao que outras pessoas e/ou grupos sociais fazem (no caso das cincias humanas),
podem tambm ser coletado de fontes secundrias como a busca por processos de improbidade administrativa na internet feita por pessoas, ou esses processos de improbidade
podem ser coletados de forma automatizada atravs de algoritmos, e nas trs perspectivas
no deixaram de ser dados observacionais (HAIR JR. & Et. al., 2005).
Esta observao pode fornecer tanto dados narrativos quanto numricos. No primeiro tipo
podem ser vdeos, fotografias, udios, registros escritos; no segundo, sero registros de
eventos realizados por observadores atentos ou por ferramenta de preciso (como algoritmos) que colete aes especficas como dados eleitorais e de perfil dos candidatos de uma
dada eleio, ou padro de consumo em supermercados virtuais, padres de interao em
redes sociais (twitter, facebook, instagram), noticias em jornais, etc.
Com o advento do desenvolvimento da tecnologia da informao milhes de contedo
informativo so produzidos a cada segundo, em sites, blogs, redes sociais. No entanto, o
problema que se coloca no horizonte dos cientistas como transformar esses contedos em
dados que possam ser transforma em conhecimento, em especial, conhecimento sobre os
indivduos, a sociedade, as instituies e as interaes sobre estes. nesse sentido que Baltar&Baltar (2013) coloca que um dos grandes desafios das Cincias Sociais ter condies
para coletar e armazenar os milhes de bytes que esto disponveis na era do zettabyte.
Por exemplo, no Brasil tem-se desenvolvido a cultura da transparncia pblica cada vez
mais informaes sobre o funcionamento do governo esto disponveis na internet; mas,
na maioria das vezes, estes dados no esto sistematizados ou, na pior das situaes, no
esto nem sequer disponveis para download direto, que o mais frequente.
certo que o menu de tcnicas de coletas de dados no est por inteiro contemplado neste
artigo, e nem o objetivo. Nosso objetivo tratar especificamente de automao de coleta de dados digitais, com o foco em WebScraping, que soluciona a coleta desses dados
disponibilizados em sites governamentais e ser abordado na prxima seo. A vantagem
principal deste mtodo, como ficar claro adiante, a reduo substancial do tempo de
coleta de dados, o que justamente o torna til para se trabalhar com a crescente massa de
informaes disponveis na internet: mensagens em redes sociais, artigos em indexadores
90
acadmicos, notcias, dados governamentais, listas de itens, servios de busca, entre outros.
Na seo posterior, exemplificaremos isto com a coleta de todas as proposies de projetos
de lei, projetos de lei complementar e propostas de emenda constitucional da Assembleia
Legislativa de Minas Gerais de 1990 a 2015.
2. WEB SCRAPING
Imaginemos o seguinte problema: queremos analisar o contedo das noticias de um jornal
online qualquer, como o The New York Times, por exemplo. Suponhamos que queremos
todas as pginas que tratam sobre corrupo, que so aproximadamente 100 mil. Para fazer
tal anlise, precisamos armazenar todas as informaes sistematicamente em um banco
de dados. Se fizermos isso manualmente, o procedimento : (1) abrir as 100 mil pginas
(j se vo cem mil clicks); (2) copiar todo contedo desejado, caso no haja nada para ser
separado (aqui j so, no mnimo, 100 mil CRTL+C); (3) colar este contedo no software
desejado, o que supe abrir cem mil vezes este software e pressionar CRTL+V 100 mil vezes; (4) por fim, temos que fechar as pginas abertas mais 100 mil vezes. Assim, ao trmino
da coleta temos feito 500 mil operaes, s para montar o banco de dados com o contedo
na ntegra, sem nenhum tratamento adicional.
Ento surge a pergunta: possvel automatizar esse procedimento para economizar tempo
de coleta e ganhar tempo para a anlise? A resposta sim, atravs de Web Scraping. Podemos compreender Web Scraping como um conjuntos de tcnicas para extrair dados da
Web, ou melhor, formas de raspar dados de pginas da internet (HADDAWAY, 2015; KUMAR, 2015; VARGIU & URRU, 2012). No entanto, para fins cientficos, nos limitamos aos
contedos disponveis aos usurios na exibio em HTML (HyperTextMarkupLanguage),
XML (ExtensibleMarkupLanguage) e API (ApplicationPragramming Interface). Nenhuma
das tcnicas facilmente encontrada para tal operao de coleta de dados captura informaes sigilosas dos sites.
Antes de continuar necessrio esclarecer as trs siglas acima. A linguagem HTML
no propriamente uma linguagem de programao, embora se tenha avanado nesse
sentido com o HTML5. Como prprio nome diz, uma linguagem de marcao, o que
est por trs do interface do web site que os usurios acessam cotidianamente, seja para ler
noticias, ver vdeos, ler e-mail e todas as outras tarefas possveis na internet. O HTML de
um site est acessvel para qualquer usurio no somente atravs da interface, mas tambm
o seu cdigo na integra: geralmente, basta abrir um site qualquer, clicar com boto direito
do mouse e clicar na opo exibir cdigo da pgina.
Quanto
ao
XML
, esta uma linguagem para criao de documento hierarquizado, por exemplo, um banco de dados. Seu uso muito comum, pois no precisa de plataforma de hardware ou de
software. Os feeds de noticias de sites e blogs so estruturados em XML; outra aplicao
comum so os portais de transparncia como o da Assembleia Legislativa de Minas Gerais,
que ser explorado na prxima seo.
API, no uma linguagem como as duas anteriores. um conjunto de instrues e padres de programao que combina linguagens de programao para
Revista Poltica Hoje - 2a Edio - Volume 24 - p. 87-101
91
acessar um aplicativo baseado em Web. Ou seja, uma ferramenta de acesso a determinados contedos do site. Por exemplo, com a API do facebook
voc pode coletar informaes sobre as postagem em uma pgina, ou informaes de usurios
(nome, sexo, idade, local, etc), fazer analises de redes por exemplo das postagens feitas no twitter
, pela API do desenvolvedor. importante destacar que a API uma ferramenta (porta de
entrada) criada pelo facebook, no segundo pelo twitter.
Para fazer a coleta automatizada por qualquer uma das linguagens ou API disponveis
necessrio criar um algoritmo em uma linguagem que leia as demais. De modo intuitivo,
podemos compreender algoritmo como um conjunto de passos para executar uma determinada tarefa, como sacar dinheiro em um banco, por exemplo:
INICIO
1 Ir instituio bancria;
2 Verificar se a quantia desejada pode ser sacada no terminal de auto-atendimento;
3 Se sim, direcionar-se a um terminal de auto atendimento; se no, ir para um caixa
de atendimento ao cliente para ser atendido por um funcionrio da instituio;
4 Estando no lugar apropriado para sacar a quantia, aguardar a vez na fila de espera;
5 Quando chegar a sua vez, apresentar-se;
6 Solicitar a quantia desejada;
7 Receber a quantia requerida (o saldo suficiente para tal);
8 Se o procedimento for feito com uma pessoa; se despesa; se no, no h necessidade;
9 Pode gastar o dinheiro;
10 Volte ao incio (se ainda houver saldo);
FIM
O exemplo acima uma sequncia de passos para sacar uma determinada quantia em
uma instituio bancria. Podemos pensar algoritmos para todas as nossas atividades do
cotidiano; obviamente, algumas so mais fceis e, outras, mais complexas. Automao de
modo geral identificar e aplicar um algoritmo para um problema especfico, e ns aqui
apresentamos na prxima seo duas automaes para coleta de dados.
As principais vantagens desses modos de coleta so: (1) uma abordagem no-invasiva, (2)
os indivduos observados no so influenciados por atividades relacionadas coleta de
dados e (3) evitar a tendenciosidade dos dados coletados. Ou seja, reunindo esses trs elementos, evitamos o vis da pesquisa tanto do pesquisador influenciar nas respostas e/ou
comportamento dos indivduos como o pesquisador ser contaminado por tipos extremos
narrados e/ou apresentados pelo observado (HAIR JR. & Et. al., 2005). Podemos tambm
afirmar que este procedimento tambm (4) evita erros de imputao e (5) aumenta o potencial de replicabilidade de um estudo. Tudo isto garante que o resultado seja o mais fiel
possvel dos dados disponveis e cria condies importantes para replicabilidade, que
uma caracterstica desejvel em um trabalho cientifico (KING, 1995).
92
93
94
95
96
97
98
99
No exemplo apresentado, foi possvel resolver uma srie de problema de coleta. Para cada
site ser uma soluo diferente, e aqui apresentamos os dois caminhos dentre uma grande
diversidade disponvel, tanto gratuito quanto comercial. A soluo apresentada possibilitou coletar 25.418 observaes (linhas) e 9 variveis (colunas) em 2h, ou seja, se fossemos copiar e colar seria necessrio pelo menos repetir o procedimento 2.287.762 vezes.
importante destacar que os interessados em aprofundar na tcnica apresentada aqui deve
iniciar os estudo de introduo ao HTML, XML e ao R.
100
REFERNCIAS
BABBIE, Earl. (1999), Mtodos de pesquisas desurvey. Ed. da UFMG.
BALTAR, Ronaldo, and BALTAR, Cludia S. (2013), As Cincias Sociais na Era do Zettabyte. Mediaes-Revista de Cincias Sociais 18.1 p.11-19.
HADDAWAY, Neal R. (2015), The Use of Web-scraping Software in Searching for GreyLiterature. GreyJournal (TGJ) 11.3.
HAIR JR., J. F.; BABIN, B.; MONEY, A. H.; & SAMOUEL, P. (2005), Fundamentos de mtodo de pesquisa em administrao. Porto Alegre: Bookman.
KING, Gary. (1995), Replication, replication. PS: Political Science &Politics 28.03, p. 444452.
KUMAR, ShyamNandan. (2015), World towardsAdvance Web Mining: A Review. American Journalof Systems and Software 3.2, p. 44-61.
SPECK, B. (2000), Mensurando a Corrupo: uma reviso de dados proveniente de pesquisas empricas. Cadernos Adenauer. ISSN 1519-0951.
VARGIU, Eloisa, and URRU, Mirko. (2012), Exploiting web scraping in a collaborativefiltering-based approach to web advertising. Artificial IntelligenceResearch 2.1, p.44.
101