Вы находитесь на странице: 1из 18

Recuperao de informaes na Web

Recuperao de informaes na Web

Regina Meyer Branski


Pesquisadora do Instituto de Economia da Universidade Estadual de
Campinas. Doutoranda em Engenharia da Produo - Escola
Politcnica da Universidade de So Paulo. e-mail:
branski@obelix.unicamp.br

Existem na Web milhares de pginas cobrindo os mais variados assuntos


e interesses. Localizar estas informaes no tarefa simples. As ferramentas
de busca so instrumentos fundamentais para auxiliar nesta tarefa. Pretendese mostrar as diferenas nas formas de operao das diversas ferramentas de
busca atualmente existentes na Web e como suas peculiaridades podem afetar
os resultados de uma pesquisa. Conhecendo suas caractersticas e modo de
funcionamento possvel extrair todo o potencial de cada ferramenta e localizar
as informaes desejadas mais eficientemente. Discute a Web oculta, grande
volume de informao que no indexado pelos mecanismos de busca
tradicionais.

70

Palavras-chave: Internet; Web; Mecanismos de busca; Ferramentas de


busca; Buscadores; Programas de busca; Catlogos; Diretrios;
Metapesquisadores; Web oculta
Recebido em 22.09.2003
Aceito em 28.10.2003

Perspect. cienc. inf., Belo Horizonte, v. 9, n. 1, p. 70-87, jan./jun. 2004

Regina Meyer Branski

Introduo
A recuperao de informaes em banco de dados um assunto
bastante discutido pelos profissionais da cincia da informao. O advento da
Internet tornou esta questo ainda mais premente. A difuso de seu uso ampliou
a necessidade de acessar, de forma rpida e precisa, informaes armazenadas
em banco de dados gigantescos.
A Internet um conjunto de inmeras redes de computadores,
conectadas entre si, que permite a comunicao, partilha de informaes,
programas e equipamentos entre seus usurios. Constitui a infra-estrutura
sobre a qual trafegam grande volume de informaes e outros servios.
A Internet teve origem em uma rede, a Arpanet, criada pelo
Departamento de Defesa dos Estados Unidos no inicio dos anos 70,
interligando vrios centros militares e de pesquisa com objetivos de defesa, na
poca da Guerra Fria. A tecnologia desenvolvida permitia a comunicao entre
diferentes sistemas de computao, o que possibilitou a incorporao de outras
redes experimentais que foram surgindo ao longo do tempo.
Atualmente, parte significativa da informao disponvel na Internet
fornecida atravs da World Wide Web ou Web. A Web um sistema baseado
em hipertexto, que constitui a capacidade de ligar palavras ou frases de uma
pgina Web a outros recursos da Internet atravs de links. Quando se clica
com o mouse sobre um link, ele remete para outro ponto dentro do mesmo
documento, para outra pgina Web ou mesmo para outro site diferente daquele
originalmente acessado. Pode-se, ainda, abrir automaticamente uma mensagem
de e-mail, abaixar algum software ou artigo etc.
Esto disponveis na Web milhares de pginas cobrindo os mais
variados assuntos e interesses. Estimativas recentes afirmam existir cerca de
2,5 bilhes de documentos, com uma taxa de crescimento de 7,5 milhes ao
dia1. Mas, diferentemente das bibliotecas, os documentos da Internet no esto
classificados segundo um padro determinado. Portanto, o usurio precisa
localizar informaes de um grande volume de pginas disponveis, sem
qualquer organizao.
Encontrar a informao depende, principalmente, do uso eficiente das
ferramentas de busca. Para explorar todo o potencial dos buscadores, o usurio
precisa conhecer: como coletada e estruturada a informao em diferentes
bancos de dados; suas caractersticas e limitaes; todas as possveis formas
de interao e suas linguagens de busca.
Conceitua-se estrutura da informao como a sua organizao lgica
para posterior recuperao e linguagem de busca como os comandos que
permitem a recuperao da informao atravs de palavras contidas nos ttulos,
resumos ou outros campos de dados.
Este artigo pretende mostrar as diferentes formas de coletar e estruturar
as informaes que caracterizam os diversos buscadores disponveis na Internet,
como elas afetam os resultados das pesquisas e a importncia do uso da
linguagem controlada no acesso a estes bancos de dados. Este conhecimento
capacitar o usurio a recuperar, de forma rpida e precisa, a informao que
precisa.

Sizing the Internet (http://


www.cyveillance.com/web/us/
d o w n l o a d a s /
Sizing_the_Internet.pdf)

71
Perspect. cienc. inf., Belo Horizonte, v. 9, n. 1, p. 70-87, jan./jun. 2004

Recuperao de informaes na Web

O que so buscadores e como funcionam

72

Buscadores, ferramentas de busca ou mecanismos de busca so


sistemas especializados utiliazados na recuperao de informaes na Internet.
Eles coletam informaes sobre os contedos dos sites e os armazenam em
bancos de dados que esto disponveis para consulta. Realizando uma busca,
o usurio poder descobrir a localizao exata das informaes que deseja.
As informaes so armazenadas em bancos de dados porque so
flexveis, fceis de operar e manter. O acesso a estes bancos de dados em um
ambiente Web possvel graas a uma interface especial, capaz de traduzir os
dados armazenados para uma linguagem compreendida pelo Netscape,
Microsoft Explorer ou outro navegador que estiver sendo utilizado. Entretanto,
para que o usurio acesse o contedo que est por trs da Web, ele precisa
visitar a pgina de interface e realizar uma pesquisa especfica.
O usurio digita alguma expresso, geralmente uma palavra ou frase
no campo de busca, e, em seguida, solicita a pesquisa. Os buscadores procuram
a ocorrncia da linguagem de busca nas informaes armazenadas em seus
bancos de dados. Ou seja, quando se realiza uma busca no se est
pesquisando diretamente na Internet, mas no banco de dados do buscador
escolhido.
As ferramentas de busca oferecem, como resposta ao usurio, pginas
onde esto relacionados todos os sites armazenados em seu banco de dados
onde foram verificadas a ocorrncia da linguagem de busca. Os resultados so
apresentados na forma de links de hipertextos, isto , clicando com o mouse
sobre uma das frases realadas (links), o prprio site, que est fora do banco
de dados do buscador, trazido para o computador do usurio.
As pginas que os mecanismos de busca oferecem como resposta no
so armazenadas no servidor. Elas simplesmente desaparecem aps a consulta.
Estas pginas so transitrias porque mais barato e fcil reconstru-las
novamente do que armazen-las com todas as possveis opes existentes de
consulta.
A eficincia de um buscador ser avaliada pela sua capacidade em
apresentar, logo nas primeiras linhas, informaes que atendam s necessidades
dos usurios. Para isso, seus organizadores construiram um banco de dados
amplo e com informaes de qualidade. Eles devem, ainda, ser capazes de
entender o que o usurio - a maioria das vezes inexperiente - quer e recuperar
as informaes adequadas.
A eficincia do usurio, por sua vez, depende de sua capacidade em
oferecer ao banco de dados elementos suficientes para que sejam selecionados,
a partir da totalidade das informaes armazenadas, um conjunto de itens que
constituam a resposta que procura.
As definies, por parte dos desenvolvedores dos sites que sero
recuperados atravs do uso da base de dados e a forma como sero ordenados
contribui decisivamente para a eficincia do buscador. A maioria deles utiliza
critrios que envolvem localizao e freqncia. Analisando os ttulos, resumos
e a freqncia da ocorrncia da linguagem de busca nos documentos que
compem sua base de dados, definem os sites e a ordem em que sero
apresentados aos usurios.

Perspect. cienc. inf., Belo Horizonte, v. 9, n. 1, p. 70-87, jan./jun. 2004

Regina Meyer Branski

O mecanismo de busca Google2 inovou no critrio utilizado para


apresentao dos documentos recuperados, alcanando resultados bastante
satisfatrios. Este buscador define seus resultados de acordo com o nmero
de links apontando para cada um dos documentos armazenados em sua base
de dados. Isto , na relao dos documentos recuperados pelo buscador,
ocuparo os primeiros lugares os sites que tiverem sidos mais citados por
outros sites. Esta forma de estruturar a informao tem como premissa a idia
de que os sites mais populares oferecem informaes de melhor qualidade.
Finalmente, os contedos armazenados nestes buscadores constituem
apenas parte das informaes disponveis na Internet. Cada ferramenta de
busca tem armazenada em sua base de dados um subconjunto particular de
sites selecionados. A forma utilizada pelo buscador para coletar as informaes
que formaro este subconjunto tem impacto direto nos resultados que o usurio
obter. Pode-se identificar duas categorias de buscadores: diretrios por assunto
e programas de busca. Sero discutidos cada um deles a seguir.

a) Catlogos ou diretrios por assunto


Os catlogos ou diretrios por assunto precederam os programas de
busca e constituram a primeira tentativa de estruturar e recuperar recursos na
Web. Foram criados quando a quantidade de recursos disponveis ainda
permitia a coleta das informaes manualmente.
Nos diretrios por assunto, as informaes que compe o banco de
dados so coletadas de duas formas:
atravs de busca realizada por seus editores, que visitam inmeros
sites e incluem os de interesse no banco de dados, acompanhados de uma
breve descrio de seus contedos;
atravs de solicitao de incluso enviada pelo autor interessado em
ter seu site catalogado. O autor envia uma breve descrio do contedo, e os
editores visitam o site, aceitando ou no sua incluso.
As informaes so organizadas e classificadas hierarquicamente em
categorias temticas pelos editores. Parte-se das categorias mais amplas para
as mais especficas. Por exemplo, no popular Yahoo!3, informaes sobre
tubares esto classificadas na categoria Cincia Animais, insetos e bichos de
estimao Vida aqutica Peixes Espcies Tubares.
Pode-se consultar um diretrio digitando uma palavra ou frase no campo
de busca ou explorando suas categorias. O catlogo verificar a ocorrncia da
linguagem de busca no ttulo e na descrio enviada pelo autor ou compilada
pelos editores, no sendo considerado o texto integral do site.
Os catlogos podem ser bastante teis quando o nmero de respostas
obtidos nos programas de busca for excessivo ou, ainda, quando a informao
desejada estiver contemplada em uma das categorias disponveis. Por exemplo,
endereo na Internet de todas as universidades americanas. Os editores
certamente j coletaram estas informaes e, melhor ainda, organizaram e
classificaram todas elas, tornando a tarefa do usurio bem mais simples.

http://www.google.com

http://www.yahoo.com

73
Perspect. cienc. inf., Belo Horizonte, v. 9, n. 1, p. 70-87, jan./jun. 2004

Recuperao de informaes na Web

Os bancos de dados dos catlogos so menores e menos atualizados


que os dos programas de busca. Entretanto, as informaes so mais
selecionadas por passarem pelo crivo dos editores.
Entre os diretrios mais populares destacam-se o Yahoo! (http://
www.yahoo.com ), Lycos (http://www.lycos.com), HotBot (http://
www.hotbot.com) e, no Brasil, o Cad? (http://www.cade.com.br), Achei (http:/
/www.ahei.com.br) e Yahoo! Brasil (http://www.br.yahoo.com ).
b) Programas de busca

74

Se uma pgina no tem nenhum


link apontando para ela, os robs
no tem como encontr-la. Neste
caso, a nica maneira de inclu-la
em um programa de busca
enviando um pedido de incluso.
Todas as ferramentas de busca
oferecem esta possibilidade.

Os programas de busca surgiram quando a quantidade de informaes


disponveis na Web atingiram propores que dificultavam sua coleta manual.
Estas ferramentas criam seus bancos de dados automaticamente utilizando
softwares conhecidos como spiders ou robs.
Os robs percorrem a rede coletando informaes. Iniciam seu caminho a
partir de um conjunto de pginas selecionadas por seus administradores que
so escolhidas por serem populares, de alta qualidade ou por conterem grande
quantidade de links. Os robs visitam os sites, lendo seu contedo,
armazenando cada uma das palavras encontradas e seguindo seus links para
outras pginas4. Seguem os links para encontrar outros links e ir, sucessivamente,
adicionando os endereos ao banco de dados. Diferentemente dos catlogos,
os sites so includos no banco de dados sem nenhuma classificao ou descrio
de seu contedo.
Os programas de busca podem coletar as informaes de diferentes
formas. Alguns incluem em seus bancos de dados o contedo integral dos
sites, lendo e registrando cada palavra do incio ao final do documento. Outros,
limitam-se a registrar o ttulo e um resumo construdo automaticamente pelo
rob. Outros ainda, o ttulo e as primeiras linhas do site.
Os robs voltam aos sites em intervalos regulares para verificar
alteraes e manter o sistema atualizado. Neste processo eliminam pginas
desativadas, incluem novas e incorporam as modificaes.
Os programas de busca so mais abrangentes que os catlogos uma
vez que os robs registram toda a informao encontrada. Fornecem, portanto,
uma viso mais ampla do contedo disponvel na Internet sobre um assunto.
Por outro lado, por terem bancos de dados com milhes de pginas, a busca
pode ser mais imprecisa, retornando um grande nmero de respostas
insatisfatrias.
Entre os programas mais conhecidos destacam-se Alta Vista (http://
www.altavista.com), Northern Light (http://www.northernlight.com), Google
(http://www.google.com) e, no Brasil, TodoBr (http://www.todobr.com.br ) e
Radar UOL (http://www.radaruol.com.br).
O leitor deve deduzir, a partir do exposto, que o resultado de uma
mesma pesquisa utilizando um diretrio e um programa de busca sero
diferentes. Haver tambm discrepncias quando forem utilizados dois
programas ou dois catlogos. Estas diferenas decorrem no s da forma de
construo dos bancos de dados, como tambm do modo de funcionamento
de cada ferramenta.
Entre os catlogos, a variao de resultados pode ser atribuda: aos
sites selecionados que comporo o banco de dados; aos critrios utilizados
para classificao das informaes.

Perspect. cienc. inf., Belo Horizonte, v. 9, n. 1, p. 70-87, jan./jun. 2004

Regina Meyer Branski

Entre os programas de busca, a variao dos resultados pode decorrer:


da definio das pginas iniciais, a partir das quais o rob percorrer a rede
para coletar informaes e alimentar seu banco de dados, da forma como
registram as informaes de cada site (se armazenam o texto integral, somente
o ttulo e um pequeno resumo construdo de forma automtica, o ttulo e as
primeiras linhas do site etc.).
Assim, a utilizao de mais de uma ferramenta garante uma maior
cobertura e, possivelmente, um resultado mais satisfatrio. Deve-se considerar
ainda que nenhum dos buscadores incluem em seus bancos de dados a
totalidade dos sites existentes na Internet5. Operam em suas prprias bases
compostas de sites, textos e descries selecionados a partir da totalidade dos
documentos da rede. Pesquisa-se, portanto, em um subconjunto relativamente
pequeno dos sites que compem a World Wide Web.
c) Refinando a pesquisa
Quem ainda no se defrontou com a seguinte situao: o resultado de
uma busca, especialmente quando so utilizados programas de busca, apresenta
um nmero excessivo de respostas, sendo que a maioria delas no tem relao
com o que se procura. O passo seguinte conhecido. Gasta-se um tempo
enorme para se selecionar o que relevante disponibilizado pelos sites.
Um modo de contornar este problema atravs do uso de
refinamentos, que so comandos que permitem limitar e controlar a ao das
ferramentas de busca. Atravs deles possvel definir melhor o objeto de
interesse e tornar a pesquisa mais eficiente.
Quando se digita no campo de busca a expresso comrcio exterior,
por exemplo, a ferramenta localizar em seu banco de dados pginas que
contenham as duas palavras, mesmo que distantes uma da outra. Se se colocar
a expresso entre aspas, pode-se obter documentos onde tais palavras
aparecem exatamente nesta ordem. Atravs dos refinamentos pode-se localizar
arquivos de imagem, limitar a busca a um certo domnio ou ttulo, identificar
palavras com diferentes terminaes etc.6
Combinando diversas formas de refinamentos, pode-se controlar ainda
mais o campo de ao dos buscadores. Digitando no programa de busca Alta
Vista7 a expresso title:comrcio internacional url:edu, pode-se obter sites
com exatamente este ttulo provenientes exclusivamente de instituies de
ensino.
O controle da linguagem de busca melhora significativamente a eficincia
da pesquisa. Mas, cada buscador tem suas prprias caractersticas, aceitando
ou no determinados refinamentos. Assim, importante o conhecimento das
particularidades de cada ferramenta para ser capaz de extrair todo o seu
potencial.
No Quadro 1 esto relacionados alguns refinamentos e suas funes.
No Quadro 2 esto descritos os refinamentos aceitos por alguns buscadores
selecionados. Foram analisados os programas de busca estrangeiros Alta Vista
(http://www.altavista.com), Google (http://www.google.com), Northern Light
(http://www.northernlight.com) e os brasileiros Radar UOL (http://
www.radaruol.com.br) e TodoBr (http://www.todobr.com.br). Dentre os
catlogos mereceram especial ateno Yahoo! (http://www.yahoo.com), HotBot
(http://www.hotbot.com) e Lycos (http://www.lycos.com) e os brasileiros Cad?
(http://www.cade.com.br), Yahoo! Br (http://br.yahoo.com) e Aonde (http://
www.aonde.com.br).

Segundo o site Search Engine


Watch
(http://
www.searchenginewatch.com/
reports/sizes.html), o programa de
busca Google tem a maior base de
dados, indexando cerca de 75%
das pginas existentes na Web,
sendo seguido pelo Fast (http://
www.alltheweb.com) com com 31%
e pelo Alta Vista com 27,5%.
6

Os mecanismos de busca adotam


automaticamente o sinal + entre as
palavras. Isto significa que na
ausncia de comandos entre os
termos de busca, a ferramenta
retornar os documentos onde
esto presentes todas as palavras
digitadas, sem contudo observar a
ordem de apresentao.
7

http://www.altavista.com

75
Perspect. cienc. inf., Belo Horizonte, v. 9, n. 1, p. 70-87, jan./jun. 2004

Recuperao de informaes na Web


QUADRO 1 - Refinamento e suas funes

Objetivo

Comandos
nenhum

Exemplos

Localiza pginas que


contenham todos os
termos pesquisados,
qualquer que seja a
ordem em que so
apresentados
Localiza pginas que
contenham todos os
termos
pesquisados,
qualquer que seja a ordem
em que so apresentados

comrcio exterior
retornar documentos
onde constem as duas
palavras, qualquer que seja
a ordem
+comrcio
+trigo
comrcio AND trigo
retornar documentos onde
constem as duas palavras,
qualquer que seja a ordem

Incluir

+ and e

Excluir

+not
and not

Exclui
pginas
que
contenham o termo
selecionado

Frase Exata

aspas

or ou

Buscar
qualquer
termo

comrcio
internacional retornar
documentos onde
constem as duas palavras
na ordem exata
Localiza pginas que feminina OR feminilidade
contenham qualquer um dos retornar documentos onde
constem qualquer uma das
termos pesquisados
duas palavras
Define quo prximo os lua NEAR rio retornar
pginas que contenham as
termos devem aparecer
duas palavras separadas por
uma certa distncia, definida
pelo pesquisador

Proximidade

Buscar sites

Buscar URL8

Buscar links

Buscar no ttulo

near

76

Terminao

Perspect. cienc. inf., Belo Horizonte, v. 9, n. 1, p. 70-87, jan./jun. 2004

+planetacasseta planeta
NOT casseta
planeta
AND
NOT
casseta retornar pginas que
contenham a primeira palavra,
excluindo as que contenham a
segunda.

Localiza pginas que


contenham a frase exata

host:nasa.gov
venus
localiza, somente no site da
NASA,
pginas
que
contenham a palavra
Vnusmars exploration
+domain:edulocaliza
pginas sobre explorao de
Marte
provenientes,
exclusivamente, de sites
educacionais americanos
url:u:allinurl:inurl: Localiza pginas que possuam u r l : j a r d i m l o c a l i z a
uma palavra ou frase especfica pginas que contenham
em sua URL a palavra
na URL
jardim
l i n k : w w w. u n i c a m p . b r
Localiza pginas que
link:
localiza pginas com links
possuam links apontando
apontando para o site da
para uma pgina ou
Unicamp
domnio particular

host:site:domain:

title:allintitle:intitle:t:

Cada pgina de um site tem um


endereo nico denominado
Uniform Resource Locator (URL)
que possibilita sua localizao por
computadores no mundo todo. Por
exemplo,
a
URL
http://
www.eco.unicamp.br identifica a
pgina inicial do site do Instituto de
Economia da Unicamp

Funo

Localiza pginas num


computador especfico

Localiza pginas que


possuam uma palavra ou
frase especfica no ttulo

Localiza palavras com


diferentes terminaes

title:comrcio
internacional l o c a l i z a
pginas cujo ttulo contenha
a
frase
comrcio
internacional
femini* localiza pginas
que contenham as
palavras
feminina,
femininas, feminino,
feminilidade, etc.

Regina Meyer Branski

QUADRO 2 - Refinamentos aceitos por buscadores selecionados

d) Pesquisando na Web: estratgias, anlise do assunto e escolha da


ferramenta de pesquisa
Elaborar uma estratgia de busca formular uma ttica para recuperar
informaes armazenadas em um banco de dados. Uma estratgia de busca
ser eficiente se as informaes recuperadas atenderem s necessidades do
usurio.
Oldroyd e Citroen (1977) afirmam que, para planejar a estratgia de
busca, o usurio deve decidir qual a melhor base de dados para o seu tema,
selecionar os termos de busca adequados e formular a estratgia.
Quando se utiliza um buscador, siogniofica que se est pesquisando
no banco de dados daquela ferramenta. A maneira como o buscador coleta as
informaes que comporo sua base de dados e a forma como estrutura e
recupera estas informaes tm implicaes importantes nos resultados que o
usurio obter. Portanto, para definir o banco de dados mais adequado aos
seus objetivos, o usurio deve conhecer as caractersticas das diversas
ferramentas disponveis.
A familiaridade com a forma de funcionamento dos diferentes
buscadores um fator necessrio mas no suficiente para garantir uma busca
eficiente. O usurio deve, tambm, oferecer os elementos necessrios para
que sejam selecionados, a partir da totalidade das informaes armazenadas
no banco de dados, um conjunto de itens que constituam a resposta desejada.
Apesar do contnuo esforo dos desenvolvedores das ferramentas de
busca para a criao de sistemas de recuperao amigveis, com orientao
atravs de menus ou oferecendo recursos especiais para usurios inexperientes,
o processo de busca constitui, ainda, uma questo complexa. O usurio deve
ser capaz de elaborar a linguagem de busca e a estratgia adequada. Para

Programa de busca cujo banco


de dados composto somente de
sites brasileiros (domnio br)

Quando o termo de busca no


localizada no banco de dados do
Yahoo!, a pesquisa remetida
automaticamente para o programa
de busca Google.

10

Opo disponvel somente no


modo avanado

11

77
Perspect. cienc. inf., Belo Horizonte, v. 9, n. 1, p. 70-87, jan./jun. 2004

Recuperao de informaes na Web

isso, deve avaliar o que conhece a respeito do tpico e o que pretende saber
e, a partir da, executar os seguintes passos:

formular a questo da pesquisa e sua abrangncia

identificar os conceitos importantes dentro da questo

definir a linguagem de busca que identifique estes conceitos

considerar sinnimos ou variaes da linguagem

preparar a lgica da busca (refinamentos).


O QUAD. 3, elaborado pelo UC Berkeley Library, indica algumas
relaes entre os objetivos da pesquisa e lgica de busca. direita esto
relacionados os objetivos e, esquerda, os refinamentos adequados quela
necessidade.
QUADRO 3 Objetivos da pesquisa X Lgica de busca

e) Estratgias no recomendadas

78

Algumas estratgias de busca so pouco eficientes e, portanto, devem


ser evitadas:
Explorao de catlogos. Recuperar documentos tentando
combinar o assunto pesquisado com a categoria mais geral de uma hierarquia
de assuntos. A partir da, o usurio escolhe subcategorias que possam lev-lo
ao objetivo pretendido. A principal dificuldade consiste em determinar sob
qual categoria o assunto est classificado. Corre-se o risco de, aps inmeras
tentativas, descobrir-se que o assunto procurado no est sob aquela

Perspect. cienc. inf., Belo Horizonte, v. 9, n. 1, p. 70-87, jan./jun. 2004

Regina Meyer Branski

classificao. A categoria sade, por exemplo, pode conter documentos sobre


medicina, homeopatia, psiquiatria e esporte em determinado catlogo. Em
outro catlogo, medicina pode incluir sade, sade mental e medicina alternativa
e esporte pode estar classificado na categoria estilo de vida.
Palavras-chave simples em bancos de dados amplos, como os
programas de busca. Pesquisar com palavras-chave simples buscar uma ou
mais palavras, separadas por espaos, nas ferramentas de busca. Desta forma
pode-se recuperar todos os endereos do banco de dados que contenham a
palavra ou palavras pesquisadas. Em banco de dados extensos tal
procedimento gera excesso de documentos sendo que, grande parte deles
no tm so relevantes. Neste caso aconselhvel utilizar tcnicas mais
avanadas de pesquisa, controlando a linguagem de busca. Nos bancos de
dados menores e em catlogos por assunto, entretanto, pesquisas utilizando
palavras chaves simples podem fornecer uma boa aproximao.
Dessa forma, conclui-se a apresentao dos conceitos bsicos dos
mecanismos de busca: o que so, como funcionam, diferenas existentes na
construo das bases de dados e controle da linguagem. As ferramentas de
busca que sero apresentadas a seguir, embora tragam algumas novidades,
podem ser enquadradas em uma das duas categorias j descritas: catlogos
por assunto ou programas de busca.

Outras formas de localizar informaes na Web


a) Mecanismos de busca especializados ou temticos
Diferentemente dos mecanismos de busca genricos, que armazenam
informaes sobre qualquer assunto, os buscadores especializados ou
temticos restringem-se a documentos de um campo especfico. Suas bases
de dados so compostas de informaes pertencentes a uma nica categoria
como, por exemplo, comrcio exterior, computao, medicina etc.
O nmero de buscadores especializados na Internet vem aumentando
diariamente e cobrem quase todos os assuntos. Cada um deles tem contedo
e abordagem nicos. A vantagem destas ferramentas sobre pesquisadores
genricos consiste em que, por serem especializados, apresentam resultados
mais relevantes, num tempo de pesquisa menor.
Como os genricos, estas ferramentas especializadas podem compilar
seus bancos de dados atravs de robs (como os programas de busca) ou
utilizando editores que classificam os sites em tpicos (como os catlogos).
No caso dos programas de busca especializados, seu criador seleciona
sites voltados para um assunto especfico e o rob percorre os links a partir
destes sites. Por exemplo, para elaborao de um banco de dados
especializado em decorao, selecionam-se sites de qualidade sobre o assunto
decorao e o rob percorre os links indicados por estes sites. Somente aqueles
selecionados e as pginas indicadas faro parte do banco de dados do programa
de busca. Veja, por exemplo, o MedHunt (http://www.hon.ch/MedHunt) cuja
base de dados criada a partir de sites selecionados da rea mdica ou,

79
Perspect. cienc. inf., Belo Horizonte, v. 9, n. 1, p. 70-87, jan./jun. 2004

Recuperao de informaes na Web

ainda, o MP3.com (http://www.mp3.com) especializado na localizao de


msicas no formato MP3.
Nos catlogos especializados o banco de dados compilado da mesma
forma que nos catlogos genricos. Os editores buscam novos sites e revisam
as submisses apresentadas, classificando as informaes em categorias.
Um catlogo especializado ter, provavelmente, mais sites sobre o
assunto subdivididos em um nmero maior de categorias que os genricos.
Um exemplo o catlogo Advertising World (http://advertising.utexas.edu/
world), especializado em marketing ou o Global Edge (http://
globaledge.msu.edu/ibrd/ibrd.asp), que coleciona sites voltados para o
desenvolvimento de negcios internacionais.
Podemos localizar buscadores especializados digitando-se, no campo
de busca a expresso specialized search engines ou o assunto de interesse
acompanhado de uma das seguintes expresses: subject guides, subject
directories, web directories. Existem, ainda, catlogos que compilam,
exclusivamente, buscadores especializados. Coletam programas de busca e
catlogos especializados e os classificam em categorias. Veja, por exemplo:
http://www.internets.com, catlogo onde os mecanismos de busca
especializados esto classificados em 43 categorias;
SearchIQ (http://www.zdnet.com/searchiq/subjects), guia de
mecanismos de busca especializados organizado em 25 categorias e vrias
subcategorias,
Fossik.com (http://www.fossick.com) lista mais de 3 mil pesquisadores
especializados classificados em nove categorias e aproximadamente 50
subcategorias.
Finalmente, h na Web sites que oferecem uma coleo de links sobre
um assunto especfico. Pode-se dizer que estas colees deram origem aos
buscadores especializados e que so sua verso reduzida, caractersticas que
no diminuem sua importncia. So, geralmente, compilados por especialistas
e seu contedo selecionado cuidadosamente obedecendo critrios objetivos.
Bons exemplos podem ser encontrados em http://lib.itg.be/biblinks.htm
que oferece links selecionados para rea de sade, no http://
www.soemadison.wisc.edu/ccbc/hplinks.htm que inclui links selecionados sobre
o personagem Harry Porter ou, ainda, no endereo http://www.rurallinks.com.br
que coleta informaes na Web sobre agronegcios. Para localizar estes sites
deve-se digitar o assunto de interesse e uma das seguintes expresses: links,
selected links, bookmarks, webligraphies ou ndices (ou seus correspondentes
em portugus).
b) Bibliotecas virtuais

80

As bibliotecas virtuais existem exclusivamente na Internet. Mantidas


geralmente por bibliotecas de universidades possibilitam o acesso a jornais,
peridicos, livros e outras publicaes que so digitalizados e disponibilizados
na Web. Oferecem ainda, de modo geral, uma coleo de recursos da Internet
que so coletados e organizados por pessoas qualificadas.
Esta coleo de links no pretende ser uma ampla lista de todos os
sites de cada categoria, como os catlogos genricos, mas uma seleo dos
melhores. As fontes so selecionadas de acordo com a facilidade de uso,
Perspect. cienc. inf., Belo Horizonte, v. 9, n. 1, p. 70-87, jan./jun. 2004

Regina Meyer Branski

qualidade, quantidade e origem das informaes e freqncia das atualizaes.


Dentre as bibliotecas virtuais, destacam-se:
Internet Public Library (http://www.ipl.org) que mantm uma
coleo de mais de 40 mil recursos da Internet selecionados, organizados
e descritos por bibliotecrios;
Scout Report Archives (http://scout.cs.wisc.edu/archives/),
mantido por educadores e bibliotecas da Universidade de Wisconsin,
oferece mais de 10 mil sites de valor educacional;
Infomine (http://infomine.ucr.edu), mantido por diversas
universidades americanas, oferece uma coleo com cerca de 23 mil
recursos educacionais, entre eles bancos de dados, jornais, revistas
eletrnicas, artigos etc. e
Britannica (http://www.britannica.com), mantido pela
Enciclopdia Britannica, coleta e classifica os melhores sites em diversas
reas, alm de oferecer acesso online enciclopdia. Os links so
classificados e acompanhados de um breve sumrio do contedo.
c) Mecanismos de metabusca ou metapesquisadores
Nos buscadores tradicionais submete-se os termos de busca a um
nico banco de dados e recebe-se uma relao dos documentos onde constam
os termos pesquisados. Utilizando metapesquisadores o usurio est buscando,
simultaneamente, em vrios buscadores.
Os metapesquisadores no possuem banco de dados prprio e
funcionam como um agente intermedirio que repassa a pesquisa, obtm as
respostas dos buscadores individualmente e, ento, apresenta um resultado
unificado, extrado das diversas fontes. Em poucos segundos os
metapesquisadores compilam e apresentam os resultados obtidos em diversos
mecanismos de busca.
Embora o seu uso possa significar economia de tempo, j que a pesquisa
feita em um nico site, a qualidade dos resultados varia muito de acordo
com a ferramenta escolhida.
As deficincias decorrem, principalmente:

da forma como apresentam os resultados.


O ideal que as respostas obtidas sejam integradas, ordenadas por
relevncia e os resultados duplicados sejam eliminados. Nem todos os
mecanismos de metabusca trabalham desta forma. Alguns agrupam os resultados
e os mostram em seqncia, dificultando a anlise das ferramentas
individualmente.
da incapacidade de manipular pesquisas complexas.
O ideal que as pesquisas sejam formatadas de acordo com os
refinamentos aceitos por cada ferramenta de busca individualmente: quando
um buscador submetido a refinamentos que no processa, ocorrem erros e
resultados inadequados. Sendo assim, a utilizao de metapesquisadores
mais eficiente quando as pesquisas so simples.
Os metapesquisadores podem ser teis quando se deseja obter um
nmero pequeno de resultados relevantes, localizar tpicos pouco explorados

81
Perspect. cienc. inf., Belo Horizonte, v. 9, n. 1, p. 70-87, jan./jun. 2004

Recuperao de informaes na Web

ou ter uma viso geral dos documentos disponveis na Web sobre determinado
assunto. Entretanto, retorna um nmero limitado de resultados que no
representam o todo, oferecendo uma viso superficial, e muitas vezes distorcida,
das bases de dados dos buscadores analisados. Portanto, seu uso no elimina
a necessidade de uma busca individual nos diversos mecanismos de busca
para uma boa estratgia de pesquisa.
Dentre os metapesquisadores destacam-se:
Ixquick (http://ixquick.com)
Busca em inmeros ndices, catlogos, jornais e multimdia. Apresenta
os dez primeiros resultados de cada mecanismo de busca eliminando as
duplicaes. capaz de trabalhar com pesquisas complexas.
Profusion (http://www.profusion.com)
Busca em nove mecanismos de busca: Altavista, Yahoo!, Infoseek,
LookSmart, Excite, Magellan, WebCrawler, GoTo e Google. Permite a
organizao dos resultados por vrios critrios. Seu grande diferencial est em
formatar as perguntas de acordo com a sintaxe aceita por cada um dos servios
de busca, individualmente. Os resultados finais so ordenados e as entradas
duplicadas so removidas tornando o resultado final mais fcil de se analisar.
Metaminer (http://miner.bol.com.br)
Metapesquisador brasileiro. Busca nos pesquisadores Achei e Radar
UOL e nos estrangeiros AOL e Looksmart.
d) Web Oculta
Web oculta uma parte importante da Web na qual os mecanismos de
busca tradicionais no podem ou no querem incluir em seus bancos de dados.
Sendo assim, estes sites no aparecem nos resultados apresentados por
estas ferramentas de busca. Estima-se que esta parte oculta da Web tenha
mais que o dobro do tamanho da parte visvel e seu contedo bastante
relevante.
H, basicamente, duas razes para estes sites estarem fora dos bancos
de dados de grande parte dos buscadores:
questes tcnicas que impedem o acesso dos spiders a alguns tipos de sites.
por deciso dos administradores dos mecanismos de busca.
Sero discutidas cada uma delas detalhadamente.
e) Questes tcnicas

82

Os softwares conhecidos como robs ou spiders, constrem seus


bancos de dados automaticamente. A partir de uma relao de pginas
selecionadas, seguem todos os links encontrados para armazenar as
informaes e alimentar seus bancos de dados. Estes robs no so capazes
de digitar informaes ou definir opes. Portanto, no podem incluir em seus
bancos de dados sites que exijam tais tipos de comandos.
A forma de operar dos robs, e suas limitaes, provocam a excluso
dos seguintes tipos de sites:

Perspect. cienc. inf., Belo Horizonte, v. 9, n. 1, p. 70-87, jan./jun. 2004

Regina Meyer Branski

sites desconectados. Para que um mecanismo de busca indexe uma pgina,


o o autor envia um pedido de submisso ou o rob descobre a pgina por si
prprio, encontrando um link a partir de uma pgina conhecida. Pginas Web
que no forem diretamente submetidas ao mecanismo de busca e no tenham
links apontando para elas esto desconectadas e, portanto, fora do alcance
dos robs.
sites que exijam que se digite alguma informao para serem acessados.
Incluem-se neste caso as pginas que requerem registro do usurio. Assim,
para acessar o contedo preciso digitar a senha e o login. Os administradores
exigem estas informaes para controlar o acesso a sites de uso restrito.
sites que funcionam como interface para outros bancos de dados requerem
do usurio a definio de uma srie de opes para editar o contedo que
ser acessado. Esta exigncia impede os robs de incluir, em seus bancos de
dados, outros bancos de dados.
Os mecanismos de busca genricos no so capazes de acessar os
contedos das pginas transitrias geradas por outros bancos de dados. Quando
um spider se depara com um banco de dados isto funciona como se
encontrasse uma biblioteca com portas de segurana inviolveis. So capazes
de lembrar o endereo da biblioteca mas no podem dizer nada sobre os
livros, revistas ou outros documentos armazenados.
Os robs no tem dificuldade em encontrar a interface de um banco
de dados porque se assemelham a outras pginas Web que utilizam formas
interativas. Mas, os comandos que permitem o acesso ao contedo do banco
de dados so incompreensveis. Os robs no esto programados para
entender a estrutura de um banco de dados, ou as linguagens utilizadas para
recuperar a informao.
No caso particular dos catlogos, como o Yahoo!, os spiders so capazes
de armazenar as informaes contidas em seus bancos de dados seguindo
cada link das diversas categorias, num trabalho bastante rduo. Navegando
atravs das hierarquias, o rob replica todos os contedos que resultariam das
possveis opes de busca do usurio.
Alguns exemplos de banco de dados podem ser vistos em http://
plants.usda.gov, mantido pelo Departamento de Agricultura dos Estados
Unidos, que oferece informaes sobre plantas ou em http://
www.tecepe.com.br/olimpiadas, com informaes sobre as olimpadas.
Os mecanismos de busca tradicionais podem encontrar somente a
pgina inicial destes bancos de dados, mas no informaes sobre o seu
contedo. Ironicamente, estes recursos representam algumas das mais valiosas
informaes disponveis na Web. Qualidade a principal razo para explorar
tais base de dados.
f) Polticas de Excluso
Os sites que compem o banco de dados dos buscadores tradicionais
so, no geral, estticos. Pginas estticas so identificadas por um nico
endereo, URL, e so mostradas ao usurio quando este endereo digitado
no navegador. Os spiders so capazes de encontrar pginas estticas desde
que hajam links apontando para elas, a partir de pginas conhecidas. Entretanto,

83
Perspect. cienc. inf., Belo Horizonte, v. 9, n. 1, p. 70-87, jan./jun. 2004

Recuperao de informaes na Web

os mecanismos de busca limitam o nmero de pginas que coletam utilizando


alguns critrios. Estas pginas, que no faro parte do banco de dados, no
so parte da Web oculta. Elas so visveis e poderiam ser identificadas pelos
robs, mas os administradores decidem exclu-las para reduzir seus custos de
operao. Por exemplo, certos tipos de linguagem de programao - tais como
Flash, Schokwave, Word, WordPerfect, arquivos executveis e comprimidos,
pginas formatadas em Portable Document Format (PDF)12 etc., podem ser
excludas porque, alm de aumentarem o custo de operao das ferramentas
de busca, tem menor procura.
Os mecanismos de busca so altamente competentes e otimizados
para trabalhar com pginas em textos e, mais exatamente, em textos codificados
em HyperText Markup Language HTML. Documentos em HTML obedecem
um formato simples13. A simplicidade do formato facilita o trabalho dos
mecanismos de busca para administrar, controlar, estocar e recuperar a
informao. Os problemas se iniciam quando o contedo no obedece este
modelo simples de pgina Web.
Os arquivos em formato PDF, por exemplo, preservam a aparncia
dos documentos impressos sendo assim, bastante utilizados para disponibilizar
artigos, jornais, livros etc. Seu armazenamento em bancos de dados exige
mais recursos computacionais porque um arquivo neste formato pode ser
composto de centenas ou mesmo milhares de pginas. Tecnicamente possvel
incluir o contedo destes arquivos nas bases de dados das ferramentas de
busca. Entretanto, os administradores decidem no despender tempo e
recursos nesta tarefa porque a maioria dos documentos neste formato so
tcnicos ou acadmicos, utilizados por uma parcela comparativamente pequena
de pessoas e irrelevante para a maioria dos usurios.
Existem na Internet catlogos e listas de endereos da Web oculta
que podem mostrar o caminho para este contedo to relevante. Entre eles:
Direct Search (http://www.freepint.com/gary/direct.htm)
The Invisible Web Catalog (http://www.invisibleWeb.com)
http://www.internets.com com links para mais de mil bancos de dados de
interesse acadmico
http://www.completeplanet.com que oferece acesso a cerca de 103 mil bancos
de dados.
Pode-se, ainda, localizar a pgina de interface dos bancos de dados
digitando-se nos buscadores tradicionais o assunto de interesse e a palavra
database (assunto and database).

Consideraes finais
12

Os mecanismos de busca so fundamentais para a recuperao das


informaes na Web. Entretanto, uma busca eficiente depende da consonncia
entre dois aspectos: habilidade do usurio no uso das ferramentas de busca e
a capacidade do buscador em, a partir de um termo ou conceito, compreender
as necessidades do usurio e recuperar as informaes adequadas.
Do ponto de vista do usurio, o conhecimento das diferentes formas
de operao e peculiaridades de cada ferramenta, e o correto planejamento e

84

O Google , atualmente, o nico


mecanismo de busca que indexa
documentos em formato PDF.
13
Cada pgina composta de duas partes:
o cabealho e o corpo do texto, que so
claramente separados no cdigo fonte do
HTML. No cabealho constam o ttulo,
disposto de forma lgica no alto da pgina.
O corpo contm o contedo
propriamente dito.

Perspect. cienc. inf., Belo Horizonte, v. 9, n. 1, p. 70-87, jan./jun. 2004

Regina Meyer Branski

operacionalizao da estratgia de busca so fundamentais para a recuperao


das informaes.
De modo geral, os usurios podem adotar os seguintes princpios para
recuperao da informao na Web:
Utilizar mais de um buscador nas pesquisas. Os resultados em diferentes
buscadores apresentam baixa redundncia.
Encontrar os buscadores mais adequados s suas necessidades. Especializarse nas suas formas de funcionamento para extrair todo seu potencial.
Obter vantagem das diferenas existentes entre os catlogos e os programas
de busca.
Utilizar os metapesquisadores para obter uma viso geral dos bancos de
dados dos diferentes mecanismos de busca.
Localizar, se possvel, pesquisadores especializados em sua rea de
interesse
No esquecer da Web oculta
Do ponto de vista das ferramentas de busca, seus desenvolvedores
devem procurar ir alm da mera identificao, a partir de um termo ou conceito,
dos contedos que sero apresentados ao usurio. Considerando que a maioria
dos usurios da Internet no tem as habilidades bsicas na manipulao de
bases de dados, devem ser desenvolvidos ferramentas que indiquem como
podem ser utilizadas de forma mais eficiente.
Hawkins (1978), por exemplo, sugere que, a partir de um termo ou
conceito oferecido pelo usurio, o banco seja capaz de identificar citaes
relacionadas e, a partir delas, extrair outros termos ou conceitos que indiquem
novas estratgias de busca. Simon e Valdez-Perez (1997) estudam os programas
interativos de busca que, a partir do ttulo dos documentos recuperados,
estabelecem entradas para outros documentos similares na base de dados.
Desenvolvimentos neste sentido so, sem dvida, importantes.
Entretanto, sua ao limitada por estarem baseados na anlise textual e no
nos modelos humanos de busca. A maioria dos sistemas especialistas
desenvolvidos para auxiliar os usurios finais na consulta s bases de dados
so incapazes de processar outros critrios relativos ao pedido de busca.
Ferramentas mais eficientes poderiam ser construdas a partir da
observao do comportamento dos usurios. Os buscadores deram um passo
nesta direo quando notaram que, a maioria dos usurios, digitava dois ou
mais termos nos campos de busca sem utilizar nenhum comando entre as
palavras. A expectativa dos usurios era de recuperar documentos com todos
os termos digitados. Mas, os buscadores apresentavam, alm destas pginas,
outras onde constavam apenas um dos termos de busca.
Por exemplo, digitando-se a expresso comrcio exterior no campo
de busca, o usurio recuperava, alm dos documentos com a expresso, outros
onde ocorriam apenas a palavra comrcio e a palavra exterior. Este
procedimento gerava um grande nmero de resultados sem relevncia. Os
desenvolvedores passaram, ento, a incluir automaticamente o comando +
entre os termos, recuperando somente os documentos com todos os termos
de busca.
A observao do comportamento e a avaliao das expectativas dos
usurios permitiu que os desenvolvedores a partir de alteraes tcnicas
simples tornassem suas ferramentas significativamente mais eficientes.

85
Perspect. cienc. inf., Belo Horizonte, v. 9, n. 1, p. 70-87, jan./jun. 2004

Recuperao de informaes na Web

A maioria dos usurios dos bancos de dados na Internet inexperiente,


no tem conhecimento dos controles bsicos e no explora adequadamente
todo o potencial dos buscadores. Analisando o comportamento de busca, ou
seja, o que as pessoas fazem e pensam quando esto buscando informaes
na Internet, os desenvolvedores poderiam mapear e automatizar suas rotinas.
A criao de sistemas que induzissem o usurio ao comportamento adequado
e/ou que adequassem suas necessidades s peculiaridades da ferramenta
aumentaria, de forma significativa, a eficincia na recuperao das informaes.
Assim, o caminho para tornar estas ferramentas cada dia mais amigveis est,
principalmente, na observao do comportamento do usurio leigo que
freqenta a Internet.
Finding information on the Web
There are thousands of pages on a great variety of subjects and interests
on the Web. Finding information, however, is not a trivial task. Search tools are
important in assisting us in this task. This text intends to show the differences of
operation among several currently existing searchers on the Internet and how
their peculiarities affect the results. Knowing their characteristics and they way
they function it is possible to take advantage of all the potential of each tool
and, thus to find the desired information more efficiently. We will also comment
on the so-called invisible Web, a great amount of information that is not made
available by traditional search tools.
Key-words: Internet; Web; Search tools; Search Engines; Directories; Metasearch Engines; Invisible Web

Referncias
BARKER J. (Coord.) Find information on the Internet: a tutorial. Disponvel em WWW.
URL: http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/FindInfor.html, acesso
em 7 ago. 2002.
BERGMAN, M. K. The deepWeb surfacing hidden value. Disponvel em WWW. URL:
http://www.press.umich.edu/jep/07-01/bergman.html, acesso em 13 jun. 2002.
HAWKINS, D.T. Multiple database searching: techniques and pitfalls. Online, v. 2, n.
2, p. 1-15, 1978.
LAWRENCE S.; GILES C.L. Accessibility of information on the Web. Nature, London,
400, 107, 1999.
LOPES, I. L. Estratgia de busca na recuperao da informao: reviso da
literatura.Cincia da Informao, Brasilia , v. 31, n. 2, p. 60-71, maio/ago. 2002.

86

NOTESS G.R. Searching the hidden Internet. Disponvel em WWW. URL: http://
www.onlineinc.com/database/JunDB)//ntes6.html, acesso em 5 jun.1997.

Perspect. cienc. inf., Belo Horizonte, v. 9, n. 1, p. 70-87, jan./jun. 2004

Regina Meyer Branski

____________, Internet search techniques and strategies. Disponvel


em WWW. URL: http://www.onlineinc.com/onlinemag/JulOL97/net7.html, acesso em
5 jun.1997.
OLDROYD, B K; CITROEN, C L Study of strategies used in online searching. Online
Review, v. 1, n. 4, p. 295-310, 1997.
SIMON, H. A.; VALDEZ-PEREZ, R. E. Scientific discovery and simplicity of method.
Artificial Intelligence, v. 91, n. 2, p. 183-203, Apr. 1997.
SHERMAN C. The invivsible Web. Disponvel em WWW. URL: http://www.freepint.co.uk/
issues/0806000.htm, acesso em 8 ago.2001
SULLIVAN, D. (Ed.). Search engine features for searchers. Disponvel em WWW. URL:
http://www.searchenginewatch.com/facts/ataglance.html, acesso em 3 jun. 2002.
___________, Power searching for anyone. Disponvel em WWW. URL:
http://www.searchenginewatch.com/facts/powersearch.html, acesso em 26 out. 2001.
___________, Search engine math. Disponvel em WWW. URL: http://
www.searchenginewatch.com/facts/math.html, capturado em 26 out. 2001.
WISEMAN K., The invivisble Web. Disponvel em WWW. URL: http://
www3.dist214.k12.il.us/invisible/article/invisiblearticle.html, acesso em 6 maio
2000.

87
Perspect. cienc. inf., Belo Horizonte, v. 9, n. 1, p. 70-87, jan./jun. 2004

Вам также может понравиться