Академический Документы
Профессиональный Документы
Культура Документы
70
Introduo
A recuperao de informaes em banco de dados um assunto
bastante discutido pelos profissionais da cincia da informao. O advento da
Internet tornou esta questo ainda mais premente. A difuso de seu uso ampliou
a necessidade de acessar, de forma rpida e precisa, informaes armazenadas
em banco de dados gigantescos.
A Internet um conjunto de inmeras redes de computadores,
conectadas entre si, que permite a comunicao, partilha de informaes,
programas e equipamentos entre seus usurios. Constitui a infra-estrutura
sobre a qual trafegam grande volume de informaes e outros servios.
A Internet teve origem em uma rede, a Arpanet, criada pelo
Departamento de Defesa dos Estados Unidos no inicio dos anos 70,
interligando vrios centros militares e de pesquisa com objetivos de defesa, na
poca da Guerra Fria. A tecnologia desenvolvida permitia a comunicao entre
diferentes sistemas de computao, o que possibilitou a incorporao de outras
redes experimentais que foram surgindo ao longo do tempo.
Atualmente, parte significativa da informao disponvel na Internet
fornecida atravs da World Wide Web ou Web. A Web um sistema baseado
em hipertexto, que constitui a capacidade de ligar palavras ou frases de uma
pgina Web a outros recursos da Internet atravs de links. Quando se clica
com o mouse sobre um link, ele remete para outro ponto dentro do mesmo
documento, para outra pgina Web ou mesmo para outro site diferente daquele
originalmente acessado. Pode-se, ainda, abrir automaticamente uma mensagem
de e-mail, abaixar algum software ou artigo etc.
Esto disponveis na Web milhares de pginas cobrindo os mais
variados assuntos e interesses. Estimativas recentes afirmam existir cerca de
2,5 bilhes de documentos, com uma taxa de crescimento de 7,5 milhes ao
dia1. Mas, diferentemente das bibliotecas, os documentos da Internet no esto
classificados segundo um padro determinado. Portanto, o usurio precisa
localizar informaes de um grande volume de pginas disponveis, sem
qualquer organizao.
Encontrar a informao depende, principalmente, do uso eficiente das
ferramentas de busca. Para explorar todo o potencial dos buscadores, o usurio
precisa conhecer: como coletada e estruturada a informao em diferentes
bancos de dados; suas caractersticas e limitaes; todas as possveis formas
de interao e suas linguagens de busca.
Conceitua-se estrutura da informao como a sua organizao lgica
para posterior recuperao e linguagem de busca como os comandos que
permitem a recuperao da informao atravs de palavras contidas nos ttulos,
resumos ou outros campos de dados.
Este artigo pretende mostrar as diferentes formas de coletar e estruturar
as informaes que caracterizam os diversos buscadores disponveis na Internet,
como elas afetam os resultados das pesquisas e a importncia do uso da
linguagem controlada no acesso a estes bancos de dados. Este conhecimento
capacitar o usurio a recuperar, de forma rpida e precisa, a informao que
precisa.
71
Perspect. cienc. inf., Belo Horizonte, v. 9, n. 1, p. 70-87, jan./jun. 2004
72
http://www.google.com
http://www.yahoo.com
73
Perspect. cienc. inf., Belo Horizonte, v. 9, n. 1, p. 70-87, jan./jun. 2004
74
http://www.altavista.com
75
Perspect. cienc. inf., Belo Horizonte, v. 9, n. 1, p. 70-87, jan./jun. 2004
Objetivo
Comandos
nenhum
Exemplos
comrcio exterior
retornar documentos
onde constem as duas
palavras, qualquer que seja
a ordem
+comrcio
+trigo
comrcio AND trigo
retornar documentos onde
constem as duas palavras,
qualquer que seja a ordem
Incluir
+ and e
Excluir
+not
and not
Exclui
pginas
que
contenham o termo
selecionado
Frase Exata
aspas
or ou
Buscar
qualquer
termo
comrcio
internacional retornar
documentos onde
constem as duas palavras
na ordem exata
Localiza pginas que feminina OR feminilidade
contenham qualquer um dos retornar documentos onde
constem qualquer uma das
termos pesquisados
duas palavras
Define quo prximo os lua NEAR rio retornar
pginas que contenham as
termos devem aparecer
duas palavras separadas por
uma certa distncia, definida
pelo pesquisador
Proximidade
Buscar sites
Buscar URL8
Buscar links
Buscar no ttulo
near
76
Terminao
+planetacasseta planeta
NOT casseta
planeta
AND
NOT
casseta retornar pginas que
contenham a primeira palavra,
excluindo as que contenham a
segunda.
host:nasa.gov
venus
localiza, somente no site da
NASA,
pginas
que
contenham a palavra
Vnusmars exploration
+domain:edulocaliza
pginas sobre explorao de
Marte
provenientes,
exclusivamente, de sites
educacionais americanos
url:u:allinurl:inurl: Localiza pginas que possuam u r l : j a r d i m l o c a l i z a
uma palavra ou frase especfica pginas que contenham
em sua URL a palavra
na URL
jardim
l i n k : w w w. u n i c a m p . b r
Localiza pginas que
link:
localiza pginas com links
possuam links apontando
apontando para o site da
para uma pgina ou
Unicamp
domnio particular
host:site:domain:
title:allintitle:intitle:t:
Funo
title:comrcio
internacional l o c a l i z a
pginas cujo ttulo contenha
a
frase
comrcio
internacional
femini* localiza pginas
que contenham as
palavras
feminina,
femininas, feminino,
feminilidade, etc.
10
11
77
Perspect. cienc. inf., Belo Horizonte, v. 9, n. 1, p. 70-87, jan./jun. 2004
isso, deve avaliar o que conhece a respeito do tpico e o que pretende saber
e, a partir da, executar os seguintes passos:
e) Estratgias no recomendadas
78
79
Perspect. cienc. inf., Belo Horizonte, v. 9, n. 1, p. 70-87, jan./jun. 2004
80
81
Perspect. cienc. inf., Belo Horizonte, v. 9, n. 1, p. 70-87, jan./jun. 2004
ou ter uma viso geral dos documentos disponveis na Web sobre determinado
assunto. Entretanto, retorna um nmero limitado de resultados que no
representam o todo, oferecendo uma viso superficial, e muitas vezes distorcida,
das bases de dados dos buscadores analisados. Portanto, seu uso no elimina
a necessidade de uma busca individual nos diversos mecanismos de busca
para uma boa estratgia de pesquisa.
Dentre os metapesquisadores destacam-se:
Ixquick (http://ixquick.com)
Busca em inmeros ndices, catlogos, jornais e multimdia. Apresenta
os dez primeiros resultados de cada mecanismo de busca eliminando as
duplicaes. capaz de trabalhar com pesquisas complexas.
Profusion (http://www.profusion.com)
Busca em nove mecanismos de busca: Altavista, Yahoo!, Infoseek,
LookSmart, Excite, Magellan, WebCrawler, GoTo e Google. Permite a
organizao dos resultados por vrios critrios. Seu grande diferencial est em
formatar as perguntas de acordo com a sintaxe aceita por cada um dos servios
de busca, individualmente. Os resultados finais so ordenados e as entradas
duplicadas so removidas tornando o resultado final mais fcil de se analisar.
Metaminer (http://miner.bol.com.br)
Metapesquisador brasileiro. Busca nos pesquisadores Achei e Radar
UOL e nos estrangeiros AOL e Looksmart.
d) Web Oculta
Web oculta uma parte importante da Web na qual os mecanismos de
busca tradicionais no podem ou no querem incluir em seus bancos de dados.
Sendo assim, estes sites no aparecem nos resultados apresentados por
estas ferramentas de busca. Estima-se que esta parte oculta da Web tenha
mais que o dobro do tamanho da parte visvel e seu contedo bastante
relevante.
H, basicamente, duas razes para estes sites estarem fora dos bancos
de dados de grande parte dos buscadores:
questes tcnicas que impedem o acesso dos spiders a alguns tipos de sites.
por deciso dos administradores dos mecanismos de busca.
Sero discutidas cada uma delas detalhadamente.
e) Questes tcnicas
82
83
Perspect. cienc. inf., Belo Horizonte, v. 9, n. 1, p. 70-87, jan./jun. 2004
Consideraes finais
12
84
85
Perspect. cienc. inf., Belo Horizonte, v. 9, n. 1, p. 70-87, jan./jun. 2004
Referncias
BARKER J. (Coord.) Find information on the Internet: a tutorial. Disponvel em WWW.
URL: http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/FindInfor.html, acesso
em 7 ago. 2002.
BERGMAN, M. K. The deepWeb surfacing hidden value. Disponvel em WWW. URL:
http://www.press.umich.edu/jep/07-01/bergman.html, acesso em 13 jun. 2002.
HAWKINS, D.T. Multiple database searching: techniques and pitfalls. Online, v. 2, n.
2, p. 1-15, 1978.
LAWRENCE S.; GILES C.L. Accessibility of information on the Web. Nature, London,
400, 107, 1999.
LOPES, I. L. Estratgia de busca na recuperao da informao: reviso da
literatura.Cincia da Informao, Brasilia , v. 31, n. 2, p. 60-71, maio/ago. 2002.
86
NOTESS G.R. Searching the hidden Internet. Disponvel em WWW. URL: http://
www.onlineinc.com/database/JunDB)//ntes6.html, acesso em 5 jun.1997.
87
Perspect. cienc. inf., Belo Horizonte, v. 9, n. 1, p. 70-87, jan./jun. 2004