Вы находитесь на странице: 1из 61

FLAVIA DO CANTO SAKS

BUSCA BOOLEANA: TEORIA E PRTICA


CURITIBA
2005

FLAVIA DO CANTO SAKS
BUSCA BOOLEANA: TEORIA E PRTICA
Trabalho de Concluso de Curso
apresentado disciplina Pesquisa em
Informao II do Curso de Gesto da
Informao, Setor de Cincias Sociais
Aplicadas, Universidade Federal do
Paran.
Orientador: Prof. Ulf Gregor Baranow
CURITIBA
2005


ii

SUMRIO

LISTA DE ILUSTRAES ....................................................................................... iii
RESUMO....................................................................................................................... 1
1 INTRODUO...................................................................................................... 2
2 TEMA...................................................................................................................... 3
3 JUSTIFICATIVA................................................................................................... 5
4 OBJETIVOS........................................................................................................... 6
4.1 OBJETIVO GERAL.............................................................................................. 6
4.2 OBJETIVOS ESPECFICOS................................................................................. 6
5 METODOLOGIA .................................................................................................. 6
6 OPERADORES DA LGICA BOOLEANA E RECURSOS
ASSOCIADOS NA RECUPERAO DA INFORMAO................................... 7
6.1 OPERADORES DA LGICA BOOLEANA........................................................ 8
6.1.1 OR....................................................................................................................... 9
6.1.2 AND ................................................................................................................. 13
6.1.3 NOT.................................................................................................................. 17
6.1.4 XOR.................................................................................................................. 19
6.2 OPERADORES BOOLEANOS COMBINADOS .............................................. 20
6.2.1 Parnteses ......................................................................................................... 21
6.3 OPERADORES ASSOCIADOS BUSCA BOOLEANA................................ 24
6.3.1 Busca por NEAR.............................................................................................. 24
6.3.2 Busca por Truncamento.................................................................................... 25
6.3.3 Busca por Frase Completa................................................................................ 26
6.4 MODALIDADES DA BUSCA BOOLEANA.................................................... 26
6.4.1 Busca Booleana Plena ...................................................................................... 26
6.4.2 Busca Booleana Implcita................................................................................. 27
6.4.3 Linguagem Pr-determinada ............................................................................ 28
6.5 NORMALIZAO DE QUESTES DE BUSCA BOOLEANA...................... 29
6.5.1 Forma Disjuntiva Normal ................................................................................. 30
6.5.2 Forma Conjuntiva Normal................................................................................ 31
6.5.3 Normalizao.................................................................................................... 31
7 DIFICULDADES E LIMITAES DA BUSCA BOOLEANA..................... 36
8 ESTRATGIAS DE BUSCA.............................................................................. 40
9 ESTUDO DE CASOS........................................................................................... 43
10 CONCLUSO...................................................................................................... 45
REFERNCIAS.......................................................................................................... 46
APNDICES ............................................................................................................... 48


iii

LISTA DE ILUSTRAES
FIGURA 1 USO DE ... OR [CES OR GATOS].............................................................................................. 10
FIRUGA 2 USO DE ... AND [CES AND GATOS] ......................................................................................... 14
FIGURA 3 USO DE ... OR OR [CES OR GATOS OR POODLES] .......................................................... 16
FIGURA 4 USO DE AND ... AND ... [CES AND GATOS AND POODLES] .................................................. 16
FIGURA 5 USO DE ... NOT ... [CES NOT GATOS] .......................................................................................... 17
FIGURA 6 USO DE ... XOR ... [CES XOR GATOS] ......................................................................................... 20
FIGURA 7 USO DE ... OR ... OR ... [CES OR GATOS OR COLEIRAS] .......................................................... 22
FIGURA 8 USO DE ... OR ... AND ... [CES OR GATOS AND COLEIRAS] ...................................................... 22
FIGURA 9 USO DE (... OR ...) AND ... (CES OR GATOS) AND COLEIRAS ................................................... 23
TABELA 1 RESULTADO DA BUSCA OR........................................................................................................... 11
TABELA 2 RESULTADO DA BUSCA OR COM TRS TERMOS....................................................................... 11
TABELA 3 TABELA-VERDADE PARA O OPERADOR OR................................................................................ 12
TABELA 4 RESULTADO DA BUSCA AND......................................................................................................... 14
TABELA 5 RESULTADO DE BUSCA AND COM TRS TERMOS..................................................................... 14
TABELA 6 TABELA-VERDADE PARA O OPERADOR AND.............................................................................. 15
TABELA 7 RESULTADO DA BUSCA NOT......................................................................................................... 18
TABELA 8 TABELA-VERDADE PARA O OPERADOR NOT.............................................................................. 18
TABELA 9 TABELA-VERDADE PARA O OPERADOR XOR.............................................................................. 20
TABELA 10 BUSCA BOOLEANA PLENA, BUSCA BOOLEABA IMPLCITA E LINGUAGEM PR-
DETERMINADA.................................................................................................................................. 29
TABELA 11 TABELA - VERDADE PARA A FORMA DISJUNTIVA NORMAL PLENA........................................ 33



1
RESUMO

Trata de uma introduo busca booleana, aplicao da Lgica de Boole a um tipo de
sistema de recuperao da informao, em que se combinam termos relacionados com
auxlio de operadores lgicos. A elaborao deste trabalho foi motivada pela
inexistncia de uma fonte de informao introdutria mais abrangente em lngua
portuguesa sobre os recursos da busca booleana, especialmente destinada para gestores
da informao. So descritas as modalidades e mecanismos bsicos da busca booleana
e sua respectiva representao em tabelas-verdade, assim como alguns recursos
associados, utilizados comumente na recuperao da informao. Apresentam-se
exemplos de sua aplicao e um estudo de caso realizado em cinco sistemas de busca
na Internet. Enquanto levantamento de fontes, o trabalho baseia-se em materiais
disponveis sobre o tema, sendo a maior parte em lngua inglesa, obtidos
principalmente pela Internet. So apresentadas sugestes para dar continuidade ao
tratamento do tema em futuros trabalhos.


2
1 INTRODUO
As possibilidades de acesso aos grandes sistemas de recuperao de
informao e s bases de dados vieram ampliar significativamente a qualidade das
buscas, visto que essas bases proporcionam diversificados pontos de acesso
informao. Esses sistemas de acesso possibilitam o planejamento de estratgias de
busca com maior nvel de complexidade ao envolver vrios conceitos. Permitem, por
exemplo, a busca por palavras apenas dos ttulos, dos resumos e do prprio texto de
documentos, com ou sem o auxlio de linguagens controladas (descritores). Nas
expresses de busca, os conceitos podem ser expressos por termos compostos ou
simples. Existe a possibilidade de truncagem de palavras e substituio de caracteres
no meio das palavras, dentre outros recursos de recuperao.
Os contedos a serem recuperados por meio dessas tcnicas de busca variam, de acordo
com a diversidade temtica das respectivas bases de dados oferecidas em cada banco de
dado. Algumas bases so orientadas para um determinado assunto, enquanto outras so
orientadas para a misso da instituio que as desenvolver. Esses e outros fatores devem
ser levados em considerao no planejamento das estratgias de busca, assegurando a
qualidade na recuperao da informao. (LOPES, 2000, p. 60-61)
Na recuperao da informao, a estratgia de busca pode ser definida como
tcnica ou conjunto de regras para tornar possvel o encontro entre uma pergunta
formulada e a respectiva informao armazenada numa base de dados. Dessa forma, a
partir de um arquivo, ser selecionado um conjunto de itens que constituem a resposta
a uma pergunta, apresentada sob a forma de uma questo ou expresso de busca.
Preparar uma estratgia de busca, bem como a seleo de um banco ou uma
base de dados a ser consultada para responder a uma pergunta especfica, pode exigir
do usurio determinados conhecimentos (idiomas, mecanismos de busca do banco de
dados, instrumentos de auxlio para identificao da terminologia, lgica booleana e
outros recursos disponibilizados). A implementao da estratgia de busca requer,
portanto, conhecimentos tcnicos e de contedo especficos para operacionalizao da
mesma.


3
Quando a estratgia de busca for preparada por um profissional de
informao para um usurio, este deve fornecer, preferencialmente em formulrio
especfico, os seguintes dados: ttulo sucinto e breve definio do problema; termos
apropriados para o tpico de interesse e, eventualmente, uma lista de termos que no
so desejados. A partir desses dados, o profissional poder executar a busca de
informao.
Atualmente, o usurio comum, em geral, no pode mais depender de um
profissional da informao; ele ter de adquirir conhecimentos bsicos sobre os
procedimentos de busca adequados a necessidades informacionais especficas. A
tecnologia de busca que acabou por ser adotada na grande maioria das bases de dados,
inclusive na Internet, a chamada busca booleana objetivo da presente monografia.

2 TEMA
Os usurios da Internet podem achar um sistema de busca difcil de manipular.
Mesmo aqueles que possuem conhecimentos na rea j experimentaram as frustraes
de qualquer pessoa que empreende uma pesquisa: falta de bancos de dados na rea
desejada, resultados de pesquisa aparentemente no relacionados e, freqentemente, a
incapacidade do prprio usurio em combinar termos utilizando procedimentos
booleanos-padro.
Para garantir um resultado satisfatrio e a qualidade da informao recuperada,
necessrio conhecer elementos de Lgica Booleana, pois uma estratgia de busca
adequada exige, por vezes, a elaborao de expresses complexas. O usurio pode
igualmente utilizar o conhecimento da Lgica Booleana para compreender e avaliar os
resultados obtidos numa busca.


4
A Lgica Booleana assim denominada, de acordo com George Boole (1815-
1864), matemtico e lgico britnico que desenvolveu a teoria da lgica binria, na
qual existem somente dois valores possveis 0 ou 1/ verdadeiro ou falso.
Posteriormente, essa teoria foi aplicada ao funcionamento de circuitos eletrnicos,
sendo tambm fundamental na arquitetura de computadores.
A busca booleana a aplicao da Lgica de Boole a um tipo de sistema de
recuperao da informao, no qual se combinam dois ou mais termos, relacionando-
os por operadores lgicos, que tornam a busca mais restrita ou detalhada. As
estratgias de busca so baseadas na combinao entre a informao contida em
determinados documentos e a correspondente questo de busca, elaborada pelo usurio
do sistema.
FERNEDA (2003, p.27) observou que o modelo de busca booleana pode ser
considerado o modelo hoje mais utilizado, no s nos sistemas de recuperao de
informao e nos mecanismos de busca da web, mas tambm nos sistemas de bancos
de dados, onde a busca expressa atravs da linguagem SQL. Em geral, encontra-se
presente, seja como a principal maneira de formular as expresses de busca, seja como
recurso alternativo. Isto, porque este modelo oferece, para usurios experientes, um
certo controle sobre o sistema. No caso em que o conjunto de documentos recuperados
pelo sistema for muito grande ou muito pequeno, o usurio do sistema saber quais os
operadores a serem aplicados na busca at atingir um resultado satisfatrio.
Elaborou-se no presente trabalho uma descrio da busca booleana em suas
principais modalidades utilizadas na prtica da recuperao informacional. As
informaes e explicaes sobre o assunto encontram-se dispersas, sendo geralmente
tratadas de modo bastante sucinto. Direcionados aos usurios da Rede, os sites de
busca e muitas pginas na Web oferecem apenas aquelas explicaes operacionais
consideradas indispensveis para o usurio. Em muitas delas, omite-se qualquer
referncia busca booleana, embora o mecanismo de busca bsico ainda continua
sendo o mesmo.


5
Falta, portanto, um tratamento mais abrangente da busca booleana, que no
se limite apenas a explicaes sobre comandos operacionais, mas que no avance
tampouco para uma abordagem propriamente informtica. Baseando-se em fontes, este
enfoque ser aqui chamado de perspectiva do usurio, na qual no se trata de
analisar o comportamento do usurio ao utilizar a busca booleana, mas de oferecer
conhecimentos bsicos para a sua realizao. A parte descritiva ser complementada
pela aplicao prtica de um estudo de caso.

3 JUSTIFICATIVA
A principal importncia da aplicao dos operadores lgicos booleanos em
buscadores na Internet reside na necessidade dos usurios de utilizar esta ferramenta
para localizar os documentos que eles desejam recuperar.
O sistema de busca booleana ajuda a percorrer documentos, recuperar
informaes sobre determinados assuntos e localizar recursos informacionais de
interesse. Esses recursos apresentam interfaces com centenas de servios e bancos de
dados da Internet, oferecendo formas mais fceis de localizar informaes.
A busca booleana possibilita a localizao de sites e pginas que contm
determinados assuntos ou abordam determinados aspectos de um assunto. Faz com que
o site seja localizado, da maneira mais fcil, pelo usurio-consulente-internauta ou
pelo consumidor de um determinado produto divulgado na Internet.
O problema que motivou a elaborao do presente projeto a inexistncia de
uma fonte de informao mais abrangente em lngua portuguesa, sobre o recurso da
busca booleana, a partir da perspectiva do usurio que se utiliza desse sistema em
bases de dados em geral, inclusive na Internet.


6
A escolha do tema da busca booleana na recuperao da informao foi
tambm motivada pela experincia anterior da autora

, na aplicao da Lgica
Booleana a circuitos eletrnicos.

4 OBJETIVOS
O presente trabalho subordina-se a um objetivo geral e a trs objetivos
especficos.
4.1 OBJETIVO GERAL
Apresentar uma descrio da busca booleana voltado para a perspectiva do
usurio de sistemas de informao.
4.2 OBJETIVOS ESPECFICOS
a) Explicar as modalidades e mecanismos bsicos da busca booleana;
b) Descrever recursos complementares associados busca booleana;
c) Apresentar uma aplicao da busca booleana.

5 METODOLOGIA
O presente trabalho resultou, basicamente, de uma pesquisa classificada
como bibliogrfica, isto , a partir de materiais j publicados sobre o tema (livros,
artigos de peridicos, teses etc).

Curso de Tecnologia em Eletrnica, realizado pela autora no CEFET de 1999 2001.




7
A abordagem do assunto restringiu-se descrio dos recursos booleanos
bsicos na recuperao da informao. A chamada busca booleana estendida ou
avanada (cf. KORFHAGE, 1997, p. 65 ss.) no tratada nesta monografia.
O processo de coleta de informaes sobre o tema foi realizado conforme as
seguintes etapas:
a) busca e seleo das principais fontes disponveis sobre tpicos referentes
busca booleana;
b) anlise sistemtica dos contedos levantados;
c) listagem dos principais aspectos sobre o tema;
d) verificao da abordagem dos tpicos nas fontes escolhidas;
e) consolidao e sistematizao do conhecimento obtido; e
f) elaborao do texto da monografia.
A coleta das informaes a partir das fontes disponveis em ingls, espanhol
e portugus abrangeu, portanto, publicaes impressas, e principalmente fontes obtidas
na Internet.

6 OPERADORES DA LGICA BOOLEANA E RECURSOS ASSOCIADOS
NA RECUPERAO DA INFORMAO
A Internet j tem sido comparada a um vasto banco de dados. De fato, seus
contedos so pesquisados de acordo com as mesmas regras de busca vlidas tambm
para bases de dados. Em geral, a busca em bases de dados realizada de acordo com
os princpios da chamada lgica booleana, baseada nas relaes lgicas entre os
termos de busca (COHEN, 2004).


8
Sistemas de recuperao booleana surgiram desde a tecnologia dos cartes
perfurados. Por essa metodologia era possvel separar documentos nos quais existe um
determinado termo daqueles que no o tm. Esta operao pode ser facilmente
transposta para a lgica de recuperao booleana. Em um sistema desse tipo, as
questes de busca no se referem a simples pontos no espao informacional dos
documentos. De acordo com KORFHAGE (1997, p. 81), cada questo de busca
constitui uma funo lgica de palavras existentes neste espao. No se define aqui o
documento no sentido tradicional. Como no h semelhana estrutural entre o
documento e a questo de busca, esta ltima considerada como entidade parte. A
recuperao a partir de uma determinada questo, pode ser vista como uma funo
caracterstica definida do espao do documento.
As dificuldades com os sistemas de recuperao booleana foram
reconhecidas to logo passaram a ser utilizados. H mais de trinta anos (1972)
LANCASTER afirmava que o uso da lgebra de Boole para fazer a busca em sistemas
de recuperao computadorizados pode ter sido um erro, uma vez que j naquela poca
existiam propostas de recuperao informacional mais sofisticadas.
Um sistema de recuperao puramente booleano no dispe de nenhum
recurso para julgar semelhanas significativas. Por definio, um determinado
documento satisfaz a busca booleana ou no. Em princpio, pode-se considerar o
mapeamento definido por uma questo de busca como uma funo caracterstica pela
qual o espao documentrio dividido em dois conjuntos distintos: os documentos que
correspondem e os documentos que no correspondem questo de busca.
(KORFHAGE, 1997, p. 82)
6.1 OPERADORES DA LGICA BOOLEANA
Os operadores booleanos baseiam-se na lgebra de Boole e permitem efetuar
operaes de carter lgico-matemtico. Estes operadores so: AND (E), OR (OU) e
NOT (NO), e eles so usados para combinar palavras-chave por ocasio na busca em


9
bases de dados eletrnicos. O uso destes operadores pode tornar a busca mais
enfocada, produzindo resultados mais precisos. No entanto, antes de utilizar os
operadores, necessrio entender como eles, de fato, trabalham. (RICH, 2004)
Freqentemente, os conceitos booleanos so explicados por meio dos
diagramas de Venn. No presente caso, os diagramas de Venn podem representar o
espao de informao da Rede. Um crculo contendo uma palavra mostra o
subconjunto de documentos da Rede que contm esta palavra. Quando h dois
conceitos em um nico diagrama, a interseo entre os crculos representa aqueles
documentos que contm ambos os conceitos. (WEB ARCHITECTS, 2004)
Outra representao grfica dos operadores booleanos se d atravs da
tabela-verdade, a qual consiste no diagrama onde so representados e analisados todos
os resultados possveis de uma deciso complexa, baseada em vrios fatores.
utilizada como ferramenta de anlise de sistema e planejamento de programas de
computador. uma forma alternativa de apresentao de um algoritmo para resoluo
de determinado tipo de problema. Cada operador tem sua tabela-verdade, que o
caracteriza. Tambm utilizada, s vezes, em materiais didticos para representar um
processo decisrio complexo.
6.1.1 OR
O computador no um ser pensante; ao pedir-lhe uma informao sobre
casa ele no pode por si mesmo buscar tambm outros termos sinnimos como:
vivenda, edifcio, habitao, morada, etc. preciso que estes termos sejam
pedidos de forma explcita.
Assim, para aumentar as possibilidades de recuperar a maior quantidade de
informao, necessrio utilizar sinnimos e termos relacionados ou similares ao
termo de busca original. Desse modo, ser possvel recuperar o maior nmero possvel
de documentos, independentemente de qual dos termos foi utilizado na busca. Neste
caso, relacionam-se os termos com o operador OR.


10
Os termos no devem ser necessariamente sinnimos em qualquer contexto,
mas simplesmente naquele que interessa ao usurio naquele momento.
Tomemos o conjunto de documentos com o termo ces, e unimos este com
outro conjunto de documentos com o termo gatos, formando um terceiro conjunto
a unio de ambos que conter documentos com o primeiro, o segundo ou ambos os
termos.

FIGURA 1 USO DE ... OR ... [CES OR GATOS]

Nesta busca vamos recuperar registros, nos quais PELO MENOS UM dos
termos de busca estar presente. Estamos procurando os termos ces e tambm
gatos, visto que os documentos que contm qualquer uma destas palavras podem ser
relevantes para minha pesquisa.
Pode ser ilustrado do seguinte modo:
a) crculo colorido com a palavra ces representa todos os registros que
contm esta palavra;
b) crculo colorido com a palavra gatos representa todos os registros que
contm a palavra gatos;
c) a rea de interseo representa todos os registros que contm ao mesmo
tempo ces e gatos. (COHEN, 2004)
Eis um exemplo de como pode funcionar o operador OR:

TABELA 1 RESULTADO DA BUSCA OR
Termos de busca Resultados
Ces 1.490.000
Gatos 1.690.000
Ces OR gatos 1.880.000


11
Por meio do operador OR, recuperam-se todos os registros que contm um
dos dois termos ou ambos.
Quanto mais termos ou conceitos combinarmos em uma busca com o
operador OR, mais registros vamos recuperar. Por isso, de acordo com ROWLEY
(2003, p. 121), o operador OR desempenha uma funo aditiva, tendo como resultado
uma soma lgica.
Exemplo:

TABELA 2 RESULTADO DA BUSCA OR COM TRS TERMOS
Termos de busca Resultados
Ces 1.490.000
Gatos 1.690.000
Pulgas 166.000
ces OR gatos OR pulgas 1.960.000

Vejamos um outro exemplo: para recuperar um documento, necessrio que
este contenha o termo de busca. Assim, no caso de se assegurar a recuperao de todo
e qualquer registro que mencione Amrica Central ou qualquer pas dessa regio,
necessrio que se utilize a seguinte expresso de busca:
Amrica Central OR Centroamrica OR Guatemala OR Honduras OR
Panam OR Costa Rica.
Portanto, se no estivermos seguros de que se tenha utilizado o termo
Amrica Central, no documento procurado, teremos de formar o conjunto desejado
com a unio dos conjuntos individuais para garantir a recuperao. Esta caracterstica
pode causar buscas prolongadas, quando no se quer perder informao.
Atualmente, os bancos de dados costumam indicar quantas referncias esto
disponveis para cada termo de busca. Ao combinar estes termos com o operador OR,
cria-se um novo conjunto formado pela unio dos conjuntos individuais. Isto se deve
ao fato de existirem documentos e por tanto tambm conjuntos de documentos que
contenham simultaneamente dois ou mais termos, por exemplo tanto X como Y.


12
Por isso, pode dar-se o caso de que um mesmo documento aparea no
conjunto X e tambm no conjunto Y. Mas tratando-se de um s documento, ele
aparecer uma s vez no conjunto X OR Y.
Esta propriedade permite fazer uma busca com maior nmero de termos, sem
que o resultado da unio inclua documentos repetidos o operador OR os descarta.
Ao buscar informaes armazenadas em um sistema, as buscas so feitas
comparando caractere por caractere do termo solicitado com os termos armazenados.
Um s caractere distinto significar para o sistema uma palavra diferente e, portanto,
no desejada para a busca em questo.
Por outro lado, os sistemas com capacidade de fazer uma expanso ou o
truncamento de termos permitem localizar, tambm, termos armazenados com erros de
ortografia. Por isso, naqueles casos em que se pode prever diferenas de ortografia ou
a possibilidade de termos no singular ou plural, o operador OR pode servir para evitar
recuperaes incompletas. (MARBN, 1987, p.12)
Em relao ao uso da tabela-verdade (ver pgina 9), o operador OR pode ser
representado pela expresso Z = (ces OR gatos). A razo para a terminologia adotada
reside em que Z = V, se ces = V ou gatos = V, ou ainda, se ambos ces e
gatos = V, como se verifica na tabela verdade. (TAUB, 1984, p.6)

TABELA 3 TABELA-VERDADE PARA O OPERADOR OR
Ces gatos Z = ces OR gatos
F F F
F V V
V F V
V V V

Quando em um site da Internet no consta explicitamente a opo de
trabalhar com o operador OR, deve-se consultar a respectiva pgina sobre Pesquisa
Avanada, onde, freqentemente, se encontram disponveis uma ou mais modalidades
de busca para qualquer um dos termos desejados. No caso dos mecanismos de busca
que no utilizam OR, os smbolos | ou + so outras alternativas. Deve-se estar atento,


13
porque alguns mecanismos de busca executam uma busca com OR por
default. (SULLIVAN, 2004).
Resumindo:
a) operador OR requer pelo menos um dos termos ligados por este operador em
algum lugar no documento, em qualquer ordem;
b) ao utilizar OR, amplia-se a busca, porque um nmero maior de documentos vai
satisfazer esse critrio; qualquer um dos termos ser suficiente para o documento
recuperado;
c) quanto mais palavras entram conectadas por OR, mais documentos sero obtidos.
6.1.2 AND
Vimos que, ao realizar-se uma busca booleana utilizando o operador OR,
recuperam-se todos aqueles documentos existentes no sistema que correspondem a
qualquer um dos termos usados nesta busca (ver seo 6.1.1).
Mas o volume de documentos recuperados pode ser excessivo. Assim,
devem-se estabelecer prioridades ou agrupar os termos de busca em subconjuntos
segundo diferentes aspectos. Normalmente, busca-se ento a informao em um nvel
mais especfico.
Suponhamos que se deva restringir a busca queles documentos relacionados
com ces, tentando-se localizar os documentos que simultaneamente contenham os
termos ces e gatos. Da resulta uma interseco de diferentes conjuntos. Esta
interseco se realiza com o operador AND, obtendo-se assim um novo conjunto.


14

FIGURA 2 USO DE ... AND [CES AND GATOS]

Nesta busca, vamos recuperar os registros nos quais AMBOS os termos de
busca estiverem presentes. Isto ilustrado pela rea colorida na interseo dos dois
crculos que representa todos os registros que contm ao mesmo tempo a palavra
ces e a palavra gatos. Note-se que no recuperamos nenhum registro que contm
s a palavra ces ou s a palavra gatos. (COHEN, 2004)
Eis um exemplo de como funciona o operador AND:

TABELA 4 RESULTADO DA BUSCA AND
Termo de busca Resultados
Ces 1.490.000
Gatos 1.690.000
ces AND gatos 612.000

Quanto mais termos ou conceitos combinarmos em uma busca com o
operador AND, menos registros vamos recuperar. Conforme ROWLEY (2003, p.
121), o operador AND executa um tipo de busca conjuntiva, levando a um produto
lgico. Este fundamentalmente diferente de um produto resultante de simples soma,
como poderia sugerir o uso da proposio E (AND) na linguagem comum.
Por exemplo:

TABELA 5 RESULTADO DE BUSCA AND COM TRS TERMOS
Termos de busca Resultados
Ces 1.490.000
Gatos 1.690.000
Pulgas 166.000
ces AND gatos AND pulgas 1.000



15
Ao formar um novo conjunto por interseco de todos os documentos
relacionados com o termo X, extramos somente aqueles que explicitamente
contenham o termo Y. Desta forma, de todos os documentos relacionados com Y,
recuperamos unicamente os que tambm mencionam o termo X.
Por esta razo, o conjunto resultante nunca poder ser maior em nmero de
registros que o menor dos conjuntos interseccionados; em geral ser menor.
Recorde-se que no caso do operador OR o termo pode estar presente, mas
com o operador AND o termo deve estar presente. Com outras palavras, com o
operador AND recuperamos apenas aqueles documentos que contenham ambos os
termos. (MARBN, 1987, p. 20)
Resumindo, cada vez que se agrega um termo ao operador AND, est-se
impondo maiores limitaes ao conjunto de busca, o que geralmente reduz a
quantidade de documentos que cumprem simultaneamente todas as condies
formuladas na busca.
O operador AND pode ser definido pela tabela-verdade (ver p. 9), utilizando
a expresso: Z = (ces AND gatos), por exemplo. A razo para a terminologia adotada
reside em que Z = V (V representa que documentos sero recuperados na busca)
somente quando ces e gatos so ambos verdadeiros, isto , essas palavras esto
contidas nos documentos recuperados. Este operador sugere que Z o resultado de
uma multiplicao na qual ces e gatos so os fatores. (TAUB, 1984, p. 5)

TABELA 6 TABELA-VERDADE PARA O OPERADOR AND
ces gatos Z = ces AND gatos
F F F
F V F
V F F
V V V

Em alguns mecanismos de busca que no utilizam explicitamente AND, o
smbolo & a alternativa. preciso estar atento, pois alguns mecanismos de busca
executam a busca AND por default (SULLIVAN, 2004).


16
s vezes acontece de se construrem buscas com termos redundantes. No
so realmente prejudiciais, mas importante entender o que est acontecendo. Assim,
se a busca no recuperar aqueles documentos que se deseja, deve-se reeditar a
formulao da busca de maneira mais adequada.
Suponhamos que se esteja fazendo uma busca no espao informacional
representado no diagrama a seguir:

FIGURA 3 USO DE ... OR OR [CES OR GATOS OR POODLES]

Suponhamos ainda que se necessite de documentos tratando de poodles e
gatos criados juntos; trata-se da rea colorida no diagrama a seguir.

FIGURA 4 USO DE AND AND [CES AND GATOS AND POODLES]

Seria possvel estabelecer a busca: ces AND gatos AND poodles, mas a
palavra poodles redundante, pois todos os documentos sobre poodles so tambm
sobre ces. S a busca gatos AND poodles delimitar a rea correta.
Uma regra geral aconselhvel, pelo menos para iniciantes, elaborar
primeiro uma expresso de busca simples, passando s expresses mais complicadas
somente quando no se encontrar a informao desejada.


17
Resumindo:
a) o operador AND requer que todos os termos (palavras ou frases entre aspas)
ligados por este operador constem em algum lugar no documento, em qualquer
ordem;
b) ao utilizar AND, a busca afunilada, pois com este operador aumenta-se o nmero
de palavras necessrias em um determinado documento para que satisfaa o critrio
de busca;
c) quanto mais palavras forem conectadas por AND, menor ser o nmero de
documentos recuperados.
6.1.3 NOT
Por vezes, necessita-se excluir determinados registros, seja porque se
referem a aspectos que j se conhecem ou porque, no momento, no interessam ao
pesquisador. Esta excluso se consegue pelo operador NOT.
Este operador til para trabalhar em sistemas que permitem selecionar e
excluir explicitamente campos no necessariamente temticos. Entretanto, sendo este o
operador mais restritivo dos trs, preciso utiliz-lo com cuidado.
Suponhamos que se deseja apenas informaes sobre ces, mas no sobre
gatos. Nesta busca vamos recuperar registros nos quais apenas um desses termos
estar presente. Isto ilustrado pela rea colorida, representando todos aqueles
registros que contm a palavra ces. Nenhum registro em que consta a palavra
gatos recuperado, mesmo se nele estiver tambm a palavra ces (COHEN,
2004).

FIGURA 5 USO DE NOT [CES NOT GATOS]


18
Segue um exemplo de como funciona o operador NOT:

TABELA 7 RESULTADO DA BUSCA NOT
Termos de busca Resultado
Ces 1.490.000
Gatos 1.690.000
Ces NOT gatos 9.350

O operador NOT exclui determinados registros dos seus resultados de busca.
preciso ter muito cuidado ao empregar o NOT, pois o termo e, portanto, o
documento que se quer recuperar, pode ter uma presena destacada em documentos
que tambm contm a palavra que se excluiu.
Note-se que X OR Y resulta no mesmo que Y OR X, e da mesma forma
X AND Y equivale a Y AND X. Isto porm, no acontece com o operador NOT,
pois o resultado da expresso X NOT Y totalmente diferente de Y NOT X. Na
terminologia da lgica booleana diz-se que os operadores OR e AND so comutativos,
enquanto que o operador NOT no o (MARBN, 1987. p. 24-26).
Trata-se, portanto, de um operador com ao restritiva substitutiva, conforme
ROWLEY (2003, p. 121). Sendo o conjunto resultante menor ou igual ao conjunto do
qual foram eliminados os termos, este operador produz uma diferena lgica.
O operador NOT possui uma funo inversora, isto , em uma expresso Z
= (NOT ces), quando ces = V, ter como resultado Z = F (isto , documentos com
tal palavra no sero mencionados na busca) e vice versa (TAUB, 1984. p. 5).

TABELA 8 TABELA-VERDADE PARA O OPERADOR NOT
Ces Z = NOT ces
F V
V F

Caso o mecanismo de busca no utilize explicitamente o operador NOT, os
smbolos ou ~ so alternativas.


19
Resumindo:
a) este operador exclui todos os documentos que contm a(s) palavra(s) que vm
depois de NOT;
b) utilizando NOT, limita-se uma busca, porque este operador desqualifica
documentos, no importa se eles satisfazem ou no outro critrio da busca;
c) o operador NOT geralmente utilizado aps ter executado uma busca, examinado
os resultados e concludo que no se necessita de determinadas pginas ou
documentos recuperados em funo de alguma palavra ou frase.
6.1.4 XOR
Vimos que em uma busca booleana, o uso de AND requer que ambos os
termos estejam presentes nos documentos recuperados. J no caso de OR exige-se que
pelo menos um dos termos esteja presente no resultado da busca. Neste caso, trata-se
de um uso inclusivo de OR. Isto significa ser aceitvel que ambos os termos estejam
presentes no resultado de busca (KORFHAGE, 1997, p. 54). Entretanto, alguns
sistemas de bases de dados permitem o operador OR exclusivo ou XOR, isto , ou
um ou outro termo, mas no ambos. Neste caso, a construo da busca ser mais
complexa, pois o operador NOT, obviamente, requer que o termo especificado esteja
ausente em todo e qualquer documento recuperado.
Suponhamos que se deseja recuperar documentos que contenham a palavra
ces e tambm gatos, mas no se tem interesse em documentos que possuem
ambas as palavras simultaneamente. (MARBN, 1987, p. 36-37)


20
FIGURA 6 USO DE XOR [CES XOR GATOS]

O nome deste operador (EXCLUSIVE-OR) origina-se do fato que Z = (ces
XOR gatos) = V quando uma das palavras ces ou gatos, na excluso da outra,
estiver mencionada no documento. Assim, Z = V se ces = V ou se gatos = V, mas
no se ambos forem V. (TAUB, 1984. p. 5)

TABELA 9 TABELA-VERDADE PARA O OPERADOR XOR
Ces Gatos Z = ces OR gatos
F F F
F V V
V F V
V V F

6.2 OPERADORES BOOLEANOS COMBINADOS
Ao buscar informao em bancos de dados, pode-se usar vrios operadores,
mesmo que repetidos. Trata-se ento, de expresses de busca mais complexas, com as
quais se visa chegar a resultados mais sofisticados.
Ao combinar operadores, os sistemas o fazem de acordo com determinadas
prioridades previamente estabelecidas, com ligeiras variaes de um sistema para
outro.
Note-se que os operadores AND e NOT, geralmente, limitam a busca
(diminui o nmero de documentos recuperados), enquanto o operador OR vai ampli-
la (aumenta o nmero de documentos recuperados). Observe-se, portanto, as seguintes
estratgias (RICH, 2004):


21
a) se foram localizados registros demais em uma busca, deve-se acrescentar
um outro termo de busca, com o operador AND;
b) se foram localizados muitos registros sobre um assunto no selecionado,
eliminar uma ou mais palavras com o operador NOT;
c) se foram localizados muito poucos registros em uma busca, pode-se
acrescentar um outro termo de busca com o operador OR.
6.2.1 Parnteses
Para aperfeioar as buscas, dependendo do sistema, pode-se introduzir um
conceito utilizado em lgebra. Trata-se de parnteses para fazer o computador
entender o que se pretende obter com a questo de busca. Se quisermos procurar
mais de dois termos, isto , ao utilizarmos AND e OR numa busca, temos de
comunicar ao computador, qual a parte da busca a ser executada primeiro. Assim
como na lgebra, os tens dentro de parnteses so sempre interpretados e executados
em primeiro lugar.
Exemplo: ao fazer uma busca de artigos sobre o uso de coleiras em ces ou o
uso de coleiras em gatos, por meio de expresses gatos OR ces AND coleiras,
possivelmente no vou encontrar os documentos desejados. Quando houver mais de
um elemento entre parnteses, a seqncia ser da esquerda para a direita. o
chamado aninhamento (BARKER, 2004). A maioria dos sistemas de busca
interpreta primeiro o operador NOT, sendo seguido pelos operadores AND e OR.
Portanto, o que na realidade obtemos pela busca acima so documentos que tratam de
ces com coleiras, alm de todos os documentos sobre gatos. Isto pode ser ilustrado
com diagramas de Venn, em nosso espao informacional imaginrio :


22
FIGURA 7 USO DE ... OR ... OR ... [CES OR GATOS OR COLEIRAS]

Ao interpretar a expresso gatos OR ces AND coleiras, do mesmo modo
como o computador, teramos de executar primeiramente o operador AND para os
crculos correspondentes a ces e coleiras (rea colorida). Em seguida, seria aplicado o
operador OR rea resultante, com o crculo referente a gatos.

FIGURA 8 USO DE ... OR ... AND ... [CES OR GATOS AND COLEIRAS]

Para resolver este problema, fazemos o computador trabalhar primeiramente
com o operador OR, usando a expresso de busca (ces OR gatos) AND coleiras.
Disso resultaria o espao informacional a seguir representado (em amarelo):


23
FIGURA 9 USO DE (... OR ...) ...AND ....[(CES OR GATOS) AND COLEIRAS]

Mesmo no caso em que se supe que o computador vai entender a busca
pretendida, ser sempre mais seguro usar parnteses, especialmente quando houver
qualquer possibilidade de confuso. Para o prprio usurio o uso de parnteses
tambm ajuda a tornar mais inteligveis as expresses de busca por ele elaboradas.
Mas em alguns casos no h mesmo necessidade de se utilizar parnteses.
Vejamos alguns exemplos (WEB ARCHITECTS, 2004):
a) usando apenas AND: ces AND plos AND moscas AND coleiras AND
tapetes;
b) usando apenas OR: pulgas OR mosquitos OR carrapatos.
possvel fazer buscas booleanas mais complicadas, com parnteses dentro
de parnteses. No caso da busca booleana na web, no entanto, isto no recomendado,
pois fazer buscas mais simples , em geral, melhor do que criar uma busca perfeita,
mas complicada. Com a formulao mais simples de uma questo de busca, tambm
mais fcil fazer alteraes para melhorar os resultados. Por outro lado, com uma
formulao mais complicada difcil determinar qual a parte da expresso de busca
que encontrou uma determinada pgina (BARKER, 2004).


24
Resumo:
a) com o uso de parnteses se possibilita que os termos e as operaes
dentro dos mesmos sejam processados em primeiro lugar;
b) os parnteses devem ser utilizados para agrupar os termos ligados por
OR, quando ainda houver um outro operador na expresso de busca;
6.3 OPERADORES ASSOCIADOS BUSCA BOOLEANA
Trata-se de recursos desenvolvidos para tornar a busca booleana mais
eficiente, sem subordinar-se, porm, sua lgica subjacente.
6.3.1 Busca por NEAR
No caso do operador AND, os termos no documento encontrado podem
constar em qualquer lugar do mesmo. Dentro de um documento longo, muitas palavras
podero gerar combinaes que realmente no so objeto do documento. Por exemplo,
no caso da busca vermelho AND celeiros, um certo documento pode ter celeiro
branco no primeiro pargrafo e vages vermelhos vinte pargrafos adiante. Assim,
vou recuperar este documento, embora no tenha nada a ver com celeiros vermelhos
ou celeiros que sejam pintados de vermelho, que era o objeto da busca.
Por isso, em lugar do resultado dessa busca quero ter a certeza de recuperar
vermelho NEAR celeiro. Isto quer dizer, documentos com o termo vermelho perto
do termo celeiros. Com isto, obterei documentos com frases como Pedro foi at o
celeiro vermelho, mas tambm tiramos algumas caixas vermelhas do celeiro. A
tolerncia de NEAR varia de um sistema de busca para outro, normalmente de 9 a 15
palavras. s vezes, esse operador expresso por WITHIN (dentro de), indicando a
distncia de um termo de busca at o outro. (WEB ARCHITECTS, 2004)
Resumo:
a) o operador NEAR requer que o respectivo termo esteja dentro de uma
certa proximidade em relao palavra de busca;


25
b) juntando palavras com NEAR, sero recuperados menos documentos do
que utilizar apenas AND, porque NEAR requer que as palavras estejam
mais prximas umas das outras;
c) o operador NEAR utilizado, quando se deseja que determinados termos
apaream no mesmo perodo gramatical ou pargrafo do documento.
6.3.2 Busca por Truncamento
Entende-se por truncamento a reduo da extenso de uma palavra, cujo o
resultado pode ou no coincidir com a raiz lexical etimolgica.
Existem dois tipos de truncamentos: aberto e fechado. O truncamento aberto
permite a substituio de alguns caracteres, possibilitando a recuperao de
documentos que contenham termos com a mesma raiz (semntica), por exemplo:
bibliotec*
Neste caso, com o truncamento direita, sero recuperados: biblioteca,
bibliotecas, biblioteconomia, bibliotecrio, bibliotecrias, biblioteconmico etc.
No caso do truncamento, esquerda, como em *metro, o sistema vai
recuperar: barmetro, termmetro, manmetro...
No caso do truncamento fechado substitui-se um nico caractere, por
exemplo, no caso de se precisar as duas grafias de:
planejamento (forma brasileira) e
planeamento (forma portuguesa).
Para ter a certeza de recuperar todos os documentos que contem esse
contexto na forma brasileira ou portuguesa, faz-se um truncamento fechado:
plane?amento, normalmente, assinalando a lacuna (particularmente) por meio de um
ponto de interrogao.


26
6.3.3 Busca por Frase Completa
Na pesquisa por frases, isto , substantivos compostos ou expresses, pode-
se pesquisar utilizando marcas de citao. Com as palavras entre aspas (deste jeito)
elas aparecero juntas em todos os documentos retornados. As buscas por frases
utilizando aspas so teis para encontrar substantivos compostos, nomes especficos,
provrbios, expresses mais longas (GOOGLE, 2004).
6.4 MODALIDADES DA BUSCA BOOLEANA
Com respeito Internet, a lgica booleana tem sido utilizada nas
modalidades plena, implcita e sob forma de linguagem pr-determinada. Seguimos
aqui a explicao de COHEN (2005).
6.4.1 Busca Booleana Plena
So muitas as ferramentas de busca que oferecem a opo da busca booleana
plena, exigindo o uso dos respectivos operadores lgicos booleanos.
Exemplos:
a) Questo: Eu preciso de informaes sobre gatos.
Lgica de Boole: OR
Busca: gatos OR felinos
b) Questo: Estou interessado em dislexia em pessoas adultas.
Lgica de Boole: AND
Busca: dislexia AND adultos
c) Questo: Estou interessado em radiao, mas no em radiao nuclear.
Lgica de Boole: NOT
Busca: radiao NOT nuclear


27
d) Questo: Quero me informar sobre o comportamento de gatos.
Lgica de Boole: OR, AND
Busca: (gatos OR felinos) AND comportamento
Neste ltimo exemplo os parnteses servem para reforar a seqncia do
processamento. Colocaram-se entre parnteses as palavras conectadas pelo operador
OR, de modo que o sistema vai processar primeiramente os dois termos relacionados.
Em seguida, o sistema de busca combinar este resultado com a ltima parte da busca,
que envolve a palavra seguinte. Usando este mtodo, tem-se a certeza de que os termos
semanticamente relacionados pelo operador OR esto sendo tratados como unidade
lgica nica.
6.4.2 Busca Booleana Implcita
A busca booleana implcita refere-se a um tipo de busca, no qual so
utilizados smbolos para representar os operadores lgicos booleanos. Neste tipo de
busca na Internet, mesmo a ausncia de um smbolo pode tambm ser significante.
Assim, o espao entre as palavras automaticamente direcionado para o operador OR
ou ento para AND. Muitas ferramentas de busca tradicionalmente eram direcionados
lgica do operador OR. Atualmente, essa prtica est sendo abandonada a favor do
operador AND (COHEN, 2004).
A Lgica de Boole implcita tornou-se to comum na Rede que pode ser
considerada hoje um padro de fato.
Exemplos:
a) Questo: Eu preciso de informaes sobre gatos.
Lgica de Boole: OR
Busca: gatos + felinos


28
Este exemplo aplica-se aos sistemas de busca que interpretam o espao entre
as palavras-chave como correspondendo ao OR booleano. Para encontrar qual a lgica
que o sistema de busca est usando como padro, deve-se consultar os arquivos de
Ajuda. Atualmente, h poucos sistemas de busca que ainda se utilizam da lgica de
OR como forma padro (COHEN, 2004).
b) Questo: Estou interessado em dislexia em pessoas adultas.
Lgica de Boole: AND
Busca: dislexia & adultos
c) Questo: Estou interessado em radiao, mas no em radiao nuclear.
Lgica de Boole: NOT
Busca: radiao nuclear
d) Questo: Quero aprender algo sobre o comportamento dos gatos.
Lgica de Boole: OR, AND
Busca: gatos + felinos & comportamento.
6.4.3 Linguagem Pr-determinada
Alguns sistemas de busca oferecem formulrios de busca que permitem ao
usurio escolher o operador booleano a partir de um menu. Normalmente, o operador
lgico expresso de forma descritiva (coloquial), e no pelo respectivo operador
booleano.
Exemplos:
a) Questo: Preciso de informaes sobre gatos
Lgica de Boole: OR
Busca: qualquer uma dessas palavras/ pode conter as palavras
b) Questo: Estou interessado em dislexia em adultos.
Lgica de Boole: AND
Busca: todas estas palavras/ deve conter as palavras


29
c) Questo: Estou interessado em radiao, mas no em radiao nuclear.
Lgica de Boole: NOT
Busca: no deve necessariamente conter as palavras/ no deveria conter as
palavras
d) Questo: Quero aprender algo sobre o comportamento de gatos.
Lgica de Boole: OR, AND
Busca: combine as opes acima, se o formulrio permite expresses de
busca mltipla

TABELA 10 BUSCA BOOLEANA PLENA, BUSCA BOOLEABA IMPLCITA E LINGUAGEM PR-
DETERMINADA
Busca Booleana Plena Busca Booleana Implcita Linguagem pr-determinada
OR Colgio OR universidade Colgio +
Universidade
(veja nota abaixo)
- qualquer uma dessas palavras
- pode conter as palavras
AND Pobreza AND crime Pobreza & crime - todas as palavras
- deve conter as palavras
NOT Gatos NOT ces gatos ces - no deve conter as palavras
- no deveria conter as palavras
FONTE: COHEN, 2005

Nota: esta expresso de busca ser resolvida pela lgica do AND em
sistemas de busca que utilizarem AND como padro. Hoje em dia, a maior parte dos
sistemas de busca adotou o padro AND. Entretanto, para ter certeza, o usurio deve
consultar Arquivos de Ajuda do respectivo site para saber qual a lgica adotada
como padro.
6.5 NORMALIZAO DE QUESTES DE BUSCA BOOLEANA
O contedo do presente subcaptulo, que no se situa propriamente na
perspectiva do usurio comum de busca booleana, apresenta os pressupostos lgicos
dessa tcnica. Baseia-se na traduo e adaptao abreviada de KORFHAGE (1997).


30
Ao processar uma questo booleana, o usurio livre para construir questes de
busca bastante complexas. Estes exigem o desenvolvimento de respostas parciais a
serem juntadas na resposta final questo de busca. Toda a questo de busca booleana
pode ser reformulada seja sob forma disjuntiva normal (FDN), seja sob forma
conjuntiva normal (FCN). Cada qual oferece uma forma-padro fcil de processar. Isto
pode ser feito automaticamente, sem exigir que o usurio, ele prprio leve a cabo o
processo. O valor do FDN ou FCN para uma questo de busca refere-se respectiva
questo de busca original, sendo no final recuperado o mesmo conjunto de
documentos.
Em seguida, ambas as modalidades so escritas, seguindo a exposio de
KOFHAGE (1997, p. 57-62).
6.5.1 Forma Disjuntiva Normal (FDN)
H trs nveis de expresses em uma forma disjuntiva normal (FDN):
a) termos, que so palavras simples ou compostas que ocorrem ou
naturalmente ou sob forma negativa. Por exemplo, concerto e NOT teatro
so dois termos vlidos;
b) conjunes, que so termos unidos por AND. Por exemplo, jantar AND
show AND NOT teatro um conjunto vlido;
c) disjunes, que so conjuntos unidas por OR. Uma questo de busca
booleana em FDN constituda por uma ou mais disjunes. Por
exemplo a expresso de busca
(concerto AND jantar AND NOT teatro) OR
(voleibol AND tnis) OR
(natao AND NOT futebol)
constitui uma expresso do tipo FDN vlida. Uma vantagem da modalidade FDN
que uma questo sob esta forma pode ser dividida em questes menores, cada qual
constituda de um dos conjuntos. Assim, a questo no exemplo acima pode ser tratada


31
sob a forma de trs questes separadas. Em seguida, os resultados podem ser juntados
para produzir a resposta questo de busca inicial. Alguns autores insistem que cada
conjunto deve conter todos os termos possveis em uma expresso de busca. Assim,
em lugar de
(A AND B) OR (A AND NOT C),
estes autores ampliariam cada termo, resultando na expresso:
(A AND B AND C) OR (A AND B AND NOT C)
OR (A AND NOT B AND NOT C)
A forma completamente expandida chamada de forma disjuntiva normal plena.
6.5.2 Forma Conjuntiva Normal (FCN)
Uma questo de busca do tipo forma conjuntiva normal (FCN) definida de
modo semelhante, com os papis de AND e OR invertidos. Os termos so unidos por
OR para formar disjunes, e estes so unidos por AND para formar conjuntos. Uma
questo tpica nesta modalidade poderia ser:
(msica popular OR jantar OR NOT teatro) AND
(natao OR tnis) AND
(voleibol OR NOT futebol).
Esta no uma forma diferente da modalidade FDN citada acima, mas uma
questo de busca totalmente diferente que recuperar um conjunto tambm totalmente
diferente.
6.5.3 Normalizao
O processo de transformar uma questo de busca booleana nas modalidades
FDN ou FCN chamado normalizao. A normalizao de uma questo de busca
booleana qualquer feita com auxlio das chamadas tabelas-verdade. Em uma tabela-
verdade, cada coluna tem o valor de verdadeiro ou falso. Ao construir o FDN
completo para uma questo de busca, so utilizadas somente as colunas verdadeiras


32
da tabela-verdade. Estas constituem justamente os termos na forma completa normal
disjuntiva para a expresso. Como exemplo, considere-se a seguinte questo de busca:
(A OR B) AND (C OR NOT D) AND (D OR B),
expandindo-a para uma tabela-verdade.
A FDN plena para a questo formada, tomando-se as colunas verdadeiras
da tabela da verdade e combinando-as com OR:
Coluna 1: A AND B AND C AND D
Coluna 2: A AND B AND C AND (NOT D)
Coluna 4: A AND B AND (NOT C) AND (NOT D)
Coluna 5: A AND (NOT B) AND C AND D
Coluna 9: (NOT A) AND B AND C AND D
Coluna 10: (NOT A) AND B AND C AND (NOT D)
Coluna 12: (NOT A) AND B AND (NOT C) AND (NOT D)
Cada um destes conjuntos pode ser processado separadamente, ou eles
podem ser combinados na FDN plena para a questo de busca inicial,
(A AND B AND C AND D)
OR (A AND B AND C AND (NOT D))
OR (A AND B AND (NOT C) AND (NOT D))
OR ( A AND (NOT B) AND C AND D)
OR (( NOT A) AND B AND C AND D)
OR ((NOT A) AND B AND C AND (NOT D))
OR ((NOT A) AND B AND (NOT C) AND (NOT D)).



33
TABELA 11 TABELA - VERDADE PARA A FORMA DISJUNTIVA NORMAL PLENA
Coluna A B C D A OR B C OR NOT D D OR B Expresso
1 V V V V V V V V
2 V V V F V V V V
3 V V F V V F V F
4 V V F F V V V V
5 V F V V V V V V
6 V F V F V V F F
7 V F F V V F V F
8 V F F F V V F F
9 F V V V V V V V
10 F V V F V V V V
11 F V F V V F V F
12 F V F F V V V V
13 F F V V F V V F
14 F F V F F V F F
15 F F F V F F V F
16 F F F F F V F F

A FDN plena para uma questo envolve, freqentemente, vrias frases
(conjuntos) alguns dos quais podem ser combinados. Neste exemplo, visto que as
colunas 1 e 2 so ambas includas, est claro que para estas colunas no importa
aplicar D ou NOT D. Em ambas as colunas, A, B e C so verdadeiras. Por isso, a
expresso A AND B AND C verdadeira para estas duas colunas, mas para nenhuma
outra. Esta nica expresso cobre ambas as colunas e pode ser substituda para as duas
expresses que envolvem D e NOT D. Vrias tcnicas existem para minimizar uma
expresso de busca booleana, isto , reduzi-la forma mais simples possvel.
Aplicadas ao presente exemplo, estas tcnicas levam seguinte expresso de FDN
mais simples:
(A AND C AND D) OR (B AND C) OR (B AND (NOT D)).
Os trs conjuntos cobrem todas as colunas verdadeiras (e nenhuma das falsas) da
tabela:
Coluna 1: (A AND C AND D), (B AND C)
Coluna 2: (B AND C), (B AND (NOT D))
Coluna 4: (B AND (NOT D))
Coluna 5: (A AND C AND D)
Coluna 9: (B AND C)


34
Coluna 10: (B AND C), (B AND (NOT D))
Coluna 12: (B AND (NOT D))
A FCN plena para uma questo de busca pode ser obtida de modo
semelhante. Comea formando a FCN plena, usando as colunas falsas da tabela. Esta
claramente a FDN para a negao da questo. Pela negao, e aplicando o Teorema de
DeMorgan, ela convertida para a FCN no lugar da questo original. Pelo Teorema de
DeMorgan a negao movida para os termos individuais, intercambiando AND e OR
no processo:
NOT (A AND B) = (NOT A) OR (NOT B),
NOT (A O B) = (NOT A) AND (NOT B).
Neste processo tambm usada a Lei de Negao Dupla:
NOT (NOT A) = A
Usando um exemplo mais breve, se o FDN para a negao de uma questo de busca
for:
(A AND B AND NOT C) OR (NOT A AND C) OR (B AND C),
ento o FCN para questo de busca determinada, negando esta expresso e
expandindo-a para:
NOT ((A AND B AND C) OR NOT A AND C) OR (B AND C))
= NOT (A AND B AND NOT C)
AND NOT (NOT A AND C)
AND NOT (B AND C)
= (NOT A OR NOT B OR NOT (NOT C))
AND (NOT (NOT A) OR NOT C)
AND (NOT B OR NOT C).
O resultado final a expresso FCN:
(NOT A OR NOT B OR C) AND (A OR NOT C) AND ( NOT B OR NOT
C).


35
Cada disjuno em um FDN produz um conjunto de respostas para a
expresso de busca, que so ento juntados para desenvolver um conjunto pleno. Isto
no acontece com o FCN. Enquanto cada conjuno produz um conjunto de
candidatos em resposta questo de busca, estes candidatos ainda devem ser
validados, satisfazendo outras conjunes. Assim, em nosso exemplo, qualquer
documento que satisfaz NOT A OR NOT B OR C, tambm tem que satisfazer A OR
NOT C AND NOT B OR NOT C. Entretanto, recorde-se a forma de FCN como sendo
basicamente uma questo conjuntiva:
A AND B AND C AND D,
onde cada uma das conjunes A, B, C e D foi substituda por uma lista de sinnimos
ou termos alternativos. O uso de um tesauro, por exemplo, pode expandir facilmente
uma determinada questo do tipo FCN para uma questo mais abrangente de busca de
FCN. Bibliotecrios de referncia, familiarizados com os termos usados em uma
determinada coleo de literatura, freqentemente se utilizam de questes de busca do
tipo FCN.
Quantitativamente, o processamento de uma questo de busca booleana pode
ser reduzido, desde que haja algum conhecimento prvio da base de dados. A comear
com um determinado conjunto de documentos, ao processar cada conjuno (AND),
reduz-se o tamanho do conjunto, pois eliminam-se aqueles documentos que no
satisfazem a conjuno. Assim, o conjunto de documentos recuperados em resposta
questo de busca A AND B deve ser, no melhor dos casos, menor que o nmero de
documentos que contm A e o nmero daqueles que contm B e, provavelmente, ser
menor que cada um deles. Consequentemente, se os tamanhos dos vrios conjuntos
satisfazendo os termos em um questo de busca forem conhecidos, o processamento
desses conjuntos resultar em ter de lidar com conjuntos cada vez menores.



36
7 DIFICULDADES E LIMITAES DA BUSCA BOOLEANA
Apesar da simplicidade e do sucesso da busca booleana, especialmente em
sistemas comercializados e na Internet, ela apresenta vrios problemas ou dificuldades
que so explicitados a seguir, seguindo KORFHAGE (1997).
A primeira dificuldade que numa questo de busca puramente booleana,
no h como atribuir pesos aos termos conforme sua importncia. Um termo est
presente ou ausente. Assim, o usurio tem pouco controle sobre a importncia por ele
atribuda a um termo numa questo de busca. O usurio de um banco de dados sobre
msica, por exemplo, no poderia facilmente formular uma busca booleana para
msica de Beethoven, preferivelmente uma sonata. As expresses de busca booleana
mais simples seriam Beethoven AND sonata (o que eliminaria qualquer outra msica
de Beethoven) e Beethoven OR sonata (que incluir tambm sonatas de outros
compositores). A expresso de busca (Beethoven AND sonata) OR Beethoven poderia
alcanar o resultado desejado, mas a maioria dos sistemas booleanos no distinguiria
entre sonatas de Beethoven e outras msicas de Beethoven. Em outras palavras, a
simples questo de busca com o termo Beethoven alcanaria um resultado
semelhante. Entretanto, ao longo do tempo desenvolveram-se sistemas booleanos com
acrscimo de critrios estatsticos que trabalham com atribuio de pesos aos termos
para superar essa limitao.
A segunda dificuldade com a busca booleana decorre do fato de que ela
pode produzir resultados errneos por causa de uma questo de busca mal formulada.
Este problema envolve a interpretao incorreta dos conectivos booleanos AND e OR.
Pessoas no bem familiarizadas com as convenes lgicas, e tendo usado estes
conectivos s informalmente de modo intuitivo, tendem a utiliz-los erroneamente
aqui. O uso das expresses que contenham os operadores AND e OR em lgica
booleana no corresponde ao uso intuitivo, cotidiano. Por exemplo, uma pessoa que
pesquisa as possibilidades de diverso para sbado noite especificou seus interesses
na expresso de busca:


37
jantar AND futebol AND msica popular
A escolha de eventos em que haja simultaneamente jantar e futebol e msica
popular no se aplica; provavelmente a pessoa queria expressar:
jantar OR futebol OR msica popular,
ou ainda
jantar AND (futebol OR msica popular).
O sistema de recuperao booleana por si s no pode proporcionar uma
resposta satisfatria a uma questo desse tipo. Isto traz uma dificuldade para o usurio
no iniciado em lgica de Boole. Por essa razo, as ferramentas utilizadas hoje na
Internet acabaram por eliminar esse problema com a busca implcita.
A terceira dificuldade com sistemas de recuperao booleana consiste na
ordem de precedncia dos conectivos lgicos. So permitidos dois padres diferentes
para a ordem de precedncia. Ambos se utilizam de parnteses para agrupar os termos:
a combinao dentro de parnteses processada como uma unidade, antes de ser
combinao com os termos fora dos parnteses. Em uma das modalidades, NOT
aplicado primeiro dentro dos parnteses, seguido por AND, que seguido por OR.
Neste uso, h uma precedncia da esquerda para direita para os respectivos operadores
do mesmo tipo. Mas em outros sistemas segue-se uma ordem de precedncia da
esquerda para a direita, sem levar em conta os operadores. Assim, a questo de busca:
A OR B AND C
seria interpretada como
A OR (B AND C)
no primeiro tipo de sistema, mas como
(A OR B) AND C
no segundo tipo de sistema. Em qualquer um dos casos, preciso utilizar parnteses,
quando se pretende obter uma interpretao diferente daquela que o sistema assume
automaticamente.


38
Note-se que neste exemplo, a primeira interpretao poder recuperar um
documento que contm somente o termo A. J a segunda interpretao no, pois exige
a presena do termo C. Observou-se que as pessoas tendem a interpretar esta
ambigidade de uma maneira ou de outra, dependendo das relaes semnticas entre
os trs termos. Por exemplo, as pessoas interpretam a expresso de busca caf AND
po de queijo OR rosca diferentemente da expresso de busca capa de chuva AND
guarda-chuva OR culos. No segundo uso, evidentemente, a pessoa certamente no
escolher entre guarda-chuva ou culos.
O operador NOT pode causar um outro problema, embora de mais fcil
soluo. Viu-se que NOT recupera todos os documentos que no contenham um
determinado termo especfico. Desse modo, uma questo de busca com NOT,
vinculado a uma palavra inexistente, corre o risco de ter de recuperar virtualmente a
base de dados inteira. Uma maneira de solucionar isto restringir o uso de NOT a
situaes, em que este operador se aplica apenas a uma quantidade pequena de
documentos. Por exemplo, suponha-se que a questo de busca seja:
(NOT A) AND B AND C.
Em lugar de comear a interpretao da questo de busca com NOT A, que
vai recuperar todo documento que no contm o termo A, comea-se com B AND C.
Ento, a condio NOT A aplicada a um conjunto muito menor de documentos
resultantes, isto s aqueles que contm ambos B e C.
A imensa maioria dos usurios de sistemas de informao e, em especial de
Internet, naturalmente, no treinada em lgebra de Boole. O problema da
aprendizagem de interpretar corretamente os operadores booleanos e suas regras de
precedncia, combinado com o fato de que muitos usurios no tm acesso a sistemas
de recuperao de informao regularmente, tem sido a principal barreira para o uso
efetivo de sistemas de recuperao booleanos.
A quarta dificuldade em sistemas de recuperao booleana est em
controlar a extenso e composio dos conjuntos recuperados de documentos.
Tecnicamente, o sistema deveria apresentar todos os documentos que satisfazem a


39
questo de busca. Porm, da busca pode resultar um nmero muito reduzido ou muito
grande. No segundo caso, o sistema pode apresentar ao usurio vrias centenas ou
milhares de documentos para exame, sem nenhuma ordem especfica. Uma soluo
seria comear novamente com uma questo de busca mais restrita. O usurio pode em
seguida formular uma nova questo de busca, ou imediatamente, ou aps examinar os
primeiros documentos recuperados. Poder acrescentar mais termos questo original
ou construir uma questo de busca com um conjunto de termos completamente novo.
H sistemas que restringem automaticamente o nmero de documentos apresentados
ao usurio. s vezes, este nmero pode ser fixado pelo sistema ou pelo usurio. Mas, a
menos que o sistema faa uma ordenao dos documentos pelo nmero de termos de
busca encontrados, pode acontecer que o corte arbitrrio resulta na reteno de
documentos relativamente fracos, enquanto descarta os melhores encontrados.
Quando os documentos so ordenados pela quantidade de termos
encontrados, tem-se inicialmente uma ordenao mais ou menos grosseira. Isto pode
ser melhorado em um sistema de busca booleana, utilizando, por exemplo, um tesauro
para ampliar a quantidade dos termos de busca. Entretanto, com isto no se resolve
satisfatoriamente o problema da importncia relativa dos termos individuais na questo
de busca.
Por ltimo, existe ainda uma dificuldade de natureza estrutural com as
questes de busca booleana que KORFHAGE (1997, p. 62) chama de problema
filosfico. Ao executar uma recuperao, o sistema compara um documento com uma
questo. Um documento pode ser representado facilmente por uma lista de termos que
ele contm. Mas por tratar-se de uma lista, e no de uma expresso booleana, a
introduo de conectivos booleanos numa questo de busca parece produzir uma
forma de busca menos parecida com o documento do que seria uma lista de termos.
Por causa desta diferena estrutural entre a questo de busca e o documento, pode-se
encarar a recuperao booleana antes como um processo de mapeamento e no
propriamente como um processo de verificao de coincidncias (matching process)
entre termos de busca e termos contidos nos documentos.


40
Apesar dessas restries, os sistemas de recuperao booleana continuam
bastante difundidos e razoavelmente eficientes. Sua facilidade de uso certamente
contribui para isto. O usurio especifica uma lista de termos combinados com AND,
OR e NOT, talvez incrementada por operadores de proximidade ou por outros
operadores. No h necessidade de considerar a possvel importncia que determinado
termo possa ter. As dificuldades de modelar a questo de busca com preciso lgica,
no tem causado maiores impactos prticos. As pessoas tendem a usar apenas dois ou
trs termos de cada vez, evitando construir questes de busca complexas. Finalmente,
outros modelos de recuperao, embora teoricamente mais interessantes, no tm
alcanado, na prtica, resultados superiores queles dos sistemas booleanos. Se isto
permanecer assim, enquanto os sistemas de recuperao esto migrando para sistemas
de texto inteiro e documentos multimdia, ainda difcil de se prever (KORFHAGE,
1997, p. 62-63).
O que se tem conseguido nos ltimos anos, especialmente na Internet, foi
implementar mecanismos de busca hbridos, com a implementao inclusive de
mtodos estatsticos, tornando o processo de recuperao mais amigvel para os
usurios em geral. Na mesma tendncia, a prpria busca booleana tem-se tornado cada
vez mais implcita, dispensando, na maioria dos casos, o conhecimento tcnico sobre
seu mecanismo.

8 ESTRATGIAS DE BUSCA
Estratgia de busca o meio pelo qual o pesquisador se comunica com o
sistema, e muitas vezes a chave para uma busca bem sucedida. As tcnicas de busca
so mtodos, tticas, estratgias ou planos que podem ser usados nas buscas em
sistemas de informao convencionais ou eletrnicos.


41
Portanto, estratgia de busca o procedimento por meio do qual se procuram
documentos ou informaes sobre um determinado assunto. Pressupe sempre a
existncia de um sistema de recuperao da informao, consistindo um elemento
essencial a funo de output (sada) a informao nesse sistema. Para que se possa
recuperar uma informao, preciso que haja uma informao anteriormente
armazenada, e preciso que haja uma perfeita identidade entre a linguagem adotada
pelo sistema na entrada dos dados e aquela utilizada durante a busca (sada dos dados).
Segundo ROGERS (1980, p. 72) o processo de busca inclui os seguintes passos:
1. esclarecer a necessidade de informao;
2. estabelecer os parmetros de busca baseados na necessidade;
3. identificar o sistema(s) onde ser feita a busca;
4. traduzir (indexar) a necessidade para a linguagem do sistema;
5. realizar a busca;
6. fornecer a informao.
Em outras palavras, isso significa que preciso, em primeiro lugar,
estabelecer claramente qual a necessidade de informao do cliente/usurio que dever
ser atendida, procurando-se, portanto, aproximar ao mximo possvel a demanda
expressa da necessidade a ser identificada. No segundo passo, o pedido do cliente
analisado, procurando-se reconhecer as vrias facetas dos conceitos envolvidos. Como
terceiro passo, preciso identificar qual ou quais sistemas de recuperao da
informao so mais indicados para efetuar a busca da informao solicitada.
Depois da anlise conceitual da demanda de informao e da escolha do
sistema de recuperao mais adequado busca pretendida, preciso traduzir os termos
resultantes dessa anlise conceitual para a linguagem adotada pelo sistema escolhido.
Portanto, h dois passos distintos na elaborao de uma estratgia de busca:
- A anlise conceitual daquilo que realmente desejado, e
- A traduo desta anlise para conjunto de termos usados para representar
os conceitos procurados em determinada base de dados a ser utilizada.


42
Esses passos so semelhantes ao processo de indexao dos documentos que
entram numa base de dados.
As estratgias de busca podem ser bastante simples ou muito complexas,
variando conforme o tipo de demanda, os recursos de busca oferecidos, o grau de
sofisticao da indexao e a armazenagem dos dados no respectivo sistema de
recuperao da informao. Entretanto, em qualquer tipo de sistema (bases de dados,
Internet) as estratgias so basicamente as mesmas.
A busca que utiliza linguagem documentria pela qual o documento foi
previamente indexado bem mais precisa do que aquela que se utiliza da linguagem
natural, pois pode-se ter certeza da existncia ou no de assuntos procurados. Neste
caso, pode-se utilizar um nico descritor, que pode resultar num nmero grande e
indesejvel de recuperaes, ou ento utilizar combinaes de descritores, segundo a
lgica booleana, que permite delimitar e tornam mais precisa uma busca por assunto.
No h, geralmente, restries para o nmero de termos e operadores lgicos includos
numa estratgia de busca. Muitos outros recursos existem, sendo que alguns podem ser
utilizados tanto nas buscas por vocabulrio controlado como naquelas por linguagem
natural.
O grau de sucesso nas buscas de informao depende igualmente do
processo de indexao dos documentos, da linguagem de indexao, da interface
usurio-sistema e das estratgias de busca empregadas. Consequentemente, caso sejam
detectadas falhas na recuperao da informao, importante avaliar qual desses
fatores deve ser responsabilizado e corrigi-lo, se possvel. Muitas vezes, a eficincia
do sistema de recuperao da informao pode ser imediatamente aumentada atravs
de uma melhor comunicao com os usurios e aperfeioamento nas estratgias das
busca utilizadas.
Os usurios, obviamente, esperam que o sistema seja capaz de recuperar a
quantidade e qualidade de documentos que contribuem para satisfazer alguma
necessidade de informao (documentos relevantes).



43
9 ESTUDO DE CASOS
No presente capitulo apresentado o resultado de uma pesquisa temtica em
lngua portuguesa realizada em cinco sistemas de busca da Internet. Ser demonstrada
a capacidade de cada sistema na recuperao da informao desejada, utilizando
operadores booleanos e refinando ao mximo a busca.
Uma anlise prvia do assunto que se pretende pesquisar permitiu
determinar, quais os termos mais adequados e os operadores indicados para associar
esses termos. Caso o resultado pretendido no fosse alcanado, seriam acrescentados
sinnimos com o operador OR, ou mais um termo referente ao assunto com o operador
AND, ou ainda eliminados os termos sem interesse, por meio do operador NOT.
O objetivo pretendido com a presente questo de busca, utilizando os
operadores lgicos booleanos, demonstrar as caractersticas dos respectivos sistemas
e como so utilizados os operadores nos mesmos. A pergunta apresentada a seguinte:
Desejo obter informaes detalhadas sobre as civilizaes da Mesopotmia.
a) Alta Vista (www.altavista.com.br)
- Caractersticas: aceita o uso de todos os operadores
- Questo de busca: Mesopotmia AND (Caldeus OR Assrios OR
Babilnios OR Sumrios) AND poltica AND cultura AND economia
AND religio AND escrita NOT Iraque
- Documentos recuperados: 53
b) Google (www.google.com.br)
- Caractersticas: AND = default
OR = +
NOT =
- Questo de busca: Mesopotmia (Caldeus + Assrios + Babilnios +
Sumrios) poltica cultura economia religio escrita -Iraque
- Documentos recuperados: 3


44
c) Cad? (www.cade.com.br)
- Caractersticas: aceita todos os operadores booleanos
- Questo de busca: Mesopotmia AND (Caldeus OR Assrios OR
Babilnios OR Sumrios) AND poltica AND cultura AND economia
AND religio AND escrita NOT Iraque
- Documentos recuperados: 56
d) Aonde? (www.aonde.com.br)
- Caractersticas: AND = &
OR = |
NOT = ~
- Questo de busca: Mesopotmia & (Caldeus | Assrios | Babilnios |
Sumrios) & poltica & cultura & economia & religio & escrita
~Iraque
- Documentos recuperados: site com problemas
e) Radar Uol (www.radaruol.com.br)
- Caractersticas: AND = &
OR = |
NOT = ~
- Questo de busca: Mesopotmia & (Caldeus | Assrios | Babilnios |
Sumrios) & poltica & cultura & economia & religio & escrita
~Iraque
- Documentos recuperados: 4
Constatou-se nesta pesquisa temtica que a forma de aplicao dos
operadores booleanos e a quantidade de resultados variam conforme o site. Constatou-
se, tambm, que todos os itens recuperados pelos sistemas de busca corresponderam ao
que se esperava como resposta pergunta inicial.



45
10 CONCLUSO
Foram apresentadas neste trabalho as modalidades bsicas de uso da busca
booleana, a qual utilizada hoje pela maioria dos sistemas de recuperao de
informao da Internet. Foram descritos alguns aspectos problemticos, alm da
aplicao dessa ferramenta e avaliado seu uso em cinco sistemas de busca.
Na tentativa de se obter conhecimentos bsicos sobre a matria, foi realizada,
primeiramente, uma pesquisa bibliogrfica acerca do assunto, o qual foi apresentado,
numa linguagem de fcil entendimento para usurios iniciantes de sistemas de busca
que utilizam os operadores lgicos booleanos.
Um dos problemas referentes ao uso do modelo booleano que o usurio
leigo tem dificuldade em colocar suas necessidades informacionais na forma de uma
expresso de busca. O desconhecimento dos rudimentos da lgebra Booleana acentua
as dificuldades. O usurio precisa memorizar smbolos de conetivos e verificar
prioridades no uso dos operadores e de parnteses. Como conseqncia, os resultados,
muitas vezes, no so satisfatrios.
grande a variedade de consultas que podem ser feitas com a busca
booleana. Entretanto, o sistema, em muitos casos, pode oferecer respostas no
relevantes, quando no houve uma estratgia de busca adequada na consulta do
usurio. Alm disso, a avaliao muito sensvel, sendo que documentos irrelevantes
recuperados ou documentos relevantes no recuperados afetam a preciso e a
cobertura do resultado.
Apesar disso, grandes volumes de informao, hoje acessveis na Internet, so
disponibilizados por intermdio de ferramentas baseadas na busca booleana.
Pde-se confirmar, no decorrer deste trabalho, que h ainda poucos textos
em portugus sobre este assunto. Para futuros trabalhos, sugere-se ampliar a descrio
sobre arquitetura, processos, tcnicas e ferramentas baseadas na Lgica de Boole, bem
como elaborar um conjunto de exerccios progressivos para Gestores da Informao.


46
REFERNCIAS
BARKER, Joe. Boolean searching for the web. Disponvel em:
<http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/Boolean.pdf> acesso em: 25 ago.
2004.
BRANSKI, R. M. Localizao de informao na Internet: caractersticas e formas de
funcionamento dos mecanismos de busca. Disponvel em:
<http://www.eco.unicamp.br/cefi/localizacao.doc> acesso em: 04 abr. 2005.
CARDOSO, S. H.; SABATINI, R. M. E. Pesquisando na Internet: como usar os recursos
avanados, 1998. Disponvel em: <http://www.nib.unicamp.br/metodologia/biblio.htm>
acesso em: 29 set. 2004
COHEN, Laura. Boolean Searching on the Internet. Disponvel em:
<http://library.albany.edu/internet/boolean.html> acesso em: 24 mar. 2005.
DAGLIAN, J. Lgica e lgebra de Boole. So Paulo: Atlas, 1986. 155p.
ENCICLOPEDIA MIRADOR INTERNACIONAL. So Paulo: Britannica do Brasil, 1991.
FERNEDA, E. Recuperao da informao: anlise sobre a contribuio da Cincia da
Computao para a Cincia da Informao. So Paulo, 2003. 147f. Tese (Documento em
Cincia da Comunicao) Escola de Comunicao e Arte, Universidade de So Paulo.
GILSTER, P. Como encontrar informaes na internet. So Paulo: Makron Books, 1995.
GOOGLE. Refinando sua busca. Disponvel em: <http://www.google.com.br/intl/pt-
BR/help/refinesearch.html> acesso em: 27 set. 2004.
HELP CENTRAL ROBO. Boolean search. Disponvel em:
<http://www.abebooks.com/docs/HelpCentral/RoboHelp/bookbuyerhelp/Searching_and_Bro
wsing_for_Books/Boolean_Search.html> acesso em: 15 set. 2004
KORFHAGE, R. R. Information storage and retrieval. New York: Wiley Computer
Publishing, 1997, 349p.
LAQUEY, T; RYER, J. C. O manual da internet: um guia introdutrio para acesso s redes
globais. Rio de Janeiro: Campus, 1994.
LOPES, I. L. Estratgia de busca na recuperao da informao: reviso da literatura. Cincia
da Informao, Braslia, v. 3, n. 2, p. 60-71, mai./ago. 2002
MARBN, R. M. Operadores booleanos en la recuperacin de informacin. Guatemala:
OEA-ICAITI, 1997, 43p.
MOREIRO GONZLEZ, J. A. Manual de documentacin informativa. Madrid: Signo e
Imagen, 2000. p.458.
MOURA, G. A. C. Sistemas de busca da web: diretrios e mecanismos de busca. Disponvel
em: <http://www.quatrocantos.com/tec_web/sist_busca/sb_sum.htm> Acesso em: 31 jan.
2004.
RICH, Linda. Boolean Operators. Disponvel em:
<http://www.bgsu.edu/colleges/library/infosrv/lue/boolean.html> acesso em: 24 jan. 2005.


47
ROGERS, S. J. Research strategies: bibliographic instruction for undergraduates. Library
Trends, Urbana, v. 29, n. 1, p. 69-80, 1990.
ROWLEY, J. Informtica para bibliotecas. Braslia: Briquet de Lemos, 1993.
SOMATEMATICA. Biografias: George Boole. Disponvel em:
<http://www.somatematica.com.br/biograf/boole.php> acesso em: 03 jun. 2005.
SULLIVAN, Danny. Boolean Searching. Disponvel em:
<http://searchenginewatch.com/facts/article.php/2155991> acesso em: 24 jun. 2004.
TAUB, Herbert. Circuitos digitais e microprocessadores. So Paulo: McGraw-Hill do
Brasil, 1984, p. 509.
TRILLO, C. D. P. Recuperao de vdeos indexados por conceitos. So Paulo, 2005. 98f.
Dissertao (Mestrado em Cincia da Computao) Instituto de Matemtica e Estatsitca,
Universidade de So Paulo.
WEB ARCHITECTS. Boolean tutorial. Disponvel em:
<http://florin.syr.edu/webarch/searchpro/boolean_tutorial.html> acesso em: 24 jun. 2004.


48

APNDICES

APNDICE 1 BIOGRAFIA DE GEORGE BOOLE (1815-1864)............................47
APNDICE 2 SISTEMAS DE BUSCA ....................................................................50


49

APNDICE 1 BIOGRAFIA DE GEORGE BOOLE (1815-1864)


50
APNDICE 1 - BIOGRAFIA DE GEORGE BOOLE (1815-1864)
George Boole nasceu em Lincoln, na Inglaterra, a 2 de novembro de 1815 e
faleceu de pneumonia em Cork, na Irlanda, a 8 de dezembro de 1864. Casou-se em
1855 com Mary Everest, com quem teve cinco filhas.
Boole, cujo pai era sapateiro, no tinha condies de estudar em um colgio
mais afamado. Estudou na Escola Primria Lincoln, e mais tarde, numa Escola
Comercial. Dedicou-se, como era usual, ao aprendizado do grego e do latim, tomando
aulas particulares com um livreiro local.
Dos 16 aos 34 anos, ensinou em escolas elementares, dirigindo, por vrios
anos, a que ele prprio fundou. Estudou Matemtica por conta prpria, sem nenhuma
formao acadmica, e foi at encorajado a estudar na Universidade de Cambrigde.
Contudo, no pde aceitar, pois seus pais necessitavam de sua ajuda.
Em 1840, foi eleito para ocupar o lugar de professor de Matemtica no
Queens College em Cork (Irlanda), onde permaneceu o resto da vida. Em 1844,
lanou um trabalho sobre a aplicao de mtodos algbricos na soluo de equaes
diferenciais, recebendo uma medalha de Ouro da Royal Society. Publicou a Analise
da Matemtica Lgica em 1847, inaugurando sua carreira como um dos iniciadores
da moderna Lgica Simblica.
Em sua investigao sobre as Leis do Pensamento (1854) esto cimentadas
as Teorias da Lgica e das Probabilidades. Tornou-se conhecido at hoje pela
lgebra de Boole, onde abordou a Lgica de forma a reduzi-la a uma lgebra
simples, inserindo a Lgica na Matemtica.
Boole recebeu ttulos das Universidades de Dublin e Oxford e, em 1857, foi
eleito membro da Royal Society.


51
A lgebra de Boole, embora existindo h mais de cem anos, no teve
qualquer utilizao prtica at 1937, quando foi feita sua primeira aplicao na anlise
de circuitos rles. Atualmente, utilizada em computadores digitais, tendo-se tornado
a base convencional de busca na maioria dos sistemas computadorizados.
*


* Compilado a partir das seguintes fontes:
ENCICLOPIA MIRADOR INTERNACIONAL, 1991, p. 1473
DAGHLIAN, 1986, p. 18
SOMATEMATICA, 2005


52

APNDICE 2 SISTEMAS DE BUSCA E METAPESQUISADORES


53
SUMRIO

1 SISTEMAS DE BUSCA .......................................................................................54
1.1 MECANISMOS DE BUSCA...............................................................................54
1.2 DIRETRIOS.......................................................................................................55
2 METAPESQUISADORES...................................................................................56


54
1 SISTEMAS DE BUSCA
Acrescentou-se o presente Apndice como complemento ao tema desta
monografia. As fontes utilizadas foram, principalmente, MOURA (2004) e BRANSKI
(2005).
Entende-se por sistema de busca um conjunto organizado, constitudo de
computadores, ndices, bases de dados e algoritmos tudo isso reunido com a misso
de:
a) analisar e indexar as pginas da web, e
b) armazenar os resultados dessa anlise e indexao numa base de dados.
Quando de uma consulta de um usurio, o sistema de busca vai pesquisar
a(s) sua(s) base(s) de dados e fornecer os resultados da pesquisa ao usurio.
Todas essas funes realizam-se em um site da web cuja pgina de abertura
, geralmente, um portal.
Existem duas classes de sistemas de busca: os diretrios e os mecanismos
de busca, sendo que ambos tm a mesma finalidade. Do ponto de vista do usurio-
consulente-internauta ambos possibilitam a localizao de sites e pginas (homepages)
que contm determinado assunto ou abordam determinado aspecto de um assunto. A
partir do ponto de vista do proprietrio-dono-autor de uma pgina, esses sistemas
fazem com que o seu site seja localizado, da maneira mais fcil possvel, pelo prprio
usurio-consulente-internauta. Este pode ser eventualmente um consumidor do prprio
produto divulgado no site.
As denominaes diretrio e mecanismo de busca ainda no esto bem
consolidadas no Brasil, havendo diversos termos em uso para designar os mesmos
conceitos, por exemplo: sistema de busca, ferramenta de busca, ferramenta de procura,
motor de busca, motor de procura, indexador, catlogo, site de busca, programa de
busca, servio de busca, engenho de busca etc.


55
1.1 MECANISMOS DE BUSCA
Entende-se por mecanismos de busca sistemas (de busca) baseados no uso
exclusivo de programas de computador para a indexao das pginas da web. De uma
forma simplificada, esses mecanismos de busca apresentam trs componentes
principais:
a) um programa de computador denominado rob que visita os sites ou
pginas armazenadas na web. Ao chegar num site, o programa rob
"pra" em cada pgina do mesmo, criando uma cpia ou rplica do texto
contido na pgina visitada. Essa cpia ou rplica vai compor a sua base
de dados;
b) o segundo componente a base de dados constituda pelas cpias obtidas
pelo rob. s vezes tambm denominada de ndice ou catlogo, o
resultado dessa busca fica armazenada no computador. Este que tambm
chamado de servidor do mecanismo de busca;
c) o terceiro componente o programa de busca propriamente dito, acionado
toda vez que algum realiza uma pesquisa. Nesse instante, o programa sai
percorrendo a base de dados do mecanismo em busca dos endereos - os
URLS (Uniform Resource Locators) - das pginas que contm as
palavras, expresses ou frases informadas na consulta. Em seguida, os
endereos encontrados so apresentados ao usurio.
1.2 DIRETRIOS DE BUSCA
Diretrios so sistemas de busca, nos quais a indexao das pginas da web
realizada por humanos.
Ao realizar uma pesquisa, quer atravs de um mecanismo de busca quer
atravs de um diretrio, no se est pesquisando diretamente a web. Est-se
pesquisando uma base de dados localizada num site da web. Nessa base de dados,


56
encontra-se uma cpia dos sites e pginas existentes na web. Esse diretrio tem dois
componentes principais a saber, uma base de dados, tambm chamada ndice ou
catlogo, e um programa de computador que faz a pesquisa na base de dados.
Portanto, a montagem ou criao da base de dados de um diretrio
realizada por humanos, que fazem a anlise e indexao dos sites da web. Dessa
forma, nos diretrios no existem robs para a catalogao e a indexao da web.
Enquanto os mecanismos de busca copiam todo o contedo das pginas que
encontram pela frente, mantendo tudo em suas bases de dados, nos diretrios mantm-
se apenas resumos do contedo dos sites catalogados. Muitas vezes, esse resumo que
fica na base de dados do diretrio, contm apenas o ttulo do site mais duas ou trs
frases sobre o assunto nele contido. Esse resumo pode ser elaborado pelo autor da
pgina ou por um editor, dependendo do diretrio.
O diretrio tem a mesma finalidade do mecanismo de busca: indexao e
recuperao de pginas da web. Eles tm a mesma finalidade, apesar das diferenas
fundamentais entre eles.
Nas ferramentas de pesquisa mais comuns submete-se as palavras a um
nico banco de dados, recebendo-se uma relao dos documentos onde constam as
palavras pesquisadas. Os resultados obtidos em diferentes pesquisadores podem variar
bastante, mas tambm podem conter resultados duplicados.

2 METAPESQUISADORES
Os metapesquisadores buscam, simultaneamente, informaes em vrios
mecanismos de busca. No possuem banco de dados prprio, funcionando como um
agente intermedirio que repassa a pesquisa. Obtm as respostas dos pesquisadores
individualmente e, ento, apresentam um resultado unificado, extrado das diversas
fontes. Em poucos segundos os metapesquisadores compilam os resultados obtidos,
economizando tempo e fornecendo uma viso geral do tipo de documentos
armazenados em cada ferramenta.


57
A utilizao dos metapesquisadores no elimina a necessidade de se
conhecer as caractersticas individuais dos diversos mecanismos de busca. Quanto
mais se conhece sobre as formas de funcionamento das ferramentas que os alimentam,
melhor ser a capacidade de avaliar a confiabilidade dos resultados obtidos Se, por
exemplo, a pesquisa exige determinados refinamentos no processveis pelas
ferramentas que constituem o metapesquisador, pode haver resultados inadequados ou
mesmo erros.

Вам также может понравиться