Академический Документы
Профессиональный Документы
Культура Документы
BÚSQUEDA EN LA WEB
R MACIÓN
NFO
IDA D DE I Query
NECES
Sistema de Búsqueda
STA Documentos
PU E
RES Relevantes
04/03/2008 3
ANTECEDENTES: IR
Para que IR sea efectiva se requiere que el sistema “intérprete” tanto el query
como los documentos que se van a entregar, que pueda “rankearlos” acorde a
la necesidad del usuario.
04/03/2008 4
INTRODUCCIÓN
La Web se presenta como un repositorio de conocimiento y
cultura humana, el cual permite compartir ideas e información
en una escala nunca vista anteriormente.
Se estima que los datos textuales disponible en la Web superan
el Terabyte, con un crecimiento exponencial
También se encuentran disponibles, imágenes, videos, audios.
La Web puede ser vista como una gran base de datos no
estructurada
04/03/2008 5
INTRODUCCIÓN
04/03/2008 6
INTRODUCCIÓN
Desafíos:
04/03/2008 7
INTRODUCCIÓN
Desafíos:
04/03/2008 8
INTRODUCCIÓN
Desafíos (>):
04/03/2008 9
ESTRATEGIAS BÁSICAS DE
BÚSQUEDA EN LA WEB
04/03/2008 10
MOTORES DE BÚSQUEDA
(Search Engines)
04/03/2008 11
MOTORES DE BÚSQUEDA
Arquitecturas Centralizadas
Crawler-Indexador Centralizado
04/03/2008 12
MOTORES DE BÚSQUEDA
Arquitecturas Centralizadas
x
Inde
E ngi ne
ry
Que
n de xer
I
fa ce
Inter wle r
r a
r
C
u se
04/03/2008 13
MOTORES DE BÚSQUEDA
Arquitecturas Centralizadas
Crawler-Indexador Centralizado
04/03/2008 14
MOTOR DE BÚSQUEDA
04/03/2008 15
MOTOR DE BÚSQUEDA
Crawler
Es una de las actividades mas frágiles del motor de búsqueda, ya que
interactúa con cientos de miles de servidores web
04/03/2008 16
MOTOR DE BÚSQUEDA
Indexer
El indexer utiliza las páginas que vienen al
motor de búsqueda para construir una gran
base de datos indexada.
04/03/2008 17
MOTOR DE BÚSQUEDA
Indexer
Índices:
Searcher
04/03/2008 19
MOTOR DE BÚSQUEDA
Ranking
Utilizan el query:
Modelo booleano, vectorial similar a RI
04/03/2008 20
MOTORES DE BÚSQUEDA
Arquitecturas Centralizadas
Crawler-Indexador Centralizado
04/03/2008 21
MOTORES DE BÚSQUEDA
Arquitecturas Distribuidas
Esta arquitectura se enfoca en varios problemas que tiene la AC:
04/03/2008 22
MOTORES DE BÚSQUEDA
Arquitecturas Distribuidas
Introduce dos elementos:
04/03/2008 23
MOTORES DE BÚSQUEDA
Arquitecturas Distribuida-Harvest
04/03/2008 24
Directorios Web (browsing)
Ej: Yahoo!
04/03/2008 25
Directorios Web (browsing)
Ventaja: Si se tiene claro lo que se busca, la respuesta
será mas rápida y efectiva
Desventaja:
La clasificación no está suficientemente especializada
No todas la páginas están clasificadas
Existen técnicas de clustering y de procesamiento de
lenguaje natural para realizar clasificación automática.
Generalmente clasificación realizada a mano.
04/03/2008 26
Búsqueda por Hiperlinks
Hasta este momento los queries estaban basados en el contenido
de cada página.
04/03/2008 27
Búsqueda por Hiperlinks: buscadores dinámicos
04/03/2008 28