Вы находитесь на странице: 1из 28

INDEXACIÓN PARA MOTORES DE

BÚSQUEDA EN LA WEB

Curso de Posgrado – Dto. De Informática


Primer Cuatrimestre 2008
UNSL
INDEXACIÓN PARA MOTORES DE
BÚSQUEDA EN LA WEB

MsC. Verónica Gil Costa


MsC. Nora Reyes
Dra. A. Marcela Printista
ANTECEDENTES
Un sistema IR trata con la representación, almacenamiento, organización y
acceso a ciertos ítems de información.
Tanto la representación como la organización de la Información es lo que permite a
los usuarios un fácil acceso a la información de su interés.

R MACIÓN
NFO
IDA D DE I Query
NECES
Sistema de Búsqueda
STA Documentos
PU E
RES Relevantes

El usuario espera como respuesta DATOS o INFORMACIÓN?


Rec. De Datos Vs. Rec. De Información

04/03/2008 3
ANTECEDENTES: IR
Para que IR sea efectiva se requiere que el sistema “intérprete” tanto el query
como los documentos que se van a entregar, que pueda “rankearlos” acorde a
la necesidad del usuario.

En IR es necesario conocer como extraer Información y como usarla para


decidir Relevancia.

Durante los últimos 30 años se avanzó en temáticas tales como modelado,


clasificación y categorización de documentos, arquitecturas de sistemas,
interfases de usuarios, lenguaje natural, etc.

En los comienzos de los años 90, un hecho favoreció e


impulsó definitivamente los sistemas de IR:

World Wide Web (Web) = Internet + RD + RI + ...

04/03/2008 4
INTRODUCCIÓN
 La Web se presenta como un repositorio de conocimiento y
cultura humana, el cual permite compartir ideas e información
en una escala nunca vista anteriormente.
 Se estima que los datos textuales disponible en la Web superan
el Terabyte, con un crecimiento exponencial
 También se encuentran disponibles, imágenes, videos, audios.
 La Web puede ser vista como una gran base de datos no
estructurada

Se necesitan herramientas eficientes para manejar,


recuperar y filtrar información de esta gran DB.

04/03/2008 5
INTRODUCCIÓN

 El curso está orientado a:

Búsqueda de datos textuales


 Búsqueda por sintaxis (se buscan documentos que
información relacionadas a ciertas palabras claves
especificadas por el usuario)

Búsqueda de datos requeridos para cumplimentar


necesidades de información (IR)

04/03/2008 6
INTRODUCCIÓN
 Desafíos:

Surgen problemas relacionados a los datos:

1. Datos distribuidos: los datos están distribuidos entre un


número grande de computadoras, las cuales tiene distintas
capacidades y ninguna topología de interconexión
especificada entre ellas.
2. Datos heterogéneos: existen múltiples formatos, alfabetos y
lenguajes.

04/03/2008 7
INTRODUCCIÓN
 Desafíos:

3. Datos volátiles: la internet es muy dinámica, nuevas computadoras y


datos están constantemente sumándose y desapareciendo.

4. Datos redundantes y no estructurados: la Web no es un gran


hipertexto distribuido. La consistencia y organización de los datos es
muy difícil en web. Las páginas HTML no están bien estructuradas.

5. Calidad de los datos: la web es vista como un gran medio de difusión,


pero no existe ninguna editorial que controle su calidad. Existen
errores de diferentes tipos (de tipeo, gramaticales, OCR, etc). |

04/03/2008 8
INTRODUCCIÓN
 Desafíos (>):

Surgen problemas relacionados a la


interacción entre el usuario y el sistema
de recuperación:
Términos Indexados
 ¿Cómo especificar el query? Motor de Búsqueda
 ¿Cómo interpretar la respuesta? Documentos
Relevantes

04/03/2008 9
ESTRATEGIAS BÁSICAS DE
BÚSQUEDA EN LA WEB

 Motores de Búsqueda que indexan una porción de


documentos Web (searching…..). Transp. 11.

 Directorios Web que indexan los documentos Web por


Subject (browsing ….. ). Transp. 25.

 Estructuras Hiperlinks. Transp. 27.

04/03/2008 10
MOTORES DE BÚSQUEDA
(Search Engines)

 Se refieren a la distintas arquitecturas de los sistemas


de recuperación que modelan la Web como una gran BD
textual.

 Recuperación de la Web (a diferencia IR) se refiere a


sistemas donde las consultan deben ser respondidas sin
acceder a la DB total. En estos sistemas sólo será
suficiente acceder a sus índices.

04/03/2008 11
MOTORES DE BÚSQUEDA
Arquitecturas Centralizadas

Crawler-Indexador Centralizado

Consiste de dos partes:


 Una parte que trata con los usuarios:
 Interfase + Query Engine

 Otra parte de trabajo interno:


 Crawler + Indexador

04/03/2008 12
MOTORES DE BÚSQUEDA
Arquitecturas Centralizadas

x
Inde

E ngi ne
ry
Que
n de xer
I

fa ce
Inter wle r
r a
r

C
u se

04/03/2008 13
MOTORES DE BÚSQUEDA
Arquitecturas Centralizadas

Crawler-Indexador Centralizado

 Crawler son agentes de software encargados de revisar


constantemente la web y enviar nuevas páginas al servidor
para que ellas sean indexadas.

 Un crawler corre en un sistema local y envía requerimientos a


los servidores webs remotos.

 Un índice es usado en forma centralizada para responder


consultas que provienen desde distintos lugares de la Web.

04/03/2008 14
MOTOR DE BÚSQUEDA

 Contiene tres principales elementos:

 Crawler Requiere de la Web


 Indexer
Acceden al índice
 Seacher

04/03/2008 15
MOTOR DE BÚSQUEDA

Crawler
Es una de las actividades mas frágiles del motor de búsqueda, ya que
interactúa con cientos de miles de servidores web

El crawler recupera páginas de la web y todas las


páginas con la cual mantiene links

(a) Fetch the page;


(b) Parse it to extract all linked URL ;
repeat forever (a) (b)

04/03/2008 16
MOTOR DE BÚSQUEDA

Indexer
El indexer utiliza las páginas que vienen al
motor de búsqueda para construir una gran
base de datos indexada.

Toma un documento y le realiza el parsing. Por cada palabra, obtiene


su wordID y junto con la frecuencia de la palabra en el documento,
forma una nueva instancia, la cual es sumada al índice ordenado. El
índice se completa con el título de la página, su fecha, y las primeras
líneas de la página.

04/03/2008 17
MOTOR DE BÚSQUEDA

Indexer
Índices:

Archivos invertidos: Cuando llega un query hace una


búsqueda binaria en el índice ordenado.
Si la consulta contiene mas que una palabra, entonces se
deberá combinar las respuestas con algún criterio. En
este caso, la búsqueda será mas eficiente cuanto menos
frecuentes sean estas palabras en la web.
También existen índices que pueden guardar la
información no sólo de la página que contiene una
palabra, sino también la ubicación exacta de la misma en
el texto. Esto permitiría buscar por frases y habilita a
realizar búsquedas por proximidad.
04/03/2008 18
MOTOR DE BÚSQUEDA

Searcher

El buscador es una de las herramientas mas usadas en Internet.

Su trabajo es resolver los query que le llegan desde el usuario.

Para responder tendrán que realizar una búsqueda en el índice y


seleccionar “los mejores documentos” para presentárselos a los usuarios.

Para hacer esto, el buscador deberá realizar una operación de ranking.

04/03/2008 19
MOTOR DE BÚSQUEDA

Ranking
Utilizan el query:
Modelo booleano, vectorial similar a RI

No depende del query:


PageRank, este algoritmo
es una parte (o una simplificación)
de un algoritmo usado por Google.

04/03/2008 20
MOTORES DE BÚSQUEDA
Arquitecturas Centralizadas

Crawler-Indexador Centralizado

Existen problemas de recuperación de datos debido a la


naturaleza altamente dinámica de la Web.

 Saturación de los links de comunicación


 Alta carga de trabajo de los Servidores Web
 Volumen de los datos
 Desbalance de carga entre el trabajo interno y externo del motor de
búsqueda

04/03/2008 21
MOTORES DE BÚSQUEDA
Arquitecturas Distribuidas
Esta arquitectura se enfoca en varios problemas que tiene la AC:

1- Servidores Web reciben requerimientos desde distintos


crawlers, lo cual incrementa la carga.
2- Los crawlers recuperan objetos completos los cual incrementa
el tráfico de Web.
3- La información es recuperada por cada crawler
independientemente, sin ninguna coordinación entre los motores
de búsqueda.

Cómo pueden mejorar los problemas del esquema centralizado?

04/03/2008 22
MOTORES DE BÚSQUEDA
Arquitecturas Distribuidas
Introduce dos elementos:

Gatherers: coleccionan y extraen información de indexación desde


uno o varios servidores Web.

Brokers: proveen el mecanismo de indexación y la interfase de


consulta.

Recuperan información desde uno o mas gatheres u otros brokers,


actualizando e incrementado su índices.

04/03/2008 23
MOTORES DE BÚSQUEDA
Arquitecturas Distribuida-Harvest

04/03/2008 24
Directorios Web (browsing)

Motores de búsquedas específicos a


determinadas áreas

 Por. Ej. Orientados a noticias, bibliografía

Ej: Yahoo!

04/03/2008 25
Directorios Web (browsing)
Ventaja: Si se tiene claro lo que se busca, la respuesta
será mas rápida y efectiva

Desventaja:
 La clasificación no está suficientemente especializada
 No todas la páginas están clasificadas
 Existen técnicas de clustering y de procesamiento de
lenguaje natural para realizar clasificación automática.
 Generalmente clasificación realizada a mano.

04/03/2008 26
Búsqueda por Hiperlinks
 Hasta este momento los queries estaban basados en el contenido
de cada página.

 Sin embargo un query podría incluir una estructura de links que


conecte páginas webs.
Por ejemplo: Se desea buscar todas las páginas webs que contengan al
menos una “imagen” y las cuales sean alcanzables desde un sitio dado
siguiendo al menos 3 links.
Ej: WebSQL: An SQL-like query language for the World Wide Web

 Búsquedas de este tipo, requieren un modelo de datos diferente.

Por ejemplo, un grafo rotulado para representar a las páginas (nodos) e


hiperlinks (ejes) y un modelo no estructurado para el contenido de cada
página.

04/03/2008 27
Búsqueda por Hiperlinks: buscadores dinámicos

04/03/2008 28

Вам также может понравиться