CursoPosgrado-Clase 1

INDEXACIÓN PARA MOTORES DE
BÚSQUEDA EN LA WEB
Curso de Posgrado – Dto. De Informática

Primer Cuatrimestre 2008
UNSL
INDEXACIÓN PARA MOTORES DE
BÚSQUEDA EN LA WEB
MsC. Verónica Gil Costa

MsC. Nora Reyes
Dra. A. Marcela Printista
ANTECEDENTES
Un sistema IR trata con la representación, almacenamiento, organización y
acceso a ciertos ítems de información.
Tanto la representación como la organización de la Información es lo que permite a
los usuarios un fácil acceso a la información de su interés.
R MACIÓN
NFO
IDA D DE I Query
NECES
Sistema de Búsqueda
STA Documentos
PU E
RES Relevantes
El usuario espera como respuesta DATOS o INFORMACIÓN?

Rec. De Datos Vs. Rec. De Información
04/03/2008 3
ANTECEDENTES: IR
Para que IR sea efectiva se requiere que el sistema “intérprete” tanto el query
como los documentos que se van a entregar, que pueda “rankearlos” acorde a
la necesidad del usuario.
En IR es necesario conocer como extraer Información y como usarla para

decidir Relevancia.
Durante los últimos 30 años se avanzó en temáticas tales como modelado,

clasificación y categorización de documentos, arquitecturas de sistemas,
interfases de usuarios, lenguaje natural, etc.
En los comienzos de los años 90, un hecho favoreció e

impulsó definitivamente los sistemas de IR:
World Wide Web (Web) = Internet + RD + RI + ...
04/03/2008 4
INTRODUCCIÓN
La Web se presenta como un repositorio de conocimiento y
cultura humana, el cual permite compartir ideas e información
en una escala nunca vista anteriormente.
Se estima que los datos textuales disponible en la Web superan
el Terabyte, con un crecimiento exponencial
También se encuentran disponibles, imágenes, videos, audios.
La Web puede ser vista como una gran base de datos no
estructurada
Se necesitan herramientas eficientes para manejar,

recuperar y filtrar información de esta gran DB.
04/03/2008 5
INTRODUCCIÓN
El curso está orientado a:
Búsqueda de datos textuales

Búsqueda por sintaxis (se buscan documentos que
información relacionadas a ciertas palabras claves
especificadas por el usuario)
Búsqueda de datos requeridos para cumplimentar

necesidades de información (IR)
04/03/2008 6
INTRODUCCIÓN
Desafíos:
Surgen problemas relacionados a los datos:
1. Datos distribuidos: los datos están distribuidos entre un

número grande de computadoras, las cuales tiene distintas
capacidades y ninguna topología de interconexión
especificada entre ellas.
2. Datos heterogéneos: existen múltiples formatos, alfabetos y
lenguajes.
04/03/2008 7
INTRODUCCIÓN
Desafíos:
3. Datos volátiles: la internet es muy dinámica, nuevas computadoras y

datos están constantemente sumándose y desapareciendo.
4. Datos redundantes y no estructurados: la Web no es un gran

hipertexto distribuido. La consistencia y organización de los datos es
muy difícil en web. Las páginas HTML no están bien estructuradas.
5. Calidad de los datos: la web es vista como un gran medio de difusión,

pero no existe ninguna editorial que controle su calidad. Existen
errores de diferentes tipos (de tipeo, gramaticales, OCR, etc). |
04/03/2008 8
INTRODUCCIÓN
Desafíos (>):
Surgen problemas relacionados a la

interacción entre el usuario y el sistema
de recuperación:
Términos Indexados
¿Cómo especificar el query? Motor de Búsqueda
¿Cómo interpretar la respuesta? Documentos
Relevantes
04/03/2008 9
ESTRATEGIAS BÁSICAS DE
BÚSQUEDA EN LA WEB
Motores de Búsqueda que indexan una porción de

documentos Web (searching…..). Transp. 11.
Directorios Web que indexan los documentos Web por

Subject (browsing ….. ). Transp. 25.
Estructuras Hiperlinks. Transp. 27.
04/03/2008 10
MOTORES DE BÚSQUEDA
(Search Engines)
Se refieren a la distintas arquitecturas de los sistemas

de recuperación que modelan la Web como una gran BD
textual.
Recuperación de la Web (a diferencia IR) se refiere a

sistemas donde las consultan deben ser respondidas sin
acceder a la DB total. En estos sistemas sólo será
suficiente acceder a sus índices.
04/03/2008 11
Arquitecturas Centralizadas
Crawler-Indexador Centralizado
Consiste de dos partes:

Una parte que trata con los usuarios:
Interfase + Query Engine
Otra parte de trabajo interno:

Crawler + Indexador
04/03/2008 12
x
Inde
E ngi ne
ry
Que
n de xer
I
fa ce
Inter wle r
r a
r
C
u se
04/03/2008 13
Crawler son agentes de software encargados de revisar

constantemente la web y enviar nuevas páginas al servidor
para que ellas sean indexadas.
Un crawler corre en un sistema local y envía requerimientos a

los servidores webs remotos.
Un índice es usado en forma centralizada para responder

consultas que provienen desde distintos lugares de la Web.
04/03/2008 14
MOTOR DE BÚSQUEDA
Contiene tres principales elementos:
Crawler Requiere de la Web

Indexer
Acceden al índice
Seacher
04/03/2008 15
MOTOR DE BÚSQUEDA
Crawler
Es una de las actividades mas frágiles del motor de búsqueda, ya que
interactúa con cientos de miles de servidores web
El crawler recupera páginas de la web y todas las

páginas con la cual mantiene links
(a) Fetch the page;

(b) Parse it to extract all linked URL ;
repeat forever (a) (b)
04/03/2008 16
MOTOR DE BÚSQUEDA
Indexer
El indexer utiliza las páginas que vienen al
motor de búsqueda para construir una gran
base de datos indexada.
Toma un documento y le realiza el parsing. Por cada palabra, obtiene

su wordID y junto con la frecuencia de la palabra en el documento,
forma una nueva instancia, la cual es sumada al índice ordenado. El
índice se completa con el título de la página, su fecha, y las primeras
líneas de la página.
04/03/2008 17
MOTOR DE BÚSQUEDA
Indexer
Índices:
Archivos invertidos: Cuando llega un query hace una

búsqueda binaria en el índice ordenado.
Si la consulta contiene mas que una palabra, entonces se
deberá combinar las respuestas con algún criterio. En
este caso, la búsqueda será mas eficiente cuanto menos
frecuentes sean estas palabras en la web.
También existen índices que pueden guardar la
información no sólo de la página que contiene una
palabra, sino también la ubicación exacta de la misma en
el texto. Esto permitiría buscar por frases y habilita a
realizar búsquedas por proximidad.
04/03/2008 18
MOTOR DE BÚSQUEDA
Searcher
El buscador es una de las herramientas mas usadas en Internet.
Su trabajo es resolver los query que le llegan desde el usuario.
Para responder tendrán que realizar una búsqueda en el índice y

seleccionar “los mejores documentos” para presentárselos a los usuarios.
Para hacer esto, el buscador deberá realizar una operación de ranking.
04/03/2008 19
MOTOR DE BÚSQUEDA
Ranking
Utilizan el query:
Modelo booleano, vectorial similar a RI
No depende del query:

PageRank, este algoritmo
es una parte (o una simplificación)
de un algoritmo usado por Google.
04/03/2008 20
Existen problemas de recuperación de datos debido a la

naturaleza altamente dinámica de la Web.
Saturación de los links de comunicación

Alta carga de trabajo de los Servidores Web
Volumen de los datos
Desbalance de carga entre el trabajo interno y externo del motor de
búsqueda
04/03/2008 21
Arquitecturas Distribuidas
Esta arquitectura se enfoca en varios problemas que tiene la AC:
1- Servidores Web reciben requerimientos desde distintos

crawlers, lo cual incrementa la carga.
2- Los crawlers recuperan objetos completos los cual incrementa
el tráfico de Web.
3- La información es recuperada por cada crawler
independientemente, sin ninguna coordinación entre los motores
de búsqueda.
Cómo pueden mejorar los problemas del esquema centralizado?
04/03/2008 22
Arquitecturas Distribuidas
Introduce dos elementos:
Gatherers: coleccionan y extraen información de indexación desde

uno o varios servidores Web.
Brokers: proveen el mecanismo de indexación y la interfase de

consulta.
Recuperan información desde uno o mas gatheres u otros brokers,

actualizando e incrementado su índices.
04/03/2008 23
Arquitecturas Distribuida-Harvest
04/03/2008 24
Directorios Web (browsing)
Motores de búsquedas específicos a

determinadas áreas
Por. Ej. Orientados a noticias, bibliografía
Ej: Yahoo!
04/03/2008 25
Directorios Web (browsing)
Ventaja: Si se tiene claro lo que se busca, la respuesta
será mas rápida y efectiva
Desventaja:
La clasificación no está suficientemente especializada
No todas la páginas están clasificadas
Existen técnicas de clustering y de procesamiento de
lenguaje natural para realizar clasificación automática.
Generalmente clasificación realizada a mano.
04/03/2008 26
Búsqueda por Hiperlinks
Hasta este momento los queries estaban basados en el contenido
de cada página.
Sin embargo un query podría incluir una estructura de links que

conecte páginas webs.
Por ejemplo: Se desea buscar todas las páginas webs que contengan al
menos una “imagen” y las cuales sean alcanzables desde un sitio dado
siguiendo al menos 3 links.
Ej: WebSQL: An SQL-like query language for the World Wide Web
Búsquedas de este tipo, requieren un modelo de datos diferente.
Por ejemplo, un grafo rotulado para representar a las páginas (nodos) e

hiperlinks (ejes) y un modelo no estructurado para el contenido de cada
página.
04/03/2008 27
Búsqueda por Hiperlinks: buscadores dinámicos
04/03/2008 28

CursoPosgrado-Clase 1

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

CursoPosgrado-Clase 1

Загружено:

Авторское право:

Доступные форматы

INDEXACIÓN PARA MOTORES DE

Curso de Posgrado – Dto. De Informática

MsC. Verónica Gil Costa

El usuario espera como respuesta DATOS o INFORMACIÓN?

En IR es necesario conocer como extraer Información y como usarla para

Durante los últimos 30 años se avanzó en temáticas tales como modelado,

En los comienzos de los años 90, un hecho favoreció e

World Wide Web (Web) = Internet + RD + RI + ...

Se necesitan herramientas eficientes para manejar,

El curso está orientado a:

Búsqueda de datos textuales

Búsqueda de datos requeridos para cumplimentar

Surgen problemas relacionados a los datos:

1. Datos distribuidos: los datos están distribuidos entre un

3. Datos volátiles: la internet es muy dinámica, nuevas computadoras y

4. Datos redundantes y no estructurados: la Web no es un gran

5. Calidad de los datos: la web es vista como un gran medio de difusión,

Surgen problemas relacionados a la

Motores de Búsqueda que indexan una porción de

Directorios Web que indexan los documentos Web por

Estructuras Hiperlinks. Transp. 27.

Se refieren a la distintas arquitecturas de los sistemas

Recuperación de la Web (a diferencia IR) se refiere a

Consiste de dos partes:

Otra parte de trabajo interno:

Crawler son agentes de software encargados de revisar

Un crawler corre en un sistema local y envía requerimientos a

Un índice es usado en forma centralizada para responder

Contiene tres principales elementos:

Crawler Requiere de la Web

El crawler recupera páginas de la web y todas las

(a) Fetch the page;

Toma un documento y le realiza el parsing. Por cada palabra, obtiene

Archivos invertidos: Cuando llega un query hace una

El buscador es una de las herramientas mas usadas en Internet.

Su trabajo es resolver los query que le llegan desde el usuario.

Para responder tendrán que realizar una búsqueda en el índice y

Para hacer esto, el buscador deberá realizar una operación de ranking.

No depende del query:

Existen problemas de recuperación de datos debido a la

Saturación de los links de comunicación

1- Servidores Web reciben requerimientos desde distintos

Cómo pueden mejorar los problemas del esquema centralizado?

Gatherers: coleccionan y extraen información de indexación desde

Brokers: proveen el mecanismo de indexación y la interfase de

Recuperan información desde uno o mas gatheres u otros brokers,

Motores de búsquedas específicos a

Por. Ej. Orientados a noticias, bibliografía

Sin embargo un query podría incluir una estructura de links que

Búsquedas de este tipo, requieren un modelo de datos diferente.

Por ejemplo, un grafo rotulado para representar a las páginas (nodos) e

Вам также может понравиться