Вы находитесь на странице: 1из 2

Araña web

Un rastreador web, indexador web, indizador web o araña web es un programa informático que inspecciona las páginas del
World Wide Web de forma metódica y automatizada.1 Uno de los usos más frecuentes que se les da consiste en crear una copia de
todas las páginas web visitadas para su procesado posterior por un motor de búsqueda que indexa las páginas proporcionando un
sistema de búsquedas rápido. Las arañas web suelen serbots.2

Las arañas web comienzan visitando una lista de URL, identifica los hiperenlaces en dichas páginas y los añade a la lista de URL a
visitar de manera recurrente de acuerdo a determinado conjunto de reglas. La operación normal es que se le da al programa un grupo
de direcciones iniciales, la araña descarga estas direcciones, analiza las páginas y busca enlaces a páginas nuevas. Luego descarga
estas páginas nuevas, analiza sus enlaces, y así sucesivamente.

Entre las tareas más comunes de las arañas de la web tenemos:

Crear el índice de una máquina de búsqueda.


Analizar los enlaces de un sitio para buscar links rotos.
Recolectar información de un cierto tipo, como precios de productos para recopilar un catálogo.

Índice
Información general
Política de Arrastre o Rastreo
Política de selección
Referencias

Información general
Un rastreador Web comienza con una lista de direcciones URL para visitar, llamado las semillas. A medida que el rastreador visita
estas direcciones URL, identifica todos los hipervínculos en la página y los añade a la lista de URL para visitar, llamada la frontera
de rastreo . URL de la frontera se forma recursiva visitadas de acuerdo con un conjunto de políticas. Si el rastreador está realizando
el archivo de los sitios web se copia y guarda la información a medida que avanza. Los archivos se almacenan por lo general de tal
manera que se puedan ver, leer y navegar como lo fueron en la web en directo, pero se conservanomo
c "instantáneas".

El gran volumen implica al rastreador que sólo puede descargar un número limitado de las páginas Web en un tiempo determinado,
por lo que necesita dar prioridad a sus descargas. La alta tasa de cambio puede implicar a las páginas que podría ya haber sido
actualizados o incluso eliminado.

El número de posibles URL rastreadas siendo generados por el software del lado del servidor también ha hecho que sea difícil para
los rastreadores web para evitar recuperar el contenido duplicado.

Un sinfín de combinaciones de HTTP GET existen parámetros (basados en URL), de los cuales sólo una pequeña selección anterior
obtiene un contenido único. Por ejemplo, un simple galería de fotos en línea puede ofrecer tres opciones a los usuarios, tal como se
especifica a través de parámetros HTTP GET en la URL. Si existen cuatro formas de ordenar las imágenes, tres opciones de tamaño
miniatura, dos formatos de archivo, y una opción para desactivar el contenido proporcionado por el usuario, a continuación, el mismo
conjunto de contenidos se puede acceder con 48 direcciones URL diferentes, todos los cuales pueden estar vinculados en el sitio. Esta
combinación matemática crea un problema para los rastreadores, ya que deben ordenar a través de un sinfín de combinaciones de
secuencias de comando, cambios relativamente menores con el fin de recuperar el contenido único.
"Teniendo en cuenta que elancho de banda para la realización de rastreos no es ni infinito ni libre, se hace indispensable para rastrear
la Web, no sólo en una forma escalable, pero eficiente, sino también alguna medida razonable de calidad o frescura debe ser
mantenido." Un rastreador debe elegir con cuidado en cada paso qué página siguiente visitar siempre.

Política de Arrastre o Rastreo


El comportamiento de un buscador web es el resultado de una combinación de políticas:

una política de selección que establece las páginas de descarga,


una política de re-visita que establece cuándo debe buscar cambios en las páginas,
una política de cortesía que indica cómo evitar la sobrecarga de los sitios W
eb , y
una política de paralelizaciónque indica la forma de coordinar los rastreadores web distribuidos

Política de selección
Teniendo en cuenta el tamaño actual de la Web, incluso los grandes motores de búsqueda cubren sólo una porción de la parte a
disposición del público. Un estudio de 2009 mostró incluso a gran escala de los motores de búsquedaíndice de no más de 40-70% de
la Web indexable; un estudio previo realizado por Steve Lawrence y Lee Giles mostró que ningún motor de búsqueda indexa más de
un 16% de la Web en 1999. Como rastreador siempre se descarga sólo una fracción de las páginas web, es altamente deseable para la
fracción descargado poder contener las páginas más relevantes y no sólo una muestra aleatoria de la web.

Esto requiere una métrica de importancia para la priorización de las páginas Web. La importancia de una página es una función de su
calidad intrínseca, su popularidad en términos de enlaces o visitas, e incluso de su URL (este último es el caso de los motores
verticales de búsqueda restringidos a un único dominio de nivel superior, o motores de búsqueda restringidas a un sitio web fija). El
diseño de una buena política de selección tiene una dificultad añadida: tiene que trabajar con información parcial, ya que el conjunto
completo de páginas web no se conoce durante el rastreo.

Cho et al. hicieron el primer estudio sobre las políticas para el rastreo de programación. Su conjunto de datos estaba a 180.000
páginas se arrastran desde elstanford.edu de dominio, en el que una simulación de rastreo se realizó con diferentes estrategias.
Las métricas de pedido probados fueronprimero en amplitud, vínculo de retroceso recuento y parciales Pagerank cálculos. Una de las
conclusiones fue que si el rastreador quiere descargar páginas con alto Pagerank temprana durante el proceso de rastreo, entonces la
estrategia Pagerank parcial es la mejor, seguida de primero en amplitud y vínculo de retroceso de recuento. Sin embargo, estos
resultados son para un solo dominio. Cho también escribió su Ph.D. tesis doctoral en Stanford en el rastreo web.

Referencias
1. Kobayashi, Mei; Takeda, Koichi (1 de junio de2000). «Information Retrieval on the Web» (http://doi.acm.org/10.1145/
358923.358934). ACM Comput. Surv. 32 (2): 144-173. ISSN 0360-0300 (https://www.worldcat.org/issn/0360-0300).
doi:10.1145/358923.358934 (http://dx.doi.org/10.1145%2F358923.358934). Consultado el 8 de agosto de 2016.
2. «See definition of scutter on FOAF Project's wiki» (https://web.archive.org/web/20091213213920/http://wiki.foaf-proje
ct.org/w/Scutter). Archivado desde el original (http://wiki.foaf-project.org/w/Scutter) el 13 de diciembre de 2009.
Consultado el 7 de agosto de 2016.

Obtenido de «https://es.wikipedia.org/w/index.php?title=Araña_web&oldid=112347824
»

Esta página se editó por última vez el 29 nov 2018 a las 17:35.

El texto está disponible bajo laLicencia Creative Commons Atribución Compartir Igual 3.0 ; pueden aplicarse cláusulas
adicionales. Al usar este sitio, usted acepta nuestrostérminos de uso y nuestra política de privacidad.
Wikipedia® es una marca registrada de laFundación Wikimedia, Inc., una organización sin ánimo de lucro.

Вам также может понравиться