Академический Документы
Профессиональный Документы
Культура Документы
WEB CRAWLER
Funcionamiento
Dispone de un conjunto inicial de URLs, conocidas como semillas. La araa Web (crawler) va descargando las pginas Web asociadas a las semillas y buscando dentro de stas otras URLs. Cada nueva URL encontrada se aade a la lista de URLs que la araa Web (crawler) debe visitar. A este proceso se le denomima recoleccin de URLs. La pgina web asociada es descargada al ordenador local. Es importante mencionar que ninguna araa Web (crawler) puede acceder a todas las URLs que hay en Internet.
Funcionamiento
Estadsticamente, el porcentaje de Internet que suele ser explorado por una araa Web (crawler) es aproximadamente del 15%. Algunas de las dificultades a las que las araas Web (crawlers) se deben enfrentar: enormes cantidades de pginas que recorrer, elevado nmero de actualizaciones de pginas existentes, pginas que crean su contenido de forma dinmica, re direccionamientos, etc.
Aplicaciones
Se puede escribir una araa Web (crawler) que haga lo que cualquier otro webbot puede hacer, con la ventaja de que el alcance logrado sera Internet entero. Crear peridicamente un informe de cambios del sitio de una empresa competidora. Realizar un estudio estadstico sobre el uso de un determinado trmino en pginas espaolas. Enviar un mensaje de correo electrnico cuando se aadan noticias a una pgina de noticias