Академический Документы
Профессиональный Документы
Культура Документы
La navegación virtual consta de simular un navegador web para la obtención de los certificados
de los sitios y permita obtener el sitio completo y poder manipularlo, ya sea navegando atreves
de sus enlaces internos dentro de la página, como también la descarga de datos como podría
ser un simple párrafo, hasta una colección de imágenes del sitio que se revisa.
Dejando la idea un poco más clara podríamos aplicar este concepto para la obtención de datos
en páginas más concretas con políticas de navegación y limitación de trafico de banda ancha de
estos sitios, la idea es simular un navegador web y recorra desde un punto clave (sitio web) que
desde allí parta su ramificación de navegación para realizar iteraciones dentro de cada link del
sitio que se está visitando, así podríamos obtener un sitio completo o parcial, dependiendo del
punto de partida o del límite de iteración para la profundidad del sitio.
Un ejemplo sería partir de la página de inicio de un sitio y que este contenga diversas páginas
ligadas al “landing-page”, siendo este ejemplo estructurado de la siguiente manera:
subcontenido
contenido 1
subcontenido
subcontenido
subcontenido
Contenido 2 subcontenido
Pagina de
subcontenido
inicio
subcontenido
subcontenido
Considerando que el sitio es finito el algoritmo que recorre todo el sitio descargando tanto
información relevante (datos que nos interesa rescatar como comentarios del sitio web) como
también contenido “basura” (datas como los scripts que hace funcionar el sitio web o los estilos
de cascada para el estilo del sitio web).
Eliminando todo el contenido que no se requiere solo nos queda los datos que deseamos
manipular. Para esto si el sitio pesa 30 Mb la información importante podría ser alrededor de 20
kb (ejemplo de comentarios del sitio web completo de la página de inicio y sus subpáginas).
También para prevenir la detección de ser un “bot” se limita la tasa de descarga del sitio web y
el intervalo del tiempo entre link “visitados” o recorridos.
Ahora considerando un sitio web grande como una red social, podemos estimar que es un sitio
con ramificación “infinita” ya que cada link que visita tiene dentro una variedad de links por
“visitar” para delimitar esto se tendría que limitar la profundidad de la navegación, el tiempo de
intervalo entre páginas, el agente de usuario, la velocidad de descarga y la localización del
dispositivo con el fin de simular diferente geoposiciones.