Вы находитесь на странице: 1из 2

Metodología de obtención de datos por navegación virtual atreves de un “user-agent”

La navegación virtual consta de simular un navegador web para la obtención de los certificados
de los sitios y permita obtener el sitio completo y poder manipularlo, ya sea navegando atreves
de sus enlaces internos dentro de la página, como también la descarga de datos como podría
ser un simple párrafo, hasta una colección de imágenes del sitio que se revisa.

Dejando la idea un poco más clara podríamos aplicar este concepto para la obtención de datos
en páginas más concretas con políticas de navegación y limitación de trafico de banda ancha de
estos sitios, la idea es simular un navegador web y recorra desde un punto clave (sitio web) que
desde allí parta su ramificación de navegación para realizar iteraciones dentro de cada link del
sitio que se está visitando, así podríamos obtener un sitio completo o parcial, dependiendo del
punto de partida o del límite de iteración para la profundidad del sitio.

Un ejemplo sería partir de la página de inicio de un sitio y que este contenga diversas páginas
ligadas al “landing-page”, siendo este ejemplo estructurado de la siguiente manera:
subcontenido
contenido 1
subcontenido

subcontenido

subcontenido
Contenido 2 subcontenido
Pagina de
subcontenido
inicio

subcontenido

subcontenido

subcontenido subcontenido subcontenido


Contenido 3 subcontenido
subcontenido subcontenido

Considerando que el sitio es finito el algoritmo que recorre todo el sitio descargando tanto
información relevante (datos que nos interesa rescatar como comentarios del sitio web) como
también contenido “basura” (datas como los scripts que hace funcionar el sitio web o los estilos
de cascada para el estilo del sitio web).

Eliminando todo el contenido que no se requiere solo nos queda los datos que deseamos
manipular. Para esto si el sitio pesa 30 Mb la información importante podría ser alrededor de 20
kb (ejemplo de comentarios del sitio web completo de la página de inicio y sus subpáginas).

Toda la información recabada del sitio web se almacena en el disco duro.

También para prevenir la detección de ser un “bot” se limita la tasa de descarga del sitio web y
el intervalo del tiempo entre link “visitados” o recorridos.
Ahora considerando un sitio web grande como una red social, podemos estimar que es un sitio
con ramificación “infinita” ya que cada link que visita tiene dentro una variedad de links por
“visitar” para delimitar esto se tendría que limitar la profundidad de la navegación, el tiempo de
intervalo entre páginas, el agente de usuario, la velocidad de descarga y la localización del
dispositivo con el fin de simular diferente geoposiciones.

El flujo del proceso es de la siguiente manera:

1. Se establece el link de navegacion inicial.


2. Se configura el “user-agent” ej. User-Agent: Mozilla/5.0 (Windows NT 5.1; rv:23.0)
Gecko/20100101 Firefox/23.0 (simulación de un navegador de Mozilla Firefox con
sistema operativo Windows).
3. Se establece el intervalo de tiempo entre links recorridos.
4. Se limita la velocidad de descarga.
5. Se establece un VPN o similar para la geoposicion de la dirección de la computadora.
6. Una vez descargado los datos necesarios se aplica un filtro con un programa a la medida
para la extracción del contenido en un solo fichero (Archivo demasiado grande para
manipular en memoria Ram en una computadora convencional o de oficina).
7. El programa se encarga de organizar los datos en un archivo como CSV con encabezado
(se requiere de supercómputo para la manipulación de grandes datos).
8. Archivo esperado, una lista de datos concretos y “basura”

Вам также может понравиться