Вы находитесь на странице: 1из 7

APLICACION MAPREDUCE GREP

Reporte de resultados

Materia:

Sistemas Inteligentes
Profesor:
Dr. Luis E. Bautista Villalpando
Alumnos:
Hernndez Garca Luis Alberto

Universidad Autnoma de Aguascalientes


Maestra en Informtica y Tecnologas Computacionales

EJECUCION DE SERVICIOS HDFS Y MAPREDUCE Y BUSQUEDA DE PALABRAS


WAS E IN
Para comenzar con la busqueda de informacin, Hadoop requiere que los servicios dfs (HDFS) y yarn
(Mapreduce) esten en ejecucin, para esto fue necesario ubicarme en el directorio raz donde se
encuentran los archivos de Hadoop y utilizar el siguiente comando:
sbin/start-dfs.sh && sbin/start-yarn.sh

Una vez que los servicios se encuentran en ejecucin, pude ver las carpetas que se encuentran dentro
del sistema de archivos distribuido de Hadoop a traves del servicio Web ubicado en la direccion
http://localhost:50070/explorer.html.

Para comenzar con la busqueda de informacin es necesario ubicar el contenido del dataset de libros
dentro del directorio input del HDFS. Para ver si se encuentran estos archivos dentro del directorio
input puedo utilizar el servicio Web o la consola de comando. Para ver el contenido del directorio
desde la consola de comando se utiliz el comando:
bin/hadoop fs ls /input

En este caso los archivos ya se encontraban dentro del directorio input. Antes de proceder con la
bsqueda, tambin verifique que la carpeta output no estuviera creada dentro del sistema de archivos
distribuido de hadoop, en caso de que se encuentre se puede utilizar el siguiente comando para eliminar
la carpeta:
bin/hadoop fs rm R /output
Una vez verificado lo anterior, proced a ejecutar la aplicacin Mapreduce grep para la bsqueda de
incidencias de las palabras was e in dentro del dataset de libros ubicado en el directorio input
para lo cual se ejecut el siguiente comando:
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep /input /output 'was+|in+'

Donde was+ buscara todas las incidencias que contengan was una o mas veces e in+ buscara todas
las incidencias que contengan la palabra in una o mas veces, y finalmente el carcter | indica que se
trata de una operacin OR.

Una vez finalizada la bsqueda, se gener la carpeta output con el resultado de las incidencias
encontradas, para verificar si exista dicha carpeta se utiliz el siguiente comando:
bin/hadoop fs ls /output

Tambin se logr verificar la carpeta output a travs del servicio web

Finalmente, los resultados de la bsqueda de incidencias se almacenaron dentro del archivo part-r00000 ubicado dentro del directorio output. Para visualizar el archivo desde la lnea de comandos se
utiliz el siguiente comando:
bin/hadoop fs -cat output/part-r-00000

Donde el resultado final fue el siguiente:


Palabra
in
was
inn

Incidencias
59935
11760
519

Cabe sealar que la palabra inn la toma debido al filtro que utilizamos al momento de realizar la
bsqueda con la aplicacin Mapreduce grep. Si cambiamos el filtro y utilizamos el comando:
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep /input /output 'was|in'

El resultado que me arrojo fue el siguiente:

Palabra
in
was

Incidencias
60454
11760

Donde pude notar que la nica diferencia con el comando anterior es que las incidencias de la palabra
inn se sumaron al total de incidencias de la palabra in (59935 + 519 = 60454), donde en trminos
generales el resultado final fue el mismo solo que se clasific de mejor manera con el primer filtro.
Los resultados de la bsqueda tambin se pueden ver desde el servicio Web simplemente descargando
el archivo part-r-00000 ubicado dentro del directorio output desde el sistema de archivos de
hadoop.

Вам также может понравиться