Академический Документы
Профессиональный Документы
Культура Документы
Reporte de resultados
Materia:
Sistemas Inteligentes
Profesor:
Dr. Luis E. Bautista Villalpando
Alumnos:
Hernndez Garca Luis Alberto
Una vez que los servicios se encuentran en ejecucin, pude ver las carpetas que se encuentran dentro
del sistema de archivos distribuido de Hadoop a traves del servicio Web ubicado en la direccion
http://localhost:50070/explorer.html.
Para comenzar con la busqueda de informacin es necesario ubicar el contenido del dataset de libros
dentro del directorio input del HDFS. Para ver si se encuentran estos archivos dentro del directorio
input puedo utilizar el servicio Web o la consola de comando. Para ver el contenido del directorio
desde la consola de comando se utiliz el comando:
bin/hadoop fs ls /input
En este caso los archivos ya se encontraban dentro del directorio input. Antes de proceder con la
bsqueda, tambin verifique que la carpeta output no estuviera creada dentro del sistema de archivos
distribuido de hadoop, en caso de que se encuentre se puede utilizar el siguiente comando para eliminar
la carpeta:
bin/hadoop fs rm R /output
Una vez verificado lo anterior, proced a ejecutar la aplicacin Mapreduce grep para la bsqueda de
incidencias de las palabras was e in dentro del dataset de libros ubicado en el directorio input
para lo cual se ejecut el siguiente comando:
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep /input /output 'was+|in+'
Donde was+ buscara todas las incidencias que contengan was una o mas veces e in+ buscara todas
las incidencias que contengan la palabra in una o mas veces, y finalmente el carcter | indica que se
trata de una operacin OR.
Una vez finalizada la bsqueda, se gener la carpeta output con el resultado de las incidencias
encontradas, para verificar si exista dicha carpeta se utiliz el siguiente comando:
bin/hadoop fs ls /output
Finalmente, los resultados de la bsqueda de incidencias se almacenaron dentro del archivo part-r00000 ubicado dentro del directorio output. Para visualizar el archivo desde la lnea de comandos se
utiliz el siguiente comando:
bin/hadoop fs -cat output/part-r-00000
Incidencias
59935
11760
519
Cabe sealar que la palabra inn la toma debido al filtro que utilizamos al momento de realizar la
bsqueda con la aplicacin Mapreduce grep. Si cambiamos el filtro y utilizamos el comando:
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep /input /output 'was|in'
Palabra
in
was
Incidencias
60454
11760
Donde pude notar que la nica diferencia con el comando anterior es que las incidencias de la palabra
inn se sumaron al total de incidencias de la palabra in (59935 + 519 = 60454), donde en trminos
generales el resultado final fue el mismo solo que se clasific de mejor manera con el primer filtro.
Los resultados de la bsqueda tambin se pueden ver desde el servicio Web simplemente descargando
el archivo part-r-00000 ubicado dentro del directorio output desde el sistema de archivos de
hadoop.