Guía Metodológica de Big Data Ramos-Lopez PDF

PONTIFICIA UNIVERSIDAD CATLICA DEL ECUADOR
FACULTAD DE INGENIERA
ESCUELA DE SISTEMAS Y COMPUTACIN
DISERTACIN PREVIA A LA OBTENCIN DEL TTULO DE

INGENIERO DE SISTEMAS Y COMPUTACIN
TEMA
GUA METODOLGICA PARA EL PROCESO ENSEANZA- APRENDIZAJE DE
BIG DATA.
AUTORES
ANDREA CAROLINA RAMOS RAMN
JONATHAN FABRICIO LPEZ DVILA
QUITO, 2016
GUA METODOLGICA PARA EL PROCESO ENSEANZA- APRENDIZAJE DE BIG DATA
AGRADECIMIENTO
Ha sido un largo camino por recorrer, pero ahora al finalizar mi etapa como universitaria
puedo decir que esta gran experiencia llena de altos y bajos, de buenos y malos momentos,
de desafos, aventuras y grandes aprendizajes, fue posible gracias al apoyo de personas
muy valiosas que han estado a mi lado a lo largo de este tiempo.
Quiero agradecer principalmente a Dios por darme salud y vida, as como tambin
agradecerle por brindarme la fortaleza y sabidura necesarias para poder enfrentar tanto los
retos como problemas que pudieron haberse presentado en el transcurso de este periodo
universitario.
Agradezco a mis padres Mery y Jos por ser mis guas en cada paso que he dado, por
sacrificarse a diario por brindarme la mejor educacin y los recursos necesarios para que yo
haya podido culminar con mis estudios, por sus grandes y sabios consejos que han sido mi
pilar a lo largo de mi vida y sobretodo, por ser los mejores padres que Dios pudo haberme
dado el gusto de tener. Al mismo tiempo, agradezco a mi familia por ser un apoyo
emocional en cada momento.
Tambin le doy las gracias a una persona muy especial para m, a Jonathan, por haber
compartido conmigo experiencias, emociones, alegras, desafos, dificultades y momentos
importantes e inolvidables. Gracias por tus consejos, paciencia, apoyo y entereza, ya que
con estas virtudes juntos logramos realizar y finalizar productivamente este trabajo de
disertacin. Adems, gracias por haberme enseando muchas cosas y por estar junto a m
en este largo camino.
Finalmente, quiero agradecer a mis mejores amigas Gabriela y Andrea por su amistad
incondicional, apoyo, cario y por estar junto a m en los buenos y malos momentos. Y a
mis maestros Suyana, Alfredo y Damin, ya que sin ustedes la culminacin de este trabajo
no hubiera sido posible.
Carolina Ramos R.
PONTIFICIA UNIVERSIDAD CATLICA DEL ECUADOR, FACULTAD DE INGENIERA, ESCUELA DE SISTEMAS.

2
CAROLINA RAMOS, JONATHAN LPEZ.
DEDICATORIA
Quiero dedicar este trabajo de disertacin a mis padres Mery y Jos por ser quienes con su
sacrificio me han permitido llegar hasta este punto, por ensearme a perseguir mis metas,
adems de ser mis guas, mi fuente de inspiracin y de amor.
Carolina Ramos R.

3
AGRADECIMIENTO
A todas las personas que da a da me brindaron su apoyo incondicional en estos aos de
preparacin, a mis padres, hermana, Carolina, a mis profesores que me brindaron su apoyo
en la realizacin del presente trabajo de disertacin.
En especial a Ing. Alfredo Caldern quien me brind su apoyo y su amistad en el trascurso
de estos aos.
Jonathan Lpez

4
DEDICATORIA
Dedico este trabajo a mi familia, quienes me han apoyo a lo largo de mi vida brindndome
su apoyo y ensendome que la fortaleza, dedicacin y perseverancia son los pilares
fundamentales en la vida.
Jonathan Lpez

5
Tabla de contenido
Prefacio ............................................................................................................................................ 13
Antecedentes o Marco Referencial ............................................................................................ 15
JUSTIFICACIN .............................................................................................................................. 15
PROBLEMA ..................................................................................................................................... 16
Planteamiento del Problema ................................................................................................... 16
OBJETIVOS ..................................................................................................................................... 16
General ......................................................................................................................................... 16
CAPTULO I: QE ES BIG DATA? ........................................................................................... 17
1.1. Definicin ......................................................................................................................... 17
1.1.1. Las 4 Vs de Big Data............................................................................................. 18
1.2. Historia/Evolucin .......................................................................................................... 19
1.3. Importancia ...................................................................................................................... 21
1.3.1. Prediccin de eventos con Big Data ................................................................. 23
1.4. Conceptos Generales del Captulo ............................................................................ 23
1.4.1. Tabla de equivalencias de Informtica.............................................................. 23
1.4.2. Datos estructurados, no estructurados y semi estructurados ................... 24
1.4.3. Base de datos.......................................................................................................... 25
1.4.4. Business Intelligence (Inteligencia de Negocio, BI) ...................................... 25
CAPITULO II: Generalidades de Big Data ................................................................................ 26
2.1. reas de Big Data .......................................................................................................... 26
2.1.1. Recoleccin ............................................................................................................. 26
2.1.2. Almacenamiento ..................................................................................................... 27
2.1.3. Anlisis ..................................................................................................................... 29
2.1.4. Visualizacin ........................................................................................................... 32
2.2. Paradigmas de Big Data ............................................................................................... 32
2.2.1. MapReduce .............................................................................................................. 33
2.2.2. Procesamiento Masivo en Paralelo (Massively Parallel Processing MPP)
46
2.3. Conceptos Generales del Captulo ............................................................................ 46
2.3.1. Sistema de ficheros distribuidos. ...................................................................... 46
2.3.2. Clster ....................................................................................................................... 46
2.3.3. Cloud Computing ................................................................................................... 47
2.3.4. Bases de Datos ....................................................................................................... 47
CAPITULO III: Herramientas y tecnologas de Big Data ....................................................... 50

6
3.1. Plataformas de Big Data ............................................................................................... 50

3.1.1. Apache Hadoop ...................................................................................................... 50
3.1.2. Apache Spark .......................................................................................................... 51
3.1.3. Oracle Big Data Appliance ................................................................................... 52
3.2. Introduccin a las Tecnologas de Big Data ............................................................ 54
3.2.1. Tecnologas Relacionadas con Apache Hadoop ............................................ 55
3.2.2. Tecnologas Relacionadas Con Apache Spark ............................................... 56
3.2.3. Tecnologas Relacionadas con Oracle Big Data Appliance ......................... 57
3.3. Tabla comparativa .......................................................................................................... 57
CAPITULO IV: Instalacin de un Ambiente de Big Data y Casos Prcticos. ................... 59
4.1. Instalacin de un Ambiente de Big Data .................................................................. 59
4.1.1. Seleccin de las herramientas ............................................................................ 59
4.1.2. Requisitos de Instalacin de Hadoop ............................................................... 60
4.1.3. Pasos de Instalacin de Hadoop ........................................................................ 61
4.2. Casos Prcticos............................................................................................................ 123
4.2.1. Ejecucin Ejemplo WordCout (Contador de Palabras) ............................... 123
4.2.1.1. Pasos de Ejecucin ......................................................................................... 124
4.2.2. Recoleccin de Tweets en una Base de Datos NoSQL. .............................. 139
CAPITULO V: Metodologa de Proceso Enseanza de Big Data. ..................................... 163
Descripcin de la Materia: ..................................................................................................... 163
Objetivo General de la Materia: ............................................................................................ 163
5.1. Matriz de planificacin didctica acera de lo que es Big Data.......................... 164
5.2. Matriz de planificacin didctica acera de las generalidades de Big Data. ... 165
5.3. Matriz de planificacin didctica acera de la enseanza de las tecnologas y
herramientas de Big Data. ..................................................................................................... 166
5.4. Matriz de planificacin didctica acerca de la enseanza de las tecnologas y
herramientas de Big Data. ..................................................................................................... 167
CAPITULO VI: Conclusiones y Recomendaciones .............................................................. 168
6.1. Conclusiones ................................................................................................................ 168
6.2. Recomendaciones ....................................................................................................... 170
Bibliografa .................................................................................................................................... 172
ANEXOS ......................................................................................................................................... 176
ANEXO 1: Manual de Usuario Hadoop................................................................................ 176
ANEXO 2: Manual de Usuario de Recoleccin de Tweets (CouchDB). ....................... 182

7
ndice de Figuras.
Figura 1.1: Las 4 Vs de Big Data .................................................................................................. 19
Figura 1.2: Historia/Evolucin Big Data. ....................................................................................... 21
Figura 1.3: Crecimiento de los datos a nivel mundial Fuente: (Shakuntala Gupta &
Sabharwal, 2015) ............................................................................................................................. 21
Figura 2.1: Archivo de texto con datos estructurados acerca de los aeropuertos. ................. 27
Figura 2.2: Visualizacin de datos en R. ...................................................................................... 30
Figura 2.3: Visualizacin de Atacames en ArcGis....................................................................... 31
Figura 2.4: Visualizacin de los puntos recogidos. ..................................................................... 31
Figura 2.5: Visualizacin de las reas identificadas. .................................................................. 32
Figura 2.6: Esquema de un clculo MapReduce. Fuente: (Leskovec, Rajaraman , & Ullman,
2014) .................................................................................................................................................. 34
Figura 2.7: Esquemtica de un clculo MapReduce. Fuente: (Leskovec R. a.) .................... 37
Figura 2.8: Visualizacin de Matriz M y Vector v ......................................................................... 38
Figura 2.9: Matriz Dispersa............................................................................................................. 40
Figura 2.10: Resultado Matriz C. ................................................................................................... 41
Figura 2.11: Representacin de la Matriz como una lista de elementos no nulos. ................. 41
Figura 2.12: Tarea Map de la multiplicacin de la matriz. ....................................................... 42
Figura 2.13: Tarea Reduce de la Multiplicacin de la matriz. ................................................. 43
Figura 2.14: Tarea Map de la multiplicacin de la matriz. ....................................................... 44
Figura 2.15: Resultado Final de la multiplicacin de matrices. .................................................. 45
Figura 2.16: Ejemplo de cubo de datos. Fuente: (Trujillo, Diseo y explotacin de
almacenes de datos: conceptos bsicos de modelado multidimensional., 2013) ................... 48
Figura 2.17: Ejemplo de tabla multidimensional. Fuente: (Trujillo, Diseo y explotacin de
almacenes de datos: conceptos bsicos de modelado multidimensional., 2013) ................... 49
Figura 3.1: Oracle Big Data Appliance Fuente: (Oracle, 2016) ................................................. 54
Figura 4.1: Topologa de un clster de Hadoop en Modo Completamente Distribuido (multi-

nodo). ................................................................................................................................................. 60
Figura 4.2: Diagrama de Flujo del proceso de Instalacin de Hadoop. .................................... 61
Figura 4.3: Jdk, Pgina web Oracle. ............................................................................................. 62
Figura 4.4: Acceso como root. ....................................................................................................... 63
Figura 4.5: Copiar jdk a la ubicacin root. .................................................................................... 63
Figura 4.6: Instalacin del jdk......................................................................................................... 63
Figura 4.7: Instalacin del jdk (proceso). ...................................................................................... 64
Figura 4.8: Definir variable JAVA_HOME. .................................................................................... 64
Figura 4.9: Archivo para definir variable JAVA_HOME (1). ....................................................... 64
Figura 4.10: Archivo para definir variable JAVA_HOME (2). ..................................................... 65
Figura 4.11: Comandos necesarios para definir variable JAVA_HOME. ................................. 65
Figura 4.12: Comprobacin Java es un directorio. ...................................................................... 66
Figura 4.13: Abrir archivo Hosts..................................................................................................... 66
Figura 4.14: Archivo Hosts. ............................................................................................................ 66
Figura 4.15: IPs y Dominios de los nodos del clster. ............................................................... 67
Figura 4.16: Ping de comprobacin de conexin de los nodos. ................................................ 68

8
Figura 4.17: Pgina de descarga de Hadoop. ............................................................................. 68

Figura 4.18: Copiar Hadoop al directorio root. ............................................................................. 69
Figura 4.19: Descomprensin de Hadoop y Copia de Hadoop al directorio Hadoop. ............ 69
Figura 4.20: Abrir fichero .bashrc................................................................................................... 70
Figura 4.21: Configuracin de variables de entorno de Hadoop en el fichero .bashrc. ......... 71
Figura 4.22: Creacin grupo Hadoop. ........................................................................................... 72
Figura 4.23: Creacin de usuarios del grupo Hadoop. ............................................................... 73
Figura 4.24: Guardar script env-variable.sh en el equipo........................................................... 74
Figura 4.25: Guardar script directories_master.sh en el equipo................................................ 74
Figura 4.26: Copiar scripts env-variable y directories_master al directorio root. .................... 75
Figura 4.27: Permisos para ejecutar los scripts: env-variable y directories_master. .............. 75
Figura 4. 28: Comprobacin que los scripts se activaron correctamente. ............................... 75
Figura 4. 29: Ejecucin de los scripts y creacin de directorios. ............................................... 76
Figura 4.30: Guardar script env-variable.sh en el equipo........................................................... 77
Figura 4.31: Guardar script directories_slaves.sh en el equipo. ............................................... 78
Figura 4.32: Copiar scripts env-variable y directories_slaves al directorio root. ..................... 79
Figura 4.33: Permisos para Ejecutar los scripts: env-variable y directories_slaves. .............. 79
Figura 4.34: Comprobacin que los scripts se activaron correctamente. ................................ 79
Figura 4.35: Ejecucin de los scripts y creacin de directorios. ................................................ 79
Figura 4.36: Abrir archivo core-site.xml en el Nodo Master. ...................................................... 82
Figura 4.37: Archivo core-site.xml Nodo Master. ......................................................................... 83
Figura 4.38: Archivo core-site.xml Nodo Master. ......................................................................... 83
Figura 4.39: Agregacin de lneas de cdigo al archivo core-site.xml Nodo Master. ............. 84
Figura 4.40: Abrir archivo core-site.xml Nodos Esclavo. ............................................................ 85
Figura 4.41: Archivo core-site.xml Nodos Esclavo. ..................................................................... 85
Figura 4.42: Archivo core-site.xml Nodos Esclavo. ..................................................................... 86
Figura 4.43: Agregacin de lneas de cdigo al archivo core-site.xml Nodos Esclavo. ......... 87
Figura 4.44: Copiar el Template mapred-site.xml al directorio donde se encuentra Hadoop.
............................................................................................................................................................ 88
Figura 4.45: Abrir el archivo mapred-site.xml Nodo Master. ...................................................... 88
Figura 4.46: Archivo mapred-site.xml Nodo Master. ................................................................... 88
Figura 4.47: Archivo mapred-site.xml Nodo Master. ................................................................... 89
Figura 4.48: Agregacin de lneas de cdigo al archivo mapred-site.xml Nodo Master. ....... 90
Figura 4.49: Copiar el template del archivo mapred-site.xml al directorio donde se encuentra
Hadoop. ............................................................................................................................................. 90
Figura 4.50: Abrir archivo mapred-site.xml en los Nodos Esclavos. ......................................... 90
Figura 4.51: Archivo mapred-site.xml en los Nodos Esclavos. .................................................. 91
Figura 4. 52: Archivo mapred-site.xml en los Nodos Esclavos.................................................. 91
Figura 4.53: Agregacin de lneas de cdigo en el archivo mapred-site.xml en los Nodos
Esclavos. ........................................................................................................................................... 92
Figura 4.54: Abrir archivo hdfs-site.xml Nodo Master. ................................................................ 92
Figura 4.55: Archivo hdfs-site.xml Nodo Master. ......................................................................... 93
Figura 4.56: Archivo hdfs-site.xml Nodo Master. ......................................................................... 93
Figura 4.57: Agregacin de lneas de cdigo al archivo hdfs-site.xml Nodo Master. ............. 94
Figura 4.58: Abrir archivo hdfs-site.xml Nodos Esclavo. ............................................................ 95
Figura 4.59: Archivo hdfs-site.xml Nodos Esclavo. ..................................................................... 95
Figura 4.60: Agregacin de lneas de cdigo al archivo hdfs-site.xml Nodos Esclavo. ......... 96

9
Figura 4.61: Abrir archivo yarn-site.xml Nodo Master. ................................................................ 97

Figura 4.62: Archivo yarn-site.xml Nodo Master. ......................................................................... 97
Figura 4.63: Agregacin de lneas de cdigo al archivo yarn-site.xml Nodo Master. ............. 98
Figura 4.64: Abrir archivo yarn-site.xml Nodos Esclavo. ........................................................... 99
Figura 4.65: Archivo yarn-site.xml Nodos Esclavo. ..................................................................... 99
Figura 4.66: Agregacin de lneas de cdigo al archivo yarn-site.xml Nodos Esclavo. ....... 101
Figura 4.67: Abrir fichero slaves para agregar los Nodos Esclavo. ........................................ 102
Figura 4.68: Agregacin de los Nodos Esclavo al fichero slaves. ........................................... 102
Figura 4.69: Detener el funcionamiento del Firewall del sistema en el Nodo Master. .......... 103
Figura 4.70: Abrir fichero sysctl.conf en el Nodo Master. ......................................................... 103
Figura 4.71: Desactivacin del IPv6 en el Nodo Master. .......................................................... 103
Figura 4.72: Detener el funcionamiento del Firewall del sistema en los Nodos Esclavo. .... 104
Figura 4.73: Abrir fichero sysctl.conf en los Nodos Esclavo. ................................................... 104
Figura 4.74: Desactivacin del IPv6 en los Nodos Esclavo. .................................................... 105
Figura 4.75: Ingreso como usuario hdfs. .................................................................................... 105
Figura 4.76: Ingreso a la carpeta /bin del usuario hdfs. ............................................................ 105
Figura 4.77: Formato al Name Node. .......................................................................................... 106
Figura 4.78: Resultado de dar formato al Name Node. ............................................................ 106
Figura 4.79: Ir al directorio /sbin del usuario hdfs. ..................................................................... 106
Figura 4.80: Inicio del demonio Name Node. ............................................................................. 107
Figura 4.81: Inicio del demonio Secondary Name Node. ......................................................... 107
Figura 4.82: Usuario hdfs Nodos Esclavo. ................................................................................. 107
Figura 4.83: Fichero /sbin usuario hdfs Nodos Esclavos. ........................................................ 107
Figura 4.84: Inicio del demonio Data Node. ............................................................................... 108
Figura 4.85: Usuario yarn Nodo Master. ..................................................................................... 108
Figura 4.86: Fichero /sbin usuario yarn Nodo Master. .............................................................. 108
Figura 4.87: Inicio del demonio Resource Manager.................................................................. 108
Figura 4.88: Usuario yarn Nodos Esclavo. ................................................................................. 109
Figura 4.89: Directorio /sbin del usuario yarn en los Nodos Esclavo...................................... 109
Figura 4.90: Inicio del demonio Node Manager. ........................................................................ 109
Figura 4.91: Salir del usuario yarn Nodos Esclavo. .................................................................. 110
Figura 4.92: Verificacin de los demonios activos en los Nodos Esclavo. ............................ 110
Figura 4.93: Salir del usuario yarn en el Nodo Master.............................................................. 110
Figura 4.94: Ingreso como usuario hdfs en Nodo Master. ....................................................... 110
Figura 4.95: Directorio /bin del usuario hdfs en Nodo Master.................................................. 111
Figura 4.96: Creacin de directorios user y temp en Nodo Master. ........................................ 111
Figura 4.97: Verificacin de los directorios creados. ................................................................ 111
Figura 4.98: Salir del usuario hdfs en el Nodo Master. ............................................................. 112
Figura 4.99: Sesin como usuario mapred en Nodo Master.................................................... 112
Figura 4.100: Directorio /sbin del usuario mapred en Nodo Master........................................ 112
Figura 4.101: Inicio del demonio Job Histoy Server. ................................................................. 112
Figura 4.102: Directorio /bin del usuario mapred en Nodo Master.......................................... 113
Figura 4.103: Ejecucin del ejemplo pi que viene por defecto en Hadoop. ........................... 113
Figura 4.104: Resultado de la ejecucin del ejemplo pi en Hadoop. ...................................... 114

10
Figura 4.107: Comprobacin de los componentes que se estn ejecutando. ....................... 116
Figura 4.108: Vista en el explorador de los resultados del proceso ejecutado en Hadoop. 117
Figura 4.109: Vista en el explorador de los resultados del proceso ejecutado en Hadoop. 118
Figura 4.110: Vista en el explorador de la informacin de Hadoop. ....................................... 119
Figura 4.111: Vista en el explorador de la informacin de Hadoop. ....................................... 120
Figura 4.112: Rendimiento de la mquina antes de la ejecucin de Hadoop. ...................... 121
Figura 4.113: Rendimiento de la mquina al inicio de la ejecucin de Hadoop. ................... 122
Figura 4.114: Rendimiento de la mquina durante la ejecucin de Hadoop. ........................ 123
Figura 4.115: Eclipse, pgina web............................................................................................... 124
Figura 4.116: Copiar eclipse, a la direccin de usuario. ........................................................... 125
Figura 4.117: Verificar el archivo copiado. ................................................................................. 125
Figura 4.118: Descomprimir el archivo. ...................................................................................... 125
Figura 4.119: Enlace a directorio /bin.......................................................................................... 125
Figura 4.120: Editar lanzador de Gnome. ................................................................................... 126
Figura 4.121: Editar lanzador de Gnome con gestor vi. ........................................................... 127
Figura 4.122: Resultado del lanzador. ........................................................................................ 127
Figura 4.123: Directorio de Eclipse. ............................................................................................ 128
Figura 4.124: Seleccin de Java Project. ................................................................................... 129
Figura 4.125: Nombre de la aplicacin. ...................................................................................... 129
Figura 4.126: Creacin de la clase. ............................................................................................. 130
Figura 4.127: Importar libreras. ................................................................................................... 131
Figura 4.128: Importar libreras jar externas. ............................................................................. 132
Figura 4.129: Destino de Exportacin JAR file. ......................................................................... 134
Figura 4.130: Guardar .jar en la direccin establecida. ............................................................ 135
Figura 4.131: Archivo de texto. .................................................................................................... 135
Figura 4.132: Verificar el almacenamiento de los archivos. ..................................................... 136
Figura 4.133: Acceder a la carpeta que contiene archivos ...................................................... 136
Figura 4.134: Copiar archivo a sistema hdfs. ............................................................................. 136
Figura 4.135: Consulta del fichero con permisos -rw-r--r--. ...................................................... 137
Figura 4.136: Ejecucin en Hadoop con archivos de texto. ..................................................... 137
Figura 4.137: Resultado de operacin. ....................................................................................... 138
Figura 4.138: Resultado de operacin 2. .................................................................................... 138
Figura 4.139: Resultado final Word Count. ................................................................................ 139
Figura 4.140: Estructura de Tweets. ........................................................................................... 140
Figura 4.141: Diagrama de flujo del proceso de recoleccin de Tweets. ............................... 142
Figura 4.142: Instalacin repositorio actual de CouchDB. ....................................................... 143
Figura 4.143: Actualizacin de los paquetes.............................................................................. 143
Figura 4.144: Eliminar binarios de CouchDB. ............................................................................ 144
Figura 4.145: Instalar CouchDB ................................................................................................... 144
Figura 4.146: Para CouchDB ....................................................................................................... 144
Figura 4.147: Arrancar servicio de CouchDB. ............................................................................ 145
Figura 4.148: Verificar si se encuentra encendido CouchDB. ................................................. 145
Figura 4.149: Acceso a CouchDB y a sus funciones. ............................................................... 146
Figura 4.150: Instalar tweepy. ...................................................................................................... 147
Figura 4.151: Descargar librera CouchDB-09. .......................................................................... 147
Figura 4.152: Descomprimir librera. ........................................................................................... 148

11
Figura 4. 153: Acceso a carpeta CouchDB-09. ......................................................................... 148

Figura 4.154: Instalacin de libreras para que puedan ser reconocidas por python. .......... 149
Figura 4.155: Importacin de CouchDB en python. .................................................................. 149
Figura 4.156: Importacin tweepy. .............................................................................................. 150
Figura 4.157: Twitter Application Management. ........................................................................ 150
Figura 4.158: Acceso a Application Management. .................................................................... 151
Figura 4.159: Creacin de la Aplicacin. .................................................................................... 152
Figura 4.160: Claves generadas por Twitter. ............................................................................. 153
Figura 4.161: Claves generadas por Twitter 2. .......................................................................... 154
Figura 4.162: Claves como Consumer Key, y Consumer Secret. ........................................... 155
Figura 4.163: Interfaz de CouchDB, creacin de nueva base de datos. ................................ 155
Figura 4.164: Creacin de base de datos denominada quito. ................................................. 156
Figura 4.165: Verificacin de base de datos. ............................................................................. 156
Figura 4.166: Cdigo fuente desarrollado en Python, llamado tweeps.py. ............................ 157
Figura 4.167: Boundingbox, presentacin de coordenas. ........................................................ 158
Figura 4.168: Acceso a la carpeta que contiene el cdigo....................................................... 158
Figura 4.169: Ejecutar tweets.py. ................................................................................................ 159
Figura 4.170: Base de datos con alrededor de 15421 Tweets. ............................................... 160
Figura 4.171: Ilustracin del almacenamiento. .......................................................................... 160
Figura 4.172: Informacin tweet registrado. ............................................................................... 161
Figura 4.173: Pas donde fue emitido el tweet. .......................................................................... 162
ndice de Tablas
Tabla 1.1: Tabla De Unidades Bsicas De Informacin Y Tratamiento De Datos. Fuente:
(Jimnez, Big Data. Un nuevo paradigma, 2014) Elaboracin: Lpez / Ramos .................... 24
Tabla 2.1: Tipos de datos en el paradigma Big data. Fuente: (Jimnez, 2014) ..................... 34
Tabla 3.1: Costos de infraestructura y servicio Premier Support. Fuente: (Jean-Pierre
Dijcks-Oracle, 2014) ........................................................................................................................ 52
Tabla 3.2: Elementos de una implementacin de grandes volmenes de datos Mediana
Empresa de costo / beneficio. Fuente: (Nik Rouda, Senior Analyst and Adam DeMattia,
Research Analyst, 2015) ................................................................................................................. 53
Tabla 3.3: Tabla comparativa Apache Spark, Apache Hadoop, Oracle Big Data Appliance. 57

12
Prefacio
La elaboracin de la presente disertacin de grado surgi de la necesidad de profundizar en

un tema actual y de gran relevancia en el campo de la informtica, es por eso que al analizar
distintas tecnologas se encontr un tema vigente, innovador y prometedor como lo es Big
Data.
Durante el transcurso de esta carrera se pudo conocer la importancia que genera el poder
procesar y analizar correctamente los datos, as como las desventajas que acarrean el no
hacerlo. Se sabe que con las nuevas herramientas tecnolgicas los datos cada vez son ms
voluminosos y se transmiten ms rpidamente por lo cual ahondar en este tema es algo
atractivo. De esta manera, se ha vuelto un reto estudiar todo lo concerniente a Big Data con
el fin de obtener la mayor informacin posible que permita la elaboracin de una Gua
Metodolgica acerca del presente tema.
La idea de elaborar esta Gua Metodolgica para el Proceso Enseanza de Big Data, surgi
por la importancia que est teniendo este tema en el mundo de hoy. Todas las empresas,
compaas, organizaciones, etc. quisieran optimizar y procesar la gran cantidad de datos que
reciben diariamente para poder obtener informacin que genere valor y tomar correctamente
sus decisiones. Adems, que la mayora de informacin que se encuentra en los libros est
en otro idioma y muchas veces dicha informacin est estructurada de una manera tcnica
lo cual dificulta el fcil entendimiento y estudio de Big Data.
Por otro lado, hoy en da con el auge y la importancia que estn teniendo las redes sociales
tales como Facebook, Twitter, Linkedin, etc., representan una de las fuentes ms
significativas para obtener datos masivos, lo cual da lugar a una lnea de investigacin
importante, ya que gracias a los datos recogidos a travs de estos medios de comunicacin,
muchas empresas pueden verse beneficiadas al permitirles tener una observacin inmediata
del comportamiento de sus consumidores sin que stos se sientan observados, por ejemplo
Netflix al utilizar Big Data puede predecir lo que ms le gustar a su audiencia y
recomendarles contenido, que por cierto, su herramienta de recomendacin es una de las
cosas que ms gusta a sus usuarios. Esto es hacer Big Data, el poder integrar toda esa
informacin y obtener datos operativos.
Al mismo tiempo, Big Data est presente en los diferentes campos de las ciencias como por
ejemplo en la medicina que es donde se generan una gran cantidad de datos, muchos de

13
ellos datos no estructurados, provenientes de formatos escritos en papel como recetas

mdicas o electrnicos que permanecen sin utilizar por la dificultad y la falta de disponibilidad
de herramientas que permitan gestionarlos de manera efectiva. Pero actualmente, gracias a
la integracin de Big Data en el campo de la salud esos datos podrn ser procesados de una
forma ms eficiente, de tal manera que Big Data se utilizar para predecir y prevenir con
mayor certeza los diferentes tipos de enfermedades. As se puede evidenciar como Big Data
es importante no solo en la medicina, sino tambin en la economa, las finanzas, los negocios,
etc.
Es entonces que por estas razones se eligi elaborar esta gua en donde se hablar todo lo
referente a Big Data y a la vez, se demostrar con casos prcticos lo que es hacer Big Data
en nuestros tiempos.

14
Antecedentes o Marco Referencial
En la actualidad el volumen de los datos ha crecido de manera exponencial e inmensurable,

lo que ha provocado el difcil manejo de los mismos, causando un problema en la
comprensin y toma de decisiones; para la optimizacin de esta situacin, se desarroll lo
que ahora se conoce como Big Data, pero teniendo en cuenta la escasez de informacin,
libros en un idioma distinto al espaol, falta de difusin del tema, provoca que las personas
tengan poca accesibilidad en la adquisicin de este conocimiento.
JUSTIFICACIN
Relevancia Social: Actualmente, el auge de redes sociales, el crecimiento de la poblacin,

entre otros factores, han provocado el crecimiento vertiginoso y voluminoso de los dantos,
ante lo cual, las empresas han tenido que enfrentarse a nuevos retos que les permitan
descubrir, analizar y sobretodo, entender el funcionamiento de herramientas no tan
tradicionales. Es as, que resulta atractivo e interesante profundizar en este tema y proponer
una gua metodolgica hacia lo que es Big Data, lo que significa y su importancia actualmente.
Relevancia Acadmica: Generar una gua metodolgica para el proceso enseanza-

aprendizaje de Big Data es un reto innovador puesto que es un tema ya establecido pero que
necesita ser profundizado y sobretodo debe quedar claro en personas afines a carreras
semejantes a Ingeniera en Sistemas de Informacin. Adems, se enfocar en casos
prcticos, tales como; instalacin y configuracin de un servidor para Big data, ejercicios
prcticos que vinculen la teora a casos funcionales. Esto puede servir de apoyo a profesores
interesados en dictar clases acerca de Big Data y, al mismo tiempo ser til para facilitar el
aprendizaje de los estudiantes.
Relevancia Personal: La elaboracin de una gua metodolgica para el proceso enseanza-

aprendizaje de Big Data proporcionar una ventaja en el desarrollo profesional, debido a que
se podr conocer a fondo de qu se trata este tema que en la actualidad est tomando un
peso relevante en el manejo de la informacin y al mismo tiempo, permitir ampliar el
conocimiento personal y por lo tanto, facilitar el desenvolvimiento en el desarrollo de
aplicaciones o herramientas concernientes a este tema.

15
PROBLEMA
Planteamiento del Problema
Con el transcurso del tiempo se generan volmenes masivos de datos, lo que se conoce
como Big Data. Estos datos pueden ser irrelevantes para las personas e incluso pueden llegar
a ocupar grandes cantidades de almacenamiento, debido a que Big Data es la herramienta
que se encarga de la optimizacin de recursos y del manejo de datos; adems, la falta de
existencia de libros relacionados a este tema, informacin en ingls, costos elevados, resulta
muy difcil tanto para las empresas, profesores, estudiantes acceder y aprovechar este
conocimiento. Por lo que es necesario establecer una gua metodolgica que facilite el
aprendizaje incluyendo casos prcticos, tales como; instalacin y configuracin de un servidor
para Big data (Hadoop), ejercicios prcticos que vinculen la teora a casos funcionales.
OBJETIVOS
General
Elaborar una gua metodolgica para el proceso enseanza- aprendizaje de Big Data que
beneficie a los docentes, adems realizar la instalacin y configuracin de una plataforma
tecnolgica de Big Data.
Especficos
Establecer una metodologa innovadora para el proceso de enseanza

aprendizaje de Big Data.
Fundamentar tericamente las bases de Big data.
Determinar cul es la importancia de utilizar Big Data y qu informacin se puede
considerar ms relevante para el proceso de enseanza aprendizaje.
Investigar cules son los mtodos existentes e innovadores que permitan la
descomposicin de informacin
Analizar las plataformas que permiten hacer Big data.

16
CAPTULO I: QE ES BIG DATA?
El objetivo de este captulo es exponer la funcin de Big data desde su historia/ evolucin, su
importancia con su respectiva relevancia actual. Con la finalidad que ms adelante sea mucho
ms fcil comprender los trminos realizados en esta gua.
1.1. Definicin
A simple vista el trmino Big Data se lo puede entender como algo que es grande y est lleno
de informacin, pero esta definicin no proporciona algo claro, ni describe lo que Big Data es
en realidad. Entonces, Qu es exactamente Big Data?, Big Data es un trmino muy conocido
en el medio actual y es a menudo descrito como conjuntos de datos que son extremadamente
grandes, es decir, que han crecido ms all de la capacidad para poder ser gestionados y
analizados con herramientas tradicionales de procesamiento de datos. En otras palabras, los
datos han crecido de manera gigante, lo cual hace dificultoso su manejo y an ms difcil el
poder extraer valor de ellos al presentarse ciertas dificultades como la adquisicin, el
almacenamiento, la bsqueda y el intercambio.
Conforme un estudio realizado por Cisco, entre el 2015 y el 2020 el trfico de datos mviles
que habr en el 2020 ser de 5,5 millones de usuarios mviles en el mundo, frente a los 4,8
mil millones en 2015. Adems, En 2020, habr 11,6 millones de dispositivos y conexiones
mviles listos, casi 4 mil millones ms que en 2015.
Asimismo, en el ao 2020, la velocidad de conexin mvil media aumentar 3,2 veces,
pasando de 2,0 Mbps en 2015 a 6,5 Mbps para el ao 2020. Del mismo modo, el trfico IP
mvil global alcanzar una tasa anual de 367 exabytes en 2020, frente a los 44 exabytes en
2015. (Cisco, s.f.)
Para poder entender mejor este concepto de Big Data se encontraron otras definiciones
formales que pueden ser de gran ayuda para esclarecerlo, como por ejemplo las que estn
planteadas a continuacin.
Big data es un trmino usado para describir los datos que tienen volumen masivo, vienen en
una variedad de estructuras, y se generan a alta velocidad. Este tipo de datos plantean
desafos a los sistemas tradicionales de bases de datos que se utilizan para almacenarlos y

17
procesarlos. Los Grandes Datos estn abriendo camino para nuevos enfoques de
procesamiento y almacenamiento de datos. (Shakuntala Gupta & Sabharwal, 2015).
En trminos generales Big Data se puede referir a la tendencia en el avance de la tecnologa

que ha abierto las puertas hacia un nuevo enfoque de entendimiento y toma de decisiones,
la cual es utilizada para describir enormes cantidades de datos (estructurados, no
estructurados y semi estructurados)1 que tomara demasiado tiempo y sera muy costoso
cargarlos a una base de datos relacional para su anlisis. De tal manera que, el concepto de
Big Data aplica para toda aquella informacin que no puede ser procesada o analizada
utilizando procesos o herramientas tradicionales. Sin embargo, Big Data no se refiere a
alguna cantidad en especfico, ya que es usualmente utilizado cuando se habla en trminos
de petabytes y exabytes de datos. (Ricardo Barranco Fragoso, IT Specialist for information
Management, IBM Software Group , 2012)
1.1.1. Las 4 Vs de Big Data
En cuanto a la extraccin de valor, Big Data tiene distintivos importantes que permiten la
revelacin de la informacin, estos distintivos consienten maximizar el valor respecto al
negocio o cualquier aplicacin que sea desarrollada. Como lder en el sector, los analistas de
datos de IBM clasifican a los datos en cuatro dimensiones: volumen, velocidad, variedad y
veracidad.
Volumen: Trata acerca del gran tamao de los datos. Las empresas estn inundadas de
datos, acumulando fcilmente terabytes e incluso petabytes de informacin. Hoy en da, los
datos no solo se generan dentro de una empresa si no tambin se generan en base a
transacciones, la cantidad de trfico de datos mviles crecer de manera inmensurable.
Variedad: Big Data se extiende ms all de los datos estructurados para incluir datos no
estructurados de todas las variedades, estos datos son generados a partir de diversos
dispositivos mviles y fuentes que no siguen una estructura fija tal como: archivos de texto,
videos, fotos, PDF, audio y otros formatos no estructurados.
Veracidad: Las enormes cantidades de datos recogidos pueden conducir a errores

estadsticos y mala interpretacin de la informacin recolectada. La pureza de la informacin
es fundamental para el valor.
1
Revisar el Subcaptulo 1.5.2. : Datos estructurados, no estructurados y semi estructurados

18
Velocidad: Es el acceso y el flujo de grandes datos, necesarios para ser analizados. Estos
datos son susceptibles en el tiempo. Si los datos no pueden ser procesados a la velocidad
requerida, pierden su significado.
Figura 1.1: Las 4 Vs de Big Data
1.2. Historia/Evolucin
Teniendo en cuenta que el ser humano desde tiempos inmemorables no ha dejado de

recopilar informacin. La ideologa de Big Data probablemente puede ser remontada a los
das antes de la era de las computadoras. Cuando los datos no estructurados, registros en
papel, eran ms frecuentes, en vista que no existan herramientas que permitan la gestin
de los datos.
Fue entonces que en el ao de 1880 se present el primer desafo de Big Data con el censo
de Estados Unidos, el cual arroj una montaa de datos de aproximadamente 50 millones de
personas, y solo la tecnologa limitada estaba disponible para hacer algn tipo de anlisis.
As fue como este problema de Big Data (de los grandes datos) no pudo ser resuelto durante
este ao, por lo que se necesitaron siete aos para tabular y presentar informacin de los
datos recogidos de manera manual.
Pero ya para el ao de 1890 las cosas empezaron a cambiar gracias a la introduccin de la

primera plataforma de Big Data, que consista en un dispositivo mecnico llamado Sistema

19
de tabulacin de Hollerith, que trabajaba utilizando tarjetas perforadas y poda contener cerca
de 80 variables. Este sistema, revolucion el valor de los datos del censo y su anlisis tard
seis semanas, en lugar de siete aos.
A continuacin, en el ao de 1940 Turing y Good2 realizaron un trabajo distintivo para

decodificar los mensajes alemanes en la segunda guerra mundial. Pero el siguiente gran salto
para el anlisis de Big Data se dio en el ao de 1944 con el Proyecto de Manhattan, el mismo
que consista en un proyecto cientfico que ocurri durante la Segunda Guerra Mundial por
parte de los Estados Unidos con la colaboracin parcial de Reino Unido y Canad, cuyo
objetivo primordial era desarrollar la primera bomba atmica antes que la Alemania nazi lo
lograra. El equipo de este proyecto realiz simulaciones por ordenador para predecir el
comportamiento de una reaccin nuclear en cadena.
As muchos cambios siguieron apareciendo, y en el ao de 1966 SAS Institute3 comenz

como un proyecto de investigacin financiado por el Ministerio de Agricultura de Estados
Unidos. Posteriormente, en 1973 se crea el modelo Black-Sholes para predecir el precio
ptimo de las acciones en el futuro. (FICO, 2013)
Conforme pasaron los aos la tecnologa fue induciendo cambios impactantes, es as como
Amazon y Ebay aparecieron en el ao de 1995, comenzando de esta manera la
personalizacin de la experiencia online. Seguidamente, en 1998 Google aplica algoritmos
a las bsquedas web, para maximizar la relevancia de los resultados. (FICO, 2013)
Finalmente ya entrando a nuestra era, es decir, desde el ao 2000 hasta el presente, este
concepto de Big Data se reafirma con el surgimiento de redes sociales, telfonos inteligentes,
dispositivos electrnicos, la nube, etc., ante lo cual los analistas mencionan que hoy en da
se generan 2,5 trillones de bytes relacionados con el trmino de Big Data.
2
Alan Turing: (Alan Mathison Turing; Londres, 1912-Wilmslow, Reino Unido, 1954) Matemtico britnico. En la
Segunda Guerra Mundial ofreci un marco de aplicacin prctica de sus teoras, consista en descifrar los
mensajes codificados que la Marina alemana empleaba para enviar instrucciones a los submarinos que
hostigaban las filas de ayuda material enviados desde Estados Unidos. (Biografas y vidas, 2004)
Good: (Irving Ioannes Good; 9 de Diciembre de 1916, 5 de abril de 2009). Matemtico britnico. Particip como
criptgrafo en descifrar los mensajes en la segunda Guerra Mundial. (Los Angeles Times, 2009)
3
SAS: Es una empresa de software de capital privado ms grande del mundo lder en Business Analytics, fundada
en Estados Unidos. Ofrece un verdadero poder analtico a empresas que manejan altos volmenes de datos y
destilan la informacin esencial, para facilitar el proceso de toma de decisiones utilizando modelos predictivos
y descriptivos, pronsticos, simulacin y optimizacin. (SAS Mxico, 2014)

20
Figura 1.2: Historia/Evolucin Big Data.
1.3. Importancia
Big Data, junto con la nube, redes sociales, anlisis y movilidad, son palabras de moda hoy
en da en el mundo de la informtica. La disponibilidad de Internet y dispositivos electrnicos
para las masas est aumentando cada da. Especficamente, smartphones, redes sociales y
otros dispositivos como tablets y sensores estn creando una explosin de datos. Los datos
se generan a partir de diversas fuentes en diversos formatos como el vdeo, texto, voz,
archivos de registro, y las imgenes. Un solo segundo de video de alta definicin (HD) genera
2.000 veces ms bytes que la de una sola pgina de texto.
Figura 1.3: Crecimiento de los datos a nivel mundial Fuente: (Shakuntala Gupta & Sabharwal, 2015)

21
Como se puede observar con la Figura 1.3, la informacin crece de manera veraz, por lo
cual, estos datos en gran cantidad cambian la ejecucin de procesos de negocio y las
organizaciones se favorecen al indagar en el crecimiento de los datos. Puesto que el tener
tcnicas de recopilacin y anlisis de datos, beneficia al sector de los negocios para que
puedan tener una visin ms clara de las preferencias y gustos de sus clientes. Entonces, se
puede decir que, el anlisis de datos en las organizaciones promueve productividad,
crecimiento y beneficios tanto al productor como al consumidor.
Las organizaciones estn invirtiendo recursos en nuevas tecnologas orientndose cada vez
a la acumulacin de datos y anlisis.
A continuacin se explican unos ejemplos que evidencian casos claros acerca de Big Data:
Cuando empresas como Amazon recomiendan qu libro leer, lo que hay detrs del proceso
es Big Data. Las compaas aplican algoritmos cuando combinan datos como los gustos de
un usuario al que conoce por adquisiciones anteriores u otros que lo identifican como sus
visitas a determinadas pginas web.
De acuerdo con (Marr, 2015), algunas empresas aprovechan los datos en grandes
cantidades para impulsar el rendimiento del negocio. Entre estas empresas se encuentran,
Google, Amazon, Facebook, General Electric y Microsoft. Entre las primeras empresas se
encuentra Google, la cual procesa 3.5 millones de solicitudes por da, y cada solicitud consulta
a una base datos de 20 millones de pginas web., por otro lado Google es uno de los
negocios ms rentables en el mundo, cuenta con gran cantidad de informacin y adems
utiliza PageRank que es un conjunto de algoritmos indexados por un motor de bsqueda. Su
funcin es avanzar ms lejos en las bsquedas basadas en palabras claves, hacia bsquedas
semnticas. Esto implica analizar no slo las palabras en la consulta si no tambin la conexin
entre ellas, para determinar la mayor importancia que una pgina web tiene en Internet. Por
ejemplo, Google se hace la idea de que cuando una pgina coloca un enlace (link) a otra, es
de hecho un voto para esta ltima.
Cuantos ms votos tenga una pgina, ser considerada ms importante por Google. Adems,
la importancia de la pgina que emite su voto tambin determina el peso de este voto. De
esta manera, Google calcula la importancia de una pgina gracias a todos los votos que
reciba, teniendo en cuenta tambin la importancia de cada pgina que emite el voto.
(Mipagerank, 2003)
Sin embargo, despus de todo, las bsquedas son gratis, Entonces, Cmo Google ha
logrado ser un negocio rentable en el planeta? Google acumula grandes cantidades de datos

22
sobre las personas que lo usan, mientas las empresas pagan generosamente a Google, para
que los anuncios aparezcan en los ordenadores de sus clientes.
1.3.1. Prediccin de eventos con Big Data
Aprovechar el poder de la ciencia de datos en el servicio de la humanidad. (Datakind, 2015)
Con gran variedad de datos actuales e histricos, se puede realizar predicciones sobre futuros
eventos. Las predicciones no suelen ser afirmaciones absolutas, llegan a una cierta
probabilidad de que algo suceda.
Por ejemplo, la prediccin de zonas geogrficas vulnerables a crmenes. Hoy en da se han

creado aplicaciones reales que permiten predecir zonas en las cuales se pueden producir
crmenes a partir de un perfil sociodemogrfico de la zona, obteniendo como resultado las
zonas en que se cometer un delito.
Otra aplicacin que resulta muy til es, la deteccin de epidemias de gripe a partir del motor
de bsqueda. Google asegura que puede rastrear enfermedades similares a la influenza en
una poblacin, este mtodo consiste en determinar la frecuencia de consultas altamente
correlacionadas con el porcentaje de visitas al mdico que un paciente presenta con sntomas
similares a la gripe, Google afirma que se puede estimar con precisin el nivel de actividad
de la influenza semanalmente en cada regin de los Estados unidos.
Como se puede observar en los ejemplos ya mencionados con anterioridad, Big Data en los
ltimos aos, ha logrado posesionarse tanto en el mundo de los negocios como en muchos
aspectos de la vida cotidiana, al convertirse en una herramienta indefectible para las ventajas
competitivas de grandes y medianas empresas, al permitir transformar los datos en grandes
resultados a travs del anlisis de los mismos. Al mismo tiempo, se esperan grandes avances
en el futuro en todo lo que concierne a Big Data.
1.4. Conceptos Generales del Captulo
1.4.1. Tabla de equivalencias de Informtica

23
Tabla 1.1: Tabla De Unidades Bsicas De Informacin Y Tratamiento De Datos. Fuente:

(Jimnez, Big Data. Un nuevo paradigma, 2014) Elaboracin: Lpez / Ramos
1.4.2. Datos estructurados, no estructurados y semi estructurados
Dato
Como se puede observar se habla mucho acerca de los datos, entonces Qu es un dato?
Un dato es el componente fundamental de las bases de datos, estn relacionados entre s
formando un conjunto con mnimas redundancias. Los datos por s mismos no aportan
conocimiento hay que procesarlos y transformarlos para obtener informacin. (Cobo, 2009)
Existen distintos tipos de datos que de acuerdo a su clasificacin proporcionan perspectivas

diferentes.

24
Datos estructurados: Son el resultado de tomar datos organizados y formatearlos para

facilitar el almacenamiento, uso y generacin de informacin. (Carlos Coronel, 2011)
Datos semi estructurados: Son datos que ya han sido procesados en alguna medida.
Por ejemplo, si observamos una pgina web cualquiera, los datos se presentan en
formato arreglado previamente para presentar alguna informacin. (Carlos Coronel,
2011)
Datos no estructurados: Se refiere tpicamente a aquellos datos que no estn
organizados bajo el Modelo de Datos Relacional, definido por Edgar Codd en 1970.
Algunos ejemplos comunes de informacin no estructurada son los archivos de texto,
documentos (P DF, Word), imgenes, audio y video, entre otros. (Alexander Ambriz
Rivas, M. Sc., Client Technical Professional, 2013)
1.4.3. Base de datos

Una base de datos es un conjunto de datos almacenados sin redundancias innecesarias en
un soporte informtico y accesible simultneamente por distintos usuarios y aplicaciones. Los
datos deben estar estructurados y almacenados de forma totalmente independiente de las
aplicaciones que la utilizan. (Cobo, 2009)
1.4.4. Business Intelligence (Inteligencia de Negocio, BI)

Consta de una categora amplia de aplicaciones y tecnologas para recopilar, almacenar,
analizar, y facilitar el acceso a los datos. BI ofrece informacin til, que ayuda a los usuarios
de las empresas a tomar mejores decisiones de negocio utilizando sistemas de apoyo
basados en hechos. BI funciona mediante el uso de un anlisis en profundidad de los datos
comerciales detallados, proporcionados por bases de datos, datos de la aplicacin, y otras
fuentes de datos tangibles. En algunos crculos, BI puede proporcionar vistas histricas,
actuales y predictivas de las operaciones comerciales. (Ohlhorst F. J., 2012)

25
CAPITULO II: Generalidades de Big Data
El objetivo de este captulo es profundizar temas relevantes acerca de Big Data, es decir,
conceptos que son muy utilizados hoy en da y que son de gran importancia para entender
cmo funciona y en qu consiste hacer Big Data.
2.1. reas de Big Data
2.1.1. Recoleccin
Cuando se habla de recoleccin de datos se habla de una de las disciplinas que ha variado
con mayor rapidez y en la menor cantidad de tiempo, debido a que los datos se generan en
cifras millonarias y provienen de una gran variedad de dispositivos existentes en todo el
mundo que emiten, procesan y recogen datos de diferentes actividades como la informacin
existente en redes sociales, en la nube, variables de geolocalizacin, entre otros.
Actualmente, muchas empresas estn logrando especializarse en la recoleccin de datos a

travs de diversos programas que aaden adems algo de inteligencia y consiguen que los
nmeros recolectados sean coherentes y homogneos para poder as realizar mejor los
procesos posteriores. (Tablet Army, 2012)
Este ejemplo pretende ilustrar el concepto mencionado, para ello se utilizar como referencia
una herramienta llamada OpenFlights (http://openflights.org/data.html), que permite
determinar vuelos en todo el mundo, buscar y filtrar todo tipo de informacin, el uso de esta
pgina web es gratuita. Adems cuenta con variedad de mdulos, donde presenta
informacin de aeropuertos, informacin de aerolneas y las informaciones de rutas. Para
este ejemplo, se ha tomado informacin correspondiente a los distintos aeropuertos en el
mundo.

26
Segn OpenFlights, el mundo hasta el 2009 contaba con 6977 aeropuertos. Por lo tanto, se
tomar esta informacin y se la utilizar en las siguientes reas de Big Data.
Figura 2.1: Archivo de texto con datos estructurados acerca de los aeropuertos.
El archivo contiene 9541 registros, con campos estructurados donde se detalla aeropuerto
ID, nombre de la ciudad, Pas, Asignacin al pas sea dentro o fuera del pas, cdigo OACI,
latitud, longitud, altitud, zona horaria.
La informacin obtenida representa un gran volumen de datos, es estructurada, pero no tiene

todas las caractersticas de Big Data.
2.1.2. Almacenamiento
De acuerdo con (Tablet Army, 2012), las empresas actualmente tienen archivados sus datos,
pero no saben cmo procesarlos. Ante la gran cantidad de datos que se generan diariamente,
se debe llevar a cabo un almacenamiento escalable, es decir, un sistema que pueda variar
su tamao de almacenamiento (ya sea aumentndolo o disminuyndolo) segn las
necesidades, y que esto no afecte al rendimiento general de todo el sistema.
A partir de esta necesidad aparecieron los sistemas de ficheros distribuidos4, que

consisten en la distribucin y el compartimiento de cierta informacin por las redes. Tambin
4
Revisar el Subcaptulo 2.3.1: Sistema de ficheros distribuidos.

27
los clster5 de ordenadores o nodos interconectados, que se encuentran dispuestos de esta

manera para tener un slo sistema de ficheros lgicos.
Por otro lado, el almacenamiento se est trabajando tambin en la nube, est ayudando a
la consolidacin del nuevo mundo del Big Data. La multinacional norteamericana EMC, por
ejemplo, sugiere optar por infraestructuras orientadas directamente a Big Data, a travs de
un almacenamiento que incluya tecnologa Cloud6. (Tablet Army, 2012). Resulta oportuno
mencionar, que se puede contar con un repositorio de ms de 10 petabytes en la nube, en
lugar de islas de datos, que por lo general, suelen requerir una administracin manual y
adems, estn soportadas en sistemas dispares.
De acuerdo con los razonamientos que se han venido realizando es oportuno preguntar,
Qu tipo de datos almacena Big data? Big Data permite el almacenamiento de datos
estructurados y no estructurados y semi estructurados. Por esta razn, las bases de datos
relacionales7, que estn basadas en lenguaje SQL (Structured Query Language), no pueden
manejar datos no estructurados y semi estructurados. Adems, son bases de datos poco
flexibles ya que cuando se crea su estructura es bastante conflictivo realizar cambios en sta
(como aadir nuevas columnas a una tabla o cambiar el tipo de una columna).
Debido a esta complejidad existen las llamadas bases de datos NoSQL8 (Not only SQL): las
empresas que basan su actividad en Internet y las redes sociales tales como Google,
Facebook, Amazon, Twitter. Son empresas que no siguen el modelo de base de datos
relacionales, y aportan ms flexibilidad al no requerir estructuras fijas como tablas. Algunos
ejemplos de sistemas NoSQL son MongoDB, Hadoop. Los sistemas NoSQL acostumbran a
ser en este sentido ms adaptables a los sistemas distribuidos, permiten una mayor
flexibilidad en la configuracin de las maquinas con hardware ms modesto. (Morros, 2013)
Continuando con el ejemplo mencionado, el almacenamiento debe ser en las bases de datos
que manejen gran volumen de datos. En vista de que es un ejemplo sencillo no tcnico, se
almacenarn los datos en la memoria de un computador.
5
Revisar el Subcaptulo 2.3.2: Cluster
6
Revisar el Subcaptulo 2.3.3: Cloud
7
Revisar el Subcaptulo 2.3.4: Bases de datos relacionales
8
Revisar el Subcaptulo 2.3.5: Bases de datos NoSQL

28
2.1.3. Anlisis
El anlisis es una de las reas ms importantes de Big Data, ya que se puede extraer
informacin de valor que podra parecer oculta en el almacenamiento de datos. Pero la clave
para obtener datos de valor es procesar la informacin de manera eficaz y en un tiempo
razonable, de tal manera, que se puedan obtener resultados ptimos. No obstante, la mayora
de herramientas que existen trabajan nicamente con datos estructurados y otras suelen ser
predefinidas y lentas al encontrarse con datos de gran volumen. Ante esto, los expertos
recomiendan utilizar aplicaciones diseadas especficamente para Big Data, para poder
aprovechar al mximo esa capacidad gil y proactiva para el anlisis de datos.
Algunas de esas herramientas son, Apache Hadoop, un framework de cdigo abierto para el
procesamiento, el almacenamiento y el anlisis de grandes volmenes de datos de diversas
fuentes. (Tablet Army, 2012)
Otra herramienta muy utilizada es R, un lenguaje de programacin que facilita tanto el

anlisis de datos como el desarrollo de nuevo software de estadstica. (Tablet Army, 2012)
Esta rea de Big data se encarga de extraer informacin relevante hacia el usuario. En este
ejemplo se utiliza el programa R, que permite extraer informacin del archivo obtenido de
OpenFlights. Para la demostracin del siguiente ejemplo resulta relevante extraer informacin
como latitud, y longitud de los aeropuertos en el mundo.
Para ello es necesario leer el archivo:
el siguiente comando permite visualizar los datos.
> x = read.table("airports.txt", header = T, sep = ",")
> attach(x)
>x

29
Figura 2.2: Visualizacin de datos en R.
Otro ejemplo consiste en utilizar un programa llamado ArGis que representa la informacin
geogrfica como una coleccin de capas y otros elementos en un mapa. Es as, que se ha
recurrido a una imagen obtenida de google Earth localizada en Atacames-Ecuador.
El ejercicio consiste en identificar sectores de la imagen, o puntos relevantes donde se

identifique la clasificacin de los sectores a analizar, para ello se utilizan puntos con cdigos
que los representen, en este caso los cdigos utilizados son los siguientes: 1 representa las
vas, cdigo 2 representa la arena de la playa, cdigo 3 representa el mar, cdigo 4
representa la piscina en la localidad, cdigo 5 representa los rboles del sector.
De esta manera se obtienen estos puntos:

30
Figura 2.3: Visualizacin de Atacames en ArcGis.
Como se puede observar en la imagen, al lado izquierdo se muestran los cdigos descritos
anteriormente (1,2,3,4,5) mismos que estn representados con distintos colores.
Figura 2.4: Visualizacin de los puntos recogidos.

31
2.1.4. Visualizacin
Los grficos, mapas interactivos son la herramienta ms utilizada para mostrar el anlisis de
los datos, permite difundir el anlisis previo de manera precisa y consistente, para que
posteriormente sea visualizada con las partes interesadas, por otro lado la visualizacin de
datos ayuda a elaborar mejores cuadros de mando, y en general a comunicar el significado
de los datos de la manera ms adecuada para cada interlocutor.
Ahora es importante mencionar el ejemplo, para ello es necesario recordar los puntos
recogidos en el rea anterior. Los puntos permitirn identificar completamente las reas
clasificadas en la seccin anterior. En esta seccin se visualizarn todas las reas verdes,
todas las piscinas, todas las carreteras, etc. Como resultado se obtienen las reas ya
identificadas. Es as, que a continuacin se muestra la imagen resultante que identifica ya
todas las reas.
Figura 2.5: Visualizacin de las reas identificadas.
2.2. Paradigmas de Big Data
Con la aparicin de Big Data han surgido nuevos paradigmas de programacin para facilitar
el proceso y manejo de datos propiciando un acercamiento a una solucin para Big Data. Los
dos paradigmas que centran en el desarrollo de aplicaciones, as como en la gestin de los

32
grandes datos son MapReduce y Procesamiento Masivo en Paralelo (Massivelly Parallel

Processing) o tambin conocido como MPP, ambos con aspectos en comn pero bien
diferenciados.
2.2.1. MapReduce
MapReduce es un modelo de programacin que gestiona grandes volmenes de datos,

actualmente se ha implementado en varios sistemas, incluida la aplicacin interna de Google.
Igualmente, Hadoop puede usar una implementacin de MapReduce para gestionar clculos
a gran escala de una manera que es tolerante a fallos de hardware. Para ello es necesario
dos funciones, llamadas (Map) y (Reduce), mientras que el sistema se encarga de la
ejecucin en paralelo.
En resumen un MapReduce se ejecuta de esta manera:
1. Se presentan algn nmero de tareas, cada tarea se presenta en fichas distribuidas.

Estas tareas de Mapa (Map) se convierten en pedazos de una secuencia que tienen
clave/valor. Los pares de clave/valor se producen a partir de las entradas.
2. Los pares clave/valor de cada tarea de Mapa (Map) son recogidos de acuerdo a las
claves y clasificadas. Las claves estn distribuidas entre todos para las tareas de
reduccin (Reduce).
3. Las tareas reducidas trabajan sobre una clave a la vez, y combinan todos los valores
asociados con aquella clave de algn modo. La forma de combinacin se encuentra
determinada por el usuario. (Leskovec, Rajaraman , & Ullman, 2014)
En la siguiente imagen encontraremos el procedimiento plasmado en forma grfica.

33
Figura 2.6: Esquema de un clculo MapReduce. Fuente: (Leskovec, Rajaraman , & Ullman, 2014)
2.2.1.1. Tareas Map
Se considera que los archivos de entrada para una tarea Map, pueden ser un conjunto de
elementos de cualquier tipo:
Tabla 2.1: Tipos de datos en el paradigma Big data. Fuente: (Jimnez, Big data. Un nuevo
paradigma, 2014)
Datos estructurados Datos Datos no estructurados

semiestructurados
Fichas de clientes Correos electrnicos Persona a persona
Fecha de nacimiento Parte estructurada: Comunicaciones en las
Nombre destinatario, redes
Direccin receptores, sociales
Transacciones en un tema Persona a mquina
mes Parte no estructurada: Dispositivos mdicos
Puntos de compra cuerpo del mensaje Comercio electrnico
Ordenadores, mviles
Mquina a mquina
Sensores, dispositivos
GPS
Cmaras de seguridad

34
La funcin Map recibe como parmetros un par de (clave, valor) y devuelve una lista de pares.
Esta funcin se encarga del mapeo y se aplica a cada elemento de la entrada de datos.
Despus se agrupan todos los pares con la misma clave de todas las listas, creando un grupo
por cada una de las diferentes claves generadas. No hay requisito de que el tipo de datos
para la entrada coincida con la salida y no es necesario que las claves de salida sean nicas.
(1 , 1), (2 , 1), ..,(3 , 1)
2.2.1.2. Grupo de claves
Tan pronto como las tareas Map se han completado con xito, los pares de clave/valor se
agrupan por clave y los valores asociados a cada clave estn formando una lista de valores.
La agrupacin se realiza por el sistema, independientemente Map y Reduce trabajan en
las tareas. El controlador Master del proceso sabe cundo aplicar Reduce a las tareas,
pueden ser r tareas. El usuario normalmente indica al sistema MapReduce, que desea tener.
A continuacin, el controlador maestro escoge una funcin hash9 que se aplica a las claves
y produce una serie de nmeros de 0 a r-1. Cada clave que se emite por una tarea de Map
es ordenada y su par clave/valor se pone en uno de los r archivos locales. Cada expediente
se destina a una de las tareas Reduce.
Para llevar a cabo la agrupacin de claves y la distribucin de las tareas Reduce, el

controlador principal se fusiona con los archivos de cada tarea Map que estn destinados a
tareas particulares de Reduce y permiten la fusin de archivos. A ese proceso se le conoce
como una secuencia de pares de claves que pertenecen a una lista de valores. Es decir, para
cada clave k. La entrada para la funcin Reduce ser k, las tareas formarn pares
(, [1 , 2 , . . . ., ]), donde (, 1 ) , (, 2 ) ,.., (, ) estn en todos los pares clave/valor,
y la clave k proviene de todas las tares Map.
2.2.1.3. Tarea Reduce
9
Funcin Hash: Una funcin criptogrfica hash- usualmente conocida como hash- es un algoritmo
matemtico que transforma cualquier bloque arbitrario de datos en una nueva serie de caracteres con una
longitud fija. Independientemente de la longitud de los datos de entrada, el valor hash de salida tendr siempre
la misma longitud. De manera opcional, los usuarios pueden especificar su propia funcin hash u otro mtodo
de asignacin de claves para reducir las tareas. Sin embargo, cualquiera que sea el algoritmo se utiliza, cada
clave est asignada a una y slo una tarea Reduce. (Brian Donohue, 2014)

35
El argumento de la funcin Reduce es un par formado por una clave y una lista de valores
asociados. La salida de la funcin Reduce es una secuencia de cero o ms pares de clave
y valor. Estos pares de clave/valor pueden ser de un tipo diferente a los enviados en un
principio por las tareas Map y Reduce, pero a menudo son del mismo tipo. Nos referiremos
a la aplicacin de la funcin Reduce a una nica clave y una lista asociada de valores
reductora. Una tarea Reduce recibe una o ms claves y sus listas de valores asociados. Es
decir, una tarea Reduce ejecuta uno o ms reductores. Los resultados de todas las tareas
Reduce se fusionan en un solo archivo. Los Reductores pueden ser divididos entre un
nmero ms pequeo de tareas Reduce, las claves se asocian a cada tarea Reduce con
una serie de funciones hash.
El siguiente ejemplo muestra el proceso de MapReduce. Un caso de uso frecuente es aplicar

un Map y Reduce de forma sucesiva, en primer lugar la preparacin de un conjunto de
datos a travs de Map, y luego extraer alguna informacin a travs de reducciones
Reduce. El siguiente trabajo MapReduce cuenta las ocurrencias de cada palabra en algunos
datos de entrada dados, como resultado final se obtendrn el nmero de palabras que se
repiten en el documento. Para esto, el proceso sera el siguiente: como elemento de entrada
se tiene un documento extenso que contiene distintas palabras, la funcin Map lee la
entrada y produce pares de clave/valor. El paso siguiente es agrupar por claves, como est
ilustrado en la figura 2.1. Finalmente, la funcin Reduce recoge todos los valores que
pertenecen a la clave. La funcin Map y Reduce son definidos por las necesidades del
programador, es as, que pueden existir varias formas de aplicar estas funciones.

36
Figura 2.7: Esquemtica de un clculo MapReduce. Fuente: (Leskovec R. a.)
2.2.1.4. Ejemplo de un Algoritmo Usado Por MapReduce
Como un ejemplo, las principales operaciones en datos de Amazon implican responder a

bsquedas para los productos, el registro de ventas, y as sucesivamente, procesos que
implican relativamente poco clculo y producen un cambio de la base de datos. Por otro lado,
podra Amazon utilizar MapReduce para realizar ciertas consultas analticas de grandes
cantidades de datos, tales como la bsqueda de cada usuario. Aquellos usuarios cuyos
patrones de compra eran muy similares. El propsito original para el cual la aplicacin de
Google de MapReduce se cre fue la de ejecutar muy grandes multiplicaciones de matriz-
vector que sean necesarias en el clculo del PageRank. Se expresar que matriz-vector-
matriz y los clculos de la matriz encajan muy bien en el estilo de computacin de
MapReduce. Otra clase importante de las operaciones que pueden utilizar MapReduce
efectivamente son las operaciones del lgebra relacional.

37
2.2.1.4.1. Multiplicacin por MapReduce
Supongamos que tenemos una matriz de , cuyo elemento de la fila i y la columna j

se denotar . Supongamos tambin que tenemos un vector de longitud , cuyo
elemento es de orden . A continuacin, el producto de matriz-vector es el vector de
longitud , cuyo elemento est dada por:
=
=1
Figura 2.8: Visualizacin de Matriz M y Vector v
La matriz y el vector cada uno sern almacenados en un archivo DFS. Suponemos

entonces, que las coordenadas de fila-columna de cada elemento de la matriz ser visible,
ya sea desde su posicin en el archivo, o porque se almacena con coordenadas explcitas,
tal como un triple (, , ). Tambin asumimos que la posicin del elemento en el vector
ser visible en forma anloga.
Funcin Map: La funcin Map se escribe para aplicar a un elemento de . Sin embargo,
si la lectura no est ya en la memoria principal en el nodo de cmputo ejecutando una tarea
Map, entonces es la primera lectura, en su totalidad, y posteriormente est disponible para
todas las aplicaciones de la funcin Map realizado en esta tarea Map. Cada tarea Map
operar en un pedazo de la matriz . De cada elemento de la matriz que produce el par

38
clave-valor (, ). Entonces, todos los trminos de la suma que conforman el

componente del producto matriz-vector tendrn la misma clave, .
Funcin Reduce: La funcin Reduce simplifica las sumas de todos los valores asociados
con una clave dada . El resultado ser un par (, ).
2.2.1.4.2. Multiplicacin de Matrices
=

Se requiere que el nmero de columnas de sea igual al nmero de filas de , por lo que la
suma sobre tiene sentido. Se puede pensar en una matriz como una relacin con tres
atributos: el nmero de fila, el nmero de columna, y el valor de esa fila y columna. Por lo
tanto, se podra ver la matriz como una relacin (, , ), con tuplas (, , ), y que se
podra ver la matriz como una relacin (, , ), con tuplas ( , , ).
Sin embargo, es posible que , , ya estn implcitas en la posicin de un elemento de la

matriz en el archivo que lo representa, en lugar de estar escritas de forma explcita con el
elemento en s. En ese caso, la funcin Map tendr que ser diseada para construir los
componentes , de tuplas de la posicin de los datos.
La funcin MAP: Esta funcin es slo la identidad. Es decir, para cada elemento de
entrada con la clave (, ) y el valor de , se produce exactamente este par clave-valor.
Funcin Reduce: Para cada clave (, ), se produe la suma de la lista de los valores
asociados con esta clave. El resultado es un par ((, ), ), donde es el valor del elemento
de la fila y la columna de la matriz = .
Para poder entender con claridad cmo funciona la multiplicacin de matrices con
MapReduce se piensa que es necesario utilizar un ejemplo demostrativo que explique lo
descrito anteriormente.
Ejemplo de Multiplicacin de Matrices con MapReduce utilizando una matriz dispersa:
Objetivos:
Demostrar la ejecucin en paralelo.

Demostrar la expresividad de MapReduce.

39
Ejecutar el producto entre C = AB

Asumir que la mayora de las entradas de la matriz son 0
Figura 2.9: Matriz Dispersa.
Para poder realizar la multiplicacin de matrices se debe tomar en cuenta que el nmero de
columnas de la matriz A debe ser igual al nmero de filas de la matriz B. Entonces para la
multiplicacin se toman los valores de la primera fila de la matriz A y se los multiplica con la
primera columna de la matriz B y as sucesivamente con todos los valores. Como se da en
la siguiente demostracin:
Primera Fila Matriz A: 10 0 20

Primera Columna Matriz B: -1 -2 0
Proceso: (10*-1 + 0*-2 + 20*0)
Resultado posicin (1,1) de la Matriz C: -10
Segunda Fila Matriz A: 0 30 40

Proceso: (0*-1 + 30*-2 + 40*0)
Tercera Fila Matriz A: 50 60 70

Proceso: (50*-1 + 60*-2 + 70*0)
Primera Fila Matriz A: 10 0 20

Segunda Columna Matriz B: 0 -3 -4
Proceso: (10*0 + 0*-3 + 20*-4)
Segunda Fila Matriz A: 0 30 40
Proceso: (0*0 + 30*-3 + 40*-4)

40
Tercera Fila Matriz A: 50 60 70

Proceso: (50*0 + 60*-3 + 70*-4)
Resultado final Matriz C:

10 80
C ( 60 250)
170 460
Figura 2.10: Resultado Matriz C.
Representar a la matriz como una lista de elementos no nulos (fila, columna, el valor,
matriz ID)
Figura 2.11: Representacin de la Matriz como una lista de elementos no nulos.

41
Fase 1 Tarea Map de la Multiplicacin de la Matriz

Se agrupan los valores , y , de acuerdo con la clave
Figura 2.12: Tarea Map de la multiplicacin de la matriz.

42
Fase 1 Tarea Reduce de la Multiplicacin de la Matriz
Se generan todos los productos , ,
Figura 2.13: Tarea Reduce de la Multiplicacin de la matriz.

43
Fase 2 Tarea Map de la Multiplicacin de la Matriz
Agrupar los productos de , , con el juego de valores de y .
Figura 2.14: Tarea Map de la multiplicacin de la matriz.

44
Fase 2 Tarea Reduce de la Multiplicacin de la Matriz

Suma de los productos para obtener las entradas definitivas.
Figura 2.15: Resultado Final de la multiplicacin de matrices.
As se obtiene el resultado final que es la Matriz C del producto AB

45
2.2.2. Procesamiento Masivo en Paralelo (Massively Parallel

Processing MPP)
Existe otro paradigma o mtodo de clculo para el procesamiento de consultas distribuidas y

es el llamado Procesamiento Masivo en Paralelo o MPP, ste es muy similar a MapReduce
pero cuando se trata de procesar y analizar grandes volmenes de datos, la base de datos
MPP resulta mejor debido a su mayor rapidez en comparacin con Hadoop utilizada por
MapReduce, adems que realiza anlisis ms complejos que combinan varios conjuntos de
datos diferentes. En MPP, como en MapReduce, el procesamiento de los datos se distribuye
a travs de un banco de nodos de computacin, estos nodos separados procesan sus datos
en paralelo y los conjuntos de salida de nivel de nodo se ensamblan entre s para producir un
conjunto de resultados finales. (Brust, 2012)
MPP es el procesamiento coordinado de un programa de mltiples procesadores trabajando

en diferentes partes del programa. Cada procesador tiene su propio sistema operativo y su
respectiva memoria. MPP acelera el rendimiento de enormes bases de datos que tienen que
gestionar cantidades masivas de datos.
Las bases de datos MPP utilizan procesadores de mltiples ncleos, mltiples procesadores,
servidores y dispositivos de almacenamiento, equipados para el procesamiento en paralelo.
Esa combinacin permite leer muchas piezas de datos a travs de muchas unidades de
procesamiento, mejorando al mismo tiempo la velocidad.
2.3. Conceptos Generales del Captulo
2.3.1. Sistema de ficheros distribuidos.

Un sistema de ficheros distribuidos se puede definir como, un conjunto de computadores
interconectados que comparten un estado, ofreciendo una visin de sistema nico. (Alberto
Lafuente, 2007)
2.3.2. Clster
Es un conjunto de ordenadores conectados entre s y con un software especfico que les
permite trabajar simultneamente proporcionando una mayor capacidad de cmputo.
(Heredero, 2004)

46
2.3.3. Cloud Computing

Consiste en la posibilidad de ofrecer servicios a travs de Internet. La computacin en la
nube, es una nueva tecnologa que busca tener toda la informacin, ya sea personal o
publica, en Internet y sin depender de lmites de almacenamiento. El Cloud Computing explica
las nuevas posibilidades de forma de negocio actual, ofreciendo servicios a travs de Internet,
conocidos como e-business (negocios por Internet). (Debitoor, 2010)
2.3.4. Bases de Datos

Se puede decir que una base de datos es un banco de informacin que contiene datos
importantes relacionados con diversas temticas y que se encuentran clasificados de distinta
manera, pero al mismo tiempo comparten mutuamente algn tipo de relacin que busca
ordenarlos y clasificarlos. Es as, que existen diferentes tipos de bases de datos que manejan
y trabajan con los datos de diferente manera.
2.3.4.1. Bases de Datos Relacionales

Una base de datos relacional es una coleccin de elementos de datos organizados en un
conjunto de tablas formalmente descritas desde la que se puede acceder a los datos o volver
a montarlos de muchas maneras diferentes sin tener que reorganizar las tablas de la base.
La base de datos relacional fue inventada por E.F. Codd en IBM en 1970. (Margaret Rouse,
2015)
2.3.4.2. Bases de Datos OLTP Y OLAP

Las bases de datos tradicionales almacenan transacciones que se refieren al trasciego de
informacin operacional de una organizacin, es decir, operaciones que se llevan a cabo
diariamente. Estos sistemas se denominan OLTP (On-Line Transaction Processing,
procesamiento transaccional en lnea). Por ejemplo, un cajero automtico de un banco es
demostracin de una aplicacin OLTP ya que se deben guardar cada una de las
transacciones realizadas.
Sin embargo, los sistemas OLTP no estn preparados para el anlisis de los datos
registrados. Un analista que quiera acceder a los datos histricos de una organizacin para
poder tomar decisiones necesita de sistemas con otro tipo de requisitos diferentes a los de
OLTP. Estos sistemas se denominan OLAP (On-Line Analytical Processing,

47
procesamiento analtico en lnea) y hacen uso de bases de datos multidimensionales para

incrementar la capacidad de anlisis de los usuarios. Por ejemplo, un analista bancario podra
necesitar estudiar las transacciones en los cajeros automticos para determinar las
comisiones a cobrar minimizando el coste a los usuarios, pero sin que el banco tenga
prdidas. Este anlisis no se puede llevar a cabo directamente sobre el sistema OLTP porque
resultara costoso, por lo que se debe disear una base de datos multidimensional que
permita el anlisis de los datos mediante herramienta OLAP. (Trujillo, Diseo y explotacin
de almacenes de datos: conceptos bsicos de modelado multidimensional, 2013)
2.3.4.3. Modelo Multidimensional

Un modelo multidimensional se representa en forma de cubo o hipercubo (cubo sobre cubo)
o en su versin ms sencilla, como tablas multidimensionales (tipo hoja de clculo). Un
ejemplo de cubo se puede ver en la fig. 2.8; y un ejemplo de tabla multidimensional en la fig.
3.2, donde tenemos un hecho de ventas de productos a ser analizado por almacn, producto
y fecha en que se realizan las ventas. (Trujillo, Diseo y explotacin de almacenes de datos:
conceptos bsicos de modelado multidimensional, 2013)
Figura 2.16: Ejemplo de cubo de datos. Fuente: (Trujillo, Diseo y explotacin de almacenes de
datos: conceptos bsicos de modelado multidimensional., 2013)

48
Figura 2.17: Ejemplo de tabla multidimensional. Fuente: (Trujillo, Diseo y explotacin de almacenes
de datos: conceptos bsicos de modelado multidimensional., 2013)
2.3.4.4. Bases de Datos NoSQL

EL pradigma NoSQL. NoSQL no es un sustituto a las bases de datos relacionales, es solo un
movimiento que busca otras opciones para escenarios especficos, No uses slo SQL.
Histricamente, el trmino fue primero usado en los 90s para nombrar una base de datos
relacional open source. Sin embargo, como denominador del conjunto de bases de datos
alternativas al modelo relacional, fue primero usado en 2009 por Eric Evans para nombrar
una serie de conferencias sobre este tipo de bases de datos. Aunque el trmino ms correcto
sera NoREL (Not Only Relational), como varios han sealado, el trmino NoSQL ya tiene
gran aceptacin. (Camacho, 2010)

49
CAPITULO III: Herramientas y tecnologas de Big Data
El objetivo de este captulo es conocer las plataformas que permiten establecer ambientes
estables de Big Data, as como sus respectivas herramientas.
3.1. Plataformas de Big Data
Alrededor de los ltimos 15 a 20 aos muchas empresas y organizaciones han estado

trabajando con una arquitectura de datos que manejaba bases de datos relacionales de tipo
OLTP (On-Line Transaction Processing, procesamiento transaccional en lnea). Este tipo de
arquitectura funcionaba perfectamente cuando se trabajaba con gigabaytes y terabytes de
datos estructurados, pero lamentablemente para que los usuarios pudieran obtener reportes
y resultados de diferentes consultas tenan que esperar semanas o incluso meses, lo cual
resultaba perjudicial para los usuarios.
Por el contrario, Google, Yahoo! y Facebook no pudieron acoplarse y trabajar con esta
tecnologa, es as, que se desarroll una nueva generacin de recursos para la administracin
y el anlisis de datos, siendo algunos de ellos proyectos de cdigo abierto, para que los
desarrolladores de estas grandes compaas innovadoras pudieran actualizar y mejorar las
capacidades de estas herramientas de administracin y anlisis mucho antes que cualquier
otro proveedor. De este modo, estas empresas se vieron en la necesidad de adquirir
plataformas que les ayuden en el manejo y anlisis de varios tipos de datos y grandes
volmenes.
En la siguiente seccin se hablar de las principales plataformas que hacen Big Data.
3.1.1. Apache Hadoop
Es un entorno de desarrollo de cdigo abierto que soporta de manera nativa aplicaciones

distribuidas, en paralelo y que hacen un uso de datos intensivo. Para muchos, Hadoop se ha
convertido en un sinnimo de Big Data. Soporta la ejecucin de aplicaciones en grandes
clusters de hardware dedicado empleando una arquitectura de escalabilidad horizontal.
Hadoop implementa un paradigma de programacin llamado MapReduce, en el que la
aplicacin se divide en muchos pequeos fragmentos de tareas, donde cada cual se puede
ejecutar o volver a ejecutar en cualquier nodo del cluster (el sistema de archivos distribuidos
de Hadoop, o HDFS), que almacena datos en los nodos del ordenador y que proporciona un

50
ancho de banda agregado en todo el cluster. Tanto MapReduce como HDFS estn diseados
de modo que el entorno de trabajo gestiona automticamente los fallos de nodo. Hace posible
que las aplicaciones funciones con miles de ordenadores que trabajan de modo
independiente y con petabytes de datos. Actualmente se considera que la plataforma
completa de Apache Hadoop consiste en el kernel10 de Hadoop, MapReduce, HDFS y varios
relaciones, en los que se incluyen Apache Hive, y Apache HBase. (Schmarzo, Apache
Hadoop, 2013)
3.1.2. Apache Spark
Apache Spark es un potente motor de procesamiento de cdigo abierto construido en torno

a la velocidad, facilidad de uso y anlisis sofisticados. Originalmente fue desarrollado en la
Universidad de Berkeley en 2009. (Matei Zaharia, 2014)
Spark es una plataforma de computacin de cdigo abierto para anlisis y procesos

avanzados, que tiene muchas ventajas sobre Hadoop. Desde el principio, Spark fue diseado
para soportar en memoria algoritmos iterativos que se pudiesen desarrollar sin escribir un
conjunto de resultados cada vez que se procesaba un dato. Esta habilidad para mantener
todo en memoria es una tcnica de computacin de alto rendimiento aplicado al anlisis
avanzado, la cual permite que Spark tenga unas velocidades de procesamiento que sean 100
veces ms rpidas que las conseguidas utilizando MapReduce. Spark tiene un framework
integrado para implementar anlisis avanzados que incluye la librera MLlib, el motor grfico
GraphX, Spark Streaming, y la herramienta de consulta Shark. Esta plataforma asegura a los
usuarios la consistencia en los resultados a travs de distintos tipos de anlisis. (O'Ryan,
2014)
10
Kernel ncleo, es un software que constituye una parte fundamental del sistema operativo. Es el
principal responsable de facilitar a los distintos programas acceso seguro al hardware de la
computadora l es el encargado de gestionar recursos, a travs de servicios de llamada al sistema,
tambin se encarga de decidir qu programa podr hacer uso de un dispositivo de hardware y durante
cunto tiempo, lo que se conoce como multiplexado. Acceder al hardware directamente puede ser
realmente complejo, por lo que los ncleos suelen implementar una serie de abstracciones del
hardware. Esto permite esconder la complejidad, y proporciona una interfaz limpia y uniforme al
hardware subyacente, lo que facilita su uso al programador. (EcuRed, 2016)

51
3.1.3. Oracle Big Data Appliance

El Oracle Big Data Appliance es un sistema de ingeniera que combina hardware y software,
puede ser utilizado para capturar y analizar grades datos de amplia variedad.
El producto incluye una distribucin de cdigo abierto de Apache Hadoop, cuenta con la base
de datos Oracle NoSQL, Oracle Data integrador con adaptador Solicitud de Hadoop. Es
preinstalado y pre configurado con Cloudera CDH11. Adems de eso, el precio del hardware
(US $ 525.000 para un sistema de rack completo, incluye el costo de Cloudera CDH y sus
opciones de Cloudera Manager.
Es as que por $ 525.000 se obtiene el siguiente:
Big Data Appliance Hardware (viene con la solicitud de servicio automtico a fallos de
los componentes)
Cloudera CDH y Cloudera Administrador
Todas las opciones de Cloudera, as como Accumulo y Spark (CDH) 5.0
Oracle Linux y Oracle JDK
Distribucin de Oracle R
Base de datos de Oracle NoSQL Community Edition
Oracle Big Data Appliance Enterprise Manager plug-in
Adems, el costo de soporte es de $63.000 por ao, a continuacin se muestra la lista de

precio para un el servicio de Premier Support por 3 aos, incluyendo el precio del equipo, el
precio de la instalacin y el servicio de soporte.
Tabla 3. 1: Costos de infraestructura y servicio Premier Support. Fuente: (Jean-Pierre Dijcks-Oracle,

2014)
Ao 1 ao 2 ao 3 Costo
total
Costo BDA $
525,000
Costo Anual de $ 63.000 $ $
Apoyo 63.000 63.000
Instalar en el lugar $ 14.000
(aproximadamente)
Total $ $ $ $
602,000 63.000 63.000 728,150
11
CDH es la distribucin de la plataforma de cdigo abierto 100% de Cloudera, incluyendo Apache Hadoop y
construido especficamente para satisfacer las demandas de la empresa. CDH ofrece todo lo necesario para el
uso empresarial sacarlo de la caja. Mediante la integracin de Hadoop con ms de una docena de otros
proyectos de cdigo abierto crticos, Cloudera ha creado un sistema funcionalmente avanzado que lo ayuda a
hacer de extremo a extremo de los flujos de trabajo de grandes datos. (Cloudera, 2015)

52
Por ese precio usted recibir un estante pre integrado con las siguientes especificaciones.
Tabla 3. 2: Elementos de una implementacin de grandes volmenes de datos Mediana Empresa de

costo / beneficio. Fuente: (Nik Rouda, Senior Analyst and Adam DeMattia, Research Analyst, 2015)
Item Valor Mtricas

Hardware/ Network
Nodos 18 Servidores Cada 2 x 18
ncleos con procesadores
Intel Xeon
Ncleos 36 Por nodo
Memoria 128 GB/servidor
Racks 1 El estante puede abarcar
hasta 18 nodos
Almacenamiento de 96 TB/servidor para clster
nodos primarios ,
almacenamiento interno
Administracin de 50 Terabytes; asume una
almacenamiento de cuarta parte de los datos
informacin totales en el mximo
movimiento en un
determinado momento.
Switches 3 Infiniband.
Mejora el rendimiento 3
veces ms de 10GBe
(Gigabit Ethernet).
Adems, cuanta un
interruptor de
administracin y cableado
variado.
Soporte de hardware 15% Del costo total del
hardware, la tercera parte
de soporte.
Software
Costo de licencia 18 @ $7,200/nodo Tpicamente nuevas
Hadoop licencias durante la
temprana adopcin de
datos grande, permiten
dos licencias ms para
copia de seguridad.

53
Figura 3.1: Oracle Big Data Appliance Fuente: (Oracle, 2016)
3.2. Introduccin a las Tecnologas de Big Data
Las tecnologas de Big Data actualmente, tienen el potencial de reforzar notablemente el

almacenamiento y tratamiento millones de datos con las siguientes ventajas para la
investigacin y aplicacin en diferentes campos como en Business Intelligence o en la
estrategia de marketing. Es as, que las organizaciones tienen ahora la oportunidad de
ampliar sus recursos de almacenamiento de datos si aprovechan las siguientes posibilidades:
Almacenamiento, acceso y anlisis de enormes volmenes de datos

transaccionales estructurados tales como; ventas, pedidos, envi, transacciones,
registros de call centers, transacciones de tarjetas de crdito.
Integracin de datos semiestructurados, por ejemplo registros de sensores, GPS y

datos telemtricos y datos sin estructurar como campos de texto, comentarios de
consumidores, documentos y registros de mantenimiento, que aportan nuevas
dimensiones, atributos dimensionales y nuevas mtricas de informes.

54
Feeds de datos en tiempo real, acompaado de entornos analticos en tiempo real

para capturar, analizar, identificar y actuar sobre anomalas en datos conforme van
llegando a las organizaciones.
Analtica predictiva que pueden ponderar; prever; detectar; dar predicciones y

proveer recomendaciones. Por ejemplo alertas, informes y paneles de control.
A continuacin, se muestran brevemente las principales tecnologas de Big Data de las

herramientas descritas anteriormente para ser comparadas en un anlisis posterior.
3.2.1. Tecnologas Relacionadas con Apache Hadoop
3.2.1.1. Apache Hive

Apache Hive es una infraestructura de almacenamiento de datos basada en Hadoop que
permite hacer resmenes, consultas y anlisis de datos. Aunque fue Facebook quien la
desarroll inicialmente, en la actualidad la utilizan y perfeccionan otras compaas, como
Netflix. Apache Hive soporta anlisis de grandes conjuntos de datos almacenados en
sistemas de ficheros compatibles con Hadoop. Proporciona un lenguaje de tipo SQL, llamado
HiveQL, y sigue manteniendo un soporte completo para Map Reduce. Para acelerar las
consultas, Hive proporciona ndices en los que se incluyen ndices de mapas de bits.
3.2.1.2. Apache Hbase

HBase es un modelo de base de datos no relacional, distribuido y de cdigo abierto escrito
en Java. Fue desarrollado como parte del proyecto Apche Hadoop de la Apache Software
Foundation y se ejecuta sobre HDFS. HBase proporciona un medio para almacenar grandes
cantidades de datos dispersos tolerante a fallos. Las tablas de HBase pueden servir como
entradas y salidas para las tareas MapReduce ejecutadas en Hadoop, y se puede acceder a
ellas a travs de la API de Java.
3.2.1.3. Pig
Pig es un entorno de trabajo y un lenguaje de programacin de alto nivel que trabaja con
tareas en paralelo pensado para crear programas para MapReduce. Pig abstrae el lenguaje
de programacin de MapReduce en construcciones de ms alto nivel, de un modo similar a
lo que ocurre con SQL y los sistemas de gestin de bases de datos relacionales. Pig se puede
ampliar utilizando funciones definidas por el usuario, que el desarrollador puede escribir en

55
Java, Python, JavaScript o Ruby y luego llamar directamente o desde el lenguaje.

(Schmarzo, Big Data: Understanding How Data Powers Big Business (Big Data, El poder de
los datos), 2013)
3.2.2. Tecnologas Relacionadas Con Apache Spark
Existen una serie de herramientas adicionales que forman parte del ecosistema de Spark y
le proporcionan caractersticas adicionales en la analtica de Big Data.
3.2.2.1. Spark SQL

Permite la consulta de datos estructurados utilizando lenguaje SQL o una API, que se
puede usar con Java, Scala, Python o R.
3.2.2.2. Spark Streaming

Mientras MapReduce solo procesa datos en lotes, Spark tiene la posibilidad de gestionar
grandes datos en tiempo real. Esto facilita que los datos se analicen segn van entrando, sin
tiempo de latencia y a travs de un proceso de gestin en continuo movimiento.
3.2.2.3. Spark MLlib (Machine Learning)

Esta herramienta contiene algoritmos que dotan a Apache Spark de muchas utilidades,
como la regresin logstica y mquinas de vectores de soporte (SVM); modelos de rbol de
regresin bayesiana; tcnicas de mnimos cuadrados; modelos de mezclas
gausianas; anlisis de conglomerados de K medias; asignacin latente de
Dirichlet (LDA); descomposicin en valores singulares (SVD); anlisis de componentes
principales (ACP); regresin lineal; regresin isotnica.
3.2.2.4. Spark Graphx

Es un framework de procesamiento grfico. Proporciona una API para la elaboracin de
grafos con los datos.

56
3.2.3. Tecnologas Relacionadas con Oracle Big Data Appliance
3.2.3.1. Oracle Big Data SQL

Oracle Big Data SQL integra datos a travs de Hadoop, NoSQL, y Oracle Database y trabaja
sobre Oracle Big Data Appliance para simplificar la bsqueda de datos almacenados. Con
esto, se puede consultar y analizar datos a travs de toda su gama de sistemas de gestin
de datos. (Bcares, 2014)
3.2.3.2. Oracle NoSQL DataBase

Oracle NoSQL Database proporciona un modelo de transaccin poderosa y flexible que
simplifica enormemente el proceso de desarrollo de una aplicacin basada en NoSQL. Es
una plataforma diseada para ayudar a los usuarios a gestionar grandes archivos de datos
no estructurados. La compaa ha incluido NoSQL como un componente de su sistema Big
Data Appliance. Los datos pueden ser modelado como tablas de estilo de base de datos
relacional, documentos JSON o pares de clave y valor. (Oracle, 2015)
3.2.3.3. Oracle Data Integrator (ODI)

Oracle Data Integrator es una plataforma de integracin completa que cubre los requisitos
de integracin de datos. Maneja alto volumen, provee lotes de alto desempeo a procesos
dirigidos a eventos, a servicios de integracin basados en una arquitectura orientada a
servicios y con la capacidad de procesar eventos en tiempo real. (Angel Rios, 2009)
3.3. Tabla comparativa
Tabla 3.3: Tabla comparativa Apache Spark, Apache Hadoop, Oracle Big Data Appliance.
Oracle Big Data

Apache Spark Apache Hadoop
Appliance
REQUISITOS
8-16 ncleos por 4 ncleos por
Ncleos de CPU 36 / Nodo
mquina mquina
Memoria 8 GB 24 GB 128 GB/Servidor
46 discos 2TB por
Almacenamiento 4-8 discos por nodo 12 discos 4 TB por nodo
nodo
Red 10 GBe o ms 1 GB Ethernet 10 GBe o ms
CARACTERSTICAS GENERALES
Open Source, pero Open Source, pero El precio del hardware es
existen costos existen costos US $ 525.000 para un
asociados con el asociados con el sistema de rack completo.
Costo personal y personal y hardaware A este precio se debe
hardaware requerido requerido sumar el servicio y
Cloudera

57
Se considera escasa Cuenta con Service Ofrece seguridad

en vista de que es un Level Authorization, empresarial integrada con
nuevo producto que asegura que los autenticacin Kerberos
usuarios tengas los preconfigurada,
permisos autorizacin basada en
Seguridad
correspondientes, se LDAP y auditora
integra con proyectos centralizada robusta
de seguridad como conOracle Audit Vault y
Knox Gateway and Database Firewall
Sentry
Funciona mejor Est diseado para El producto incluye una
cuando todos los los datos que no distribucin de cdigo
datos caben en la caben en la memoria abierto de Apache
Actuacin
memoria, y puede funcionar Hadoop e incluye
especialmente en bien junto a otros funcionalidades propias
grupos dedicados servicios de Oracle
Ejecuta 100 veces Hadoop tiende a Puede realizar la carga de
ms rpido que demorar ms en su datos en paralelo y de alta
Hadoop en memoria ejecucin tanto desde velocidad desde Hadoop a
Velocidad
y 10 veces ms memoria como Disco Oracle Database
rpido si el acceso
es de Disco

58
CAPITULO IV: Instalacin de un Ambiente de Big Data y Casos

Prcticos.
El objetivo de este captulo es elaborar una serie de procedimientos que detallen paso a paso
el proceso de instalacin de Hadoop, adems se pretende explicar el funcionamiento de cada
uno de los servicios con los que ste cuenta, esto proporcionar un fcil aprendizaje en lo
que concierne a Hadoop.
4.1. Instalacin de un Ambiente de Big Data
4.1.1. Seleccin de las herramientas
Para el desarrollo de este captulo la principal herramienta que se utilizar para la creacin
de un ambiente de Big Data es Hadoop, que como ya se detall en el Captulo 3, Hadoop es
una herramienta de software libre que permite el procesamiento distribuido de grandes
volmenes de datos mediante un clster. Adems, se escogi Hadoop en lugar de Oracle Big
Data Apliance o Spark, debido a que Hadoop es mucho ms intuitivo por lo tanto, resulta ms
fcil el manejo de esta herramienta.
Ms adelante se detallarn los pasos de instalacin de Hadoop, pero antes es necesario

explicar qu modelo de arquitectura de clster de Hadoop se utilizar para realizar la
mencionada instalacin.
Existen tres modelos de arquitecturas de un clster de Hadoop:
Modo No Distribuido:
El modo no distribuido tambin es conocido como modo de un solo nodo (single node), el cual
se ejecuta como un solo proceso de JAVA y es ms utilizado para depuracin.
Modo Pseudo-distribuido:
El modo pseudo-distribuido es aquel en el cual un nico nodo es configurado para trabajar

como una simulacin de una arquitectura distribuida, es ideal para desarrollo y probar
aplicaciones.
Modo Completamente Distribuido:
El modo completamente distribuido es aquel en el cual un clster se configura como una

arquitectura distribuida con todos los servicios maestro-esclavos funcionando y es apropiado
para un entorno de produccin.

59
Entonces, la arquitectura del clster escogida para la siguiente instalacin de Hadoop es la

de un clster en modo Completamente Distribuido, en la cual se utilizar un computador que
funcionar como Nodo Master, y tres computadores adicionales que funcionarn como Nodos
Esclavo respectivamente. As, el modelo de la arquitectura del clster que se implementar
queda organizado de la siguiente manera:
Figura 4.1: Topologa de un clster de Hadoop en Modo Completamente Distribuido (multi-nodo).
4.1.2. Requisitos de Instalacin de Hadoop

Plataformas Compatibles
GNU / Linux es til como plataforma de desarrollo y produccin. Existen pruebas que
Hadoop ha sido demostrado en los clsteres de GNU / Linux con 2000 nodos. (The
Apache Software Foundation, 2016)
Windows, tambin es una plataforma compatible aunque no es muy utilizada para la
instalacin de esta herramienta.
Para la siguiente instalacin se utilizar la distribucin de Linux: Centos 7.
Software Necesario
JDK de JAVA.

60
4.1.3. Pasos de Instalacin de Hadoop

En esta gua se explica claramente el funcionamiento de cada uno de los servicios y demonios que
sern ejecutados en el clster, es as, que existen dos formas de iniciar dichos servicios. Con la
configuracin del fichero .bashrc se omiten ciertos pasos los cuales son: paso 12, 13, 14, 15, 16 y 17.
Figura 4.2: Diagrama de Flujo del proceso de Instalacin de Hadoop.

61
PASO 1:
Instalacin del JDK

Antes de instalar Hadoop, es necesario tener instalado el JDK de Java, para ello es necesario
descargar el JDK de la pgina de Oracle
(http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-
2133151.html?ssSourceSiteId=otnes ). Es importante tener instalado el JDK en todas las
mquinas, tanto para el nodo master como para los nodos esclavo.
Figura 4.3: Jdk, Pgina web Oracle.
Iniciar el Terminal, es necesario entrar con privilegios de root y estar ubicados en el

directorio root.
Digitar los siguientes comandos:
Para acceder al sistema con privilegios de root:
$su
Para moverse al directorio root:
#cd
Para confirmar el directorio en el cual se est trabajando:
#pwd

62
Figura 4.4: Acceso como root.
Una vez descargado el JDK de Java, es necesario copiar el paquete descargado del
JDK en el directorio root, debido a que todas las descargas realizadas se ubican en el
directorio Descargas.
Para copiar el paquete del JDK ubicado en el directorio Descargas al directorio root:
#cp /home/principal/Descargas/jdk-8u91-linux-x64.rpm /root/
Para listar el contenido del directorio:
#ls
Figura 4.5: Copiar jdk a la ubicacin root.
Se puede observar que el paquete JDK se ha copiado correctamente en el directorio root, es

por ello que aparece de color rojo.
Ahora es necesario instalar el JDK con el siguiente comando, como ya se mencion

anteriormente este paso es importante realizarlo en todos los nodos:
#rpm -ivh jdk-8u91-linux-x64.rpm
Figura 4.6: Instalacin del jdk.

63
Esperar hasta que el proceso finalice.
Figura 4.7: Instalacin del jdk (proceso).
Editar y definir la variable JAVA_HOME, para esto se escribe el siguiente comando, y

se presiona Enter:
#nano /etc/profile
Figura 4.8: Definir variable JAVA_HOME.
Al dar Enter se presenta en pantalla lo siguiente:
Figura 4.9: Archivo para definir variable JAVA_HOME (1).
Ir al final del texto, tal como se muestra el cursor en la siguiente imagen:

64
Figura 4.10: Archivo para definir variable JAVA_HOME (2).
Para poder definir la variable JAVA_HOME, se digitan los siguientes comandos:

export JAVA_HOME=/usr/java/jdk1.8.0_91/
export PATH=$JAVA_HOME/bin:$PATH
Figura 4.11: Comandos necesarios para definir variable JAVA_HOME.
Presionar Ctrl + X (para salir)

65
Verificar si el PATH es un directorio, para ello se utiliza lo siguiente:
#. /etc/profile
#$JAVA_HOME
Figura 4.12: Comprobacin Java es un directorio.
Una vez instalo JAVA, se procede a editar tanto en el Nodo Master como en los Nodos
Esclavo el archivo /hosts para guardar la correspondencia entre dominios y las
direcciones IP.
Digitar lo siguiente:
#nano /etc/hosts
Figura 4.13: Abrir archivo Hosts
Se abre el siguiente fichero:
Figura 4.14: Archivo Hosts.

66
Se agrega la IP y los dominios de cada uno de los nodos del Cluster:
Figura 4.15: IPs y Dominios de los nodos del clster.
En seguida, se realiza un ping para comprobar que los nodos se estn comunicando
entre ellos.

67
Figura 4.16: Ping de comprobacin de conexin de los nodos.
PASO 2:
Instalacin De Hadoop
Descargar Hadoop del siguiente link: http://www-

eu.apache.org/dist/hadoop/common/hadoop-2.7.2/. Se debe tomar en cuenta que
hadoop debe ser descargado e instalado tanto en el Nodo Master como en los Nodos
Esclavo.
Figura 4.17: Pgina de descarga de Hadoop.
Se escoge la versin hadoop-2.7.2.tar.gz

68
Tal como se hizo con el paquete del JDK, se copia el archivo .tar de Hadoop que est
ubicado en el directorio Descargas al directorio root.
Se digitan los siguientes comandos:
Para copiar el archivo .tar de Hadoop al directorio root:
#cp /home/principal/Descargas/hadoop-2.7.2.tar.gz /root/
#ls
Figura 4.18: Copiar Hadoop al directorio root.
A continuacin, se descomprime el archivo .tar que contiene Hadoop y se lo copia a

la ubicacin donde se lo quiera instalar.
Para descomprimir el archivo .tar de Hadoop:

#tar xzf hadoop-2.7.2.tar.gz
Para copiar el archivo hadoop-2.7.2 a la ubicacin en la cual se desea realizar la

instalacin:
#cp -R hadoop-2.7.2 /opt/hadoop
Figura 4.19: Descomprensin de Hadoop y Copia de Hadoop al directorio Hadoop.
Configuracin De Hadoop y SSH

La configuracin de Hadoop incluye setear las variables de entorno de Hadoop en el archivo
.bashrc. El objetivo de esta configuracin es poder iniciar los servicios y demonios de Hadoop,
tanto del nodo master como de los nodos esclavos desde la mquina correspondiente al nodo
master sin necesidad de ejecutar estas tareas por individual en cada mquina. Motivo por el
cual, tambin es necesario realizar la configuracin ssh en todas las mquinas, para poder

69
acceder de manera remota a cada una de ellas. El manejo de ssh puede ser tanto con
contrasea como sin ella, para esta prctica se utilizar ssh con una configuracin sin
contrasea, lo cual permitir acceder desde la mquina del nodo master a las mquinas
correspondientes a los nodos eslavo para poder iniciar y ejecutar ms fcilmente los
demonios y servicios de Hadoop.
Para poder entender este funcionamiento es necesario conocer tanto lo que es el fichero
.bashrc y cmo trabaja ssh (Secure Shell intrprete de rdenes seguro) en un clster.
Fichero .bashrc: El fichero .bashrc es un archivo que se lo puede encontrar en la carpeta

personal de cada usuario en la siguiente direccin dependiendo de la configuracin de cada
mquina: /home/nombre_de_usuario/.bashrc. Este archivo, contiene las configuraciones de
inicio de programas, herramientas y es en donde se pueden setear las variables de servicios
como Hadoop y Java para que sus aplicaciones puedan ser accedidas y ejecutadas de
manera ms rpida.
SSH: Secure Shell o intprete de rdenes seguro tambin conocido por sus siglas SSH, es
un protocolo que facilita la comunicacin entre dos o ms sistemas, es decir, permite la
conexin entre diferentes mquinas a un host de manera remota.
Entonces, es necesario configurar el archivo .bashrc, en cada uno de los nodos del clster,
para posteriormente establecer la configuracin de ssh.
Ingresar al fichero .bashrc para establecer las variables de entorno de Hadoop.
Figura 4.20: Abrir fichero .bashrc.
Digitar los siguientes comandos en el fichero .bashrc para establecer las variables
de entorno de Hadoop.
export HADOOP_HOME=/opt/hadoop
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_INSTALL=$HADOOP_HOME

70
Figura 4.21: Configuracin de variables de entorno de Hadoop en el fichero .bashrc.
Iniciar la configuracin ssh ejecutando el siguiente comando en la mquina desde la

cual se va realizar el manejo remoto, en este caso se ejecutar el comando en la
mquina correspondiente al nodo master, ya que desde sta se va a controlar el
manejo de los nodos esclavo.
Al ejecutar el siguiente comando el sistema se encarga de establecer ciertas
configuraciones, estas configuraciones sern detalladas a continuacin.
#ssh-keygen t rsa
Establecer la direccin en donde se va a guardar esta configuracin. Esta
configuracin debe ser realizada exclusivamente en la mquina que se
conectar a los nodos esclavos.
Posteriormente, se presentar en pantalla un mensaje que solicite el ingreso
de una contrasea. No se debe ingresar ninguna clave, y solo presionar la
tecla Enter.
Finalmente se presenta un mensaje de confirmacin de contrasea, se debe
presionar Enter y as, la configuracin ssh sin contrasea estar disponible.

71
En esta seccin se debe ejecutar el siguiente comando en cada uno de los nodos
esclavos, para que la carpeta tenga la configuracin ssh.
#mkdir ~/.ssh
Finalmente, se introduce la clave pblica del computador master en el fichero de

llaves para la autorizacin del manejo remoto de los nodos esclavos. Al ejecutar este
comando, se pedir por ltima vez la contrasea del nodo master.
#cat .ssh/id_rsa.pub | ssh root@nodos_esclavos 'cat >>

.ssh/authorized_keys'
Para comprobar se debe digitar el siguiente comando, si se conecta sin contrasea

la configuracin fue realizada con xito.
#ssh root@nodos_esclavos
Con estas configuraciones se pueden omitir pasos que contienen el encendido de los
servicios y demonios de Hadoop en todos los nodos de manera manual, ya que con solo
ejecutar el comando start-all.sh en la mquina del nodo master, se encienden
automticamente los servicios de este nodo y de los nodos esclavos.
PASO 3:
Creacin de un Grupo de Usuarios

Se crea el grupo Hadoop y los usuarios en donde se van a instalar los componentes
de Hadoop. Este paso es importante realizarlo tanto en el Nodo Master como en los
Nodos Esclavo.

Para crear el grupo hadoop:
#groupadd hadoop
Figura 4.22: Creacin grupo Hadoop.
Para crear los usuarios que van a formar parte del grupo hadoop:
#useradd g hadoop yarn

#useradd g hadoop hdfs
#useradd g hadoop mapred

72
Figura 4.23: Creacin de usuarios del grupo Hadoop.
PASO 4:
Creacin de Directorios en el Nodo Master

Previamente se deben tener guardados en la mquina correspondiente al Nodo
Master los siguientes Scripts:
env-variable
#!/bin/bash
# Users and Groups

export HDFS_USER=hdfs
export YARN_USER=yarn
export MAPRED_USER=mapred
export HADOOP_GROUP=hadoop
# Hadoop Service - HDFS

export DFS_NAME_DIR='/var/data/hadoop/hdfs/nn'
export DFS_DATA_DIR='/var/data/hadoop/hdfs/dn'
export DFS_CHECKPOINT_DIR='/var/data/hadoop/hdfs/snn'
export DFS_LOG_DIR='/opt/hadoop/logs'
# Hadoop Service - YARN

export YARN_LOCAL_DIR='/var/hadoop/yarn/local'
export YARN_LOCAL_LOG_DIR='/var/hadoop/yarn/logs'
directories_master
#!/bin/bash
echo "Create namenode local dir"

mkdir -p $DFS_NAME_DIR;
chown -R $HDFS_USER:$HADOOP_GROUP $DFS_NAME_DIR;
chmod -R 755 $DFS_NAME_DIR;
echo "Create checkpoint dir"

mkdir -p $DFS_CHECKPOINT_DIR;
chown -R $HDFS_USER:$HADOOP_GROUP $DFS_CHECKPOINT_DIR;
chmod -R 755 $DFS_CHECKPOINT_DIR;
echo "Create hadoop logs dir"

mkdir -p $DFS_LOG_DIR;
chown -R $HDFS_USER:$HADOOP_GROUP $DFS_LOG_DIR;
chmod -R 775 $DFS_LOG_DIR;
Ambos Scripts deben ser guardados en el equipo con la extensin: .sh

73
Figura 4.24: Guardar script env-variable.sh en el equipo.
Figura 4.25: Guardar script directories_master.sh en el equipo.

74
Copiar los escripts: env-variable y directories_master al directorio root.
Para copiar el script env-variable al directorio root.
#cp /home/principal/Descargas/install_hadoop_cluster/env-variable /root/
Para copiar el script directories_master al directorio root.
#cp /home/principal/Descargas/install_hadoop_cluster/directories_master
/root/
Figura 4.26: Copiar scripts env-variable y directories_master al directorio root.
Dar permisos para poder ejecutar los Scripts: env-variable y directories_master
#chmod 775 env-variable directories_master
Figura 4.27: Permisos para ejecutar los scripts: env-variable y directories_master.
Verificar si los scripts se activaron correctamente:
#ls
Figura 4. 28: Comprobacin que los scripts se activaron correctamente.
De ser as, ejecutar cada uno de los Scripts y crear los directorios que se muestran:
#. env-variable
#./directories_master

75
Figura 4. 29: Ejecucin de los scripts y creacin de directorios.
Creacin de Directorios en los Nodos Esclavo

Al igual que la creacin de directorios en el Nodo Master, para los Nodos Esclavo se
deben tener previamente guardados en las mquinas correspondientes a estos nodos
los siguientes Scripts:
env-variable
#!/bin/bash
# Users and Groups

export HDFS_USER=hdfs
export YARN_USER=yarn
export MAPRED_USER=mapred
export HADOOP_GROUP=hadoop
# Hadoop Service - HDFS

export DFS_NAME_DIR='/var/data/hadoop/hdfs/nn'
export DFS_DATA_DIR='/var/data/hadoop/hdfs/dn'
export DFS_CHECKPOINT_DIR='/var/data/hadoop/hdfs/snn'
export DFS_LOG_DIR='/opt/hadoop/logs'
# Hadoop Service - YARN

export YARN_LOCAL_DIR='/var/hadoop/yarn/local'
export YARN_LOCAL_LOG_DIR='/var/hadoop/yarn/logs'
directories_slaves
#!/bin/bash
echo "Create datanode local dir"

mkdir -p $DFS_DATA_DIR;
chown -R $HDFS_USER:$HADOOP_GROUP $DFS_DATA_DIR;
chmod -R 750 $DFS_DATA_DIR;

76
echo "Create yarn local dir"

mkdir -p $YARN_LOCAL_DIR;
chown -R $YARN_USER:$HADOOP_GROUP $YARN_LOCAL_DIR;
chmod -R 755 $YARN_LOCAL_DIR;
echo "Create yarn local log dir"

mkdir -p $YARN_LOCAL_LOG_DIR;
chown -R $YARN_USER:$HADOOP_GROUP $YARN_LOCAL_LOG_DIR;
chmod -R 755 $YARN_LOCAL_LOG_DIR;
echo "Create hadoop log dir"

mkdir -p $DFS_LOG_DIR;
chown -R $HDFS_USER:$HADOOP_GROUP $DFS_LOG_DIR;
chmod -R 775 $DFS_LOG_DIR;
Estos Scripts deben ser guardados con la extensin: .sh
Figura 4.30: Guardar script env-variable.sh en el equipo.

77
Figura 4.31: Guardar script directories_slaves.sh en el equipo.
Copiar los escripts: env-variable y directories_slaves al directorio root.
Para copiar el script env-variable al directorio root.
#cp /home/principal/Descargas/install_hadoop_cluster/env-variable /root/
Para copiar el script directories_slaves al directorio root.
#cp /home/principal/Descargas/install_hadoop_cluster/directories_slaves
/root/

78
Figura 4.32: Copiar scripts env-variable y directories_slaves al directorio root.
Dar permisos para poder ejecutar los Scripts: env-variable y directories_slaves:
#chmod 775 env-variable directories_slaves
Figura 4.33: Permisos para Ejecutar los scripts: env-variable y directories_slaves.
Verificar si los scripts se activaron correctamente en el nodo correspondiente:
#ls
Figura 4.34: Comprobacin que los scripts se activaron correctamente.
De ser as, ejecutar los Scripts y crear los directorios que se muestran:
#. env-variable
#./directories_slaves
Figura 4.35: Ejecucin de los scripts y creacin de directorios.
Antes de continuar con los pasos subsiguientes es necesario explicar algunos conceptos que
son necesarios para comprender como se debe realizar la configuracin de Hadoop.

79
En la arquitectura de Hadoop existen una serie de bloques o demonios que son importantes
para gestionar las actividades y replicaciones de los archivos HDFS (Hadoop Distributed File
System Sistema de Archivos Distribuidos de Hadoop), dentro de un clster de hadoop.
Dependiendo de la distribucin de Hadoop que se desee ejecutar existen diferentes
demonios, pero en la presente configuracin los demonios que se ejecutarn son los
siguientes: Name Node, Data Node, Secondary Name Node, Job History Server, Resource
Manager y Node Manager.
En este caso, el Name Node, el Secondary Name Node, Job History Server, y Resource
Manager sern ejecutados en una sola mquina correspondiente al Nodo Master, pero en
grupos de produccin que cuentan con ms de 20 nodos aproximadamente, estos demonios
pueden ser ejecutados en nodos separados. Mientras que los demonios Data Node y Node
Manager sern ejecutados en las mquinas correspondientes a los Nodos Esclavo.
Para ello es necesario conocer en qu consisten cada uno de estos demonios.
Name Node: El Name Node en Hadoop es el nodo donde Hadoop almacena toda la
informacin de la ubicacin de los archivos HDFS. En otras palabras, mantiene los metadatos
de HDFS. Es un punto nico de fallo para el clster Hadoop. Sin este servicio, no hay manera
de acceder a los archivos HDFS. El Name Node no almacena los datos reales, los propios
datos se almacenan en los Data Nodes.
Data Node: El Data Node se encarga de almacenar los datos reales en HDFS. Gestiona los
bloques de archivos dentro del nodo. Se enva informacin al Name Node acerca de los
archivos y los bloques almacenados en ese nodo y responde al Name Node para todas las
operaciones del sistema de archivos, es decir, el Name Node y el o los Data Nodes estn en
constante comunicacin entre ellos.
Secondary Name Node: El Secondary Name Node es el responsable de realizar funciones

de mantenimiento peridicas para el Name Node. Slo crea puntos de comprobacin del
sistema de ficheros presentes en el Name Node.
Job History Server: El Job History Server puede ser ejecutado de manera autnoma en un
nodo dentro del clster de Hadoop o dentro del Nodo Master, pero se recomienda ser
ejecutado en el mismo nodo en cual se corra el Resource Manager. Su principal funcin es
la de almacenar y mantener un historial de los trabajos de MapReduce que se ejecuten en el
clster. En versiones inferiores de Hadoop (Hadoop-2.0.0), el Job History Server funcionaba

80
como Job Tracker, pero ste en versiones nuevas como la que se est utilizando para la
presente configuracin (Hadoop-2.7.2) ya no existe debido a los errores que presentaba en
el manejo de los historiales de MapReduce.
Resource Manager: El Resource Manager es el componente central del YARN y regula todos
los recursos de procesamiento de datos dentro del clster Hadoop, es decir, el Resource
Manager es un planificador dedicado que asigna recursos a las aplicaciones que se solicitan.
Sus tareas son slo para mantener una visin global de todos los recursos del clster, el
manejo de las solicitudes de recursos, la programacin de la solicitud, y luego la asignacin
de recursos a la aplicacin solicitante. El Resource Manager es un componente crtico en un
clster Hadoop, debe ejecutarse en un nodo maestro dedicado.
Node Manager: Cada nodo esclavo tiene un demonio Node Manager, que acta como un
esclavo para el Resource Manager. Cada nodo esclavo tiene un servicio que lo ata al servicio
de procesamiento (Node Manager) y al servicio de almacenamiento (DataNode) que permiten
a Hadoop ser un sistema distribuido. Cada Node Manager registra los recursos de
procesamiento de datos disponibles en el nodo esclavo y enva informes peridicos al
Resource Manager.
Por otro lado, existen archivos de configuracin de los componentes de Hadoop que son
importantes para su correcto funcionamiento, estos son: el core-site.xml, hdfs-site.xml,
mapred-site.xml y yarn-site.xml.
El archivo core-site.xml, contiene opciones de configuracin que son comunes para todos los
servidores de la agrupacin, es decir, en este archivo se establecen el nombre del sistema
de archivos y el puerto a travs del cual se recibirn las peticiones del cliente, se recomienda
colocar el puerto 9000, para que se carguen correctamente las configuraciones de hadoop
en el servidor web.
El archivo hdfs-site.xml proporciona la configuracin de los archivos HDFS (Hadoop

Distributed File System Sistema de Archivos Distribuidos de Hadoop), es decir, en ste se
definen los directorios que van a ser usados como Name Node y Data Node, adems se
establece el factor de replicacin de datos, que se refiere al nmero de Nodos Esclavo que
se utilizarn dentro del cluster de Hadoop.
El archivo mapred-site.xml, es importante para establecer el framework que se va a utilizar

para procesar las aplicaciones MapReduce. En esta instalacin se utilizar el framework

81
YARN debido a que es el encargado de ejecutar los procesos de las aplicaciones que estn
desarrolladas en MapReduce.
El archivo yarn-site.xml indica el servicio de intercambio (shuffle) que es necesario para

ejecutar las aplicaciones MapReduce.
Finalmente, es preciso comprender lo que significa el YARN dentro de hadooop debido que
esta configuracin ser realizada en base a este framework.
YARN: El Yarn es un administrador de recursos que se cre mediante la separacin de las

capacidades del motor de procesamiento y gestin de recursos de MapReduce que se
implement en la versin 1.0 de Hadoop. Yarn est presente a partir de la versin 2.1 de
Hadoop y es a menudo llamado el sistema operativo de Hadoop, ya que es responsable de
la gestin y el seguimiento de las cargas de trabajo, el mantenimiento de un multi-entorno de
distribucin, la implementacin de controles de seguridad, y la gestin de funciones de alta
disponibilidad de Hadoop. Al igual que un sistema operativo en el servidor, Yarn est
diseado para permitir a diversas aplicaciones de usuario que se ejecutan en una plataforma
multi-nodo. (Sullivan, 2014)
En seguida, se continan con los pasos de instalacin necesarios para ejecutar Hadoop.
PASO 5:
Editar el Archivo core-site.xml en el Nodo Master

Se abre el archivo core-site.xml digitando lo siguiente:
#nano /opt/hadoop/etc/hadoop/core-site.xml
Figura 4.36: Abrir archivo core-site.xml en el Nodo Master.
Se abre el fichero correspondiente al core-site.xml como se muestra a continuacin:

82
Figura 4.37: Archivo core-site.xml Nodo Master.
Ubicarse en la siguiente lnea de cdigo, <configuration>
Figura 4.38: Archivo core-site.xml Nodo Master.

83
Colocar las siguientes lneas de cdigo como se muestra a continuacin:
core-site.xml
1. <configuration>
2. <property>
3. <name>fs.defaultFS</name>
4. <value>hdfs://master-node.centos:9000</value>
5. </property>
6. <property>
7. <name>hadoop.http.staticuser.user</name>
8. <value>hdfs</value>
9. </property>
10. </configuration>
Figura 4.39: Agregacin de lneas de cdigo al archivo core-site.xml Nodo Master.
Como se puede observar en el cdigo escrito en la parte superior, la lnea 4 est marcada
con un color celeste: <value>hdfs://master-node.centos:8020</value>, esto es

84
necesario para resaltar que en esta lnea de cdigo se debe colocar el nombre de la mquina
en la que est trabajando el Nodo Master, es decir, master-node, seguido del nombre del
dominio que en este caso es centos, de esta manera la identificacin completa de la mquina
en la cual se est ejecutando el Nodo Master es: master-node.centos. Se establece
adems, el nmero del puerto del Name Node que hace referencia al Nodo Master y
corresponde al puerto 9000.
Editar el Archivo core-site.xml en los Nodos Esclavo

Se abre el archivo core-site.xml para poder editarlo. Realizar estos pasos en cada
uno de los nodos esclavo.
#nano /opt/hadoop/etc/hadoop/core-site.xml
Figura 4.40: Abrir archivo core-site.xml Nodos Esclavo.
As, se abre el fichero correspondiente al core-site.xml en el Nodo Esclavo:
Figura 4.41: Archivo core-site.xml Nodos Esclavo.
Ubicarse en la siguiente lnea de cdigo, <configuration>

85
Figura 4.42: Archivo core-site.xml Nodos Esclavo.
Colocar las siguientes lneas de cdigo como se muestra a continuacin:
core-site.xml
1. <configuration>
2. <property>
3. <name>fs.defaultFS</name>
4. <value>hdfs://master-node.centos:9000</value>
5. </property>
6. <property>
7. <name>hadoop.http.staticuser.user</name>
8. <value>hdfs</value>
9. </property>

86
Figura 4.43: Agregacin de lneas de cdigo al archivo core-site.xml Nodos Esclavo.
Como se puede observar en la parte superior la lnea 4 est marcada de color celeste de esta
manera: <value>hdfs://master-node.centos:9000</value>, en este caso se deben
realizar las mismas configuraciones que se efectuaron en el archivo core-site.xml del Nodo
Master, es decir, se debe colocar la identificacin completa de la mquina en la cual est
corriendo el Nodo Master, master-node.centos, y el puerto del Name Node que es el 9000.
PASO 6:
Configuracin del Archivo mapred-site.xml en el Nodo Master

Se crea una copia del template del archivo mapred-site.xml que viene por defecto en
hadoop:
#cp /opt/hadoop/etc/hadoop/mapred-site.xml.template
/opt/hadoop/etc/hadoop/mapred-site.xml

87
Figura 4.44: Copiar el Template mapred-site.xml al directorio donde se encuentra Hadoop.
Se abre el archivo mapred-site.xml:
#nano /opt/hadoop/etc/hadoop/mapred-site.xml
Figura 4.45: Abrir el archivo mapred-site.xml Nodo Master.
Se debe visualizar el siguiente archivo:
Figura 4.46: Archivo mapred-site.xml Nodo Master.
Ubicarse en la siguiente lnea de cdigo: <configuration>:

88
Figura 4.47: Archivo mapred-site.xml Nodo Master.
Se define el nombre del framework que se utilizar para ejecutar MapReduce, que
en este caso es YARN.
mapred-site.xml
1. <configuration>
2. <property>
3. <name>mapreduce.framework.name</name>
4. <value>yarn</value>
5. </property>
6. </configuration>

89
Figura 4.48: Agregacin de lneas de cdigo al archivo mapred-site.xml Nodo Master.
Como se puede observar en la parte superior, la siguiente lnea: 4. <value>yarn</value>,

establece el framework que es utilizado para ejecutar los componentes de MapReduce, es
decir, YARN.
Configuracin del Archivo mapred-site.xml en los Nodos Esclavo

Se realiza un copia del template del archivo mapred-site.xml, tal como se lo hizo en el
Nodo Master:
#cp /opt/hadoop/etc/hadoop/mapred-site.xml.template
/opt/hadoop/etc/hadoop/mapred-site.xml
Figura 4.49: Copiar el template del archivo mapred-site.xml al directorio donde se encuentra Hadoop.
Se abre el archivo mapred-site.xml:
#nano /opt/hadoop/etc/hadoop/mapred-site.xml
Figura 4.50: Abrir archivo mapred-site.xml en los Nodos Esclavos.

90
Se debe visualizar el siguiente archivo:
Figura 4.51: Archivo mapred-site.xml en los Nodos Esclavos.
Figura 4. 52: Archivo mapred-site.xml en los Nodos Esclavos.

91
Se copian en todos los Nodos Esclavo las mismas lneas de cdigo que fueron
utilizadas en la configuracin del archivo mapred-site.xml del Nodo Master, puesto
que el framework sigue siendo el mismo, es decir, YARN.
Figura 4.53: Agregacin de lneas de cdigo en el archivo mapred-site.xml en los Nodos Esclavos.
PASO 7:
Configuracin del archivo hdfs-site.xml en el Nodo Master:

Se abre el archivo hdfs-site.xml digitando lo siguiente:
#nano /opt/hadoop/etc/hadoop/hdfs-site.xml
Figura 4.54: Abrir archivo hdfs-site.xml Nodo Master.
Se abre el siguiente fichero correspondiente al hdfs-site.xml:

92
Figura 4.55: Archivo hdfs-site.xml Nodo Master.
Figura 4.56: Archivo hdfs-site.xml Nodo Master.

93
Se definen las principales propiedades de este archivo:
hdfs-site.xml
1. <configuration>
2. <property>
3. <name>dfs.replication</name>
4. <value>3</value>
5. </property>
6. <property>
7. <name>dfs.namenode.name.dir</name>
8. <value>file:/var/data/hadoop/hdfs/nn</value>
9. </property>
10. <property>
11. <name>dfs.namenode.checkpoint.dir</name>
12. <value>file:/var/data/hadoop/hdfs/snn</value>
13. </property>
Figura 4.57: Agregacin de lneas de cdigo al archivo hdfs-site.xml Nodo Master.

94
Como se puede visualizar en la parte superior existen tres lneas de cdigo que se encuentran
marcadas de color celeste: <value>3</value>, en esta lnea de cdigo se define el nmero
de replicacin de los nodos, es decir, el nmero de Nodos Esclavo que van a formar parte del
clster de Hadoop, en este caso se utilizarn tres Nodos Esclavo, ejecutados cada uno por
separado en tres mquinas; <value>file:/var/data/hadoop/hdfs/nn</value>, en esta
lnea de cdigo se establece el directorio correspondiente al Name Node y en esta lnea de
cdigo, <value>file:/var/data/hadoop/hdfs/snn</value>, se establece el directorio
correspondiente al Secondary Name Node.
Configuracin del archivo hdfs-site.xml en los Nodos Esclavo:

Se abre el archivo hdfs-site.xml digitando lo siguiente:
#nano /opt/hadoop/etc/hadoop/hdfs-site.xml
Figura 4.58: Abrir archivo hdfs-site.xml Nodos Esclavo.
Se abre el siguiente fichero correspondiente al hdfs-site.xml y ubicar el cursor en la

lnea de cdigo: <configuration>:
Figura 4.59: Archivo hdfs-site.xml Nodos Esclavo.

95
Se definen las principales propiedades de este archivo que varan en cuanto a las
propiedades del hdfs-site.xml del Nodo Master:
hdfs-site.xml
1. <configuration>
2. <property>
3. <name>dfs.replication</name>
4. <value>3</value>
5. </property>
6. <property>
7. <name>dfs.datanode.data.dir</name>
8. <value>file:/var/data/hadoop/hdfs/dn</value>
9. </property>
Figura 4.60: Agregacin de lneas de cdigo al archivo hdfs-site.xml Nodos Esclavo.

96
Como se puede observar en la parte superior, existen dos lneas de cdigo que se encuentran
marcadas de color celeste para hacer referencia a las principales propiedades de este
archivo: <value>3</value>, esta lnea de cdigo define el nmero de replicacin de los
nodos que al igual que en el archivo hdfs-site.xml del Nodo Master, el nmero de replicacin
sigue siendo 3 debido a que en este caso se trabajar con tres Nodos Esclavo y,
<value>file:/var/data/hadoop/hdfs/dn</value>, esta lnea define la ubicacin del
directorio correspondiente al Data Node.
Paso 8:
Configuracin del archivo yarn-site.xml en el Nodo Master

Se abre el archivo yarn-site.xml digitando lo siguiente:
#nano /opt/hadoop/etc/hadoop/yarn-site.xml
Figura 4.61: Abrir archivo yarn-site.xml Nodo Master.
Se abre el archivo correspondiente al yarn-site.xml y se ubica el cursor en la lnea de

cdigo <configuration>:
Figura 4.62: Archivo yarn-site.xml Nodo Master.
Se definen las propiedades del archivo copiando las siguientes lneas de cdigo:

97
yarn-site.xml
1. <configuration>
2. <property>
3. <name>yarn.resourcemanager.hostname</name>
4. <value>master-node.centos</value>
5. </property>
6. </configuration>
Figura 4.63: Agregacin de lneas de cdigo al archivo yarn-site.xml Nodo Master.
Como se puede visualizar en la parte superior, la lnea de cdigo nmero 4 est marcada de
color celeste: <value>master-node.centos</value>, sta define el nodo en el cual se est
ejecutando el Resource Manager. Como ya se mencion en un apartado anterior en la
presente configuracin tanto el Name Node, el Secondary Name Node, el Job History Server

98
y el Resource Manager sern ejecutados en una sola mquina que trabajar como Nodo
Master. En este caso la identificacin completa de la mquina que ejecuta el Nodo Master
(hostname) es: master-node.centos.
Configuracin del archivo yarn-site.xml en los Nodos Esclavo

Se abre el archivo yarn-site.xml digitando lo siguiente:
#nano /opt/hadoop/etc/hadoop/yarn-site.xml
Figura 4.64: Abrir archivo yarn-site.xml Nodos Esclavo.
Se abre el archivo correspondiente al yarn-site.xml y se ubica el cursor en la lnea de

cdigo <configuration>:
Figura 4.65: Archivo yarn-site.xml Nodos Esclavo.

99
Se definen las propiedades del archivo copiando las siguientes lneas de cdigo,
debido a que el archivo yarn-site.xml de los Nodos Esclavo es diferente al
correspondiente archivo del Nodo Master.
yarn-site.xml
1. <configuration>
2. <property>
3. <name>yarn.nodemanager.aux-services</name>
4. <value>mapreduce_shuffle</value>
5. </property>
6. <property>
7. <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
8. <value>org.apache.hadoop.mapred.ShuffleHandler</value>
9. </property>
10. <property>
11. <name>yarn.nodemanager.log-dirs</name>
12. <value>file:/var/hadoop/yarn/logs</value>
13. </property>
14. <property>
15. <name>yarn.nodemanager.local-dirs</name>
16. <value>file:/var/hadoop/yarn/local</value>
17. </property>
18. <property>
19. <name>yarn.resourcemanager.hostname</name>
20. <value>master-node.centos</value>
21. </property>

100
Figura 4.66: Agregacin de lneas de cdigo al archivo yarn-site.xml Nodos Esclavo.
Como se puede visualizar las siguientes lneas de cdigo se encuentran marcadas de color
celeste:
12.<value>file:/var/hadoop/yarn/logs</value>
16.<value>file:/var/hadoop/yarn/local</value>
stas definen la ubicacin de los directorios que van a ser utilizados por el Node Manager.
Por otro lado, en esta lnea de cdigo: <value>master-node.centos</value> se define el

nodo en el cual se ejecuta el componente Resource Manager, el mismo que se encuentra en
el Nodo Master, por lo tanto, se debe colocar el hostname de la mquina correspondiente al
Nodo Master: master-node.centos.

101
PASO 9:
Edicin del archivo eslaves en el Nodo Master

Se abre el archivo slaves digitando lo siguiente:
#nano /opt/hadoop/etc/hadoop/slaves
Figura 4.67: Abrir fichero slaves para agregar los Nodos Esclavo.
Agregar los nodos que se van a ejecutar como Esclavos:
slave1-node.centos
slave2-node.centos
slave3-node.centos
Figura 4.68: Agregacin de los Nodos Esclavo al fichero slaves.
En este fichero se deben agregar las identificaciones completas de las mquinas (hostnames)
en las cuales se estn ejecutando los Nodos Eclavo, este caso se tienen tres mquinas que
funcionan como Nodos Esclavo y sus identificaciones con sus correspondientes dominios
son: slave1-node.centos, slave2-node.centos y slave3-node.centos.

102
PASO 10:
Parar el Firewall del Sistema en el Nodo Master

Digitar el siguiente comando para interrumpir el Firewall:
#systemctl stop firewalld
Figura 4.69: Detener el funcionamiento del Firewall del sistema en el Nodo Master.
Este paso es importante realizarlo ya que si el firewall se encuentra encendido podran ocurrir
problemas tanto en la comunicacin como en el intercambio de informacin entre los
diferentes Nodos que conforman el clster de Hadoop.
Desactivar el IPv6 del Sistema en el Nodo Master

Abrir el archivo de configuracin digitando lo siguiente:
#nano /etc/sysctl.conf
Figura 4.70: Abrir fichero sysctl.conf en el Nodo Master.
Agregar las siguientes lneas de cdigo que desactivarn IPv6:
net.ipv6.conf.all.disable_ipv6 = 1
net.ipv6.conf.default.disable_ipv6 = 1
Figura 4.71: Desactivacin del IPv6 en el Nodo Master.

103
Es importante realizar esta configuracin debido a que Hadoop no es compatible con IPv6.
Parar el Firewall del Sistema en los Nodos Esclavo

Digitar el siguiente comando para interrumpir el Firewall:
#systemctl stop firewalld
Figura 4.72: Detener el funcionamiento del Firewall del sistema en los Nodos Esclavo.
Desactivar el IPv6 del Sistema en los Nodos Esclavo

Abrir el archivo de configuracin digitando lo siguiente:
#nano /etc/sysctl.conf
Figura 4.73: Abrir fichero sysctl.conf en los Nodos Esclavo.
Agregar las siguientes lneas de cdigo que desactivarn IPv6:
net.ipv6.conf.all.disable_ipv6 = 1
net.ipv6.conf.default.disable_ipv6 = 1

104
Figura 4.74: Desactivacin del IPv6 en los Nodos Esclavo.
PASO 11:
Dar Formato al Name Node

Este paso debe ser ejecutado nicamente en el Nodo Master.
Iniciar sesin como usuario HDFS digitando lo siguiente:

#su hdfs
Figura 4.75: Ingreso como usuario hdfs.
Buscar el Directorio bin de Hadoop:

$cd /opt/hadoop/bin/
Figura 4.76: Ingreso a la carpeta /bin del usuario hdfs.
Ejecutar el siguiente comando para dar formato al sistema de Archivos:

105
$./hdfs namenode -format
Figura 4.77: Formato al Name Node.
Se observa el siguiente resultado:
Figura 4.78: Resultado de dar formato al Name Node.
PASO 12:
Iniciar Componentes o Demonios Correspondientes al Nodo Master

Realizar los siguientes pasos nicamente en el Nodo Master.
Ir al directorio sbin de Hadoop digitando lo siguiente:
$cd /opt/hadoop/sbin/
Figura 4.79: Ir al directorio /sbin del usuario hdfs.

106
Iniciar el Demonio Name Node

Ejecutar el comando de inicio del Name Node:
$./hadoop-daemon.sh start namenode
Figura 4.80: Inicio del demonio Name Node.
Iniciar el Demonio Secondary Name Node

Ejecutar el comando de inicio del Secondary Name Node:
$./hadoop-daemon.sh start secondarynamenode
Figura 4.81: Inicio del demonio Secondary Name Node.
PASO 13:
Iniciar los Data Node en los Nodos Esclavo

Realizar estos pasos en todos los Nodos Esclavo.
Iniciar sesin con el usuario hdfs digitando lo siguiente:
#su hdfs
Figura 4.82: Usuario hdfs Nodos Esclavo.
Cambiar al directorio sbin de Hadoop:
$cd /opt/hadoop/sbin
Figura 4.83: Fichero /sbin usuario hdfs Nodos Esclavos.

107
Ejecutar el siguiente comando para iniciar el demonio Data Node:
$./hadoop-daemon.sh start datanode
Figura 4.84: Inicio del demonio Data Node.
PASO 14:
Iniciar YARN en el Nodo Master:

Salir del directorio sbin del usuario hdfs e iniciar sesin con el usuario Yarn:
Para salir del directorio sbin del usuario hdfs:
$exit
Para iniciar sesin con el usuario Yarn:
#su yarn
Figura 4.85: Usuario yarn Nodo Master.
Buscar el directorio sbin del usuario Yarn:
Figura 4.86: Fichero /sbin usuario yarn Nodo Master.
Ejecutar el comando para iniciar el demonio Resource Manager:
$./yarn-daemon.sh start resourcemanager
Figura 4.87: Inicio del demonio Resource Manager.

108
Iniciar YARN en los Nodos Esclavo

Realizar estos pasos en todos los Nodos Esclavo.
Salir del directorio sbin del usuario hdfs e iniciar sesin con el usuario Yarn:
Para salir del directorio sbin del usuario hdfs:
$exit
Para iniciar sesin con el usuario Yarn:
#su yarn
Figura 4.88: Usuario yarn Nodos Esclavo.
Buscar el directorio sbin del usuario Yarn:
Figura 4.89: Directorio /sbin del usuario yarn en los Nodos Esclavo.
Ejecutar el comando para iniciar el demonio Node Manager:
$./yarn-daemon.sh start nodemanager
Figura 4.90: Inicio del demonio Node Manager.
Verificar que los Componentes Data Node y Node Manager se estn

ejecutando en Todos los Nodos Esclavo:
Realizar lo siguiente en todos los nodos esclavo.
Salir del usuario Yarn:
$exit

109
Figura 4.91: Salir del usuario yarn Nodos Esclavo.
Ejecutar el comando jps para comprobar que se estn ejecutando los componentes
Data Node y Node Manager:
#jps
Figura 4.92: Verificacin de los demonios activos en los Nodos Esclavo.
Como se puede observar los componentes Node Manager y Data Node se estn ejecutando
correctamente en los Nodos Esclavo, si estos competentes no se visualizan como lo muestra
la imagen anterior, es probable que la configuracin haya fallado en algn punto.
PASO 15:
Crear Directorios en el Nodo Master

Salir del usuario Yarn:
$exit
Figura 4.93: Salir del usuario yarn en el Nodo Master.
Iniciar sesin con el usuario hdfs:
#su hdfs
Figura 4.94: Ingreso como usuario hdfs en Nodo Master.

110
Entrar al directorio bin:
Figura 4.95: Directorio /bin del usuario hdfs en Nodo Master.
Crear los directorios user y temp en el sistema de archivos de Hadoop:
$./hdfs dfs mkdir p /user

$./hdfs dfs chmod 777 /user
$./hdfs dfs mkdir p /tmp
$./hdfs dfs chmod 777 /tmp
Figura 4.96: Creacin de directorios user y temp en Nodo Master.
Verificar que se hayan creado correctamente los directorios:

$./hdfs dfs ls /
Figura 4.97: Verificacin de los directorios creados.
La advertencia que se muestra en la imagen anterior aparece cuando no se utiliza el java que
viene por defecto en los sistemas operativos LINUX, sino cuando se utiliza el java instalado
desde la pgina oficial tal como se realiz en el primer paso de esta prctica.
PASO 16:
Iniciar el demonio Job History Server en el Nodo Master

Salir del usuario HDFS:

111
$exit
Figura 4.98: Salir del usuario hdfs en el Nodo Master.
Iniciar sesin con el usuario mapred:
#su mapred
Figura 4.99: Sesin como usuario mapred en Nodo Master.
Entrar al directorio sbin:
Figura 4.100: Directorio /sbin del usuario mapred en Nodo Master.
Ejecutar el comando para iniciar el componente Job History Server:
$./mr-jobhistory-daemon.sh start historyserver
Figura 4.101: Inicio del demonio Job Histoy Server.
PASO 18:
Ejecucin de un Ejemplo de Hadoop que viene por defecto

A continuacin, se ejecutar un ejemplo que viene por defecto en Hadoop para comprobar el
correcto funcionamiento tanto del Nodo Master como de los Nodos Esclavo que se
encuentran conformando el clster de Hadoop.
*Seguir con la ejecucin en el Nodo Master.
Cambiar al directorio bin de Hadoop:

112
Figura 4.102: Directorio /bin del usuario mapred en Nodo Master.
Ejecutar el ejemplo que calcula pi:
Se eligi la ejecucin del pi, para demostrar que Hadoop es til para diferentes casos,
como por ejemplo, para el clculo de problemas matemticos. Puede parecer irrelevante
el calcular el nmero pi, pero debido a que este es un nmero infinito, resulta interesante
ver como los sistemas informticos pueden calcular pequeos trozos de este nmero casi
en poco tiempo, lo que demuestra que se puede utilizar esta herramienta en combinacin
con algoritmos para clculos criptogrficos, estadsticos, minera de datos, fsica, etc. A
continuacin se calcula pi 10 10, lo que quiere decir que se usan 10 asignaciones con
10 ejemplo de cada una para calcular su valor.
$./yarn jar /opt/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-

examples-2.7.2.jar pi 10 10
Figura 4.103: Ejecucin del ejemplo pi que viene por defecto en Hadoop.
Se pueden visualizar los siguientes resultados:

113
Figura 4.104: Resultado de la ejecucin del ejemplo pi en Hadoop.

114
Como se puede observar la ejecucin de este ejemplo tuvo una duracin de 31.589 segundos
y se ejecut correctamente en los tres nodos esclavo. Si se trabajara con un solo nodo esclavo
el tiempo sera ms extenso y si se trabajara con ms de tres nodos esclavo el tiempo ira
disminuyendo conforme existan ms nodos de replicacin.
Ahora, verificar que los componentes del Nodo Master estn funcionando
correctamente.
Para salir del usuario mapred:
$ exit
Para comprobar el estado de los componentes:
# jps

115
Figura 4.107: Comprobacin de los componentes que se estn ejecutando.
Como se puede observar en la captura anterior, todos los componentes correspondientes al Nodo
Master estn encendidos.
Ahora, es necesario ir al explorador para observar el funcionamiento tanto del Nodo

Master como de los Nodos Esclavo.
Para poder observar los resultados de todos los Nodos en conjunto en el explorador, es
necesario colocar en la barra de direcciones el nombre que se utiliz para identificar a la
mquina correspondiente al Nodo Master, mismo que fue situado en el archivo core-
site.xml del Nodo Master, para este caso la identificacin de la mquina es master-
node.centos, entonces se debe digitar en la barra de direcciones del explorador ese
nombre seguido del puerto que tiene Hadoop por defecto que es el 8088, este puerto
permite obtener la informacin sobre el clster y todas la aplicaciones que se estn
ejecutando, de esta manera se observarn los resultados de todos los Nodos y procesos
que se estn ejecutando en Hadoop, tal como se muestra en las siguientes imgenes.

116
Figura 4.108: Vista en el explorador de los resultados del proceso ejecutado en Hadoop.
En la imagen anterior se puede observar que al seleccionar la opcin Applications en el

men que se encuentra en la parte izquierda de la pantalla, se despliega la informacin
de la aplicacin que fue ejecutada en los nodos de Hadoop, el estado de los procesos y
los recursos consumidos al ejecutar las aplicaciones. En este caso, se puede observar
que la aplicacin que fue ejecutada fue la de QuasiMonteCarlo, la misma que contena
el ejemplo pi que fue utilizado para esta demostracin.

117
Figura 4.109: Vista en el explorador de los resultados del proceso ejecutado en Hadoop.
En la imagen anterior se puede observar que al seleccionar la opcin Nodes, en el

mismo men, se despliega la informacin de todos los Nodos Esclavo que participaron en
la ejecucin de una aplicacin de Hadoop, as como la fecha y la hora de ejecucin de las
actividades.
Ahora para acceder a los resultados de Hadoop se debe digitar el siguiente URL en la
barra de direcciones: http://master-node.centos:50070. El puerto 50070, es el puerto
predeterminado para acceder a Hadoop y como ya se ha aclarado anteriormente el
nombre que est ubicado antes del puerto es la identificacin que se coloc en el archivo
core-site.xml para acceder a los servicios de Hadoop, en otros casos se puede colocar
por defecto localhost, todo depende del nombre que se haya colocado en dicho archivo
de configuracin. De esta manera, se muestran las siguientes imgenes:

118
Figura 4.110: Vista en el explorador de la informacin de Hadoop.
En la imagen anterior, se puede observar la informacin de Hadoop como su versin, la

fecha de inicio de esta aplicacin y los recursos que utiliza para su funcionamiento.

119
Figura 4.111: Vista en el explorador de la informacin de Hadoop.
En la imagen anterior, se puede observar la informacin correspondiente a los Nodos

Esclavo como por ejemplo, cules estn en servicio y los recursos que consume cada
uno.
Las siguientes imgenes indican el rendimiento de la mquina durante la ejecucin de

Hadoop:

120
Figura 4.112: Rendimiento de la mquina antes de la ejecucin de Hadoop.
La figura anterior indica el rendimiento de la mquina antes de la ejecucin de Hadoop,

se puede observar que los valores se encuentran en un estado normal.

121
Figura 4.113: Rendimiento de la mquina al inicio de la ejecucin de Hadoop.
La imagen anterior muestra que los valores de memoria e intercambio como los valores
de monitoreo de la red se colocan en cero al momento de iniciar Hadoop, esto es debido
a que Hadoop consume rpidamente los recursos de la mquina.

122
Figura 4.114: Rendimiento de la mquina durante la ejecucin de Hadoop.
La figura anterior muestra que los valores de rendimiento del CPU, Memoria y Red de la
mquina cambian considerablemente durante la ejecucin de los procesos de Hadoop.
4.2. Casos Prcticos
4.2.1. Ejecucin Ejemplo WordCout (Contador de Palabras)
En esta seccin se explica el proceso de desarrollo para la ejecucin de algoritmos en

ambientes de Big Data. Se explica detalladamente los procesos que se debe seguir para
ejecucin de aplicaciones MapReduce.

123
Al realizar aplicaciones para Hadoop, se deben desarrollar en el lenguaje de programacin

Java, en vista que Hadoop fue desarrollado en Java.
El caso prctico escogido consiste en contar palabras de un texto, este ejemplo es una clara
representacin de MapReduce. Debido a que se realizan tareas Map, en las cuales se
identifican las palabras que contiene el archivo de texto, posteriormente se realizan tareas
Reduce en las cuales se identifican las palabras que estn repetidas y de esta manera se
tiene como resultado el nmero de palabras totales que se encuentran en el archivo de texto
analizado.
4.2.1.1. Pasos de Ejecucin
PASO 1: Utilizar una plataforma para desarrollar entornos de

desarrollo (IDE), la plataforma deber permitir generar archivos .jar.
En caso de no contar con algn IDE de java, se explica a continuacin la instalacin de Eclipse
para sistemas operativos que corresponda a la cadena de Red Hat. Para ello es necesario
descargar Eclipse IDE for Java EE Developers de la pgina web de Eclipse
(http://www.eclipse.org/downloads/packages/release/Mars/2).
Figura 4.115: Eclipse, pgina web.
Iniciar el Terminal, es necesario entrar con privilegios de root.

124
Para acceder al sistema con privilegios de root:
$su
Una vez descargado Eclipse, es necesario copiar el instalador al directorio

/home/principal, debido a que todas las descargas realizadas se ubican en el directorio
Descargas.
Para copiar el instalador de Eclipse ubicado en el directorio Descargas al directorio

/home/principal:
#cp /home/principal/Descargas/eclipse-jee-mars-2-linux-gtk-x86_64.tar.gz
/root/
Figura 4.116: Copiar eclipse, a la direccin de usuario.

#ls
Figura 4.117: Verificar el archivo copiado.
Extraer el instalador en el directorio /opt :
#tar zxvf eclipse-jee-mars-2-linux-gtk-x86_64.tar.gz C /opt/
Figura 4.118: Descomprimir el archivo.
Realizar un enlace al directorio /bin :
#ln s /opt/eclipse/eclipse /usr/bin/eclipse
Figura 4.119: Enlace a directorio /bin.

125
Crear la aplicacin o el lanzador Gnome:
#ln s /opt/eclipse/eclipse /usr/bin/eclipse
Figura 4.120: Editar lanzador de Gnome.
Digitar los siguientes comandos, para crear el lanzador:
[Desktop Entry]
Encoding = UTF-8
Name = 4.4.1 Eclipse
Comentario = Eclipse de Luna
Exec = / usr / bin / eclipse
Icono = / opt / eclipse / icon.xpm
Categoras = Aplicacin; Desarrollo; Java IDE;
Version = 1,0
Type = Aplicacin
Terminal = 0

126
Figura 4.121: Editar lanzador de Gnome con gestor vi.
Abrir Eclipse:
Figura 4.122: Resultado del lanzador.

127
PASO 2: Creacin de una nueva aplicacin.
Al desarrollar aplicaciones para Hadoop se debe tener en cuenta ciertos pasos, los mismos
que deben ser comprendidos para el desarrollo de cualquier aplicacin.
Iniciar Eclipse, y digitar la ubicacin en donde se guardar el proyecto.
Figura 4.123: Directorio de Eclipse.
Crear un nuevo proyecto de java. En la siguiente ventana se selecciona el nombre del

proyecto y se verifica que el jdk est por defecto.
Seleccionar proyecto de java a realizar.

128
Figura 4.124: Seleccin de Java Project.
Escribir el nombre de la aplicacin que se desea realizar en este caso, se llamar

Ejemplo2WordCount y presionar en el botn finalizar.
Figura 4.125: Nombre de la aplicacin.

129
PASO 3: Programar la aplicacin.

Para esto es necesario crear una clase, en este caso la clase se denominar
WordCount.
Figura 4.126: Creacin de la clase.
Teniendo en cuenta los conceptos mencionados en captulos anteriores, es necesario

desarrollar las tareas Map.
public static class TokenizerMapper

extends Mapper<Object, Text, Text, IntWritable>{
private final static IntWritable one = new IntWritable(1);

private Text word = new Text();
public void map(Object key, Text value, Context context

) throws IOException, InterruptedException {
StringTokenizer itr = new StringTokenizer(value.toString());
while (itr.hasMoreTokens()) {
word.set(itr.nextToken());
context.write(word, one);
}
}
}
Teniendo en cuenta los conceptos mencionados en captulos anteriores, es necesario

desarrollar las tareas Reduce.
public static class IntSumReducer
extends Reducer<Text,IntWritable,Text,IntWritable> {

130
private IntWritable result = new IntWritable();

public void reduce(Text key, Iterable<IntWritable> values,
Context context
int sum = 0;
for (IntWritable val : values) {
sum += val.get();
}
result.set(sum);
context.write(key, result);
}
}
Posteriormente se establece el mtodo Main, que contiene todas las llamadas a los Jobs,
para que se ejecuten sincronizadamente.
public static void main(String[] args) throws Exception {

Configuration conf = new Configuration();
Job job = Job.getInstance(conf, "word count");
job.setJarByClass(WordCount.class);
job.setMapperClass(TokenizerMapper.class);
job.setCombinerClass(IntSumReducer.class);
job.setReducerClass(IntSumReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
FileInputFormat.addInputPath(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job, new Path(args[1]));
System.exit(job.waitForCompletion(true) ? 0 : 1);
}
Finalmente, se debe importar las libreras de Hadoop, existen varias libreras con diferentes
funciones, para este caso particular se deben agregar las libreras de la carpeta common y
mapreduce.
Click derecho en el proyecto, posteriormente se escoge la opcin Build Path y despus

Click en Configure Build Path
Figura 4.127: Importar libreras.

131
Seleccionar Add External JARs, y agregar las libreras siguientes.
hadoop-common-2.7.2-tests.jar
hadoop-common-2.7.2.jar
hadoop-mapreduce-client-app-2.7.2.jar
hadoop-mapreduce-client-common-2.7.2.jar
hadoop-mapreduce-client-core-2.7.2.jar
hadoop-mapreduce-client-hs-2.7.2.jar
hadoop-mapreduce-client-hs-plugins-2.7.2.jar
hadoop-mapreduce-client-jobclient-2.7.2-tests.jar
hadoop-mapreduce-client-jobclient-2.7.2.jar
hadoop-mapreduce-client-suffle-2.7.2.jar
hadoop-mapreduce-examples-2.7.2.jar
hadoop-nfs-2.7.2.jar
Figura 4.128: Importar libreras jar externas.

132
Al agregar las libreras automticamente se eliminan los errores, pero al ejecutar el programa
se muestran ciertas alertas, estas alertas muestran informacin superficial que no indican de
manera clara si el programa se realiz con xito, para comparar que la aplicacin ha sido
desarrollada con xito es necesario correr el archivo .jar en Hadoop.
Como resultado final se obtiene lo siguiente:
import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class WordCount {
public static class TokenizerMapper

extends Mapper<Object, Text, Text, IntWritable>{
private final static IntWritable one = new IntWritable(1);

private Text word = new Text();
public void map(Object key, Text value, Context context

StringTokenizer itr = new StringTokenizer(value.toString());
while (itr.hasMoreTokens()) {
word.set(itr.nextToken());
context.write(word, one);
}
}
}
public static class IntSumReducer
extends Reducer<Text,IntWritable,Text,IntWritable> {
private IntWritable result = new IntWritable();
public void reduce(Text key, Iterable<IntWritable> values,

Context context
int sum = 0;
for (IntWritable val : values) {
sum += val.get();
}
result.set(sum);
context.write(key, result);
}
}
public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
Job job = Job.getInstance(conf, "word count");
job.setJarByClass(WordCount.class);

133
job.setMapperClass(TokenizerMapper.class);
job.setCombinerClass(IntSumReducer.class);
job.setReducerClass(IntSumReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
FileInputFormat.addInputPath(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job, new Path(args[1]));
System.exit(job.waitForCompletion(true) ? 0 : 1);
}
}
PASO 4: Generar archivo .jar

Para finalizar el desarrollo de la aplicacin, es necesario crear un archivo .jar, este archivo
contiene toda las lneas de cdigo programadas. Para esto se debe seguir los siguientes
pasos.
Click derecho en el proyecto, buscar la opcin Export.

Seleccionar tipo de exportacin, escoger Jar file.
Figura 4.129: Destino de Exportacin JAR file.
Seleccionar la direccin en donde se desea guardar el archivo .jar.

134
Figura 4.130: Guardar .jar en la direccin establecida.
PASO 5: Ejecucin de la aplicacin

Para la ejecucin de este caso prctico, se requiere un archivo de texto plano, el contenido
puede ser generado en cualquier editor de texto, para este ejemplo se utiliz Gedit y debe ser
guardaba en la misma direccin en la que se guarda el archivo .jar.
Figura 4.131: Archivo de texto.

135
Verificar el Almacenamiento de los archivos.
Figura 4.132: Verificar el almacenamiento de los archivos.
Abrir la terminal y acceder con privilegios de root.
Entrar a la carpeta donde se encuentra los archivos requeridos.
# cd /home/principal/workspace
Figura 4.133: Acceder a la carpeta que contiene archivos
Copiar el archivo input.txt a la carpeta del sistema hdfs.
# hdfs dfs moveFromLocal input.txt /inputWordCount
Figura 4.134: Copiar archivo a sistema hdfs.
Antes de continuar con los pasos subsiguientes es necesario explicar qu es y cmo funciona
la instruccin HDFS.
HDFS (Hadoop Distribuid File System) es un sistema de ficheros distribuido, porttil y

escalable. Una de las caractersticas principales es el tamao de un bloque muy superior a
los 64 MB, esto resulta muy til al momento de realizar accesos de lectura ya que no se pierde
tiempo en acceder.

136
Por lo general, los ficheros que van a ser almacenados y ubicados en este tipo de ficheros de
Hadoop, siguen el mismo patrn Write once read many (escribe una vez y lee muchas
veces). Pero estos permisos pueden variar de acuerdo a la necesidad del usuario, es as que
en algunos casos se utiliza el comando chmod.
Finalmente, los ficheros sern divididos en bloques del mismo tamao y distribuidos entre los
nodos que conforman el clster.
Como se haba mencionado en captulos anteriores existen varios tipos de demonios con los
que cuenta Hadoop, HDFS trabaja exclusivamente con dos demonios los cuales son:
Namenode y Datanode.
Se debe comprobar que el archivo de texto forma parte del fichero hdfs de Hadoop,
para ello se ejecuta el siguiente comando:
# hdfs dfs ls /inputWordCount
Figura 4.135: Consulta del fichero con permisos -rw-r--r--.
Realizada la verificacin de archivo de texto, se procede a realizar la ejecucin, para

eso se utiliza la siguiente estructura.
# hadoop jar WordCount.jar WordCount /inputWordCount /outputWC
Figura 4.136: Ejecucin en Hadoop con archivos de texto.

137
Al ejecutar la secuencia se realiza las tareas map y reduce.
Figura 4.137: Resultado de operacin.
Figura 4.138: Resultado de operacin 2.
Finalmente, Hadoop muestra que proceso fue desarrollado con xito. Pero para ver el
resultado y nmero de palabras contadas es necesario el siguiente comando.
# hdfs dfs cat /outputWC/*

138
Figura 4.139: Resultado final Word Count.
4.2.2. Recoleccin de Tweets en una Base de Datos NoSQL.
Actualmente existen varias tipos de redes sociales como Twitter, Facebook, Instagram,
Google+, etc. En los ltimos aos las redes sociales se han convertido en los sitios web ms
visitados en internet, donde las personas opinan, comparten ideas y se conectan por diversin
y tambin con fines educativos. Las redes sociales diariamente manejan grandes volmenes
de datos e informacin. Para este caso prctico se utilizar Twitter y se recolectar Tweets
de una determinada zona geogrfica y se almacenar en una base de datos NoSQL.
Antes de realizar esta prctica es importante mencionar algunos conceptos, que sern de
gran ayuda al momento de realizar este caso prctico.
Twitter es una red de informacin conformada por mensajes de 140 caracteres llamados
Tweets. Es una forma fcil de descubrir las ltimas novedades relacionadas con los temas
que te interesan. (Twitter, 2016)
Por otro lado, los Tweets estn conformados por texto, hashtags o etiquetas para categorizar,
@nombre_de_usuario y en algunos casos pueden adjuntar una direccin URL, tal como se
ilustra en la siguiente figura.

139
Figura 4.140: Estructura de Tweets.
La estructura es la siguiente:
Texto o mensaje que se quiere compartir con esta red de informacin, puede estar
compuesto por 140 caracteres y su publicacin es inmediata.
Hashtag o etiquetas para categorizar, es un smbolo # seguido de un texto que permite
aumentar audiencia de un Tweet, son utilizados para mencionar ciertas acciones,
eventos, sentimientos, etc. Estas etiquetas pueden ser utilizadas en el anlisis de
datos.
Direccin URL abreviada, estos enlaces son opcionales y son utilizados para montar
cierto contenido externo.
@ Nombre de usuario. Es una identificacin obligatoria usada para reconocer a los
usuarios.
Diariamente se generan gran cantidad de Tweets que son compartidos por los usuarios y
contienen datos que si son analizados podran generar informacin, es as que Twitter ofrece
APIs, que permiten a los desarrolladores adaptarse a diferentes necesidades. Por ejemplo,
existe el Streaming API mismo que permite el acceso en tiempo real a los Tweets que han
sido publicados, es decir, se crea una conexin permanente a travs del usuario con los
servidores de Twitter recibindose un flujo constante de Tweets en formato Json12; el Rest
12
JSON (JavaScript Object Notation - Notacin de Objetos de JavaScript) es un formato ligero de
intercambio de datos. Leerlo y escribirlo es simple para humanos, mientras que para las mquinas es
simple interpretarlo y generarlo. Est basado en un subconjunto del Lenguaje de Programacin
JavaScript, Standard ECMA-262 3rd Edition - Diciembre 1999. JSON es un formato de texto que es
completamente independiente del lenguaje pero utiliza convenciones que son ampliamente conocidos
por los programadores de la familia de lenguajes C, incluyendo C, C++, C#, Java, JavaScript, Perl,

140
API permite que los desarrolladores puedan acceder al ncleo central donde se encuentran
los datos de Twitter y, por ltimo, se encuentra el Search API el cual ofrece una informacin
mucho ms limitada de los Tweets, permitiendo solo el acceso a los datos del autor como el
id, el nombre del usuario con el que aparece en Twitter, tanto el Streaming API como el REST
API permiten acceder al perfil completo del autor.
Para poder utilizar Twitter en un ambiente de desarrollo es necesario tener una cuenta de
Twitter previamente creada.
En este caso en particular se realizar la prctica de recoleccin de Tweets como una

demostracin de lo que es Big Data, es decir, la recoleccin de grandes de volmenes de
datos.
Para llevar a cabo esta prctica se utilizarn las siguientes herramientas:
Lenguaje de programacin Python.

Base de Datos NoSQL como CouchDB.
Sistema operativo compatible con CouchDB, como Ubuntu 16.04 LTS.
A continuacin se muestran los pasos que se deben seguir para llevar a cabo esta prctica:
Python, y muchos otros. Estas propiedades hacen que JSON sea un lenguaje ideal para el intercambio
de datos.Fuente especificada no vlida.

141
Figura 4.141: Diagrama de flujo del proceso de recoleccin de Tweets.
PASO 1: Instalacin de Python

Los sistemas operativos que corresponden a la cadena de distribucin GNU/Linux tienen ya
instalado Python por defecto, por lo cual no es necesario realizar algn tipo de instalacin
para este caso.

142
PASO 2: Instalacin de CouchDB.

CouchDB conocida oficialmente como Apache CouchDB, es una base de datos orientada a
documentos, la cual pertenece a las bases de datos NoSQL. Puede ser consultada e
indexada usando JavaScript como funcin MapReduce. CouchDB ofrece una API (Application
Programming Interface) RESTful (Representational State Transfer) en JSON que puede ser
accedida va peticiones HTTP. Existen muchas libreras para casi cualquier lenguaje de
programacin que facilitan el acceso. CouchDB est escrito en Erlang, un lenguaje de
programacin funcional robusto ideal para construir sistemas distribuidos simultneos, lo que
permite un diseo flexible y fcilmente escalable y extensible. (Garcia, 2009)
Actualmente, en la versin de 16.04 de Ubuntu la instalacin de ciertos programas es mucho

ms sencilla puesto que no se necesita de la instalacin de ciertos paquetes del sistema,
hecho que no sucede en versiones ms antiguas de Ubuntu en donde s es necesaria la
instalacin de ciertos paquetes para que los programas funcionen correctamente.
Se requiere instalar la versin ms reciente de CouchDB, para esto se utilizan los

repositorios ppa que son los que permiten adquirir la versin actualizada de cualquier
programa, se digita entonces el siguiente comando:
$sudo add-apt-repository ppa:couchdb/stable y
Figura 4.142: Instalacin repositorio actual de CouchDB.
Realizar una actualizacin de la lista en cach de los paquetes.
$sudo apt-get update
Figura 4.143: Actualizacin de los paquetes.

143
Eliminar cualquier posible existencia de los binarios de CouchDB.
$sudo apt-get remove couchdb couchdb-bin couchdb-common -yf
Figura 4.144: Eliminar binarios de CouchDB.
Instalar CouchDB.
$sudo apt-get install V couchdb
Figura 4.145: Instalar CouchDB
Detener el servicio de CouchDB, a la vez encenderlo y verificar su estado.

Para detener el servicio de CouchDB digitar lo siguiente:
$sudo systemctl stop couchdb
Figura 4.146: Para CouchDB
Para encender el servicio de CouchDB digitar lo siguiente:
$sudo systemctl start couchdb

144
Figura 4.147: Arrancar servicio de CouchDB.
Para visualizar el estado de CouchDB digitar lo siguiente:
$sudo systemctl status couchdb
Figura 4.148: Verificar si se encuentra encendido CouchDB.
Finalmente ingresar al explorador y digitar la siguiente direccin:
http://127.0.0.1:5984/_utils/

145
Figura 4.149: Acceso a CouchDB y a sus funciones.
Al instalar CouchDB el bind_andress por defecto es 127.0.0.1, si se desea cambiar esta

direccin se puede colocar 0.0.0.0 para poder acceder por medio de localhost. Adems, el
puerto que inicia CouchDB es por defecto el 5984.
PASO 3: Configuracin de Python

Python cuenta con una variedad de libreras con diferentes funciones que son tiles al
momento de realizar programas con diferentes plataformas. Es as, que esta prctica debe
utilizar el paquete de Python con conexin a CouchDB denominado CouchDB-0.9. Por otro
lado Python es un lenguaje de programacin muy activo en donde existen comunidades de
desarrolladores que crean libreras para varios servicios, actualmente existe una librera
alojada en GitHub que permite comunicarse con la plataforma de Twitter denominada tweepy.
Este repositorio ser instalado para este caso prctico.
Instalar tweepy, el cual permitir acceder a las llaves generadas por Twitter y as se
podrn recolectar los Tweets, hecho que ser explicado en pasos posteriores. Para
esto es necesario acceder con privilegios de root.

146
#pip install tweepy
Figura 4.150: Instalar tweepy.
Descargar y descomprimir la librera CouchDB-09, esta permitir acceder a CouchDB,

desde el cdigo desarrollado en Phyton. Para esto no es necesario estar con
privilegios de root.
$wget https://pypi.python.org/packages/source/C/CouchDB/CouchDB-0.9.tar.gz
Figura 4.151: Descargar librera CouchDB-09.
Descomprimir la librera con el siguiente comando.
$tar zxvf CouchDB-0.9.tar.gz

147
Figura 4.152: Descomprimir librera.
Acceder al directorio en donde se descomprimi el archivo, como se ilustra a

continuacin.
$cd /home/bigdata/CouchDB-0.9/
Figura 4. 153: Acceso a carpeta CouchDB-09.
En el mismo directorio accedido, es necesario instalar archivos que correspondan a

la librera descargada, pero deben ser ejecutados con Python para que puedan ser
reconocidos por este lenguaje de programacin.
$python setup.py install

148
Figura 4.154: Instalacin de libreras para que puedan ser reconocidas por python.
Se debe acceder a Python e importar CouchDB, para esto se necesita digitar el

siguiente comando.
Acceder a Python e importar CouchDB, como se muestra en la figura siguiente:
Python
>>> import couchdb

>>>exit()
Figura 4.155: Importacin de CouchDB en python.
Finalmente es necesario importar tweepy, de esta manera el sistema operativo cuenta

con todos los requisitos para poder recolectar los Tweets. En la siguiente seccin se
detallarn las claves que genera el API de Twitter para poder acceder como
desarrollador.

149
$import tweepy
Figura 4.156: Importacin tweepy.
Paso 4: Ingreso al API de Twitter.
Para acceder a Twitter como desarrollador es necesario contar con una cuenta de Twitter
creada previamente, como ya se haba mencionado antes. Una vez que se cuente con este
requisito, se podr acceder a las claves que Twitter genera para proceder al desarrollo del
programa en Python.
Acceder a Twitter Application Management, como se ilustra en la siguiente imagen:
Figura 4.157: Twitter Application Management.

150
Ingresar a esta plataforma con la cuenta de Twitter ya creada, al acceder a ella se

muestra la siguiente interfaz:
Figura 4.158: Acceso a Application Management.
Al acceder a esta plataforma se debe dar Click en la opcin Create New App, lo que
significa que se va a crear una nueva aplicacin. Desplegndose as lo siguiente:

151
Figura 4.159: Creacin de la Aplicacin.
Esta imagen muestra la ventana de creacin de una nueva aplicacin, en la cual se

despliegan ciertos campos que son obligatorios llenarlos. Por ejemplo, en el Campo Name,
se debe colocar el nombre que llevar la nueva aplicacin; en el campo Description, se debe
ingresar una rpida descripcin acerca de lo que har la aplicacin, en este caso se coloc
la descripcin de Contador de Tweets, puesto que esta aplicacin est orientada a la
recoleccin de los tweets; en el Campo Website, se debe colocar una direccin web
cualquiera pero que sea vlida, si se contara con una pgina web propia entonces se
colocara el URL de dicha pgina, en este caso se coloc la direccin de una pgina web que
estuviera en funcionamiento y el campo Callback URL no es necesario llenarlo as que se lo
puede dejar en blanco. Finalmente, se deben aceptar los trminos y condiciones y dar click
en la opcin Create your Twitter Application.
Se despliega as la siguiente ventana:

152
Figura 4.160: Claves generadas por Twitter.
En esta ventana se muestran los datos de creacin de la aplicacin as como el acceso

a las claves que proporciona twitter para la creacin de las nuevas aplicaciones, para
acceder a ellas es necesario dar click a la opcin manage keys and access tokens,
tal como se muestra en la siguiente imagen:

153
Figura 4.161: Claves generadas por Twitter 2.
Se despliega la ventana de claves que twitter proporciona:

154
Figura 4.162: Claves como Consumer Key, y Consumer Secret.
Estas claves son necesarias al momento de escribir el cdigo que permitir la recoleccin de
tweets.
Paso 5: Creacin de la Base de datos.

En esta seccin se debe crear el nombre de la base de datos con la que se va a trabar, para
esto se debe acceder al navegador y digitar la siguiente direccin.
http://127.0.0.1:5984/_utils/
Se presenta una interfaz como la siguiente, en ella se debe seleccionar la opcin

Create Database.
Se debe digitar el nombre de la base de datos, en este caso se llamar quito en vista
de que contendr los Tweets de Quito. A continuacin se muestran las figuras que
contienen este proceso.
Figura 4.163: Interfaz de CouchDB, creacin de nueva base de datos.

155
Figura 4.164: Creacin de base de datos denominada quito.
Figura 4.165: Verificacin de base de datos.

156
Paso 6: Creacin del Cdigo en Python.

El desarrollo de esta aplicacin se la puede realizar en cualquier IDE que soporte Python o
se lo puede desarrollar en cualquier gestor de texto. A continuacin se presenta el cdigo y
el funcionamiento del mismo.
Las claves que fueron analizadas en pasos anteriores deben ser pegadas en cada
una de las secciones, como Consumer Key API, Consumer Secret API, Access Token,
Access Token Secret.
Figura 4.166: Cdigo fuente desarrollado en Python, llamado tweeps.py.
Se recomienda recolectar las coordenadas con la estructura siguiente, latitud sur, latitud
norte, latitud oeste, latitud este. Existen varios pginas web que permiten la identificacin de
coordenadas, para este caso prctico se utiliz Boundingbox. A continuacin se muestra el
funcionamiento del mismo.

157
Delimitar la seccin a analizar, de esta manera se genera las latitudes en cada uno
de los puntos, finalmente estas latitudes deben ser copiadas en el cdigo.
Figura 4.167: Boundingbox, presentacin de coordenas.
Este cdigo debe ser guardado en cualquier carpeta del sistema, en este caso se almacen
en Documentos, con el nombre tweets.py.
Paso 7: Ejecucin del programa.

Finalmente, en esta seccin se debe ejecutar el programa desarrollado y verificar como se
almacenan los datos. Para esto es necesario acceder a la terminal y continuar con los
siguientes pasos:
Acceder a la carpeta donde est el programa desarrollado.
$cd /home/bigdata/Documentos/
Verificar si existe el archivo, para esto digitar el siguiente comando.
$ls
Figura 4.168: Acceso a la carpeta que contiene el cdigo.

158
Correr el programa con la siguiente instruccin. Es importante no cerrar la terminal,

ya que sta permite la ejecucin del programa, si se llegara a cerrar la terminal la
recoleccin de Tweets terminara.
#python tweets.py
Figura 4.169: Ejecutar tweets.py.
Posteriormente, en la terminal aparecern varias estructuras que contienen la informacin de

los Tweets. De esta manera se van almacenando los datos en la base de datos NoSQL, en
formato JSON.
Para verificar el almacenamiento se debe dirigir al explorador y acceder a la base de datos

que fue creada.
Para este caso prctico, la recoleccin de Tweets fue alrededor de dos das, con esto se
puedo obtener alrededor de 112.4 MB de informacin y 15421 Tweets en el ciudad de Quito.
La estructura que maneja CouchDB se puede visualizar en la figura . , en sta aparecen
el nombre de usuario, la fecha en la que realiz el Tweet y, adems una gran variedad de
contenido como el texto, Hashtag, latitud y longitud de donde se realiz esta transaccin.

159
Figura 4.170: Base de datos con alrededor de 15421 Tweets.
Figura 4.171: Ilustracin del almacenamiento.

160
En este caso muy particular la persona que realiz esta transaccin, comparti el siguiente
mensaje Ya no me acuerdo como es, verte as, muy feliz, una vez.. y no comparti ningn
hashtag, Url, o smbolos en particular.
Figura 4.172: Informacin tweet registrado.
Adems se puede visualizar el pas e incluso mostrar coordenadas, donde la persona realiz
el Tweet.

161
Figura 4.173: Pas donde fue emitido el tweet.

162
CAPITULO V: Metodologa de Proceso Enseanza de Big Data. 13

El objetivo de este captulo es elaborar una serie de matrices de planificacin a nivel general
sobre la ctedra de Big Data, que podran servir como una gua de apoyo para los profesores
que deseen utilizarlas para dictar dicha materia.
Descripcin de la Materia:
Los grandes volmenes de datos, junto al anlisis de los mismos son el tronco sobre el cual
se desarrollan nuevas estrategias de extraccin de valiosa informacin, as, esta materia
pretende explicar y dar a conocer conceptos basados en el procesamiento de grandes
cantidades de datos que vienen en distintos formatos y a gran velocidad, haciendo nfasis en
las herramientas y tecnologas que facilitan el manejo de datos para el proceso de anlisis y
extraccin de informacin, lo que es en s hacer Big Data. De esta manera, se da a conocer
a los alumnos las posibles herramientas que pueden ser utilizadas al momento de desarrollar
casos prcticos de Big Data, con lo cual se busca que los alumnos sean capaces de usar
este conocimiento para el desarrollo de nuevos casos, problemas, investigaciones, etc., que
sean tiles en su formacin personal y profesional.
Objetivo General de la Materia:
Explicar a los estudiantes los conocimientos necesarios sobre Big Data partiendo de
conceptos relevantes, herramientas y tecnologas que expongan su utilidad.
13
Matrices de planificacin didctica tomadas de: (Alomoto Talavera, 2012)

163
5.1. Matriz de planificacin didctica acera de lo que es Big Data.

ESCUELA DE SISTEMAS
UNIDAD DIDCTICA N 1
1. DATOS INFORMATIVOS
Duracin: Una semana
2. OBJETIVO: Proporcionar a los estudiantes conceptos iniciales acerca de Big Data para que se familiaricen con esta tendencia y sea ms fcil el
aprendizaje de nuevos conceptos durante el desarrollo y continuacin de la Ctedra de Big Data.
3. TTULO DEL CAPTULO O UNIDAD: Qu es Big Data?
CONTENIDO DE APRENDIZAJE ESTRATGIAS METODOLOGICAS RECURSOS DIDCTICOS ESTNDARES DE EVALUACIN
Conceptual Experiencia Concreta Textos de apoyo. Al finalizar el captulo o unidad los

Definicin Captulo 1 del presente trabajo alumnos podrn:
Las 4 Vs de Big Data Ver videos acerca de la historia de disertacin de grado, pginas
Tipo de Datos de Big Data. 7 a la 16. Definir con sus propias palabras
Historia/ Evolucin Videos Educativos e lo que es Big Data.
Importancia Informativos. Tener una visin clara de lo que
Prediccin de Eventos con Big Conceptualizacin Exposiciones que cubran el significa hacer Big Data.
Data contenido por parte del profesor Conocer la importancia de Big
Conceptos Generales del Definir en propias palabras lo y alumnos. Data en estos das.
Captulo que significa Big Data. Debate sobre posibles eventos Entender como inici el Big Data.
Procedimental que puedan ser pronosticados
Leer Captulo 1 del presente utilizando Big Data.
trabajo de disertacin de grado, Aplicacin Tareas en equipo.
pginas 7 a la 16
Ejercitar la lectura en otros libros Realizar un informe con las ideas
acerca de Big Data por ejemplo: principales y los conocimientos
Big Data in History de Patrick Manning. adquiridos en el primer captulo.
Big Data Analytics de Frank Ohlhorst.
*libros disponibles en la Biblioteca Virtual de la
Puce en ebray.

164
5.2. Matriz de planificacin didctica acera de las generalidades de Big Data.

ESCUELA DE SISTEMAS
UNIDAD DIDCTICA N 2
Duracin: Dos semanas
2. OBJETIVO: Proporcionar a los estudiantes conceptos ms objetivos y propios de Big Data.
3. TTULO DEL CAPTULO O UNIDAD: Generalidades de Big Data.

reas de Big Data. Captulo 2 del presente trabajo alumnos podrn:
Paradigmas de Big Data. Ver videos acerca casos reales y de disertacin de grado, pginas
Conceptos generales del experiencias con Big Data. 18 a la 37. Conocer cules son las reas de
captulo. Videos Informativos. mayor importancia de Big Data.
Procedimental Conceptualizacin Aprendizaje autnomo. Aprender los paradigmas de Big
Leer Captulo 2 del presente Aprendizaje basado en Data.
trabajo de disertacin de grado, Definir en propias palabras las problemas donde los alumnos Conocer cmo funciona
pginas 18 a la 37. reas ms importantes de Big puedan aplicar y resolver MapReduce.
Ejercitar la lectura en otros libros Data y poder explicar los ejercicios de MapReduce.
acerca de Big Data por ejemplo: paradigmas. Mtodo de preguntas acerca del
Big Data + Analtica Web de Toms contenido.
Baiget, Carlos Tejada Artigas, Natalia
Arroyo Vzquez. Aplicacin
Big Data de Hrushikesha Mohanty,
Prachet Bhuyan, Deepak Chenthati.
*libros disponibles en la Biblioteca Virtual de la Realizar un informe con las ideas
Puce. principales y los conocimientos
adquiridos en el segundo
captulo, dar ejemplos de Big
Data reales.

165
5.3. Matriz de planificacin didctica acera de la enseanza de las tecnologas y herramientas de Big
Data.
ESCUELA DE SISTEMAS
UNIDAD DIDCTICA N 3
Duracin: Una semana
2. OBJETIVO: Lograr que los estudiantes conozcan cules son las principales tecnologas de Big Data y qu plataformas y herramientas permiten
trabajar con Big Data.
3. TTULO DEL CAPTULO O UNIDAD: Herramientas y Tecnologas de Big Data.

Plataformas de Big Data. Captulo 3 del presente trabajo alumnos podrn:
Apache Hadoop. Leer libros que contengan de disertacin de grado, pginas
Apache Spark. informacin acerca de las 40 a la 47. Conocer las plataformas en las
Oracle Big Data Appliance. Herramientas mencionadas en el Exposiciones que cubran el que se puede desarrollar Big
Introduccin a las Tecnologas de
Big Data.
captulo. contenido por parte del profesor Data.
Tabla comparativa de las Conceptualizacin y alumnos. Identificar las diferencias entre
Plataformas. Debate acerca de las cada una de esas plataformas.
Procedimental Identificar las herramientas ms herramientas de Big Data Aprender las tecnologas que
Leer Captulo 3 del presente trabajo ptimas para el desarrollo de Big propuestas. utilizan esas plataformas.
de disertacin de grado, pginas 40 Data. Tareas en equipo. Adquirir un criterio propio acerca
a la 47. Aplicacin Mtodo de preguntas acerca del de cul es la mejor plataforma a
Ejercitar la lectura en otros libros contenido. utilizar para desarrollar Big Data.
acerca de las herramientas de Big Realizar un informe con las ideas Aprendizaje autnomo acerca de
Data por ejemplo:
Hadoop for Dummies de Dirk deRoos,
principales y los conocimientos las herramientas y tecnologas
Paul Zikopoulos, Roman Melnyk, Rafael adquiridos en el tercer captulo y de Big Data.
Coss. explicar qu herramienta es la
Fast Data Processing with Spark de ms ptima para realizar Big
Holden Karau. Data segn el alumno.
*libros disponibles en la Biblioteca Virtual de la
Puce, en ebray.

166
5.4. Matriz de planificacin didctica acerca de la enseanza de las tecnologas y herramientas de

Big Data.
ESCUELA DE SISTEMAS
UNIDAD DIDCTICA N 4
Duracin: Dos semanas
2. OBJETIVO: Lograr que los estudiantes puedan instalar un ambiente de Big Data y que consigan ejecutar ciertos casos prcticos para conocer cmo
funciona el hacer Big Data.
3. TTULO DEL CAPTULO O UNIDAD: Instalacin de un ambiente de Big Data y Casos Prcticos.

Instalacin de un ambiente de Captulo 4 del presente trabajo alumnos podrn:
Big Data. Leer libros que contengan de disertacin de grado, pginas
Casos Prcticos. informacin acerca de Hadoop 48 a la 126. Instalar un ambiente de Big Data
Procedimental para entender el proceso de Mtodo de casos, proponiendo utilizando la herramienta
Leer Captulo 4 del presente instalacin. nuevos problemas para ser Hadoop.
trabajo de disertacin de grado, Conceptualizacin resueltos con Big Data. Ejecutar casos prcticos para
pginas 48 a la 126. Mtodo de proyectos, en el cual conocer cmo funciona el
Ejercitar la lectura en otros libros Encontrar alternativas para crear los alumnos realizarn sus realizar Big Data.
por ejemplo: un ambiente de Big Data. propios casos prcticos de Big Crear sus propios casos
Big Data Analytics with R and Data. prcticos y realizar pruebas de
Hadoop de Vignesh Prajapati. Aplicacin Mtodo de preguntas acerca del Big Data.
Hadoop Cluster Deployment de contenido.
Danil Zburivsky. Realizar un laboratorio siguiendo Aprendizaje basado en
Professional Hadoop Solutions de la gua con los pasos de problemas donde los alumnos
Boris Lublinsky, Kevin Smith, Alexey instalacin de Hadoop y otro puedan aplicar y resolver tareas
Yakubovich. laboratorio para la ejecucin de propuestas por el profesor.
*libros disponibles en la Biblioteca Virtual los casos prcticos.
de la Puce, en ebray.

167
CAPITULO VI: Conclusiones y Recomendaciones
En este captulo se detallarn y se plantearn una serie de conclusiones y recomendaciones

que fueron adquiridas durante todo este trabajo de disertacin.
6.1. Conclusiones
1. A travs de las investigaciones y anlisis realizados se puede determinar que el trato

y procesamiento que se les da a los datos y por ende a la informacin hoy en da es
muy diferente al manejo que se le daba a los datos e informacin en el pasado, debido
principalmente al apogeo tanto de dispositivos electrnicos como al aparecimiento
masivo de redes sociales en los ltimos aos. Se espera adems, que en los prximos
aos la informacin siga creciendo y aumentando de la misma manera la complejidad
en cuanto a su gestionamiento, es por eso que las herramientas de manejo de grandes
volmenes de datos son primordiales para ofrecer una solucin a este problema.
2. Al elaborar este trabajo de disertacin se logr entender algo que debe quedar muy
claro para cualquier persona, institucin, empresa, etc. Lo cual es que, no tiene objeto
el poder analizar y almacenar grandes volmenes de datos en muy pocos segundos
si al final no se va a tener la capacidad de extraer informacin valiosa de esos datos,
es decir, si no se va a conseguir transformar los datos en conocimiento, puesto que
una de las reglas ms significativas de Big Data es procesar millones de datos y que
stos al mismo tiempo generen valor y conocimiento.
3. Las plataformas de Big Data al permitir el manejo de datos estructurados y no
estructurados, conceptos que fueron explicados en el Captulo 1, presentan un gran
beneficio para la toma de decisiones gracias a la facilidad de manejar todos esos tipos
de datos, lo cual proporciona ventajas tanto para la vida profesional como para los
diferentes campos de la ciencia, ya que por ejemplo en la medicina al analizar el
historial de pacientes y sus sntomas sobre una determinada enfermedad, es ms fcil
poder prevenir a otros pacientes que podran presentar el mismo mal; asimismo, en
el campo de los negocios, por ejemplo, al analizar los datos generados en el tiempo
en cuanto al porcentaje de ganancias y prdidas de una empresa, se puede predecir
con mayor facilidad lo que ocurrir en los aos posteriores. De esta manera, se puede
concluir que mediante Big Data y al analizar correctamente los datos extrados, se
pueden tomar mejores decisiones.

168
4. Durante el proceso de desarrollo de este trabajo, tambin se pudo ultimar que el

montar una infraestructura para Big Data puede resultar un tanto costoso tanto por las
herramientas a utilizar como por los servicios que se pueden brindar. Por lo tanto, si
se desea empezar a ofrecer servicios de solucin para Big Data, antes que tener la
infraestructura necesaria se debe contar con personas capacitadas en cuanto al
desarrollo de algoritmos de anlisis de datos, porque a fin de cuentas las herramientas
siguen simplemente instrucciones, pero son las personas las que hacen funcionar a
las herramientas y las que con su ingenio y capacidad pueden ofrecer incluso mejores
resultados, por ende, el contar con un personal eficiente y preparado en temas de
administracin es clave.
5. Por otro lado, si se desea contar con herramientas que ofrezcan soluciones para Big
Data, se pudo determinar que Hadoop y Spark se encuentran dentro de las principales
plataformas que permiten realizar Big Data, debido principiante a que ambas son
herramientas de software libre y que soportan el manejo de datos estructurados y no
estructurados, adems cuentan con sus propias tecnologas permitiendo guardar
estos tipos de datos para poder extraer solo aquellos que generen informacin de gran
valor.
6. Al realizar el Captulo 4 en el apartado 4.1 correspondiente a la instalacin de un
ambiente de Big Data, se decidi escoger como plataforma a la herramienta Hadoop
en un sistema operativo Centos, ya que el objetivo consista en montar un clster con
tres nodos para determinar cmo se da el manejo y distribucin de datos en este tipo
de arquitectura, una vez realizada la prctica se pudo concluir que Hadoop es una
herramienta til cuando se desea armar un clster en un ambiente totalmente
distribuido, adems que sta es una poderosa herramienta gracias a la distribucin y
al paralelismo de sus ejecuciones. Por otro lado, se pudo determinar que mientras
ms nodos existan dentro del clster de Hadoop, ms rpida ser la distribucin de
datos y en menos tiempo se obtendrn los resultados.
7. Se puede concluir adems, que la utilizacin del sistema operativo Centos no fue la
decisin ms acertada debido a su complejidad en cuanto a la compatibilidad de
versiones tanto con hadoop como con la instalacin de CouchDB, prcticas que se
encuentran en el Captulo 4. Se necesit de una serie de procesos prueba/error, para
lograr los objetivos planteados en cuanto a la realizacin de stas prcticas. Pero, al
mismo tiempo esta serie de dificultades que se presentaron, constituyen una ventaja
para nosotros debido a que logramos familiarizarnos con este sistema operativo y
conocer ms acerca de su funcionamiento y de los comandos claves y ms
importantes.

169
6.2. Recomendaciones
1. La acumulacin de datos pasados, es decir, tener un historial de datos sigue

siendo de vital importancia al momento de realizar anlisis o modelos estadsticos
y analticos, por lo cual si se desea tener informacin en tiempo real y procesar
todos esos miles de datos, la mejor solucin es la utilizacin de plataformas de Big
Data que permitan analizarlos, manejarlos y procesarlos para adquirir lo datos que
generen mayor valor y por lo tanto, valiosa informacin.
2. Dado que Big Data puede ser una solucin para la prediccin y prevencin de
problemas en los negocios, enfermedades, etc., y debido a que las tecnologas de
Big Data y sus fuentes de datos estn en frecuente evolucin. Las personas,
empresas y compaas que deseen implementar Big Data, deben estar alerta y
reaccionar rpidamente para aprovechar los beneficios que brindan las nuevas
tecnologas.
3. Es importante, estudiar y entender cmo funciona el algoritmo de MapReduce,
debido a que muchas herramientas de Big Data como por ejemplo Hadoop tienen
su base en este algoritmo, entonces si lo que se desea es utilizar plataformas para
resolver problemas de Big Data, es clave que las personas estn capacitadas en
cuanto al funcionamiento de este algoritmo y que al mismo tiempo, sean capaces
de crear nuevos algoritmos para el anlisis de datos, ya que como se ha
mencionado anteriormente, las herramientas no funcionan por s solas, son las
personas la que ponen en marcha a cualquier herramienta o programa.
4. Por otro lado, a la hora de querer utilizar herramientas de Big Data, es necesario
informarse y leer sobre los beneficios y desventajas que tienen cada una ellas,
para poder escoger las que ms se adapten a las necesidades o a los problemas
que se desean resolver.
5. Adems, como se ha planteado anteriormente el crear una infraestructura de Big
Data puede resultar algo costoso, por lo cual, es necesario conocer con claridad
cules son los problemas que se pretenden resolver y las necesidades que se
desean satisfacer para de esta manera, analizar y escoger la plataforma de Big
Data que sea ms eficiente, que mejor se adapte y que no involucre costos
excesivos.
6. Al utilizar Hadoop como plataforma para la realizacin de una de las prcticas en
el presente trabajo de disertacin, es importante recomendar que se debe tener
muy en cuenta con qu tipo de sistema operativo se prev trabajar, puesto que el

170
funcionamiento y el proceso de instalacin de Hadoop y de sus complementos no

es igual en todos los sistemas operativos.
7. Se recomienda adems que si se desea utilizar la herramienta Hadoop como
plataforma para Big Data, se la instale en el sistema operativo con el cual la
persona tenga mayor familiaridad y conocimiento, para evitar que el uso y manejo
de Hadoop sea haga ms complejo. Uno de los sistemas operativos en los cuales
se recomienda trabajar para la instalacin de esta plataforma es el sistema
operativo Ubuntu debido a que la curva de aprendizaje del mismo es relativamente
mejor y su compatibilidad con versiones y complementos es ms amplia.
8. Utilizar esta Gua Metodolgica por los profesores que deseen impartir este
concepto de Big Data a los estudiantes, ya que fue creada para este propsito.
9. Para poder trabajar con los ejemplos prcticos que presenta esta Gua se pueden
realizar laboratorios en los cuales los estudiantes puedan desarrollar estos
ejemplos y practicar en ellos para que al mismo tiempo, puedan proponer nuevos
casos que se podran desarrollar en las diferentes herramientas planteadas en los
casos prcticos que esta gua ha desarrollado.
10. Se recomienda adems, que esta Gua sea modificable y adaptable a las nuevas
necesidades para la enseanza de este concepto de Big Data, ya que se podran
aumentar nuevos casos y aadir mejoras, lo cual servira de gran ayuda a los
profesores interesados en ensear Big Data.

171
Bibliografa
Alberto Lafuente. (3 de Junio de 2007). Universidad del Pas Vasco. Obtenido de
http://www.sc.ehu.es/acwlaroa/SDI/Apuntes/Cap1.pdf
Alomoto Talavera, N. M. (2012). Repositorio Digital, Pontificia Universidad Catlica del Ecuador.
Obtenido de http://repositorio.puce.edu.ec/handle/22000/9559
Angel Rios. (Febrero de 2009). Oracle Data Integrator. Recuperado el 19 de Abril de 2016, de
http://www.oracle.com/ocom/groups/public/@otn/documents/webcontent/317498_esa.p
df
Bcares, B. (16 de Julio de 2014). Channelbiz. Obtenido de

http://www.channelbiz.es/2014/07/16/oracle-lanza-big-data-sql-una-herramienta-para-
analizar-los-grandes-datos/
Brust, A. (2 de Marzo de 2012). ZDNet. Obtenido de Big Data Analytics:

http://www.zdnet.com/article/mapreduce-and-mpp-two-sides-of-the-big-data-coin/
Camacho, E. (Julio de 2010). SG Buzz. Obtenido de Herramientas y Tecnologas:

http://sg.com.mx/revista/42/nosql-la-evolucion-las-bases-datos#.ViGHTJen_IU
Cisco. (s.f.). Visual Networking Index (VNI). Recuperado el 12 de Mayo de 2016, de

http://www.cisco.com/c/en/us/solutions/service-provider/visual-networking-index-
vni/index.html#~vniforecast
Cloudera. (15 de Octubre de 2015). Cloudera. Recuperado el 19 de Abril de 2016, de

https://www.cloudera.com/products/apache-hadoop/key-cdh-components.html
Datakind. (2015). Datakind.org. Obtenido de http://www.datakind.org/
Debitoor. (7 de Noviembre de 2010). Debitoor. Obtenido de Definicin de Cloud computing:

https://debitoor.es/glosario/definicion-cloud-computing
EcuRed. (26 de Marzo de 2016). EcuRed. Obtenido de http://www.ecured.cu/Kernel
FICO. (10 de julio de 2013). El Big Bang de la Analtica. Obtenido de

http://www.fico.com/landing/infographic/The-Analytics-Big-Bang_es.html
Garcia, R. (29 de Noviembre de 2009). Apache CouchDB: una base de datos NoSQL (Relax). Obtenido
de http://www.rgnu.com.ar/tag/couchdb/
Heredero, C. d. (2004). Informtica y Comunicaciones en la Empresa. Madrid: ESIC Editorial.

Obtenido de
https://books.google.com.ec/books?id=U0MXWtqjxtsC&pg=PA74&dq=definici%C3%B3n+de
+cluster+en+inform%C3%A1tica&hl=es&sa=X&redir_esc=y#v=onepage&q=definici%C3%B3n
%20de%20cluster%20en%20inform%C3%A1tica&f=false
IBM. (12 de Frebrero de 2014). IBM Ecuador. Obtenido de http://www-

01.ibm.com/software/ec/data/infosphere/hadoop/que-es.html
Jean-Pierre Dijcks-Oracle. (3 de Abril de 2014). ORACLE. Recuperado el 19 de Abril de 2016, de

https://blogs.oracle.com/datawarehousing/entry/updated_price_comparison_for_big

172
Jimnez, C. M. (Diciembre de 2014). Big data. Un nuevo paradigma. Anales de Mecnica y

Electricidad, 13. Recuperado el 15 de Febrero de 2016, de http://www.revista-
anales.es/web/n_29/pdf/10-16.pdf
Jimnez, C. M. (Diciembre de 2014). Big Data. Un nuevo paradigma. Anales de Mecnica y

Electricidad, 11. Recuperado el 18 de Febrero de 2016, de http://www.revista-
anales.es/web/n_29/pdf/10-16.pdf
Leskovec, J., Rajaraman , A., & Ullman, J. (2014). Datasets, Mining of Massive. (A. Ramos Ramn, & J.
Lpez Dvila, Trads.) Palo Alto, California, Estados Unidos de Amrica. Recuperado el 12 de
Febrero de 2016, de http://infolab.stanford.edu/~ullman/mmds/book.pdf
Leskovec, R. a. (s.f.). Mining Massive Datasets. Obtenido de The MapReduce Computational Model
(22:04):
https://d396qusza40orc.cloudfront.net/mmds/lecture_slides/MapReduce2_TheMapReduce
ComputationalModel.pdf
Leskovec, Rajaraman, and Ullaman. (s.f.). Mining Massive Datasets. Obtenido de

https://d396qusza40orc.cloudfront.net/mmds/lecture_slides/MapReduce2_TheMapReduce
ComputationalModel.pdf
Los Angeles Times. (13 de Abril de 2009). Iving John Good Statistician helped crack Nazi code.
Obtenido de http://www.latimes.com/local/obituaries/la-me-passings13-2009apr13-
story.html
Margaret Rouse. (22 de Enero de 2015). Techtarget. Obtenido de

http://searchdatacenter.techtarget.com/es/definicion/Base-de-datos-relacional
Marr, B. (2015). Big Data Case Study Collection. Wiley, 2-29.
Matei Zaharia, V. S. (11 de Febrero de 2014). Databricks. (C. Ramos , & J. Lpez, Productores)
Recuperado el 31 de Marzo de 2016, de https://databricks.com/spark/about
Mipagerank. (1 de Marzo de 2003). Qu es el PageRank? Obtenido de

http://www.mipagerank.com/?goto=que-es-el-pagerank
Morros, R. S. (Noviembre de 2013). Universidad Politcnica de Catalunia. Obtenido de Big Data,

Anlisis de herramientas y soluciones:
http://upcommons.upc.edu/bitstream/handle/2099.1/19855/90807.pdf?sequence=1
Nik Rouda, Senior Analyst and Adam DeMattia, Research Analyst. (Diciembre de 2015). Oracle.
Recuperado el 19 de Abril de 2016, de http://www.oracle.com/us/technologies/big-
data/eng-systems-for-big-data-esg-wp-2852701.pdf
Ohlhorst, F. J. (2012). Big Data Analytics: Turning Big Data into Big Money. New Jersey: John Wiley &
Sons.
Ohlhorst, F. J. (2012). Big Data Analytics: Turning Big Data into Big Money. North Carolina: John
Wiley & Sons. Obtenido de
https://books.google.com.ec/books?id=09JagAXxSYgC&printsec=frontcover&dq=big+data+a
nalytics&hl=es&sa=X&sqi=2&redir_esc=y#v=onepage&q=big%20data%20analytics&f=false

173
Oracle. (Diciembre de 2015). Oracle. Recuperado el 4 de Abril de 2016, de

http://www.oracle.com/us/products/database/nosql/overview/index.html
Oracle. (2016). Oracle. Recuperado el 19 de Abril de 2016, de

http://www.oracle.com/lad/products/database/big-data-appliance/overview/index.html
Oracle. (s.f.). Oracle. Obtenido de http://www.oracle.com/lad/products/database/big-data-

appliance/overview/index.html
O'Ryan, R. E. (3 de Diciembre de 2014). Dice. (C. Ramos, & J. Lpez, Productores) Recuperado el 31
de Marzo de 2016, de http://insights.dice.com/2014/03/12/apache-spark-next-big-thing-
big-data/
Ricardo Barranco Fragoso, IT Specialist for information Management, IBM Software Group . (18 de
Junio de 2012). IBM developerWorks. Obtenido de
https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/
Ricardo Barranco Fragoso, IT Specialist for Information Management, IBM Software Group Mxico.
(18 de 06 de 2012). /www.ibm.com. Obtenido de
https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/
SAS. (5 de Enero de 2016). Statistical Analysis System. Obtenido de Sistema de Anlisis Estadstico:
http://www.sas.com/es_mx/company-information.html
Schmarzo, B. (2013). Apache Hadoop. En B. Schmarzo, Big Data: Undersatanding How Data Powers
Big Business. (Big Data, El poder de los datos) (V. Gonzles Len, Trad., pg. 212). Madrid,
Espaa: ANAYA. Recuperado el 30 de Marzo de 2016
Schmarzo, B. (2013). Big Data: Understanding How Data Powers Big Business (Big Data, El poder de
los datos). (L. Vicente Gonzlez, Trad.) Madrid, Espaa: ANAYA.
Shakuntala Gupta, E., & Sabharwal, N. (2015). Pactical MongoDB: Architecting, Developing, and
Administering MongoDB. Nueva York: Apress.
Sullivan, D. (8 de Abril de 2014). Tom's IT PRO. Obtenido de Getting Started with Hadoop 2.0.
Tablet Army. (2012). Manual Bsico. Qu es el Big Data. En Manual Bsico. Qu es el Big Data (pg.
6). Madrid: Prodigioso Volcn.
The Apache Software Foundation. (26 de Enero de 2016). Hadoop. Obtenido de

https://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-
common/SingleCluster.html#Standalone_Operation
Trujillo, J. C. (2013). Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado

multidimensional. Alicante, Espaa: ECU. Obtenido de
http://puceftp.puce.edu.ec:2057/lib/pucesp/reader.action?docID=10751536

multidimensional. Alicante, Espaa: ECU. Obtenido de
http://puceftp.puce.edu.ec:2057/lib/pucesp/reader.action?docID=10751536&ppg=2

174

multidimensional. Alicante: ECU. Obtenido de
http://puceftp.puce.edu.ec:2057/lib/pucesp/reader.action?docID=10751536
Twitter. (2016). Centro de Ayuda Twitter. Recuperado el 06 de 07 de 2016, de

https://support.twitter.com/articles/332061

175
ANEXOS
ANEXO 1: Manual de Usuario Hadoop.
El clster de Hadoop consta de cuatro mquinas las cuales estn etiquetadas o nombradas
de la siguiente manera:
Mquina 1:
Nombre: principal
Contrasea: carojona
IP: 192.168.1.100
Hostname y Dominio: master-node.centos
Mquina 2:
Nombre: secundario1
Contrasea: carojona
IP: 192.168.1.101
Hostname y Dominio: slave1-node.centos
Mquina 3:
Nombre: secundario2
Contrasea: carojona
IP: 192.168.1.102
Mquina 4:
Nombre: secundario3
Contrasea: carojona
IP: 192.168.1.103

176
Todas las mquinas constan de la misma contrasea, para el ingreso al sistema.
Una vez que se haya ingresado al sistema, dirigirse a la terminal e ingresar con privilegios de
root, en vista que la instalacin y configuracin fue realizada en este usuario.
Una vez ingresado como root, se procede a encender los servicios de Hadoop de la siguiente
manera:
Para ingresar con privilegios de root digitar el siguiente comando:
$su
Digitar la contrasea: carojona
Para encender los servicios de Hadoop, es decir, los demonios del Nodo Master y
Nodos Esclavos desde la mquina correspondiente al Nodo Master (principal), digitar
el siguiente comando:
#start-all.sh
Al encender los servicios de Hadoop, se visualizar lo siguiente:

177
Como se muestra en la imagen superior, es necesario digitar la contrasea de la mquina

correspondiente al host master-node.centos, la cual es: carojona. Se pide ingresar una
contrasea puesto que se est accediendo a la mquina nombrada. Una vez realizado esto
se encendern los servicios como se puede visualizar en la siguiente imagen:

178
As se puede observar como los servicios datanode se encendieron en cada uno de los Nodos
Esclavo. De igual manera, en la imagen superior se muestra que es necesario ingresar una
contrasea, sta es la misma que en el paso anterior, es decir: carojona. Una vez ingresada
la contrasea, se encienden los dems servicios como el nodemanager y resourcemanager
tal como se evidencia en la siguiente imagen:
Realizados los pasos anteriores, quedaran inicializados todos los servicios de Hadoop en el
Nodo Master y Nodos Esclavos.
De igual manera, si se desea apagar los servicios de Hadoop desde la mquina del Nodo
Master, se puede digitar el siguiente comando:
#stop-all.sh
Hadoop cuenta con algunos ejemplos, tal como se explic en el Captulo IV en la Instalacin
y Configuracin de Hadoop. Los ejemplos con los que cuenta esta herramienta se pueden

179
verificar en la siguiente direccin: opt/hadoop/share/hadoop/mapreduce, tal como se muestra

a continuacin:
El archivo hadoop-mapreduce-examples-2.7.2.jar, cuenta con algunos ejemplos que pueden

ser probados como se explic en el Captulo IV en la Instalacin y Configuracin de Hadoop.
En la siguiente imagen se pueden observar algunos de los ejemplos con los que cuenta esta
herramienta:

180

181
ANEXO 2: Manual de Usuario de Recoleccin de Tweets (CouchDB).
Para la recoleccin de tweets, se utiliz una mquina con sistema operativo Ubuntu 16.04,
en la cual se encuentran configuradas las libreras que utiliza Python para la recoleccin de
tweets.
Mquina:
Nombre: bigdata
Contrasea: ltic2016
Una vez dentro del sistema, acceder a la terminal y en este caso no es necesario ingresar
con privilegios de root. En seguida, digitar dentro de la terminal la direccin que contiene el
programa desarrollado en lenguaje Python, mismo que servir para la recoleccin de los
tweets: cd /home/bigdata/Documentos/, si se desea comprobar que el archivo se encuentra
en esta direccin se puede digitar el comando ls.
Ya ubicados en la direccin anterior, se procede a ejecutar el programa digitando lo siguiente:

python tweets.py. Pasos que se pueden observar en la siguiente imagen:

182
Cuando ya se haya ejecutado el programa es importante no cerrar la terminal, puesto que

mientras sta est abierta se continuar con la recoleccin de tweets y si la terminal es
cerrada la recoleccin de los mismos finalizar.
Finalmente, es necesario abrir el explorador para poder acceder a la interfaz de CouchDB,

para ello se debe digitar en la barra de direcciones del explorador lo siguiente:
http://127.0.0.1:5984/_utils/

183
Como se muestra en la figura anterior, los tweets han sido guardados en la base de datos
quito, para poder acceder a ellos basta con dar un click en el nombre de la base.

184

Guía Metodológica de Big Data Ramos-Lopez PDF

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Guía Metodológica de Big Data Ramos-Lopez PDF

Загружено:

Авторское право:

Доступные форматы

PONTIFICIA UNIVERSIDAD CATLICA DEL ECUADOR

DISERTACIN PREVIA A LA OBTENCIN DEL TTULO DE

PONTIFICIA UNIVERSIDAD CATLICA DEL ECUADOR, FACULTAD DE INGENIERA, ESCUELA DE SISTEMAS.

PONTIFICIA UNIVERSIDAD CATLICA DEL ECUADOR, FACULTAD DE INGENIERA, ESCUELA DE SISTEMAS.

PONTIFICIA UNIVERSIDAD CATLICA DEL ECUADOR, FACULTAD DE INGENIERA, ESCUELA DE SISTEMAS.

PONTIFICIA UNIVERSIDAD CATLICA DEL ECUADOR, FACULTAD DE INGENIERA, ESCUELA DE SISTEMAS.

PONTIFICIA UNIVERSIDAD CATLICA DEL ECUADOR, FACULTAD DE INGENIERA, ESCUELA DE SISTEMAS.

3.1. Plataformas de Big Data ............................................................................................... 50

PONTIFICIA UNIVERSIDAD CATLICA DEL ECUADOR, FACULTAD DE INGENIERA, ESCUELA DE SISTEMAS.

Figura 4.1: Topologa de un clster de Hadoop en Modo Completamente Distribuido (multi-

PONTIFICIA UNIVERSIDAD CATLICA DEL ECUADOR, FACULTAD DE INGENIERA, ESCUELA DE SISTEMAS.

Figura 4.17: Pgina de descarga de Hadoop. ............................................................................. 68

PONTIFICIA UNIVERSIDAD CATLICA DEL ECUADOR, FACULTAD DE INGENIERA, ESCUELA DE SISTEMAS.

Figura 4.61: Abrir archivo yarn-site.xml Nodo Master. ................................................................ 97

PONTIFICIA UNIVERSIDAD CATLICA DEL ECUADOR, FACULTAD DE INGENIERA, ESCUELA DE SISTEMAS.

PONTIFICIA UNIVERSIDAD CATLICA DEL ECUADOR, FACULTAD DE INGENIERA, ESCUELA DE SISTEMAS.

Figura 4. 153: Acceso a carpeta CouchDB-09. ......................................................................... 148

PONTIFICIA UNIVERSIDAD CATLICA DEL ECUADOR, FACULTAD DE INGENIERA, ESCUELA DE SISTEMAS.

La elaboracin de la presente disertacin de grado surgi de la necesidad de profundizar en

PONTIFICIA UNIVERSIDAD CATLICA DEL ECUADOR, FACULTAD DE INGENIERA, ESCUELA DE SISTEMAS.

ellos datos no estructurados, provenientes de formatos escritos en papel como recetas

PONTIFICIA UNIVERSIDAD CATLICA DEL ECUADOR, FACULTAD DE INGENIERA, ESCUELA DE SISTEMAS.

Antecedentes o Marco Referencial

En la actualidad el volumen de los datos ha crecido de manera exponencial e inmensurable,

Relevancia Social: Actualmente, el auge de redes sociales, el crecimiento de la poblacin,

Relevancia Acadmica: Generar una gua metodolgica para el proceso enseanza-

Relevancia Personal: La elaboracin de una gua metodolgica para el proceso enseanza-

PONTIFICIA UNIVERSIDAD CATLICA DEL ECUADOR, FACULTAD DE INGENIERA, ESCUELA DE SISTEMAS.

Establecer una metodologa innovadora para el proceso de enseanza

PONTIFICIA UNIVERSIDAD CATLICA DEL ECUADOR, FACULTAD DE INGENIERA, ESCUELA DE SISTEMAS.

CAPTULO I: QE ES BIG DATA?

PONTIFICIA UNIVERSIDAD CATLICA DEL ECUADOR, FACULTAD DE INGENIERA, ESCUELA DE SISTEMAS.

En trminos generales Big Data se puede referir a la tendencia en el avance de la tecnologa

1.1.1. Las 4 Vs de Big Data

Veracidad: Las enormes cantidades de datos recogidos pueden conducir a errores

PONTIFICIA UNIVERSIDAD CATLICA DEL ECUADOR, FACULTAD DE INGENIERA, ESCUELA DE SISTEMAS.

Figura 1.1: Las 4 Vs de Big Data

Teniendo en cuenta que el ser humano desde tiempos inmemorables no ha dejado de

Pero ya para el ao de 1890 las cosas empezaron a cambiar gracias a la introduccin de la

PONTIFICIA UNIVERSIDAD CATLICA DEL ECUADOR, FACULTAD DE INGENIERA, ESCUELA DE SISTEMAS.

A continuacin, en el ao de 1940 Turing y Good2 realizaron un trabajo distintivo para

As muchos cambios siguieron apareciendo, y en el ao de 1966 SAS Institute3 comenz

PONTIFICIA UNIVERSIDAD CATLICA DEL ECUADOR, FACULTAD DE INGENIERA, ESCUELA DE SISTEMAS.

Figura 1.2: Historia/Evolucin Big Data.

PONTIFICIA UNIVERSIDAD CATLICA DEL ECUADOR, FACULTAD DE INGENIERA, ESCUELA DE SISTEMAS.

PONTIFICIA UNIVERSIDAD CATLICA DEL ECUADOR, FACULTAD DE INGENIERA, ESCUELA DE SISTEMAS.

1.3.1. Prediccin de eventos con Big Data

Aprovechar el poder de la ciencia de datos en el servicio de la humanidad. (Datakind, 2015)

Por ejemplo, la prediccin de zonas geogrficas vulnerables a crmenes. Hoy en da se han

1.4. Conceptos Generales del Captulo

1.4.1. Tabla de equivalencias de Informtica

PONTIFICIA UNIVERSIDAD CATLICA DEL ECUADOR, FACULTAD DE INGENIERA, ESCUELA DE SISTEMAS.

Tabla 1.1: Tabla De Unidades Bsicas De Informacin Y Tratamiento De Datos. Fuente:

1.4.2. Datos estructurados, no estructurados y semi estructurados

Existen distintos tipos de datos que de acuerdo a su clasificacin proporcionan perspectivas

PONTIFICIA UNIVERSIDAD CATLICA DEL ECUADOR, FACULTAD DE INGENIERA, ESCUELA DE SISTEMAS.

Datos estructurados: Son el resultado de tomar datos organizados y formatearlos para

1.4.3. Base de datos

1.4.4. Business Intelligence (Inteligencia de Negocio, BI)

PONTIFICIA UNIVERSIDAD CATLICA DEL ECUADOR, FACULTAD DE INGENIERA, ESCUELA DE SISTEMAS.

CAPITULO II: Generalidades de Big Data

2.1. reas de Big Data

Actualmente, muchas empresas estn logrando especializarse en la recoleccin de datos a