Вы находитесь на странице: 1из 18

Introducción

Se muestra el proceso de la instalación de Rstudio y Hadoop respectivamente s los


pasos que se tienen que seguir

¿Qué es RStudio?
RStudio es una interfaz que permite acceder de manera sencilla a toda la potencia de
R, para utilizarRStudio se requiere haber instalado R previamente. ... Es un lenguaje
de programación completo con el que se añaden nuevas técnicas mediante
la definición de funciones.

¿Qué es Hadoop?
Hadoop es un sistema de código abierto que se utiliza para almacenar, procesar y
analizar grandes volúmenes de datos; cientos de terabytes, petabytes o incluso más.

Este software es necesario para poder introducirnos a la materia de Big Data de


manera que podamos obtener un background practico para empezar y poder
desarrollar proyectos más completos y que requieran más esfuerzo.

Como hemos visto anteriormente Big Data es una de las herramientas que
revolucionaran al mundo por medio del estudio y chequeo de la información masiva
que siempre ha estado presente en nuestras vidas pero que no alcanzamos o logramos
percibir como lo hace este tipo de tecnología haciendo más óptimo y eficiente el
desenvolvimiento en tareas o trabajos refinando el mas mínimo detalle conforme pasa
el tiempo.
Pre-requisitos para la instalación de Rstudio (RBase)

Para poder instalar RStudio se requiere instalar de RBase es una paquetería que sirve
como base (como su nombre lo dice) para la instalación de dicho software en la imagen
anterior se ejecuta el instalador de este.

Como podemos observar en la imagen nos preguntara el destino de instalación del


programa elegimos el que nosotros queramos o el que ya viene preestablecido.
Aquí nos mostrara las opciones que deseemos instalar, si no eres usuario experiencia
do es recomendable mantener todas las opciones seleccionadas.

Aquí aceptamos las especificaciones si no estamos seguros podemos regresar al menú


anterior.
Esto depende de las preferencias del usuario si quieres trabajar en una sola ventana o
múltiples ventanas a la hora de necesitarse esta opción.
Aquí también depende del usuario si de qué manera desea que se despliegue el texto
simple.

En este menú indicaremos si queremos agregar el programa al menú de inicio

En esta parte de la instalación también nos dira si queremos agregar algún acceso
directo.
Aquí se mostrara el proceso de la instalación.

Una vez terminada la instalación procederemos a presionar el botón de finalizar


Instalacion de RStudio

Como podemos observar la instalación de Rstudio es muy similar a la instalación de


RBase

Indicaremos la ruta en donde queremos que se instale RStudio


Aquí indicaremos en que parte del menú de inicio queremos que se alojen los accesos
directos

Aquí empieza el proceso de instalación al finalizar ejecutaremos el programa para


checar que se haya instalado correctamente
Como podemos observar RStudio se ejecutó sin ningún problema y está listo para
poder utilizarlo.
Pasos para la instalación de Hadoop 2.8.4 en Ubuntu

Instalación de JAVA
Para la instalación de JAVA necesitas ejecutar los siguientes comandos
en la terminal:

sudo apt update

sudo apt install default-jdk

Una vez completada la instalación comprobamos la versión con el


siguiente comando:

java -version

Instalación de Hadoop
Ingresamos a la pagina oficial de Hadoop (Apache):
http://hadoop.apache.org/releases.html

Buscamos la versión 2.8.4 clickeamos en la parte de la tabla donde dice


Binary
Nos mandara a la siguiente pagina algo como esto:

nos generara un enlace el cual tenemos que bajar con el comando wget

wget http://www-eu.apache.org/dist/hadoop/common/hadoop-2.8.4/hadoop-2.8.4.tar.gz

se bajara en nuestro folder personal:


Agregamos un usuario llamado “hduser”
sudo su
adduser hduser // desde root
passwd hadoop
Ponemos su nombre completo igual que el anterior “hduser”

Una vez terminado el paso anterior cerramos la terminal y abrimos otra


ingresamos los siguientes comandos:

sudo su hduser
pass: hadoop
cd

Una vez logueados en el usuario hduser procederemos a


instalar/crear el inicio de sesion SSH

Ingresamos los siguientes comandos:


ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys

Una vez creada la sesión salimos con los siguientes comandos:


ssh localhost
exit
ahora vamos a la carpeta principal para extraer el paquete de
hadoop

cd ~
tar xzf hadoop-2.8.4.tar.gz
mv hadoop-2.8.4 hadoop

Agregamos las siguientes variables de entorno


primero ingresamos a la terminal este comando
sudo nano ~/.bashrc
Agregamos esto hasta el final del documento:
export HADOOP_HOME=/home/hduser/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export
HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/n
ative
export
PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

Guardamos los cambios y ejecutamos el siguiente comando para


actualizar las variables de entorno:
source ~/.bashrc

Ahora editamos la ruta de la carpeta JAVA en el archivo hadoop-


env.sh
Para saber la ruta de donde se encuentra nuestro directorio java
ejecutamos el siguiente comando
readlink -f /usr/bin/java | sed "s:bin/java::"

Ingresamos al siguiente archivo

nano HADOOP_HOME/etc/hadoop/hadoop-env.sh

Buscamos la siguiente linea y remplazamos


#export JAVA_HOME=${JAVA_HOME}
export JAVA_HOME=AQUI AGREGAMOS LA RUTA DE LA CARPETA JAVA

Editamos los archivos de configuración

hadoop/etc/hadoop/core-site.xml:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>

hadoop/etc/hadoop/hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

Procedemos a formatear Namenode para poder inciar el cluster


de hadoop
hdfs namenode -format

Ingresamos a la siguiente dirección:


cd $HADOOP_HOME/sbin/

Y ejecutamos los servicios:


./start-all.sh

Ahora podemos abrir en el navegador las siguientes direcciones:


http://127.0.0.1:50070/

http://127.0.0.1:8088/cluster
Conclusión
Con estos pasos podemos guiarnos y realizar la instalación correcta de estos softwares
que son muy necesarios para el procesamiento de datos masivos los pasos son
relativamente simples algunos son un poco complicados, pero es necesario seguirlos
para que a la hora de ocupar de estas herramientas podamos realizar los proyectos
que se requieran sin ningún problema es recomendable buscar la información en ingles
ya que suele estar más actualizada.

En las respectivas paginas oficiales de cada programa se encuentra la documentación


necesaria en caso de que se requiera indagar algo en específico.
Bibliografía
RStudio. (2018). Rstudio. 02/09/2018, de Rstudio Sitio web:
https://www.rstudio.com
Hadoop. (2018). Hadoop. 02/09/2018, de Apache Sitio web:
http://hadoop.apache.org

Вам также может понравиться