Instalacion de R y Hadoop

Introducción
Se muestra el proceso de la instalación de Rstudio y Hadoop respectivamente s los

pasos que se tienen que seguir
¿Qué es RStudio?
RStudio es una interfaz que permite acceder de manera sencilla a toda la potencia de
R, para utilizarRStudio se requiere haber instalado R previamente. ... Es un lenguaje
de programación completo con el que se añaden nuevas técnicas mediante
la definición de funciones.
¿Qué es Hadoop?
Hadoop es un sistema de código abierto que se utiliza para almacenar, procesar y
analizar grandes volúmenes de datos; cientos de terabytes, petabytes o incluso más.
Este software es necesario para poder introducirnos a la materia de Big Data de

manera que podamos obtener un background practico para empezar y poder
desarrollar proyectos más completos y que requieran más esfuerzo.
Como hemos visto anteriormente Big Data es una de las herramientas que
revolucionaran al mundo por medio del estudio y chequeo de la información masiva
que siempre ha estado presente en nuestras vidas pero que no alcanzamos o logramos
percibir como lo hace este tipo de tecnología haciendo más óptimo y eficiente el
desenvolvimiento en tareas o trabajos refinando el mas mínimo detalle conforme pasa
el tiempo.
Pre-requisitos para la instalación de Rstudio (RBase)
Para poder instalar RStudio se requiere instalar de RBase es una paquetería que sirve
como base (como su nombre lo dice) para la instalación de dicho software en la imagen
anterior se ejecuta el instalador de este.
Como podemos observar en la imagen nos preguntara el destino de instalación del

programa elegimos el que nosotros queramos o el que ya viene preestablecido.
Aquí nos mostrara las opciones que deseemos instalar, si no eres usuario experiencia
do es recomendable mantener todas las opciones seleccionadas.
Aquí aceptamos las especificaciones si no estamos seguros podemos regresar al menú

anterior.
Esto depende de las preferencias del usuario si quieres trabajar en una sola ventana o
múltiples ventanas a la hora de necesitarse esta opción.
Aquí también depende del usuario si de qué manera desea que se despliegue el texto
simple.
En este menú indicaremos si queremos agregar el programa al menú de inicio
En esta parte de la instalación también nos dira si queremos agregar algún acceso
directo.
Aquí se mostrara el proceso de la instalación.
Una vez terminada la instalación procederemos a presionar el botón de finalizar

Instalacion de RStudio
Como podemos observar la instalación de Rstudio es muy similar a la instalación de

RBase
Indicaremos la ruta en donde queremos que se instale RStudio

Aquí indicaremos en que parte del menú de inicio queremos que se alojen los accesos
directos
Aquí empieza el proceso de instalación al finalizar ejecutaremos el programa para

checar que se haya instalado correctamente
Como podemos observar RStudio se ejecutó sin ningún problema y está listo para
poder utilizarlo.
Pasos para la instalación de Hadoop 2.8.4 en Ubuntu
Instalación de JAVA
Para la instalación de JAVA necesitas ejecutar los siguientes comandos
en la terminal:
sudo apt update
sudo apt install default-jdk
Una vez completada la instalación comprobamos la versión con el

siguiente comando:
java -version
Instalación de Hadoop
Ingresamos a la pagina oficial de Hadoop (Apache):
http://hadoop.apache.org/releases.html
Buscamos la versión 2.8.4 clickeamos en la parte de la tabla donde dice

Binary
Nos mandara a la siguiente pagina algo como esto:
nos generara un enlace el cual tenemos que bajar con el comando wget
wget http://www-eu.apache.org/dist/hadoop/common/hadoop-2.8.4/hadoop-2.8.4.tar.gz
se bajara en nuestro folder personal:

Agregamos un usuario llamado “hduser”
sudo su
adduser hduser // desde root
passwd hadoop
Ponemos su nombre completo igual que el anterior “hduser”
Una vez terminado el paso anterior cerramos la terminal y abrimos otra

ingresamos los siguientes comandos:
sudo su hduser
pass: hadoop
cd
Una vez logueados en el usuario hduser procederemos a

instalar/crear el inicio de sesion SSH
Ingresamos los siguientes comandos:

ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys
Una vez creada la sesión salimos con los siguientes comandos:

ssh localhost
exit
ahora vamos a la carpeta principal para extraer el paquete de
hadoop
cd ~
tar xzf hadoop-2.8.4.tar.gz
mv hadoop-2.8.4 hadoop
Agregamos las siguientes variables de entorno

primero ingresamos a la terminal este comando
sudo nano ~/.bashrc
Agregamos esto hasta el final del documento:
export HADOOP_HOME=/home/hduser/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export
HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/n
ative
export
PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
Guardamos los cambios y ejecutamos el siguiente comando para

actualizar las variables de entorno:
source ~/.bashrc
Ahora editamos la ruta de la carpeta JAVA en el archivo hadoop-

env.sh
Para saber la ruta de donde se encuentra nuestro directorio java
ejecutamos el siguiente comando
readlink -f /usr/bin/java | sed "s:bin/java::"
Ingresamos al siguiente archivo
nano HADOOP_HOME/etc/hadoop/hadoop-env.sh
Buscamos la siguiente linea y remplazamos

#export JAVA_HOME=${JAVA_HOME}
export JAVA_HOME=AQUI AGREGAMOS LA RUTA DE LA CARPETA JAVA
Editamos los archivos de configuración
hadoop/etc/hadoop/core-site.xml:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
hadoop/etc/hadoop/hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
Procedemos a formatear Namenode para poder inciar el cluster

de hadoop
hdfs namenode -format
Ingresamos a la siguiente dirección:

cd $HADOOP_HOME/sbin/
Y ejecutamos los servicios:

./start-all.sh
Ahora podemos abrir en el navegador las siguientes direcciones:

http://127.0.0.1:50070/
http://127.0.0.1:8088/cluster
Conclusión
Con estos pasos podemos guiarnos y realizar la instalación correcta de estos softwares
que son muy necesarios para el procesamiento de datos masivos los pasos son
relativamente simples algunos son un poco complicados, pero es necesario seguirlos
para que a la hora de ocupar de estas herramientas podamos realizar los proyectos
que se requieran sin ningún problema es recomendable buscar la información en ingles
ya que suele estar más actualizada.
En las respectivas paginas oficiales de cada programa se encuentra la documentación

necesaria en caso de que se requiera indagar algo en específico.
Bibliografía
RStudio. (2018). Rstudio. 02/09/2018, de Rstudio Sitio web:
https://www.rstudio.com
Hadoop. (2018). Hadoop. 02/09/2018, de Apache Sitio web:
http://hadoop.apache.org

Instalacion de R y Hadoop

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Instalacion de R y Hadoop

Загружено:

Авторское право:

Доступные форматы

Introducción

Se muestra el proceso de la instalación de Rstudio y Hadoop respectivamente s los

Este software es necesario para poder introducirnos a la materia de Big Data de

Como podemos observar en la imagen nos preguntara el destino de instalación del

Aquí aceptamos las especificaciones si no estamos seguros podemos regresar al menú

En este menú indicaremos si queremos agregar el programa al menú de inicio

Una vez terminada la instalación procederemos a presionar el botón de finalizar

Como podemos observar la instalación de Rstudio es muy similar a la instalación de

Indicaremos la ruta en donde queremos que se instale RStudio

Aquí empieza el proceso de instalación al finalizar ejecutaremos el programa para

sudo apt update

sudo apt install default-jdk

Una vez completada la instalación comprobamos la versión con el

Buscamos la versión 2.8.4 clickeamos en la parte de la tabla donde dice

se bajara en nuestro folder personal:

Una vez terminado el paso anterior cerramos la terminal y abrimos otra

Una vez logueados en el usuario hduser procederemos a

Ingresamos los siguientes comandos:

Una vez creada la sesión salimos con los siguientes comandos:

Agregamos las siguientes variables de entorno

Guardamos los cambios y ejecutamos el siguiente comando para

Ahora editamos la ruta de la carpeta JAVA en el archivo hadoop-

Ingresamos al siguiente archivo

Buscamos la siguiente linea y remplazamos

Editamos los archivos de configuración

Procedemos a formatear Namenode para poder inciar el cluster

Ingresamos a la siguiente dirección:

Y ejecutamos los servicios:

Ahora podemos abrir en el navegador las siguientes direcciones:

En las respectivas paginas oficiales de cada programa se encuentra la documentación

Вам также может понравиться