Вы находитесь на странице: 1из 7

Ingeniare. Revista chilena de ingeniera, vol.

xx N x, 20xx

cualAnlisis de Sentimientos usando el API de Twitter


Feelings Analysis Using the API Twitter
Reyes Zambrano Gary 1

Reyes Tomal Jonathan 2

Aroca Albio Wellington 3

RESUMEN
En este trabajo se describe el proceso para el anlisis de sentimientos utilizando aplicativos como lo
son: Hadoop en su versin 2.3.2, y las facilidades que proporciona el API (Application Programming
Interface, por sus siglas en ingls) de Twitter para la extraccin y procesamiento de informacin
(Tweets) De la Universidad de Guayaquil Ecuador. Assepuedeevaluar la informacin obtenida
mediante la ejecucin de distintos Scripts, contienen algoritmos necesarios para el anlisis de
sentimientos y determinar si es un comentario positivo, negativo o neutral y de esta manera obtener
como resultado final informacin que ayude a determinar los sentimientos de los usuarios de la
cuenta de la Universidad de Guayaquil.
Palabras clave: Anlisis de sentimientos, Twitter, Universidad de Guayaquil.
ABSTRACT
In this paper the process for analyzing feelings described using applications such as: Hadoop in
version 2.3.2, and the facilities provided by the API (Application Programming Interface, for its
acronym in English) from Twitter for extraction and information processing (Tweets) of the University
of Guayaquil - Ecuador. So you can evaluate the information obtained by running different scripts
contain algorithms required for the analysis of feelings and determine if it is a positive, negative or
neutral comment and thus obtain the final result information to help determine the feelings of account
users at the University of Guayaquil..
Keywords: Sentiment analysis, Twitter, University of Guayaquil.

INTRODUCCIN
Las redes sociales actualmente son un gran
banco de informacin como lo es Twitter en la
cal se puede hallar gran informacin referente a
cualquier tema en particular que se desea saber
ya sea sobre la pelcula que est por estrenarse
como los partidos del aos pasado en general
este gran banco de informacin puede ser
explotado con el fin de informarse
principalmente as como otro tipos de usos;
como su aplicacin en diferentes reas
tecnolgicas ya que mucha veces se quiere tener
informacin sobre algn tema en especfico y

realizar la recoleccin de esta informacin por


este medio nos resultara demasiado lento e
ineficiente y an ms difcil clasificarlos de
manera que se puedan separar los positivos de
los negativos y debido a estos inconvenientes
surge una tcnica de procesamiento de
informacin masiva denominada anlisis de
sentimientos.
El anlisis de sentimientos o definido en la red
como minera de opcin es el procesamiento del
lenguaje natural como lo es el anlisis de un
texto para identificar y extraer informacin
subjetiva es decir informacin basada en el
estado de nimo de cada individuo.

Facultad de Ciencias Fsicas y Matemticas. Universidad de Guayaquil. Guayaquil, Ecuador. E-mail: Gary.reyesz@ug.edu.ec
Facultad de Ciencias Fsicas y Matemticas. Universidad de Guayaquil. Guayaquil, Ecuador. E-mail:
jonathan.reyest@ug.edu.ec
3
Facultad de Ciencias
Fsicas
y Matemticas. Universidad de Guayaquil. Guayaquil, Ecuador E-mail:
Wellington.arocaa@ug.edu.ec
2

Ingeniare. Revista chilena de ingeniera, vol. xx N x, 20xx

En si el Anlisis de sentimientos lo que intenta


determinar es la actitud de un interlocutor con
respecto a un tema especfico o la polaridad
contextual general de un documento es decir si
lo que escribe el interlocutor es positivo o
negativo ya que esto tiene gran impacto sobre el
tema, uno de los motivos por los que se decide
dar paso a este tipo de procedimiento puede ser
por su juicio o evaluacin.

Un Software virtualizador para lo cual


se utilizar VirtualBox en su ltima
versin a la que se podr tener acceso
desde su sitio oficial en la web y
dependiendo de la arquitectura de
nuestro equipo procede con su
descarga.

Como aplicativo principal se utilizar


Hortonworks sandbox para VirtualBox
en su versin 2.3.2 el que se puede
descargar desde el sitio oficial de
Hortonworks de as requerirlo; se
recomienda disponer de un buen ancho
de banda para la descarga del mismo ya
que su tamao es de 8.5 GB.

Una vez determinado el concepto en si del


anlisis de sentimientos que permite lograr
determinar si los Tweets extrados sobre un tema
en especfico contenan informacin negativa a o
positiva para su posterior clasificacin y
almacenamiento lo cual permite tener
informacin directamente de los usuarios finales
por lo que hoy en la actualidad est teniendo
gran acogida debido a la creciente competencia
en el mercado ya que de esto depende xito o
fracaso de las mismas.
Por lo cual se proceder a realizar un anlisis de
sentimientos a la cuenta de Twitter de la
Universidad de Guayaquil, y de esta manera
poder visualizar el ndice de positivismos del
que dispone actualmente la misma y de esta
manera poder determinar su situacin actual
pero para poder realizar todo lo antes
mencionado lo primero que se debe es disponer
de varios aplicativos bsico los cuales se detallan
ms adelante.
REQUERIMIENTOS
Antes de iniciar con nuestro anlisis de
sentimientos debemos disponer de un equipo con
gran capacidad de almacenamiento como de
procesamiento adems de una memoria RAM de
6 GB o superior ya que los aplicativos que se
requerirn demandaran muchos recursos y para
evitar cualquier tipo de retraso e inconveniente
que pueda afectar el proceso de nuestro anlisis
de sentimientos, adicionalmente requerir una
serie de aplicativos a nuestra disposicin, los
cuales de no tenerlos instalados se deber
proceder con la instalacin de los mismos y los
cuales se listan a continuacin:

Figura 1.
Logo de
Hortonworks sandbox.

aplicativo

De igual manera se utilizar Hive


ODBC Driver for HDP 2.3 (v2.0.5),
que al gual que el anterior es un
aplicativo de Hotonworks que nos
permitir establecer la conexin con
nuestra base datos.

Se utilizar WinSCP 5.7.6 para poder


realizar la conexin y manipulacin de
archivos con mayor facilidad ya que
este aplicativo facilitara todo esto
debido a que requeriremos trabajar con
algunos archivos.

Figura 2. Logo de WinSCP.


Nota: El ltimo aplicativo WinSCP no es
enteramente necesario ya que las utilidades que
nos proporciona lo se podr realizar
sencillamente bajo lnea de comandos.

Reyes Zambrano Reyes Tomal Aroca Albio : Anlisis de Sentimientos usando el API de Twitter

DESARROLLO
Posterior a la instalacin de los aplicativos lo
siguiente a realizar la creacin de una API en
Twitter y a la que se llamara ProEle como se
muestra en la figura 3.

Posterior a creacin de la API y la obtencin de


los cdigos de acceso se proceder a configurar
FLUME (aplicativo incluido en Hortonworks
sandbox) lo cual se logra localizar su archivo de
configuracin cuyo nombre es flume.conf en el
que se detalla la informacin antes recolectada
es decir los cdigos de acceso ya que al ejecutar
FLUME ira primero a este archivo para iniciar la
extraccin los parmetros antes delineados en
este archivo ya que en el adems de los cdigos
de acceso: Consumer key, Consumer secret,
Access token y Access token secret se detalla la
informacin que se quiere es decir los Tweets
sobre el tema, tambin la cantidad de Tweets a
extraer que se limitar a 1000 y tambin en
donde sern almacenados como muestra la figura
numero 5 a continuacin.

Figura 3. API creada en Twitter.


Esta API permitir conectarnos y extraer la
informacin de los Tweets que se requiere para
el anlisis de sentimientos ya que proporcionara
una serie de informacin como se demuestra en
la figura 4, dichos datos servirn como cdigos
de acceso asignados a la API para configurar los
aplicativos y as para para dar paso a estos con
el fin de proceder a la extraccin de la
informacin en bruto aqu requerida.
Figura 5. Contenido del archivo
configuracin de FLUME flume.conf

de

Posterior a esto se proceder a la ejecucin de


FLUME en nuestra mquina virtual con lo cual
se dar comienzo a la extraccin y
almacenamiento de los Tweets requerido para
nuestro anlisis de sentimientos, este proceso
puede tardar unos minutos por lo que se
recomienda un poco de paciencia en este
proceso ya que una vez terminado se nos
indicara que nuestra informacin ha sido
almacenada en nuestra mquina virtual.
Figura 4. Detalle de informacin proporcionada
por nuestra API de Twitter.

Posterior a esto se proceder con la ejecucin de


los Scripts necesarios para la creacin de
nuestras tablas dentro de nuestra base por
defecto y clasificacin den los distintos Tweets
4

Ingeniare. Revista chilena de ingeniera, vol. xx N x, 20xx

extrados en el proceso anterior en Hcatalog lo


cual permitir obtener como resultado final una
tabla en la que se encontrara toda la informacin
obtenida gracias a FLUME y al API, de manera
mucho ms ordenada y de mejor apariencia lo
cual permitir tratar la informacin como en un
simple manejador de base de datos ya que ahora
los datos yacen en una por lo que se puede
visualizar nuestra tabla si as se desea.
Pues bien si ahora ya se dispone de informacin
ya tratada es decir clasificados de manera que se
puede apreciar la misma como Tweets positivos
y negativos de manera masiva en nuestra tabla
pero an no se ha podido realizar la toma de
decisiones ya que nuestra informacin reposa en
la base de HIVE pero si se desea apreciar la
informacin de una manera mucho ms
manipulable a fin de poder realizar la toma de
decisiones o la visualizacin de la misma
mediante grficos estadsticos u otra manera de
visualizacin.
Para la visualizacin de la informacin se
utilizara Excel del paquete de Microsoft Office
para lo cual se requerir
una previa
configuracin en nuestra maquina anfitrin de
un Origen de base de datos la permitir
establecer la conexin con nuestra base de datos
en nuestra maquina husped, posterior a esto se
proceder a iniciar Excel y agregar un origen de
base de datos en nuestra hoja de clculos para
realizar una importacin de los tatos en una tabla
dinmica que permitir tener nuestros datos
clasificados en una hoja de clculo simple y a su
vez realizar diferentes tipos de filtrado de datos
sobre la tabla dinmica es decir agregar o quitar
la informacin que se desea visualizar segn
nuestras necesidades para la inspeccin de la
informacin final, en el caso de requerir una
visualizacin global de nuestra informacin para
una mejor apreciacin utilizaremos PowerMap
para visualizar nuestra tabla dinmica una vez
filtrada y as visualizar nuestra informacin de
manera global como podemos observar en la
figura 6 que se muestra a continuacin.

Figura 4. Visualizacin de informacin usando


PowerMap.
Se procede de manera adecuada se tendr uno(s)
grficos estadsticos en los cuales se puede
apreciar la informacin de distintos tipos de
maneras de los Tweets extrados ya sea desde
diferentes tipos formas como se demostr
anterior mente con PowerMap se podr realizar
con diferentes grficos estadsticos como
grficos de pasteles o un simple diagrama de
barras y de esta manera poder realizar la toma de
decisiones pertinentes de requerirlo el caso o
simplemente para un reporte del estado actual
para saber si la situacin en la que se est
involucrado es la adecuada o se est cumpliendo
con las expectativas deseadas de sta
investigacin.
RESULTADOS
Pues bien se ha realizado todo lo anteriormente
mencionado ahora se dispondr de una base de
datos con los Tweets extrados con referencia a la
Universidad de Guayaquil y de igual manera los
mismos clasificados segn estos sean positivos,
negativos o neutrales por fechas gracias al
proceso de anlisis de sentimientos y la cual
reposara en dentro de nuestra maquina husped y
a la que se pude accesar a ella desde nuestra
maquina anfitrin con el fin de una mejor
visualizacin de la misma para poder filtrar la
informacin a conveniencia o requerimientos y de
ser as su posterior visualizacin de manera
estadstica.
Gracias a la facilidades proporcionadas por Excel
podemos apreciar la informacin de mejor manera
como lo son los el uso de tabla s dinmicas,
grficos de barras, grficos estadsticos o an

Reyes Zambrano Reyes Tomal Aroca Albio : Anlisis de Sentimientos usando el API de Twitter

mejor la visualizacin de grficos estadsticos de


manera mundial utilizando PowerMap lo que
dar una mejor perspectiva visual de la
informacin que se dispone al momento
sectorizada globalmente para nuestra mejor
apreciacin y determinacin de correctivos
adecuados de as requerirlos.
Adems se dispondr de un sinnmero de
servicios proporcionados por nuestra maquina
husped HDP 2.3.2 los cuales se podrn emplear
en posteriores anlisis requeridos durante un
proceso de evaluacin o anlisis de sentimientos
peridico de la Universidad de Guayaquil.
CONCLUSIONES
Concluido el trabajo se logr determinar que para
la ejecucin de os aplicativos necesarios durante
el proyecto como lo es HADOOP requeran una
cantidad mnima de 6 GB de RAM para evitar
problemas en la ejecucin del mismo y la
utilizacin de sus servicios, de igual manera para
la extraccin de la informacin necesaria durante
todo el proyecto se realiz gracias a los servicios
proporcionados por HADOOP en conjunto con el
API de Twitter de que la misma fue invocada
desde flume proporcionndonos un entorno de
almacenamiento a gran escala para los tweets
extrados durante el proceso, posterior a esto el
tratamiento de la informacin anteriormente
extrada se pudo tratar gracias a otro los servicios
proporcionados por HADOOP como lo es HIVE
que nos permite tratar la informacin como un
gran manejador de base de datos y con la
aplicacin de los scripts necesarios para el anlisis
de sentimientos se logra tener como resultado
final la informacin de los tweets ya clasificada.
RECOMENDACIONES
Teniendo como tema principal la Universidad de
Guayaquil lo cual nos permitir realizar la toma
de decisiones oportunas de los aspectos de los
cuales se debe mejorar como acorde a los evento
surgidos en un fecha previa o posterior a un
evento de la que sea sede o simplemente para la
obtencin de informacin previa a una inspeccin
del estado ya sea esta por la SENESCYT por
cualquier motivo ya sea por alguna razn de

acreditacin o re categorizacin de la misma para


cual este proceso es de gran utilidad ya que nos
ayudara determinar el estatus actual de la
Universidad de Guayaquil y de esta manera ser un
poco ms cociente en los aspectos a mejorar de la
misma de manera oportuna o para poder resaltar
los cambios hasta el momento efectuados como
una perspectiva de un antes y despus de misma
para obtener un porcentaje estadstico el cambio
logrado desde la ltima en ese periodo de tiempo.

AGRADECIMIENTOS
Es de gran satisfaccin agradecer a Hortonworks
ya que gracias a el aplicativo (HDP) en su versin
2.3.2 para virtual box al cual se tuvo acceso
mediante su sitio web se pudo realizar el
procesamiento de la informacin ya que el mismo
constaba con las herramientas que se requiere
para la extraccin y refinamiento los datos as
como un oportuno instructivo de cmo realizarlo
y de los componentes bases para comenzar desde
cero de igual manera a las facilidades que nos
proporcion el API de Twitter para poder
conectarnos y poder realizar la extraccin de los
distintos Tweets que ese requieran para el
desarrollo del anlisis de sentimientos de igual
manera se agradece a Microsoft ya que gracias a
su componente PowerMap para Excel permiti
realizar una visualizacin global de la
informacin extrada y procesada ya que el
componente anteriormente mencionado fue de
gran ayuda para la toma de decisiones as como
las distintas manera de visualizar datos
estadsticos por diferentes tablas dinmicas.
REFERENCIAS
[1] HEnriquez, Carlos. "Analisis
sentimiento." prueba 1.1 (2015).

de

[2] White, Tom. Hadoop: The definitive


guide. " O'Reilly Media, Inc.", 2012.
[3] Das, Devaraj, et al. "Adding Security to
Apache Hadoop." hortonworks report,
http://www. Hortonworks. com (2011).

Ingeniare. Revista chilena de ingeniera, vol. xx N x, 20xx

[4] Georgiou, Anastasia. Storing Data Flow


Monitoring in Hadoop. No. CERNSTUDENTS-Note-2013-144. 2013.

de datos masivos. Prueba de concepto


utilizando registros de detalles de
llamadas." (2010).

[5] Foley, Matt. "High availability HDFS."


28th IEEE Conference on Massive Data
Storage, MSST. Vol. 12. 2012.

[15] Moncada Cern, Jess Salvador. "Big


data en las empresas: una nueva era de la
informacin." (2015).

[6] OMalley,
Owen.
Benchmarking." (2012).

[16] Hernndez Dominguez, Antonio, and


Adrian Hernndez Yeja. "Acerca de la
aplicacin de MapReduce+ Hadoop en
el tratamiento de Big Data." Revista
Cubana de Ciencias Informticas 9.3
(2015): 49-62.

"Hadoop

[7] Russom, Philip. "Integrating Hadoop


into Business Intelligence and Data
Warehousing." TDWI Best Practices
Report (2013).
[8] Reddy, Y. "Access control for sensitive
data in hadoop distributed file systems."
Third International Conference on
Advanced
Communications
and
Computation, INFOCOMP. 2013.
[9] Murthy, Arun C., et al. Apache Hadoop
YARN: Moving Beyond MapReduce
and Batch Processing with Apache
Hadoop 2. Pearson Education, 2013.
[10] Wadkar,
Sameer,
and
Madhu
Siddalingaiah. "Apache Ambari." Pro
Apache Hadoop. Apress, 2014. 399-401.
[11] Aravinth, Mr SS, et al. "An Efficient
HADOOP Frameworks SQOOP and
Ambari for Big Data Processing."
International Journal for Innovative
Research in Science and Technology
1.10 (2015): 252-255.
[12] Padhy, Rabi Prasad, and Deepti
Panigrahy. "A Gentle Introduction to
Hadoop Platforms."
[13] Faghri, Faraz, et al. "Failure scenario as
a service (FSaaS) for hadoop clusters."
Proceedings of the Workshop on Secure
and Dependable Middleware for Cloud
Monitoring and Management. ACM,
2012.
[14] Arevalo, cabrera, et al. "uso de la
plataforma pig sobre hadoop como
alternativa a una rdbms para el analisis
7

[17] Dong, Fei. Extending starfish to support


the growing hadoop ecosystem. Diss.
Duke University, 2012.
[18] Wadkar,
Sameer,
and
Madhu
Siddalingaiah. "HCatalog and Hadoop in
the Enterprise." Pro Apache Hadoop.
Apress, 2014. 271-282.
[19] Arora, Nitika. "Hadoop: Components
and Working." International Journal of
Advanced Research in Computer
Science 6.7 (2015).
[20] Analyzing Social Media and Customer
Sentiment.http://hortonworks.com/hadoo
p-tutorial/how-to-refine-and-visualizesentiment-data/.
[21] Analyse Tweets using Flume, Hadoop
and
Hive.
http://www.thecloudavenue.com/2013/0
3/analyse-tweets-using-flume-hadoopand.html.
[22] How to Install and Configure the
Hortonorks ODBC driver on Windows 7.
http://hortonworks.com/hadooptutorial/how-to-install-and-configurethe-hortonworks-odbc-driver-onwindows-7/.
[23] ELiRF-UPV en TASS-2013: Anlisis de
Sentimientos
en
Twitter.
http://users.dsic.upv.es/~lhurtado/papers/
pdfs/2013_pla13_tass.pdf, Ferran Pla y
Llus-F. Hurtado.

Reyes Zambrano Reyes Tomal Aroca Albio : Anlisis de Sentimientos usando el API de Twitter

[24] Anlisis de sentimientos de tweets.


http://www.cyt.uc.edu.py/jitcita/2013/images/Trabajos/jitcita2013_N
unhezJaraPezzino.pdf, Jorge Jos Jara
Ruiz.

Вам также может понравиться