Вы находитесь на странице: 1из 42

Text

Mining
ANÁLISIS DE SENTIMIENTOS PARA LA
TOMA DE DECISIONES
Tabla de Contenidos

Introducción
Qué es Text Mining?
Beneficios y Aplicaciones del TM
Técnicas para el TM
Tecnologías para el TM
SAS, SPSS Modeler, Pentaho, Weka, etc.
Perfil Laboral necesario para TM
Data Scientist
Section 1

Qué es Text Mining


Contexto
Sobrecarga de
Datos Conocimiento útil

BA
Text Mining
• Herramienta para descubrir conocimiento
orientado a usuarios de negocios.
• Resultados fáciles de entender.
BUSINESS ANALYTICS – DEFINICIÓN

se refiere a las capacidades matemáticas aplicadas con


software las cuales ofrecen una visión basada en los datos para mejores
decisiones.

Analytics abarca una gama de técnicas de recopilación, análisis e


interpretación de datos con el fin de revelar patrones, anomalías, variables
clave, y relaciones (el "conocido desconocido" y el "desconocido").

Text Analytic - Radian6 (02:29)


Olas de Business Analytics
Puesta en Marcha de BA

Cada aplicación de la BA viene definida por:

 Qué se predice. El tipo de comportamiento (por ejemplo, la acción, el


evento o suceso) a predecir para cada persona, acción bursátil u otro
tipo de elemento.

 Qué se hace al respecto. Las decisiones que se toman a partir de la


predicción; la acción que realiza la organización en respuesta o en
base a cada predicción.
Hechos vs Opiniones

 Hechos: expresiones objetivas acerca de


entidades, eventos y sus atributos, por
ejemplo, "He comprado un iPhone ayer“.

 Opiniones: expresiones subjetivas de


sentimientos, actitudes, emociones,
evaluaciones o sentimientos hacia
entidades, eventos y sus atributos, por
ejemplo, "Me encanta esta nueva cámara".
¿Qué es Text Mining?
Text Mining es el análisis de información no
estructurada, la cual se puede encontrar en
redes sociales. Usa técnicas de Lingüística,
modelamientos estadísticos y técnicas de
aprendizaje para descubrir conocimientos que no
existen explícitamente en ningún texto de la
colección, pero que surgen al relacionar el
contenido de muchos de ellos.
Tipos de Textos analizados

• Encuestas de opinión.

• Encuestas de satisfacción del cliente.

• Libros de Reclamaciones.

• Entrevistas semi-abiertas en estudios de clientes.

• Vigilia tecnológica: resúmenes de artículos científicos


contenidos en las bases científicas, patentes, …
ETAPAS
Data Mining
Comprensión del Comprensión de Preparación de
Modelado Evaluación Desarrollo
Negocio los Datos los Datos

Text Mining

Extraer Aplicar el Construir


Preparar Desplegar
Conceptos Análisis de Categorías
texto para Modelos
enlace de
Análisis Predictivos
Texto
Aprendizaje Supervisado

Nuevos
Documentos

Modelo
Clasificador

Documentos de Máquina de
Entrenamiento Aprendizaje
Tendencias de los Conceptos

Business
Analytics
Text Mining

Text
Analytics
Section 2

Beneficios y Aplicaciones de
TM en algunos Sectores

Medir Medios Sociales - Radian6 (02:24)


Beneficios de Text Mining
 Identificar “hechos” y datos puntuales a partir del texto de los documentos.
 Agrupar documentos similares (clustering).
 Determinar el tema o temas tratados en los documentos mediante la
categorización automática de los textos.
 Identificar los conceptos tratados en los documentos y crear redes de
conceptos.
 Facilitar el acceso a la información repartida entre los documentos de la
colección, mediante la elaboración automática de resúmenes, y la
visualización de las relaciones entre los conceptos tratados en la colección.
 Visualización y navegación de colecciones de texto.
Aplicaciones de Text Mining

Resumen
Detección de Tendencias
automático
fraudes Electorales
de textos

Análisis de Clasificación
sentimientos de textos
Aplicaciones de Seguridad
Muchas empresas y gobiernos utilizan la Minería de Textos para el
seguimiento y análisis de fuentes en línea de texto sin formato, como
las noticias de Internet, blogs, etc. para fines de seguridad nacional.
También está involucrado en el estudio del texto cifrado / descifrado.

Biomédicos
Se refiere a la Minería de Texto aplicado a los textos y la literatura del
dominio de la biología molecular y biomedicina. Es un campo de
investigación bastante reciente en el borde del procesamiento del
lenguaje natural, la bioinformática, la informática médica y la
lingüística computacional.
Marketing
Está empezando a utilizar en la comercialización, y más concretamente, en
análisis de gestión de relaciones con clientes. Coussement y Van den Poel
lo aplican para mejorar los modelos de análisis predictivo para la pérdida
de clientes.
Aplicaciones académicas
El tema de la Minería de Textos es de importancia para publicadores que
tengan grandes bancos de datos que requieran de indexación. Esto es el
caso en particular para disciplinas científicas en las que hay una gran
cantidad de información muy específica en forma de texto escrito.
Aplicaciones para Text Mining

Interfaz de text mining de


TAKMI.
A: Número de documentos que
devolvió la búsqueda.
B: Títulos de documentos
relevantes.
C: Distribución de conceptos
que han sido extraídos de
esos documentos.
D: Estadísticas de los
conceptos.
Sentiment140
(anteriormente conocido
como "Twitter
Sentiment") le permite
descubrir el sentimiento
de una marca, producto o
tema en Twitter.
La interfaz del sistema
Politics del .
La tabla a continuación
destaca el número de posts
relacionados con los
candidatos a Gobernador o al
Senado.
Sistema VOSviewer.
Mapa de calor del
Journal of the
American Society for
Information Science
and Technology.
El color de un término
indica el índice de
citación promedio de
las publicaciones en
que el término
ocurrió.
Forma tradicional de explotación de las preguntas abiertas…
Los resultados obtenidos se suelen presentar en forma de tabla o gráfico en los que
no aparecen los literales empleados por los entrevistados sino los códigos que los
agrupan. Veamos un ejemplo:
Aspectos que más gustan del concepto %
Bebida sana / contiene fibra natural y frutas ........ 50 La tabla obtenida nos muestra que el
 Fibra / aporta fibra ............................................... 16
 Sano / Más sano que otras bebidas ...................
contenido en fibras y frutas y su efecto
14
 Fruta / Tiene zumo de futas ................................. 11 sobre la salud han sido los aspectos que
 Fruta y fibra ........................................................... 11 más han interesado.
 Buena para la dieta ............................................. 10
El envase ..................................................................... 27 El envase, también ha despertado interés.
 El envase ............................................................... 18
 La forma / el tamaño ........................................... 5 Sin embargo, el sabor y la naturalidad de
 El color ................................................................... 3 la nueva bebida han tenido menos
Sabor ........................................................................... 13
 Buen sabor ............................................................ 7
impacto.
 Sabor a frutos rojos ............................................... 4
Producto natural ........................................................ 12
 Sin colorantes artificiales ...................................... 5 …pero, ¿eso es todo lo que
 Sin aditivos ............................................................. 5
 Natural ................................................................... 4
podemos obtener de este tipo de
 No sabores artificiales .......................................... 3 preguntas?
La tag cloud de las respuestas obtenidas en la pregunta abierta de la tabla
anterior :

Podemos ver de una forma muy visual que las mayores menciones se
centran en la incorporación de frutas y fibra y la consiguiente
imagen de refresco saludable y la botella.
¿Cómo podemos sacar más partido a la información de
las preguntas abiertas?

Minería de
Textos

El principio fundamental en esta perspectiva es el análisis a través


de la comparación. Se busca comparar entre sí el discurso de los
individuos que han contestado a una encuesta o preguntas pautadas
en entrevistas personales.
Tras aplicar Text Mining a la pregunta, podríamos obtener dos gráficos:

Aspectos que MÁS GUSTAN del concepto según su intención de comprarlo

La marca
El sabor

Ayuda para la vida moderna


No Color
Más sana que otras
No interesados Frutos rojos
en comprarlo Duda
Botella Sin edulcorantes
Natural Dudosos
Diseño de la botella

Sin aditivos Buen sabor


Frutas
Sin aromas artificiales
Combinación de Sin
frutas y fibras colorantes artificiales Aporta fibra a la dieta
Sana Novedad
Si Fibras
Interesados en
comprarlo
Botella diferente

Refrescante
Analizando las diferencias de discurso entre los tres grupos analizados podemos ver
que:
• La comunicación del nuevo producto debería centrarse en tres ejes:
• La combinación de frutas y fibra que lo convierte en una bebida sana y
saludable.
• No tener ni edulcorantes, colorantes o aromas artificiales que refuerza
esa imagen de saludable.
• La novedad que todo ello supone en el mercado.

• Además, hay que tener en cuenta que:


• Uno de los posibles frenos a la compra son las dudas sobre el sabor que
tendrá.
• Otro freno a la compra reside en las dudas sobre el aporte real de fibra a la
dieta.
• Existe también un problema con el nombre del producto que está presente
hasta en los más proclives a la compra.
…pero, ¿podemos obtener aún más información?
Para poder llevarlo a cabo es necesario:
• Pedirle a los entrevistados que, tras responder a la pregunta
abierta, valoren su propio comentario como:

Muy Bastante Bastante Muy


Neutro
positivo positivo negativo negativo
•+2 •+1 •0 •-1 •-2
También nos permite conocer en qué grandes ejes se concentran los
comentarios positivos y negativos:

Comentarios positivos Comentarios negativos

Contenido en frutas y fibras 40 21 No se creen la salud 20 11

Salud 25 20 Mal sabor 18 10

Buen sabor 15 10 No es diferente 14 9

Botella 10 10 Botella 11 5

Muy positivos Bastante positivos Muy


Muypositivos
negativos Bastante positivos
Bastante negativos
SAS® Text Analytics (04:39)

Section 3

Técnicas para Text Mining


Técnicas de Text Mining

La extracción de Términos, es la técnica más básica que identifica


los términos clave y entidades lógicas (nombres de las organizaciones,
lugares, fechas y valores financieros entre otros). La estructura de
datos más simple en la minería de texto es el vector de características,
una lista de las palabras ponderadas que aparecen en un texto.
La extracción de Información se basa en los términos extraídos del
texto para identificar las relaciones básicas. La extracción de
información se centra en un conjunto de hechos que constituyen un
evento, episodio, o estado.
Técnicas de Text Mining
• El Análisis Relacional, combina múltiples
vínculos para formar modelos de varios
pasos de procesos complejos. Es un conjunto
de técnicas que permite tener una idea de
las relaciones entre varias entidades con
múltiples conexiones, pasos, o enlaces.
• Clasificación

• Análisis del Cluster, etc.


Section 4

Tecnologías para Text Mining


Metodología CRISP
Metodología SEMMA
Plataformas Tecnológicas
Section 5

Perfil Laboral necesario para


Text Mining
Aunque TM va a cambiar el
modo de gestionar las
compañías, el principal reto al
que se enfrentan las empresas
en la adopción de ellos es la
búsqueda de profesionales
cualificados que puedan
gestionarlo.
Estos profesionales se definen como data scientist, científicos de
datos. Serán los más buscados y deseados por la industria, lo que
empujará a una escalada de salarios similar a la que a finales de
los 90 vivieron los expertos en SAP.
Se buscará a profesionales con
habilidades en estadística- matemáticas,
informática y toma de decisiones, que
sean creativos a la hora de determinar
soluciones que TM puede aportar para
salvar o potenciar su negocio.
Text
Mining
ANÁLISIS DE SENTIMIENTOS PARA LA
TOMA DE DECISIONES

Вам также может понравиться