Вы находитесь на странице: 1из 10

QU ES MINERA DE TEXTOS?

TCNICA DE RECUPERACIN Y ORGANIZACIN


DE LA INFORMACIN
La minera de textos es la
localizacin, anlisis y organizacin
de la informacin con el fin de
crear una nueva informacin. Esta
nueva informacin obtenida puede
ser un patrn, una tendencia o una
correlacin que no se puede
identificar slo leyendo los
documentos los cuales pueden ser
pginas de internet, correos
electrnicos, un campo en las bases
de datos o un archivo de texto sin
ningn formato.

La minera de textos comprende tres actividades


fundamentales las cuales son:

Recuperar la informacin
seleccionar los textos adecuados

Extraer la informacin
contenida en esos textos: datos
claves, hechos y acontecimientos.

Utilizar la minera de datos para


encontrar asociaciones entres
esos textos claves.

CMO SE HACE LA MINERA DE TEXTOS?


PARA IMPLEMENTAR LA MINERA DE TEXTOS SE
PUEDEN SEGUIR LAS SIGUIENTES CUATRO ETAPAS.
Primera etapa: Se establecen los objetivos con el fin de
aclarar lo que se busca en la investigacin y a fin de
establecer los lmites y acotar hasta que punto se desea
profundizar.
Segunda etapa: Procesar los datos mediante la seleccin, el
anlisis y reduccin de los textos o documentos de los
cuales se extraer la informacin. Esta es la etapa que
consume la mayor cantidad de tiempo.
Tercera etapa: Especificar qu modelo o tcnica se va a
utilizar, esto va a depender de los objetivos planteados y de
las tareas que se van a realizar.
Cuarta etapa: Se analizan los resultados con el fin de utilizar
la informacin encontrada para tomar las decisiones que
mejor se adapten a la organizacin o a lo que queremos.

APLICACIN DE LA MINERA DE TEXTOS.


Para extraer informacin: Puede ser usada
para extraer informacin de grandes cantidades
de texto que se encuentren en la web
permitiendo de esta forma definir entidades y
sus relaciones, revelar informacin significativa
y facilitar la comprensin de los datos.

Clasificar documentos:
permite recuperar y navegar en documentos,
especialmente en empresas que llevan un
registro histrico de sus
actividades y proyectos. Para ello se aplican
algoritmos de minera de textos que agrupan
los documentos y se obtiene informacin
descriptiva de cada grupo para poder hacer
una mayor comprensin de los mismos.

ELABORACIN DE
RESMENES
Se puede obtener una
descripcin de manera
general de un conjunto
de documentos con
respecto a un tema
especfico. En este
sentido estos mtodos
pueden ser clasificados
en dos categoras la
suma extractiva y la
suma abstracta.

EXTRACCIN DE
CONOCIMIENTO

Utilizando la minera
de textos es posible
realizar modelos de
conocimiento a partir
de la informacin
extrada de los
documentos.

ENTONCES HACIA DNDE VA LA MINERA DE


TEXTOS Y QU DESAFOS DEBE ENFRENTAR?
La Minera de Textos seguir apoyndose en gran
medida del Procesamiento del Lenguaje Natural
para conseguir que la informacin que hay en la
web tenga significado y podamos acceder a ella
con mayor facilidad.

ESTA DISCIPLINA DEBER ENFRENTAR


ALGUNOS DESAFOS COMO:
Hacer uso del contexto en el cual se gener
algn tipo de contenido en las diferentes
tareas de la Minera de Textos. Es importante
saber quin es el autor, la regin en la que
se encuentra y el momento histrico, pues
eso permitir comprender el sentido de dicha
informacin.

Ir ms all de la obtencin de informacin y buscar


la obtencin de conocimiento, lo cual implicar la
transformacin de la informacin extrada en
diferentes tareas del rea, a un lenguaje formal
que sea legible para las mquinas y as, lograr
completamente el entendimiento, por parte de las
mquinas, de grandes cantidades de informacin
que carecen de la estructura o metadatos
suficientes.

En muchas de las tareas de la Minera de Textos


es necesario analizar cantidades enormes de
informacin. Mejorar este proceso en cuestiones
de tiempo implica definir algoritmos paralelos
que exploten de mejor manera la infraestructura
de cmputo actual.