Вы находитесь на странице: 1из 6

Av. Jos Pardo 138, Oficina 1402 Miraflores Lima - Per Telf.

(51-1) 6978227 / 725-7209

informes@kasperu.com www.kasperu.com

Curso Bsico de Anlisis Predictivo

Minera de Textos (DM042)

SUMILLA Este curso expone las tcnicas y tecnologas de la minera de textos. La minera de textos es el proceso para descubrir conocimiento almacenado en documentos (datos no estructurados), el conocimiento se puede representar como tendencias, promedios, desviaciones, dependencias, grupos, etc. Se entiende como la extensin de los mtodos estndar de prediccin y descripcin de la minera de datos. La minera de textos comprende las siguientes actividades fundamentales: Clasificacin de documentos para la asignacin automtica a clases pre-definidas. Agrupamiento de documentos para la identificacin de documentos similares. Recuperacin de informacin (similar a un buscador). Extraccin de la informacin incluida en esos textos (hechos) y Extraccin de asociaciones entre los hechos extrados. Por otro lado, dado que el vector de caractersticas obtenido es por lo general muy grande se requiere el uso de tcnicas para la reduccin de la dimensionalidad. OBJETIVOS Al final del curso los alumnos estarn en capacidad de: Conocer y entender los fundamentos y problemticas actuales de Minera de Textos en comparacin a Data Mining tradicional. Comprender y usar las tcnicas para el anlisis y la preparacin de documentos. Aplicar y evaluar tcnicas de agrupamiento y clasificacin de documentos. Aplicar y evaluar tcnicas para la recuperacin de documentos. Aplicar y evaluar tcnicas para la extraccin de informacin. Aprender a utilizar las herramientas disponibles para la minera de textos. CONTENIDO El curso est conformado por los siguientes temas.

Av. Jos Pardo 138, Oficina 1402 Miraflores Lima - Per Telf. (51-1) 6978227 / 725-7209

informes@kasperu.com www.kasperu.com

METODOLOGA Desarrollo de clases tericas para explicar los conceptos necesarios. Desarrollo de talleres, donde se aplica lo aprendido en clase. Uso de medios audiovisuales (proyectores) Materiales de clase impresos y en CD.

DOMINIOS DE APLICACIN Anlisis de similaridad de documentos Bsqueda e indexacin de documentos Anlisis de mensajes en redes sociales Anlisis de encuestas abiertas. Anlisis de post en blogs. Anlisis de correos electrnicos (spam). Estructuracin de base de datos. Depuracin de bases de datos.

REQUISITOS Es deseable que los alumnos tengan experiencia en (no indispensable): Estadstica y probabilidades. Mtodos de clasificacin, agrupamiento y asociacin Disponer de una computadora para el desarrollo de las clases

QUIENES PUEDEN ASISTIR Profesionales en TI. Consultores en minera de datos. Analistas de marketing en la web. Investigadores de mercado que desean analizar encuestas abiertas. Profesionales en estadstica interesados en analizar el contenido de textos no estructurados (formularios, encuestas, etc.). HERRAMIENTAS Para el desarrollo del curso se hace uso de las siguientes herramientas de software

MATERIALES El alumno recibe como parte de su capacitacin Un CD conteniendo el material del curso, ejercicios prcticos, software libre y documentos relacionados. Material impreso

Av. Jos Pardo 138, Oficina 1402 Miraflores Lima - Per Telf. (51-1) 6978227 / 725-7209

informes@kasperu.com www.kasperu.com

CERTIFICADO Para recibir el certificado de aprobacin del curso, los alumnos deben asistir al 100% de las sesiones y desarrollar un conjunto de ejercicios que demuestran su aprendizaje. Los alumnos que asistan al 100% de las sesiones y no entregan la tareas reciben una constancia de asistencia por 24 horas.

INSTRUCTOR Ing. Samuel Oporto Daz. Especialista en el desarrollo de modelos predictivos. Magster en Inteligencia Artificial ITESM-Mxico. Ingeniero de Sistemas UNI-Per. Estudios de Especializacin en robtica aplicada-CNAD-Mxico DF. Poltica Educativa Virtual-UAH-Chile. Docente del curso de Inteligencia Artificial en la UNI, UPAO, USMP y UPC. Docente del Curso de Minera de Datos en el IIFIIS, CTIC-UNI y la UPC. Jefe del Proyectos en el CTIC-UNI. Investigador Principal del Instituto de Investigacin de la FIIS (IIFIIS). Especialista en Visin Artificial, Reconocimiento de Patrones y Redes Neuronales. Investigador en Ciencias de Computacin con publicaciones en: IJCNN2007, ICAIPR2007, ICIAR2005, LNCS2005, CLEI2004, CLEI2006. Consultor en Sistemas Inteligentes y Sistemas Autnomos. Consultor del programa de Modernizacin del Estado Peruano. Consultor de la Secretara de Planificacin Estratgica del Ministerio de Educacin del Per.

Av. Jos Pardo 138, Oficina 1402 Miraflores Lima - Per Telf. (51-1) 6978227 / 725-7209

informes@kasperu.com www.kasperu.com

TEMARIO Nombre de los temas a tratar INTRODUCCIN A LA MINERIA DE TEXTOS (TEXT MINING) Qu es la minera de textos?. Colecciones de documentos corpus. Datos semi-estructurados y datos no estructurados. Tcnicas de minera de textos. El proceso de la minera de textos. Herramientas PREPARACION DE DATOS Lingstica, Morfologa, Sintaxis, Semntica. Conceptos bsicos, Gramtica, Lxico, Sintaxis. Tokenizacin. Stop words. Stemming. Duracin 2h

4h

MODELOS PREDICTIVOS PARA TEXTOS - CLASIFICACION Clasificacin de documento. Similaridad de documentos y el vecino ms cercano. Reglas de decisin. Red Bayesiana, Mquina de Vector Soporte. Evaluacin del desempeo. Aplicaciones. AGRUPAMIENTO (CLUSTERING) DE TEXTOS Medida de similaridad para la recuperacin. Bsqueda de documentos basados en la Web y anlisis de links. Matching de Documentos. Agrupamiento por similaridad. Agrupamiento K-means. Agrupamiento jerrquico. Evaluacin del agrupamiento. Aplicaciones. RECUPERACIN DE INFORMACIN (BINARIO Y VECTORIAL) Modelos de recuperacin de informacin, Relevancia. Modelos clsicos, indice de trminos, importancia, medidas de similaridad. Modelo Booleano. Modelo Vectorial, pesos, similaridad. EXTRACCION DE INFORMACION DESDE TEXTOS Objetivos de extraccin de informacin. Bsqueda de patrones y entidades. Expresiones regulares. Extraccin de entidades y el mtodo de mxima entropa. Plantillas de llenado. Aplicaciones. Tagging. SELECCIN DE CARACTERSTICAS EN TEXTOS (REDUCCIN DE DIMENSIONALIDAD) Mtodos de muestreo, mtodos de seleccin de caractersticas, bsqueda.

4h

4h

4h

4h

2h

Total de horas a dictar

24 h

Av. Jos Pardo 138, Oficina 1402 Miraflores Lima - Per Telf. (51-1) 6978227 / 725-7209

informes@kasperu.com www.kasperu.com

EX ALUMNOS EDELNOR SUNAT Pacifico Vida Profuturo AFP Caja Municipal de Trujillo FondeSurco SCI Nextel del Per Telefnica del Per ATENTO Corporacin Radial del Per RPP TECSUP UPCH UPC BSH Electrodomsticos LAN Per Visanet Per Corporacin Lindley Citibank del Per S.A. Aceros Arequipa Financiera Efectiva S.A. Red Cientfica Peruana

Av. Jos Pardo 138, Oficina 1402 Miraflores Lima - Per Telf. (51-1) 6978227 / 725-7209

informes@kasperu.com www.kasperu.com

KASPeru Av. Jos Pardo 138, Oficina 1402 Miraflores Lima Per (51-1) 697-8227 (51-1) 725-7209

www.kasperu.com informes@kasperu.com Todos los derechos reservados. Todos los nombres de empresas y/o productos mencionados tienen propsitos de identificacin nicamente, ellos son registrados por sus respectivos dueos.

Вам также может понравиться