Вы находитесь на странице: 1из 7

Av. Jos Pardo 138, Oficina 1402 Miraflores Lima - Per Telf.

(51-1) 6978227 / 725-7209

informes@kasperu.com www.kasperu.com

Curso Avanzado de Anlisis Predictivo Desarrollo de Modelos Empresariales (DM061)

SUMILLA
El curso se orienta a plantear un mtodo para la construccin de nuevos modelos predictivos desde datos transaccionales disponibles en bases de datos empresariales, se pretende impartir la experiencia adquirida por KASPeru en la conceptualizacin, desarrollo, optimizacin e implementacin de modelos predictivos. El desarrollo del curso es netamente prctico, se recomienda que el participante tenga experiencia prctica en el desarrollo de modelos predictivos o que haya cursado estudios en anlisis predictivo. Los modelos predictivos se plantean mediante una arquitectura genrica de 5 mdulos: adquisicin de datos, preparacin de datos, aprendizaje de patrones, optimizacin del modelo y consulta de la prediccin. Cada mdulo dispone de tcnicas y herramientas propias que se plantean durante el desarrollo del curso. El curso tiene como propsito sistematizar el proceso de desarrollo de modelos predictivos acorde a las mejores prcticas aprendidas por KASPeru en mltiples proyectos. La sistematizacin del proceso permite gestionar los alcances del proyecto, preparar el plan de proyecto, estimar los recursos necesarios, estimar los tiempos de cada actividad, gestionar los riesgos, as como definir los objetivos del modelo, adquirir los datos, preparar los datos, desarrollar los modelos, disear los experimentos, medir el rendimiento de cada modelo y desplegar el modelo. El curso se desarrolla en 18 horas (6 sesiones de 3 horas c/u), para grupos de no ms de 6 estudiantes. Las clases se desarrollan haciendo uso del SQL Server Data Base Engine como motor de base de datos; del RapidMiner y del SQL Server Analysis Services como motores de minera de datos y del KASOptimizer como herramienta de optimizacin.

CONTENIDO
El curso est conformado por los siguientes temas.
Gestin del Proyecto Entendimiento de los Datos Modelado y Evaluacin Despliegue

Entendimiento del Negocio

Preparacin de Datos

Optimizacin

Los temas se encadenan en una secuencia lgica de desarrollo pedaggico, basado en la metodologa CRISP-DM.

Av. Jos Pardo 138, Oficina 1402 Miraflores Lima - Per Telf. (51-1) 6978227 / 725-7209

informes@kasperu.com www.kasperu.com

OBJETIVOS
Al final del curso los participantes estarn en capacidad de: Identificar los alcances del proyecto. Plantear el plan del proyecto para el desarrollo del modelo. Estimar los tiempos para cada etapa del proyecto y los recursos humanos necesarios. Identificar los potenciales riesgos del proyecto. Identificar problemas que pueden ser resueltos mediante la implementacin de modelos predictivos. Definir las herramientas de software que se usar en cada etapa del proyecto. Definir los objetivos del proyecto. Plantear, en coordinacin con el usuario final, potenciales atributos que explican la variable a predecir (la clase). Preparar procedimientos almacenados para la preparacin de atributos puntuales y de atributos seriados en el tiempo (curvas de comportamiento). Preparar procedimientos almacenados para calcular el estado de la clase que corresponde a cada instancia de datos. Comprender y usar tcnicas para el muestreo, la descripcin, limpieza y transformacin de datos mediante la identificacin y eliminacin de datos extremos, valores nulos y datos mal clasificados, la seleccin de caractersticas y el balanceo de datos. Evaluar la calidad predictiva de cada uno de los atributos identificados, individualmente y en conjunto. Entender y aplicar algoritmos de rboles de decisin, modelo naive bayes, regresin logstica y redes neuronales. Decidir qu algoritmo usar para abordar el problema y asignar los parmetros necesarios para su operacin. Evaluar el rendimiento de los modelos creados, usando los indicadores %VP y %VPP. Disear experimentos necesarios para la optimizacin del modelo, en funcin a los parmetros de los atributos, parmetros de la etapa de preparacin de datos y parmetros de los algoritmos implementados. Usar el procedimiento de Voting y la regla de Pareto para seleccionar el subconjunto de atributos que proporcionan el mejor rendimiento. Disear procedimientos para la consulta del modelo predictivo.

Consulta al Modelo Modelo Aprendizaje de Patrones DataSet Preparacin de Datos Base de Datos Adquisicin de Datos Optimizacin del Modelo

Probabilidad

Diseo Experimental

Arquitectura genrica de un modelo predictivo

Av. Jos Pardo 138, Oficina 1402 Miraflores Lima - Per Telf. (51-1) 6978227 / 725-7209

informes@kasperu.com www.kasperu.com

METODOLOGA
Planteamiento de un problema predictivo real. Desarrollo de casos (integrados a la solucin del problema). Desarrollo de tareas domiciliarias. Aplicacin de herramientas de software segn las necesidades de cada etapa. Evaluacin por casos. Uso de medios audiovisuales (proyectores) Materiales de clase impresos y en CD.

DOMINIOS DE APLICACIN
Riesgos Financieros Riesgos de Fraudes Riesgos de Accidentes de Trabajo Desercin de clientes Deteccin de fraudes Segmentacin de Clientes Ventas Cruzadas Patrones Secuenciales Anlisis de opiniones subjetivas Similaridad de documentos Bsqueda e indexacin de documentos Anlisis de mensajes en redes sociales Anlisis de encuestas abiertas. Anlisis de post en blogs. Anlisis de correos electrnicos (spam). Estructuracin de base de datos.

REQUISITOS
Es deseable que los alumnos tengan conocimientos o experiencia en: Base de datos (MS SQL, Oracle, Sybase, etc.). Desarrollo de procedimientos almacenados (Transact-SQL). Estadstica y probabilidades. Hoja de clculo. Anlisis predictivo.

QUIENES PUEDEN ASISTIR


Profesionales encargados del desarrollo de modelos predictivos. Profesionales encargados de la preparacin y limpieza de datos. Profesionales encargados de la optimizacin de los modelos predictivos.

MATERIALES
El alumno recibe como parte de su capacitacin Un CD conteniendo: el material del curso, la base de datos con data fuente, la base de datos con el modelo corriendo, software libre y documentos relacionados. Material impreso explicando cada uno de los casos.

CERTIFICADO
Para recibir el certificado de aprobacin del curso, los alumnos deben asistir al 100% de las sesiones y desarrollar los casos proporcionados tal que demuestran su aprendizaje. Los alumnos que asistan al 100% de las sesiones y no entregan la tareas reciben una constancia de asistencia por 15 horas.

Av. Jos Pardo 138, Oficina 1402 Miraflores Lima - Per Telf. (51-1) 6978227 / 725-7209

informes@kasperu.com www.kasperu.com

HERRAMIENTAS
Para el desarrollo del curso se hace uso de los siguientes programas de software, que el estudiante debe tener instalado en su computador. Herramientas estadsticas para el anlisis de datos 1. @RISK (ANLISIS UNIVARIADO) (no indispensable) 2. MICROSOFT EXCEL Herramienta para el desarrollo el modelado 1. WEKA EXPLORER 2. ADD-IN PARA ANALYSIS SERVICES 3. RAPIDMINER 4. SQL Server Analysis Services + SQL Server Database Engine Herramienta para el diseo de experimentos 1. MICROSOFT EXCEL 2. EXPERIMENTER DEL WEKA 3. KASOptimizer (experimentador desarrollado por KASPeru) Herramienta para la consulta del modelo 1. SQL Server Analysis Services + SQL Server Database Engine Todos los programas de software que se usan en el desarrollo del curso, pueden ser descargados de internet y usados en su versin de prueba, excepto el KASOptimizer que es proporcionado como parte del curso.

INSTRUCTOR
Ing. Samuel Oporto Daz. Especialista en el desarrollo de modelos predictivos. Magster en Inteligencia Artificial ITESM-Mxico. Ingeniero de Sistemas UNI-Per. Estudios de Especializacin en robtica aplicada-CNAD-Mxico DF. Docente del curso de Inteligencia Artificial en la UNI, UPAO, USMP y UPC. Docente del Curso de Minera de Datos en el IIFIIS, CTIC-UNI y la UPC. Jefe del Proyectos en el CTIC-UNI. Investigador Principal del Instituto de Investigacin de la FIIS (IIFIIS). Especialista en Visin Artificial, Reconocimiento de Patrones y Redes Neuronales. Investigador en Ciencias de Computacin con publicaciones en: IJCNN2007, ICAIPR2007, ICIAR2005, LNCS2005, CLEI2004, CLEI2006. Consultor en Sistemas Inteligentes y Sistemas Autnomos. Consultor del programa de Modernizacin del Estado Peruano. Consultor de la Secretara de Planificacin Estratgica del Ministerio de Educacin del Per. Gerente de KASPERU.

Av. Jos Pardo 138, Oficina 1402 Miraflores Lima - Per Telf. (51-1) 6978227 / 725-7209

informes@kasperu.com www.kasperu.com

TEMARIO
SESION 1. GESTION DEL PROYECTO (1 hora) El proceso de desarrollo de modelos predictivos. Definir los alcances del proyecto. Elaborar el plan del proyecto. Estimar los tiempos. Identificar los recursos humanos necesarios para desarrollar el proyecto. Identificar los riesgos del proyecto. Identificar los hitos del proyecto y puntos de control. Definir las herramientas metodolgicas y de software para cada etapa. ENTENDIMIENTO DEL NEGOCIO (2 horas) Qu problemas pueden ser resueltos mediante un modelo predictivo. Planteamiento del problema predictivo. Exposicin de los objetivos del proyecto. Identificacin del objeto de estudio (unidad de anlisis). Planteamiento de potenciales atributos explicatorios. Definicin de los criterios para establecer la clase (objetivo del modelo). Planteamiento de las medidas de rendimiento esperadas. SESION 2. ENTENDIMIENTO DE LOS DATOS (3 horas) Revisin de los datos proporcionados. Validacin preliminar de los datos (datos completos, tamao de la muestra). Descripcin de los datos originales. Revisin de la lista de atributos explicatorios puntuales. Clculo de la pre-clase. Identificacin de problemas de calidad de datos. Preparacin de la lista de tareas de limpieza de datos. Tarea 1. Procedimiento para preparar los atributos puntuales y la clase. SESION 3. PREPARACIN DE LOS DATOS (3 horas) Diseo del procedimiento de solucin. Procedimiento para la importacin y actualizacin incremental den datos. Procedimiento para la limpieza de los datos. Procedimiento para preparar los atributos explicatorios puntuales. Procedimiento para preparar la clase. Descripcin de los atributos extrados. Identificacin de problemas de calidad de datos en los atributos. Verificacin de datos completos, verificacin de autocorrelacin. Tarea 2. Procedimiento para preparar atributos seriados en el tiempo. SESION 4. MODELADO Y EVALUACIN DEL MODELO (3 horas) Caracterizacin de los algoritmos de rboles de decisin, naive bayes, regresin logstica y redes neuronales. Generacin de los datos de entrenamiento y los datos de prueba. Balanceo de datos. Clculo del peso de los atributos y seleccin de caractersticas. Transformaciones aplicables: normalizacin y discretizacin. Uso de los algoritmos naive bayes, rbol de decisin, regresin logstica y redes neuronales para la construccin del modelo predictivo. Entrenamiento del modelo. Clculo de la matriz de confusin (%VP, %VN, %VPP). Tarea 3. Generacin del ranking de atributos puntuales. Generacin de la lista de atributos puntuales con mayor contribucin. Generacin del ranking por algoritmo.

Av. Jos Pardo 138, Oficina 1402 Miraflores Lima - Per Telf. (51-1) 6978227 / 725-7209

informes@kasperu.com www.kasperu.com

SESION 5. OPTIMIZACIN DEL MODELO (3 horas) Descripcin del KASOptimizer (tablas, procedimientos y parmetros). Identificacin de los parmetros de optimizacin (de atributos, de preparacin de datos y de algoritmos). Definir el criterio de optimizacin (%VP, %FP o %VPP). Creacin del diseo experimental. Corrida del optimizador. Clculo de la combinacin ptima de atributos (Voting, Pareto). Tarea 4. Clculo de la combinacin ptima de atributos. SESION 6. DESPLIEGUE DEL MODELO (3 horas) Depuracin de la base de datos del modelo (dejar solo los atributos y parmetros encontrados durante la optimizacin). Creacin de conexin al servidor del modelo. Desarrollo de consultas transaccionales al modelo. Desarrollo de consultas desde procedimientos almacenados. Actualizacin incremental de la base de datos fuente. Tarea 5. Creacin del caso de uso para el despliegue del modelo.

Av. Jos Pardo 138, Oficina 1402 Miraflores Lima - Per Telf. (51-1) 6978227 / 725-7209

informes@kasperu.com www.kasperu.com

KASPeru Av. Jos Pardo 138, Oficina 1402 Miraflores Lima Per (51-1) 697-8227 (51-1) 725-7209

www.kasperu.com informes@kasperu.com Todos los derechos reservados. Todos los nombres de empresas y/o productos mencionados tienen propsitos de identificacin nicamente, ellos son registrados por sus respectivos dueos.

Вам также может понравиться