Вы находитесь на странице: 1из 49

Introduccin

La minera de datos se encuentra impregnada en los diversos campos de la ciencia , sus aplicaciones estn destacadas en la rama financiera , anlisis de mercados y comerci , en seguros y salud privada , en educacin , en procesos industriales , en medicina, en biologa , en bioingeniera y en telecomunicaciones .Por consiguiente se requiere de un estudio conceptual para entender este proceso.

FUNDAMENTOS-DEFINICIN
Es un mecanismo de explotacin consistente en la bsqueda de informacin valiosa en grandes volmenes de datos
Prepara , sondea y explora los datos para encontrar la informacin oculta en ellos Comprende un conjunto de tcnicas para la descripcin y prediccin a partir de grandes masas de datos

ELEMENTOS
BASE DE DATOS

LA MINERA (EL SOFTWARE)

ANALISTA

ORIGEN DE LOS DATOS

BASES DE DATOS RELACIONALES DATA WAREHOUSE ARCHIVOS DE EXCEL ACCESS

MODELOS TIPICOS
CLIENTES

CLUSTERINGMONTO
PALABRA CLAVE AGRUPA

TIEMPO

EDAD

GENER O

CLASIFICACION EJEMPLO CLASIFICA AL CLIENTE COMO BUENO,MEDIO Y MALO DE ACUERDO A SU PERFIL SOCIODEMOGRAFICO ESTIMACION EJEMPLO :VALORAR EL CONSUMO DE UN NUMERO DETERMINADO DE ARTICULOS DE UN GRUPO DE CLIENTES GENERALMENTE EN TRIMESTRES Estimar el valor del ingreso total de un grupo familiar

PREDICCION PREDICE EL ABANDONO DE UN CLIENTE EJEMPLO _SE OBSERVA EN LAS COMPAIAS TELEFONICAS

OBJETIVO DE LA MINERIA DE DATO


La minera de datos trabaja con los datos con el objetivo de encontrar patrones de comportamiento ocultos en los mismos con el fin de crear nuevas asociaciones , predecir resultados

ORIGENES
Surge en esta poca en el contexto de las tecnologas de informacin y desarrollo de software

AOS 90

las lneas de desarrollo en el campo de la minera de datos tiene sus orgenes entres reas fundamentales : - LA ESTADISTICA CLASICA - INTELIGENCIA ARTIFICIAL - APRENDIZAJE AUTOMATICO

CARACTERISTICAS
Explorar los datos que se encuentran en los almacn de datos (data warehouse)

1. 2.

El entorno de los datos suele tener un arquitectura cliente servidor

3.

Extrae el mineral de la informacin enterrado en archivos corporativos o registros pblicos archivados

HERRAMIENTAS
Las herramientas de la minera de datos permiten extraer patrones , tendencias y regularidades para describir y comprender mejor los datos y para predecir comportamientos futuros

ANALIZA LOS DATOS

Cumplen con el papel de facilitar el acceso a la informacin

MINERIA DE DATOS

HERRAMIENTAS DE MINERIA DE DATOS

NOWLEDGE DISCOVERY IN DATABAS

La minera de datos esta incluida en un proceso mayor denominado DESCUBRIMIENTO DE CONOCIMIENTOS EN BASES DE DATOS (KDD) , que se llevara a cabo a partir del desarrollo de modelos predictivos y descriptivos y mediante el anlisis de datos (data analysis) una vez recogidos los datos de intereses un explorador puede decidir que tipo de patrn que quiere descubrir.

A CONTINUACION SE MOSTRARA EL PROCESO DE EXTRACCION DEL CONOCIMIENTO

PROCESO DE EXTRACCION DEL CONOCIMIENTO

TECNICAS DE DATA MINING


PROPOSITO PERMITEN EL DESCUBRIMIENTO AUTOMATICO DEL CONOCIMIENTO CONTENIDO EN LA INFORMACION ALMACENADA DE MODO ORDENADO EN GRANDES BASES DE DATOS OBJETIVO DESCUBRIR PATRONES , PERFILES Y TENDENCIAS A TRAVEZ DEL ANALISIS DE DATOS UTILIZANDO TECNOLOGIA DE RECONOCIMIENTO DE PATRONES , REDES NEURONALES ,LOGICA DIFUSA Y OTRAS TECNICAS AVANZADAS DE ANALISIS DE DATOS

MINERIA DE DATOS REGRESION Y SERIES TEMPORALES ALGORITMOS GENETICOS ARBOLES DE DECISION METODOS BAYESIANOS ANALISIS EXPLORATORIO TECNICAS DESCRIPTIVAS CLUSTERING Usa principales tcnicas de inteligencia artificial Usa principalmente tcnicas de estadsticas

TECNICAS PREDICTIVAS

REGLAS DE ASOCIACION Y DEPENDENCIA REDUCCION DE LA

PROCESO ANALITICO DE TRANSACCIONES (OLAP) AUXILIARES SQL Y HERRAMIENYAS DE CONSULTA REPORTING

- ESTAS TECNICAS AUXILIARES SON HERRAMIENTAS DE APOYO MAS SUPERFICIALES Y LIMITADAS. - METODOS BASADOS EN ESTADISTICA DESCRIPTIVA , CONSULTAS E INFORMES ENFOCADOS HACIA LA VERIFICACION .

Data mining
SAS Institute , define el concepto de data mining como el proceso de seleccionar (Selecting) , Explorar (Exploring ) , Modificar(Modifying) ,Modelar (Modeling) y valorar(Assessment) grandes cantidades de datos con el objetivo de descubrir patrones que pueden ser utilizado como ventaja comparativa respecto a los competidores

Metodologa de la data mining


HERRAMIENTAS Y TECNICAS
DEFINICION DEL PROBLEMA Y ESTABLECER METAS

OBTENCION Y PREPARACION DE DATOS

CONSTRUCCION Y PREPARACION DE DATOS EVALUAR RESULTAD OS RESULTAD OS

USAR MODELO

ERRAMIENTAS INTEGRADAS DATA MINING

EJEMPLO DE TRABAJO CON EL SOFTWARE CLEMENTINE

EXTENSIONES Web Minning

Web Minning es una metodologa para extraer informacin de pginas webs a travs de tcnicas de minera de datos. La informacin se extrae del contenido de las pginas, de sus enlaces y de los registros de navegacin de los usuarios.

Text mining La informacin almacenada en documentos

APLICACIONES DE MINERIA DE DATOS

Aplicaciones de uso
Cada ao

Los diferentes congresos, simposios y talleres


Se realizan

aplicaciones muy divisas sobre todo en estados unidos


se incorporan

La data mining mucho en la vida cotidiana

El gobierno

Las empresas

Las universidade s

Otros

INVESTIGACIONES

EL GOBIERNO

A principios del mes de julio de 2002, el director del Federal Bureau of


Investigation (FBI), John Aschcroft, anunci que el Departamento de Justicia comenzar a introducirse en la vasta cantidad de datos comerciales referentes a los hbitos y preferencias de compra de los consumidores, con el n de descubrir potenciales terroristas antes de que ejecuten una accin. Algunos expertos aseguran que, con esta informacin, el FBI unir todas las bases de datos probablemente mediante el nmero de la Seguridad Social y permitir saber si una persona fuma, qu talla y tipo de ropa usa, su registro de arrestos, su salario, las revistas a las que est suscrito, su altura y peso, sus contribuciones a la Iglesia, grupos polticos u organizaciones no gubernamentales, sus enfermedades crnicas (como diabetes o asma), los libros que lee, los productos de supermercado que compra, si tom clases de vuelo o si tiene cuentas de banco abiertas, entre otros. La inversin inicial ronda los setenta millones de dlares estadounidenses para consolidar los almacenes de datos, desarrollar redes de seguridad para compartir informacin e implementar nuevo software analtico y de visualizacin.

EN LA EMPRESA

DETECCIN DE FRAUDES EN LAS TARJETAS DE CRDITO


En 2001, las instituciones nancieras a escala mundial perdieron ms de 2.000 millones de dlares estadounidenses en fraudes con tarjetas de crdito y dbito. El Falcon Fraud Manager es un sistema inteligente que examina transacciones, propietarios de tarjetas y datos nancieros para detectar y mitigar fraudes. En un principio estaba pensado, en instituciones nancieras de Norteamrica, para detectar fraudes en tarjetas de crdito. Sin embargo, actualmente se le han incorporado funcionalidades de anlisis en las tarjetas comerciales, de combustibles y de dbito. El sistema Falcon ha permitido ahorrar ms de seiscientos millones de dlares estadounidenses cada ao y protege aproximadamente ms de cuatrocientos cincuenta millones de pagos con tarjeta en todo el mundo aproximadamente el sesenta y cinco por ciento de todas las transacciones con tarjeta de crdito.

DESCUBRIENDO EL PORQU DE LA DESERCIN DE CLIENTES DE UNA COMPAA OPERADORA DE TELEFONA MVIL


Este estudio fue desarrollado en una operadora espaola que bsicamente situ sus objetivos en dos puntos: el anlisis del perl de los clientes que se dan de baja y la prediccin del comportamiento de sus nuevos

clientes. Se analizaron los diferentes histricos de clientes que haban abandonado la operadora (12,6%) y de
clientes que continuaban con su servicio (87,4%). Tambin se analizaron las variables personales de cada cliente (estado civil, edad, sexo, nacionalidad, etc.). De igual forma se estudiaron, para cada cliente, la morosidad, la frecuencia y el horario de uso del servicio, los descuentos y el porcentaje de llamadas locales,

interprovinciales, internacionales y gratuitas. Al contrario de lo que se podra pensar, los clientes que
abandonaban la operadora generaban ganancias para la empresa; sin embargo, una de las conclusiones ms importantes radic en el hecho de que los clientes que se daban de baja reciban pocas promociones y registraban un mayor nmero de incidencias respecto a la media. De esta forma se recomend a la operadora

hacer un estudio sobre sus ofertas y analizar profundamente las incidencias recibidas por esos clientes. Al
descubrir el perl que presentaban, la operadora tuvo que disear un trato ms personalizado para sus clientes actuales con esas caractersticas. Para poder predecir el comportamiento de sus nuevos clientes se dise un sistema de prediccin basado en la cantidad de datos que se poda obtener de los nuevos clientes comparados con el comportamiento de clientes anteriores.

UNIVERSIDADES

CONOCIENDO SI LOS RECIN TITULADOS DE UNA UNIVERSIDAD LLEVAN A CABO ACTIVIDADES PROFESIONALES RELACIONADAS CON SUS ESTUDIOS.
Se realizo un estudio sobre los recin titulados de la carrera de Ingeniera en Sistemas Computacionales del Instituto Tecnolgico de Chihuahua II en Mjico. Se quera observar si los recin titulados se insertaban en actividades profesionales relacionadas con sus estudios y, en caso negativo, se buscaba saber el perfil que caracteriz a los ex-alumnos durante su estancia en la universidad. Se deseaba concluir si con los planes de estudio de la universidad y el rendimiento del alumno se haca una buena insercin laboral o si existan otras variables que participaban en el proceso. Dentro de la informacin considerada estaba el sexo, la edad, la escuela de procedencia, el desempeo acadmico, la zona econmica donde tena su vivienda y la actividad profesional, entre otras variables. Mediante la aplicacin de conjuntos aproximados se descubri que existan cuatro variables que determinaban la adecuada insercin laboral, que son citadas de acuerdo con su importancia:

1. Zona econmica donde habitaba el estudiante 2. Colegio de donde provena

3. Nota al ingresar
4. Promedio final al salir de la carrera

A partir de estos resultados, la universidad obtuvo como resultado que las tres caractersticas ms importantes no tenan relacin con la universidad, y si de la economa de la zona donde provena el estudiante. Por lo que poda plantearse nuevas soluciones de tipo socioeconmico, como becas en empresas u otras.

NBA
UTILIZA DATOS ESTADISTICOS Y TECNICAS DE DATA MINING PARA APOYAR A SU EQUIPO DE ENTRENADORES

AUDIENCIAS TELEVISIVAS

EN EL REINO UNIDO emplea un sistema para predecir el tamao de las audiencias televisivas para un programa propuesto, as como el tiempo ptimo de exhibicin . El sistema utiliza redes neuronales y rboles de decisin aplicados a datos histricos de la cadena para determinar los criterios que participan segn el programa que hay que presentar.

INVESTIGACION ESPACIAL

Proyecto SKYCAT UTILIZA EL METODO CLUSTERING Y ARBOLES DE DECISION PARA CLASIFICAR PLANETAS , ESTRELLAS , SISTEMAS , GALAXIAS DE MANERA CONFIABLE CON EL OBJETIVO DE AYUDAR A LOS CIENTIFICOS A DESCUBIR OBJETOS LEJANOS

MEDICINA
ENCONTRAR LA PROBABILIDAD DE UNA RESPUESTA SATISFACTORIA DE UN TRATAMIENTO MEDICO

CLIMATOLOGICO

PREDICCION DE TORMENTAS

Otras INVESTIGACIONES
APLICANDO MINERIA DE DATOS AL MARKETING EDUCATIVO UNIVERSIDAD SERGIO ARBOLEDA grupo de semillero de investigacin Perceptron

Objetivo
caracterizar el perfil de los estudiantes que ingresan y desertan en los programas de Publicidad Internacional y Marketing & Negocios Internacionales.

Debido a que la investigacin parta de extraer conocimiento, que en algunos casos la direccin de la escuela supona, se inici aplicando un mtodo no supervisado; es decir que no se tiene variable objetivo, para primero tratar de comprender su base datos en busca de descubrir patrones y tendencias; con ellos se us la tcnica de Agrupamiento bajo un mtodo

Figura No. 1. Esquema de modelos y tcnicas de minera de datos Fuente: Elaboracin propia de los seminarios de Minera de Datos en el semillero de investigacin: PERCEPTRON

Los objetivos especficos del proyecto, partan de caracterizar, mediante modelos descriptivos los clster de estudiantes (graduados o que actualmente estn cursando en la Escuela) y estudiantes desertores de los programas de Marketing & Negocios Internacionales y Publicidad Internacional. Se encontraron variables o atributos significativos en estos grupos.

Figura No. 2. Procedimiento del modelo usando Rapid Miner Fuente: Importacin de esquema del modelo aplicado. Elaboracin propia.

Figura No. 3. Grfica del Clster de perfiles de los estudiantes de Marketing y Negocios Internacionales

MINERA DE DATOS CON REDES NEURONALES ARTIFICIALES: APLICACIN EN VACUNAS TUBERCULOSIS.


AUTORES M.V. Guzmn (*), H. Carrillo (**), E. Villaseor (**), E. Valencia (**), R. Calero (*), L. E. Morn (**) y A. Acosta (*). * Instituto Finlay. Centro de Investigacin-Desarrollo y Produccin de Vacunas y Sueros. Ave.

Objetivo Anlisis de la relevancia de diferentes sustancias qumicas en las investigaciones sobre la tuberculosis. TECNICAS REDES NEURONALES COMENTARIO Haciendo uso de las tcnicas de la Minera de datos nuestro grupo analiz 2987 artculos de investigacin contenidos en las bases de datos de MedLine (literatura biomdica) e investig el uso de 8,961 diferentes sustancias que aparecen reportadas en las investigaciones de un lapso de 22 aos (1980-2002).

Entrenadon una red neuronal (usando el sistema de software Viscovery SOMine) se gener mapas especficos para representar las sustancias relacionadas con la Interleukina-1 y la Interleukina12.

Lo mostrado son solo dos ejemplos de las anlisis que se pueden hacer basado en el principio de la Minera de datos y textos. Estos son validos para otros campos del conocimientos, solo se necesita identificar el problema y aplicar el modelo correspondiente.

OTRAS INVESTIGACIONES
1. Investigacin y Aplicacin de la extensin de minera de datos, en las subdivisiones de las marcas para empresas de telecomunicaciones Tang Zhi-hang1, 2 Yang Bao-an2 1 School of Computer and Communication, Hunan Institute of Engineering, Xiangtan, 411104, China 2 Glorious-Sun School of Business and Management, Donghua University Shanghai, 200051, China 2. La investigacin de las complicaciones micro vasculares diabticas que utilizan tcnicas de minera de datos Chien-Lung Chan ; Yu-Chen Liu ; Shih-Hui Luo Neural Networks, 2008. IJCNN 2008. (IEEE World Congress on Computational Intelligence). IEEE International Joint Conference on 3. Minera de datos contra el alzhimer

CONCLUSIONES
la Minera de Datos, a pesar de ser una ciencia joven, ha experimentado un gran auge en los ltimos tiempos gracias a sus mltiples aplicaciones en el mundo real.

Las empresas ricas en datos y pobres en conocimiento , actualmente desean renovar sus sistemas de informacin utilizando la minera de datos para predecir situaciones a futuro para un proceso de toma decisin.

La minera de datos tiene como objetivo analizar los datos , extraer patrones de comportamiento ya se para predecir resultados o crear conocimiento tiles

BIBLIOGRAFIA

http://www.it.uc3m.es/jvillena/irc/practicas/06-07/22.pdf http://exa.unne.edu.ar/depar/areas/informatica/Sistemas Operativos/Mineria_Datos_Vallejos.pdf http://www.agenciasinc.es/Noticias/Mineria-de-datoscontra-el-alzheimer Base de datos IEEE http://catarina.udlap.mx/u_dl_a/tales/documentos/msp/p ech_p_ma/capitulo7.pdf http://exa.unne.edu.ar/depar/areas/informatica/Sistemas Operativos/Mineria_Datos_Vallejos.pdf

Вам также может понравиться