Вы находитесь на странице: 1из 26

 Cada vez es más frecuente el almacén de

información en bases de datos como en:


 Data Warehouse
 Empresas de Marketing
 Escuelas
 Gobierno
 Esto dificulta la realización de análisis de
aspectos relevantes.
 La búsqueda tradicional de datos se realiza
mediante análisis estadísticos.
 A finales de los 80’s la estadística se amplió a
técnicas como lógica difusa, razonamiento
heurístico y redes neuronales.
 Actualmente, las técnicas anteriores se
aprovechan para generar conocimiento.
 La Minería de Datos es la extracción automática
de información predictiva escondida desde bases
de datos.

 La Minería de Datos estudia métodos y


algoritmos que permiten la extracción automática
de información sintetizada que permite
caracterizar las relaciones escondidas.
 En las aplicaciones de la Minería de Datos se
hace sobre datos previamente recolectados.

 Los datos no cambian mientras están siendo


analizados.

 Por lo que los datos generados son confiables y


consistentes para éstos datos.
 La Minería de Datos y las Bases de Datos
comerciales están disponibles para resolver
problemas de decisión de negocios.

 La Minería de Datos es una tecnología que ayuda


a enfocarse en la información más importante en
los almacenes de datos.
 Minería de Datos:  Bases de Datos
Comerciales:
› No es una solución a
negocios. › Involucra decisiones de
› Es sólo tecnología. información.
› Encuentra las “gemas › Da decisiones de
pérdidas” en montañas negocios.
de información.
 Las Herramientas de la Minería de Datos:
› Predicen tendencias futuras y comportamientos.
› Pueden responder a preguntas que consumarían
demasiado tiempo para resolverlas.

 La automatización, provee herramientas típicas


de soporte de decisión.
 Las Técnicas de la Minería de Datos son el resultado
de un largo proceso de investigación y desarrollo de
productos.
 La Minería de Datos esta soportada por tres
tecnologías que son lo suficientemente maduras:
Colección masiva de datos.
Computadoras con multiprocesamiento.
Algoritmos de minería de datos.
 Las técnicas para la Minería de Datos son:

 Redes Neuronales Artificiales.


 Árboles de Decisión.
 Algoritmos Genéticos.
 Modelos Lineales.
 Vecino más Cercano.
 Redes neuronales.
› Son capaces de detectar y aprender patrones y
características de los datos.
› Una vez adiestradas las redes pueden hacer
previsiones, clasificaciones y segmentación.
› Esto se realiza estructurando niveles o capas.
› Se tienen dos tipos de aprendizaje: supervisado y no
supervisado.
 Algorítmos genéticos.
› Hacen uso de técnicas de reproducción (mutación y
cruce) para ser utilizadas para búsqueda y
optimización.
› Se parte de una población inicial, y se altera
optimizándola.
› Esta herramienta se usa en las primeras fases de la
minería y después se aplica redes neuronales o
regresión logística.
 Lógica difusa.
› Surge de la necesidad de modelar la realidad de forma
mas exacta, evitando el determinismo y exactitud.
› Permite el tratamiento probabilístico de
categorización colectiva.
› Trata la existencia de barreras difusas o suaves entre
grupos.
 Redes bayesianas.
› Son una alternativa para la minería.
› Se tiene las ventajas:
Permiten aprender sobre relaciones de dependencia y
causalidad.
Permiten combinar conocimiento de datos.
Evitan el sobre-ajuste de datos.
Permiten el manejo de bases de datos incompletas.
 Sistemas basados en conocimiento y sistemas
expertos.
› Permiten la formalización de árboles y reglas de
decisión, extraídas del conocimiento de expertos.
› Poseen motores de inferencia, que gestionan las
preguntas.
› De esta forma el proceso de decisión es eficiente y
rápido.
 El componente principal en la Tecnología de la
Minería de Datos ha sido desarrollado en:
Estadística
Inteligencia Artificial
Máquinas de Aprendizaje
 Actualmente, existe gran relevancia en:
Ambientes de negocios
Las descripciones básicas de las arquitecturas de
almacenes de datos.
 Algunas de las aplicaciones de la Minería de
Datos son:
› Compañias Farmaceuticas.
› Compañias de crédito.
› Compañias de transporte.
› Compañias de consumo.
› Reacciones químicas.
› Comercio, monitoreo.
 Facilidad con que se puede caer en una falsa
interpretación.

 Es fácil equivocarse.

 Tiempo y espacio.

 Privacidad
Datos
BD

Selección de Extracción de
Selección Preprocesado Evaluación
características conocimiento

Conocimiento Modelo
clasificador
 Agrupamiento (Clustering).

• Agrupar a los clientes según indicadores F (frecuencia),


M (monto), etc en segmentos de comportamientos
homogéneos.
• Resultado: Clientes Buenos, Medios, Malos.
• El 78% de la facturación se concentra en el cluster
Buenos.
• Los clientes Buenos son casados, con hijos, trabajadores
autónomos con ingreso superior a S/3000.
 Clasificación y Estimación

• Clasificar un nuevo cliente – de acuerdo a su perfil


sociodemográfico – como un cliente:
• Bueno.
• Medio.
• Malo.
• Estimar el consumo de un determinado rubro de
artículos de un grupo de clientes en el próximo
trimestre.
 Predicción

Predecir el abandono de un cliente:


• Para una compañía de telefonía celular. • Para una
AFJP.
• Para una tarjeta de crédito.
 Asociación

Encontrar las reglas que determinan la interrelación


entre productos para clientes de un banco. Por
ejemplo: “ Cuando un cliente se activa en Caja de
Ahorros, el siguiente producto donde se activa es
Préstamos Personales. Este patrón ocurre el 65 %
de los casos. ”
 Selección de técnicas adecuadas.
 El mínimo aceptable para elegir una tecnología de
MD y un producto depende de qué tanto el producto
beneficia al negocio:
Ingresos.
Costos disminuidos.
Rendimiento de inversiones.
 Para desarrollar con éxito un negocio, el MD debe
buscar algo más que patrones deseados.
 Se tienen tres medidas claves, para una
evaluación de las herramientas.
 Precisión: Se deben modelos precisos, pero
reconociendo pequeñas diferencias en las técnicas.
 Explicación: Las herramientas deben explicar al
usuario final de manera clara como funciona el
modelo.
 Integración: Las herramientas deben integrarse en
el proceso real del negocio, flujos de datos e
información de la empresa.
26

Вам также может понравиться