Вы находитесь на странице: 1из 21

FOROSAP.

COM
CONTENIDO

Qu es Data Warehousing?
Data Warehouse
Objetivos del Data Warehouse
Cmo trabaja el Data Warehouse?
En qu se lo puede usar?
OLAP Procesamiento analtico on-line
Sistemas de Data Warehouse y Oltp
Diferencias del Data Warehouse vs. OLTP
El descubrimiento del conocimiento (KDD)
Metas de KDD
Tcnicas de KDD
Data Marts
Minera de datos (md)
Aplicaciones de MD

Tcnicas de MD
Algoritmos de minera de datos
Retos de la minera de datos
Etapas principales del proceso de data mining
Extensiones del Data Mining
Por qu usar Data Mining?
Conclusiones

Qu es Data Warehousing?
Es un proceso, no un producto. Es una tcnica para consolidar y administrar
datos de variadas fuentes con el propsito de responder preguntas de negocios y
tomar decisiones, de una forma que no era posible hasta ahora.
Consolidar datos desde una variedad de fuentes, dentro del marco conceptual de
Data Warehousing es el proceso de Transformacin de Datos.
Manejar grandes volmenes de datos de una forma que no era posible, o no era
costo efectiva, a estos medios se agrupan en Procesamiento y Administracin de
Datos.
Acceder a los datos de una forma ms directa, en "el lenguaje del negocio", y
analizarlos para obtener relaciones complejas entre los mismos. Estos procesos se
engloban en dos categoras: Acceso a los Datos y Descubrimiento o Data Mining.
Estos desarrollos tecnolgicos, correctamente organizados e interrelacionados,
constituyen lo que se ha dado en llamar un Data Warehouse o Bodega de Datos.

La definicin ms conocida para el DW, fue propuesta por Inmon [MicroSt96]


(considerado el padre de las Bases de Datos) en 1992: Un DW es una coleccin
de datos orientados a temas, integrados, no-voltiles y variante en el tiempo,
organizados para soportar necesidades empresariales.

Caractersticas
Segn, Bill Inmon, existen generalmente cuatro caractersticas que describen un
almacn de datos:
1.orientado al sujeto: los datos se organizan de acuerdo al sujeto en vez de la aplicacin,
por ejemplo, una compaa de seguros usando un almacn de datos podra organizar
sus datos por cliente, premios, y reclamaciones, en lugar de por diferentes productos
(automviles, vida, etc.). Los datos organizados por sujetos contienen solo la
informacin necesaria para los procesos de soporte para la toma de decisiones.

2.integrados: cuando los datos residen en muchas aplicaciones separados por los
distintos entornos operacionales, la descodificacin de los datos es a menudo
inconsistente. Por ejemplo, en una aplicacin, la palabra gender podra codificarse como
"m" y "f" en otra como "0" y "1". Cuando los datos fluyen de un entorno operacional a un
entorno de almacn de datos o de data warehouse, ellos asumen una codificacin
consistente, por ejemplo gender siempre se transformara a "m" y "f".

3.variacin-temporal: el almacn de datos contiene un lugar para guardar datos con una
antigedad de 5 a diez aos, o incluso ms antiguos, para poder ser usados en
comparaciones, tendencias y previsiones. Estos datos no se modificarn.

4. no son inestables: los datos no sern modificados o cambiados de ninguna manera


una vez ellos han sido introducidos en el almacn de datos, solamente podrn ser
cargados, ledos y/o accedidos.

En 1993, Susan Osterfeldt [MicroSt96] publica una definicin que sin duda
acierta en la clave del DW: Yo considero al DW como algo que provee dos
beneficios empresariales reales: Integracin y Acceso de datos. DW elimina una
gran cantidad de datos intiles y no deseados, como tambin el procesamiento
desde el ambiente operacional clsico.

Ir a Contenido

Data Warehouse
Es el sistema para el almacenamiento y distribucin de cantidades masivas de
datos. El Data Warehouse analtico resultante puede ser aplicado para mejorar
procesos de negocios en toda la organizacin, en reas tales como manejo de
campaas promocionales, deteccin de fraudes, lanzamiento de nuevos
productos, etc.
El punto de inicio ideal es un data warehouse que contenga una combinacin de
datos de seguimiento interno de todos los clientes junto con datos externos de
mercado acerca de la actividad de los competidores. Informacin histrica sobre
potenciales clientes tambin provee una excelente base para prospecting. Este
warehouse puede ser implementado en una variedad de sistemas de bases
relacionales y debe ser optimizado para un acceso a los datos flexible y rpido.

Ir a
Contenido
Objetivos del Data Warehouse
Proveer una visin nica de los clientes en toda la empresa
Poner tanta informacin comercial como sea posible en manos de tantos
usuarios diferentes como sea posible
Mejorar el tiempo de espera que insumen los informes habituales
Monitorear el comportamiento de los clientes
Predecir compras de productos
Mejorar la capacidad de respuesta a problemas comerciales
Incrementar la precisin de las mediciones
Aumentar la productividad
Incrementar y distribuir las responsabilidades.

Ir a Contenido

Cmo trabaja el Data Warehouse?

Extrae la informacin operacional.

Transforma la operacin a formatos consistentes.

Automatiza las tareas de la informacin para prepararla a un anlisis


eficiente.

Ir a Contenido

En qu se lo puede usar?
o

Manejo de relaciones de marketing.

Anlisis de rentabilidad.

Reduccin de costos.

Ir a Contenido

Olap - procesamiento analtico on-line (On Line Analitic prossesing)


Se refiere a aplicaciones de bases de datos orientadas a array que permite a los
usuarios ver, navegar, manipular y analizar bases de datos multidimensionales.
Un server multidimensional OLAP permite que un modelo de negocios ms
sofisticado pueda ser aplicado cuando se navega por el data warehouse. Las
estructuras multidimensionales permiten que el usuario analice los datos de
acuerdo a como quiera mirar el negocio, por lnea de producto, u otras
perspectivas claves para su negocio. El server de Data Mining debe estar
integrado con el data warehouse y el server OLAP para insertar el anlisis de
negocios directamente en esta infraestructura. Un avanzado, metadato centrado
en procesos define los objetivos del Data Mining para resultados especficos tales
como manejos de campaa, prospecting, y optimizacin de promociones. La
integracin con el data warehouse permite que decisiones operacionales sean
implementadas directamente y monitoreadas.

Ir a
Contenido

Sistemas de Data Warehouse y Oltp

Una base de datos para soportar procesos transaccionales en lnea (OLTP), puede
no ser adecuada para el Data Warehouse ya que ha sido diseada para
maximizar la capacidad transaccional de sus datos y tpicamente tiene cientos de
tablas la gran mayora normalizadas. Su diseo tambin ha sido condicionado
por los procesos operacionales que deber soportar para la ptima actualizacin
de sus datos, normalmente muchas de sus tablas en constantes y continuos
cambios. Los sistemas Data Warehouse estn orientados a procesos de consultas
en contraposicin con los procesos transaccionales.

Ir a
Contenido
Diferencias del Data Warehouse vs Oltp
Los sistemas tradicionales de transacciones y las aplicaciones de Data
Warehousing son polos opuestos en cuanto a sus requerimientos de diseo y sus
caractersticas de operacin.
Las aplicaciones de OLTP estn organizadas para ejecutar las transacciones para
los cuales fueron hechos, como por ejemplo: mover dinero entre cuentas, un
cargo o abono, una devolucin de inventario, etc. Por otro lado, un Data
Warehouse est organizado en base a conceptos, como por ejemplo: clientes,
facturas, productos, etc.
Otra diferencia radica en el nmero de usuarios. Normalmente, el nmero de
usuarios de un Data Warehouse es menor al de un OLTP. Es comn encontrar
que los sistemas transaccionales son accedidos por cientos de usuarios
simultneamente, mientras que los Data Warehouse slo por decenas. Los
sistemas de OLTP realizan cientos de transacciones por segundo mientras que
una sola consulta de un Data Warehouse puede tomar minutos. Otro factor es
que frecuentemente los sistemas transaccionales son menores en tamao a los
Data Warehouses, esto es debido a que un Data Warehouse puede estar formado
por informacin de varios OLTPs.

Existen tambin diferencia en el diseo, mientras que el de un OLTP es


extremadamente normalizado, el de un Data Warehouse tiende a ser
desnormalizado. El OLTP normalmente est formado por un nmero mayor de
tablas, cada una con pocas columnas, mientras que en un Data Warehouse el
nmero de tablas es menor, pero cada una de stas tiende a ser mayor en nmero
de columnas.
Los OLTP son continuamente actualizados por los sistemas operacionales del da
con da, mientras que los Data Warehouse son actualizados en batch de manera
peridica.
Las estructuras de los OLTP son muy estables, rara vez cambian, mientras las de
los Data Warehouses sufren cambios constantes derivados de su evolucin. Esto
se debe a que los tipos de consultas a los cuales estn sujetos son muy variados y
es imposible preverlos todos de antemano.
Mejorar la Entrega de Informacin: informacin completa, correcta, consistente,
oportuna y accesible. Informacin que la gente necesita, en el tiempo que la necesita y en
el formato que la necesita.

Mejorar el Proceso de Toma de Decisiones: con un mayor soporte de informacin se


obtienen decisiones ms rpidas; as tambin, la gente de negocios adquiere mayor
confianza en sus propias decisiones y las del resto, y logra un mayor entendimiento de
los impactos de sus decisiones.

Impacto Positivo sobre los Procesos Empresariales: cuando a la gente se le da acceso a


una mejor calidad de informacin, la empresa puede lograr por s sola:

Eliminar los retardos de los procesos empresariales que resultan de


informacin incorrecta, inconsistente y/o no existente.
Integrar y optimizar procesos empresariales a travs del uso compartido e
integrado de las fuentes de informacin.
Eliminar la produccin y el procesamiento de datos que no son usados ni
necesarios, producto de aplicaciones mal diseados o ya no utilizados.

Ir a
Contenido
El descubrimiento del conocimiento (KDD)
Se define como la extraccin no trivial de informacin implcita, desconocida, y
potencialmente til de los datos. Hay una distincin clara entre el proceso de
extraccin de datos y el descubrimiento del conocimiento. Bajo sus convenciones,
el proceso de descubrimiento del conocimiento toma los resultados tal como
vienen de los datos (proceso de extraer tendencias o modelos de los datos)
cuidadosamente y con precisin los transforma en informacin til y entendible.
Esta informacin no es tpicamente recuperable por las tcnicas normales pero es
descubierta a travs del uso de tcnicas de AI.
KDD puede usarse como un medio de recuperacin de informacin, de la misma
manera que los agentes inteligentes realizan la recuperacin de informacin en el
Web. Nuevos modelos o tendencias en los datos podrn descubrirse usando
estas tcnicas. KDD tambin puede usarse como una base para las interfaces
inteligentes del maana, agregando un componente del descubrimiento del
conocimiento a una mquina de bases de datos o integrando KDD con las hojas
de clculo y visualizaciones.
Al Descubrimiento de Conocimiento de Bases de Datos (KDD) a veces tambin se
le conoce como minera de datos (Data Mining).
Sin embargo, muchos autores se refieren al proceso de minera de datos como el
de la aplicacin de un algoritmo para extraer patrones de datos y a KDD al
proceso completo (pre-procesamiento, minera, post-procesamiento).
El proceso de KDD consiste en usar mtodos de minera de datos (algoritmos)
para extraer (identificar) lo que se considera como conocimiento de acuerdo a la
especificacin de ciertos parmetros usando una base de datos junto con preprocesamientos y post-procesamientos.
Se estima que la extraccin de patrones (minera) de los datos ocupa solo el 15% 20% del esfuerzo total del proceso de KDD.

Ir a Contenido

Metas de KDD
procesar automticamente grandes cantidades de datos crudos,
identificar los patrones ms significativos y relevantes, y
presentarlos como conocimiento apropiado para satisfacer las metas del
usuario.

Ir a Contenido
Tcnicas de KDD
Los algoritmos de aprendizaje son una parte integral de KDD. Las tcnicas de
aprendizaje podrn ser supervisadas o no supervisadas. En general, las tcnicas
de aprendizaje dirigidas disfrutan de un rango de xito definido por la utilidad
del descubrimiento del conocimiento. Los algoritmos de aprendizaje son
complejos y generalmente considerados como la parte ms difcil de cualquier
tcnica KDD.
El descubrimiento de la mquina es uno de los campos ms recientes que han
contribuido para KDD. Mientras el descubrimiento de la mquina confa
solamente en mtodos autnomos para el descubrimiento de la informacin,
KDD tpicamente combina mtodos automatizados con la interaccin humana
para asegurar resultados exactos, tiles, y entendibles.
Hay muchos mtodos diferentes que son clasificados como las tcnicas de KDD.
Hay mtodos cuantitativos, como los probabilsticos y los estadsticos. Hay
mtodos que utilizan las tcnicas de visualizacin. Hay mtodos de clasificacin
como la clasificacin de Bayesian, lgica inductiva, descubrimiento de modelado
de datos y anlisis de decisin. Otros mtodos incluyen la desviacin y tendencia
al anlisis, algoritmos genticos, redes neuronales y los mtodos hbridos que
combinan dos o ms tcnicas.
Debido a las maneras en que estas tcnicas pueden usarse y combinarse, hay una
falta de acuerdos de cmo estas tcnicas deben categorizarse. Por ejemplo, el
mtodo de Bayesian puede agruparse lgicamente con los mtodos

probabilsticos, de clasificacin o de visualizacin. Por causa de la organizacin,


cada mtodo descrito aqu es incluido en el grupo que mejor encaje. Sin embargo,
esta seleccin no implica una categorizacin estricta.
Mtodo Probabilstico. Esta familia de tcnicas KDD utiliza modelos de
representacin grfica para comparar las diferentes representaciones del
conocimiento. Estos modelos estn basados en las probabilidades e
independencias de los datos. Estos son tiles para aplicaciones que involucran
incertidumbre y aplicaciones estructuradas tal que una probabilidad puede
asignarse a cada uno de los resultados o pequea cantidad del descubrimiento
del conocimiento. Las tcnicas probabilsticas pueden usarse en los sistemas de
diagnstico, planeacin y sistemas de control. Las herramientas del probabilidad
automatizadas estn disponibles en el dominio pblico y comercial.
Mtodo estadstico. El mtodo estadstico usa la regla del descubrimiento y se
basa en las relaciones de los datos. El algoritmo de aprendizaje inductivo puede
seleccionar automticamente trayectorias tiles y atributos para construir las
reglas de una base de datos con muchas relaciones''. Este tipo de induccin es
usado para generalizar los modelos en los datos y construir las reglas de los
modelos nombrados. El proceso analtico en lnea (OLAP) es un ejemplo de un
mtodo orientado a la estadstica. Las herramientas estadsticamente
automatizadas estn disponibles en el dominio pblico y comercial.
Mtodo de clasificacin. La clasificacin es probablemente el mtodo ms viejo y
mayormente usado de todos los mtodos de KDD. Este mtodo agrupa los datos
de acuerdo a similitudes o clases. Hay muchos tipos de clasificacin de tcnicas y
numerosas herramientas disponible que son automatizadas.
Mtodo Bayesian de KDD "es un modelo grfico que usa directamente los arcos
exclusivamente para formar una grfica acclica". Aunque el mtodo Bayesian usa los
medios probabilsticos y grficos de representacin, tambin es considerado un tipo de
clasificacin.

Se usan muy frecuentemente las redes de Bayesian cuando la incertidumbre se


asocia con un resultado puede expresarse en trminos de una probabilidad. Este
mtodo cuenta con un dominio del conocimiento codificado y ha sido usado para
los sistemas de diagnstico.

Ir a Contenido

Data Marts
Es un pequeo Data Warehouse, para un determinado numero de usuarios, para
un arrea funcional, especifica de la compaa. Tambin podemos definir que un
Data Marts es un subconjunto de una bodega de datos para un propsito
especifico. Su funcin es apoyar a otros sistemas para la toma de decisiones.
Los procesos que conforma el datawarehouse son:
1-Extraccin
2-Elaboracin
3-Carga
4-Explotacin

Componentes del Data Warehouse

Minera de Datos

Ir a Contenido

Es un mecanismo de explotacin, consistente en la bsqueda de informacin valiosa


en grandes volmenes de datos. Est muy ligada a las bodegas de datos que
proporcionan la informacin histrica con la cual los algoritmos de minera de datos
tienen la informacin necesaria para la toma de decisiones.

La md puede ser dividida en:

minera de datos predictiva (mdp): usa primordialmente tcnicas


estadsticas.

minera de datos para descubrimiento de conocimiento (mddc): usa


principalmente tcnicas de inteligencia artificial

"La minera de datos es un proceso no trivial de identificacin vlida, novedosa,


potencialmente til y entendible de patrones comprensibles que se encuentran
ocultos en los datos" (Fayyad y otros, 1996).
"Es la integracin de un conjunto de reas que tienen como propsito la
identificacin de un conocimiento obtenido a partir de las bases de datos que
aporten un sesgo hacia la toma de decisin" (Molina y otros, 2001).
Se denomina minera de datos (data mining) al anlisis de archivos y bitcoras de
transacciones, trabaja a nivel del conocimiento con el fin de descubrir patrones,
relaciones, reglas, asociaciones o incluso excepciones tiles para la toma de
decisiones. Por ejemplo, qu productos se comercializan mejor en la temporada
navidea, en qu regiones es productivo sembrar caf, qu reas de una zona
urbana incrementarn su demanda de escuelas primarias.
Por eso la minera de datos revela patrones o asociaciones que usualmente nos
eran desconocidas, se la ha llamado tambin Descubrimiento de Conocimiento,
este tiene sus inicios en el Aprendizaje Automtico o la Estadstica.
Un proceso de apoyo a la toma de decisiones de negocio debe incluir 2
componentes: el de verificacin, y el de descubrimiento.
El anlisis de verificacin nos permite obtener conclusiones basadas en el
comportamiento pasado.

La minera de datos con enfoque en el descubrimiento, puede ayudar a descubrir


nuevas oportunidades de negocio.
El anlisis de verificacin nos ayuda a confirmar o rechazar los
"descubrimientos" obtenidos con el nuevo enfoque.
La minera es un tema para grandes bases de datos, ayuda a descubrir a estas
bases informacin rpida. Es una herramienta relacionada directamente al
negocio.
Se empieza a hablar de minera de datos cuando en el mercado se pone atencin
en el producto y el cliente. Esta herramienta existe hace varios aos, el problema
es que trabaja con grandes bases de datos.
La minera de datos forma parte de un proceso integrado desde el 'Data
Warehouse' hasta la presentacin.

Ir a Contenido
Aplicaciones de MD
En la actualidad, existe una gran cantidad de aplicaciones, en reas tales como:
astronoma: clasificacin de cuerpos celestes.
aspectos climatolgicos: prediccin de tormentas, etc.
medicina: caracterizacin y prediccin de enfermedades, probabilidad de
respuesta satisfactoria a tratamiento mdico.

industria y manufactura: diagnstico de fallas.


mercadotcnia: identificar clientes susceptibles de responder a ofertas de productos y
servicios por correo, fidelidad de clientes, seleccin de sitios de tiendas, afinidad de
productos, etc.

inversin en casas de bolsa y banca: anlisis de clientes, aprobacin de


prestamos, determinacin de montos de crdito, etc.
deteccin de fraudes y comportamientos inusuales: telefnicos, seguros, en
tarjetas de crdito, de evasin fiscal, electricidad, etc.

anlisis de canastas de mercado para mejorar la organizacin de tiendas,


segmentacin de mercado (clustering)

determinacin de niveles de audiencia de programas televisivos


normalizacin automtica de bases de datos

Ir a Contenido

Tcnicas de MD
Anlisis Preliminar de datos usando Query tools: el primer paso en un proyecto de data
mining sera siempre un anlisis de los datos usando query tools, aplicando una
consulta SQL a un conjunto de datos, para rescatar algunos aspectos visibles antes de
aplicar las tcnicas. La gran mayora de la informacin (un 80 %) puede obtenerse con
SQL. El 20 % restante, mas importante, la informacin oculta requiere tcnicas
avanzadas.

Este primer anlisis en SQL es para saber cual es la distribucin de los valores
posibles de los atributos. Recin despus podemos ver la performance del
algoritmo correspondiente.
Tcnicas de Visualizacin: estas son buenas para ubicar patrones en un conjunto de
datos y puede ser usado al comienzo de un proceso de data mining para tomar un
feeling de la calidad del conjunto de datos.
rbol de Decisin: son estructuras en forma de rbol que representan conjuntos de
decisiones. Estas decisiones generan reglas para la clasificacin de un conjunto de datos.
Para poder predecir el comportamiento de un cliente es necesario poder contar con una
clasificacin previa esto implica una prediccin de que un cliente pertenece a cierto
grupo de clientes. La complejidad es de n (Log n).

Mtodos especficos de rboles de decisin incluyen:


- CART rboles de clasificacin y regresin: tcnica usada para la clasificacin de un
conjunto da datos. Provee un conjunto de reglas que se pueden aplicar a un
nuevo (sin clasificar) conjunto de datos para predecir cules registros darn un
cierto resultado. Segmenta un conjunto de datos creando 2 divisiones. Requiere
menos preparacin de datos que CHAID.

- CHAID Deteccin de interaccin automtica de Chi cuadrado: tcnica similar a la


anterior, pero segmenta un conjunto de datos utilizando tests de chi cuadrado
para crear mltiples divisiones.
Reglas de Asociacin: establece asociaciones en base a los perfiles de los clientes sobre
los cuales se est realizando el data mining. Las reglas de Asociacin estn siempre
definidas sobre atributos binarios. No es muy complicado generar reglas en grandes
bases de datos. El problema es que tal algoritmo eventualmente puede dar informacin
que no es relevante. Data Mining envuelve modelos para determinar patterns a partir de
los datos observados. Los modelos juegan un rol de conocimiento inferido. Diciendo
cuando el conocimiento representa conocimiento til o no, esto es parte del proceso de
extraccin de conocimiento en bases de datos (Knowledge Discovery in DatabasesKDD).
Algoritmos Genticos: son tcnicas de optimizacin que usan procesos tales como
combinaciones genticas, mutaciones y seleccin natural en un diseo basado en los
conceptos de evolucin.

Redes Bayesianas: buscan determinar relaciones causales que expliquen un fenmeno


en base a los datos contenidos en una base de datos. Se han usado principalmente para
realizar prediccin.
Procesamiento Analtico en Lnea (OLAP): estas herramientas ofrecen un mayor poder
para revisar, graficar y visualizar informacin multidimensional, en caractersticas
temporales, espaciales o propias. Se valen de lenguajes menos restringidos y
estructurados como lo es SQL. Requieren todava de una alta participacin de un
usuario humano, pues son interactivas y requieren la gua del experto.
Redes neuronales artificiales: son modelos predecibles, no lineales que aprenden a

travs del entrenamiento y semejan la estructura de una red neuronal biolgica.


Mtodo del vecino ms cercano: una tcnica que clasifica cada registro en un

conjunto de datos basado en una combinacin de las clases de k registro/s ms


similar/es a l en un conjunto de datos histricos. Algunas veces se llama la
tcnica del vecino k-ms cercano.

Regla de induccin: la extraccin de reglas if-then de datos basados en significado


estadstico.

La tcnica usada para realizar estas hazaas en Data Mining se llama Modelado:
es simplemente el acto de construir un modelo en una situacin donde usted
conoce la respuesta y luego la aplica en otra situacin de la cual desconoce la
respuesta.
La minera de datos, es un proceso que invierte la dinmica del mtodo
cientfico, dado que se generan hiptesis a partir de los datos colectados.
Las tcnicas de Minera de datos combinan la tecnologa de bases de datos y
data warehousing, con tcnicas de aprendizaje automtico y de estadstica.
La estadstica es una herramienta poderosa, y es un elemento crucial en el
anlisis de datos. Sin embargo, a veces enfrentamos problemas muy serios en la
interpretacin de sus resultados, dado que no recordamos que estos resultados se
aplican a grupos y no a individuos. Estos peligros se ven amplificados en el uso
de software de Minera de Datos.
La Minera de Datos es una herramienta explorativa y no explicativa. Es decir,
explora los datos para sugerir hiptesis. Es incorrecto aceptar dichas hiptesis
como explicaciones o relaciones causa-efecto. Es necesario coleccionar nuevos
datos y validar las hiptesis generadas ante los nuevos datos, y despus
descartar aquellas que no son confirmadas por los nuevos datos.
La Minera de Datos no puede ser experimental. En muchas circunstancias, no es
posible reproducir las condiciones que generaron los datos (especialmente si son
datos del pasado, y una variable es el tiempo).
Las Bases de Datos proporcionan la infraestructura necesaria para almacenar,
recuperar y manipular datos. La construccin y mantenimiento de una Bodega
de Datos (Data Warehouse), a pesar de que esta es una Base de Datos, su modo
de operar es muy distinto, para soportar transacciones y la actividad de negocio
en lnea, adems hace viable la revisin y el anlisis de su informacin para el
apoyo a las decisiones ejecutivas. Tpicamente, el Data Warehouse almacena y

resume informacin sobre transacciones cotidianas a lo largo del tiempo. Puede


que contenga informacin que ya no es posible reproducir del sistema para la
operacin cotidiana, es informacin arcaica pero til por su crnica histrica del
funcionar. Las consultas a la bodega no son tan sistemticas como las
transacciones y usualmente demandan ms recursos de cmputo. Resulta incluso
conveniente separar los equipos y sistemas de la operacin cotidiana de
transacciones en lnea de la Bodega de Datos.

Ir a Contenido

Algoritmos de Minera de Datos


Se clasifican en dos grandes categoras: supervisados o predictivos y no
supervisados o de descubrimiento del conocimiento [Weiss y Indurkhya, 1998].
Los algoritmos supervisados o predictivos predicen el valor de un atributo
(etiqueta) de un conjunto de datos, conocidos otros atributos (atributos
descriptivos). A partir de datos cuya etiqueta se conoce se induce una relacin
entre dicha etiqueta y otra serie de atributos. Esas relaciones sirven para realizar
la prediccin en datos cuya etiqueta es desconocida. Esta forma de trabajar se
conoce como aprendizaje supervisado y se desarrolla en dos fases:
Entrenamiento (construccin de un modelo usando un subconjunto de datos con
etiqueta conocida) y prueba (prueba del modelo sobre el resto de los datos).
Cuando una aplicacin no es lo suficientemente madura no tiene el potencial
necesario para una solucin predictiva, en ese caso hay que recurrir a los
mtodos no supervisados o del descubrimiento del conocimiento que descubren
patrones y tendencias en los datos actuales (no utilizan datos histricos). El
descubrimiento de esa informacin sirve para llevar a cabo acciones y obtener un
beneficio (cientfico o de negocio) de ellas.

Retos de la minera de datos

Ir a Contenido

que los productos a comercializar son, en la actualidad, significativamente

costosos, y los consumidores pueden hallar una relacin costo/beneficio


improductiva.
que se requiera de mucha experiencia para utilizar herramientas de la

tecnologa, o que sea muy fcil hallar patrones equvocos, triviales o no


interesantes.
que exista una reaccin del pblico por el uso indiscriminado de datos

personales para ejercicios de Minera de Datos.


tambin es muy posible que se deseen hacer inferencias y anlisis de datos

sobre un periodo determinado, pero que durante dicho periodo no se haya


registrado el mismo nmero de variables, o que stas no tengan la misma
precisin, o carezcan de la misma interpretacin.

Ir a Contenido

Etapas principales del proceso de data mining


1. Determinacin de los objetivos: delimitar los objetivos que el cliente desea bajo la
orientacin del especialista en data mining.

2. Preprocesamiento de los datos: se refiere a la seleccin, la limpieza, el


enriquecimiento, la reduccin y la transformacin de las bases de datos. Esta etapa
consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto
de data mining.

3. Determinacin del modelo: se comienza realizando un anlisis estadstico de los


datos, y despus se lleva a cabo una visualizacin grfica de los mismos para tener una
primera aproximacin. Segn los objetivos planteados y la tarea que debe llevarse a
cabo, pueden utilizarse algoritmos desarrollados en diferentes reas de la Inteligencia
Artificial.

4. Anlisis de los resultados: verifica si los resultados obtenidos son coherentes y los
coteja con los obtenidos por el anlisis estadstico y de visualizacin grfica. El cliente
determina si son novedosos y si le aportan un nuevo conocimiento que le permita
considerar sus decisiones.

Respecto a los modelos inteligentes, se ha comprobado que en ellos se utilizan


principalmente rboles y reglas de decisin, reglas de asociacin, redes
neuronales, redes Bayesianas, conjuntos aproximados (rough sets), algoritmos de
agrupacin (clustering), mquinas de soporte vectorial, algoritmos genticos y
lgica difusa.

Ir a Contenido
Extensiones del data mining
Web mining: consiste en aplicar las tcnicas de minera de datos a documentos y
servicios del Web (Kosala y otros, 2000). Todos los que visitan un sitio en Internet dejan
huellas digitales (direcciones de IP, navegador, etc.) que los servidores automticamente
almacenan en una bitcora de accesos (Log). Las herramientas de Web mining analizan y
procesan estos logs para producir informacin significativa. Debido a que los contenidos
de Internet consisten en varios tipos de datos, como texto, imagen, vdeo, metadatos o
hiperligas, investigaciones recientes usan el trmino multimedia data mining (minera
de datos multimedia) como una instancia del Web mining (Zaiane y otros, 1998) para
tratar ese tipo de datos. Los accesos totales por dominio, horarios de accesos ms
frecuentes y visitas por da, entre otros datos, son registrados por herramientas
estadsticas que complementan todo el proceso de anlisis del Web mining.
Text mining: dado que el ochenta por ciento de la informacin de una compaa est
almacenada en forma de documentos, las tcnicas como la categorizacin de texto, el
procesamiento de lenguaje natural, la extraccin y recuperacin de la informacin o el
aprendizaje automtico, entre otras, apoyan al text mining (minera de texto). En
ocasiones se confunde el text mining con la recuperacin de la informacin (Information
Retrieval o IR) (Hearst, 1999). Esta ltima consiste en la recuperacin automtica de
documentos relevantes mediante indexaciones de textos, clasificacin, categorizacin,
etc. Generalmente se utilizan palabras clave para encontrar una pgina relevante. En
cambio, el text mining se refiere a examinar una coleccin de documentos y descubrir
informacin no contenida en ningn documento individual de la coleccin; en otras
palabras, trata de obtener informacin sin haber partido de algo (Nasukawa y otros,
2001).

Ir a Contenido
Por qu usar data mining?
Si bien el data mining se presenta como una tecnologa emergente, posee ciertas
ventajas, como ser:
resulta un buen punto de encuentro entre los investigadores y las personas de
negocios.
ahorra grandes cantidades de dinero a una empresa y abre nuevas
oportunidades de negocios.
trabajar con esta tecnologa implica cuidar un sin nmero de detalles debido a
que el producto final involucra "toma de decisiones".
contribuye a la toma de decisiones tcticas y estratgicas proporcionando un
sentido automatizado para identificar informacin clave desde volmenes de
datos generados por procesos tradicionales y de e-Business.
permite a los usuarios dar prioridad a decisiones y acciones mostrando
factores que tienen un mayor en un objetivo, qu segmentos de clientes son
desechables y qu unidades de negocio son sobrepasados y por qu.
proporciona poderes de decisin a los usuarios del negocio que mejor
entienden el problema y el entorno y es capaz de medir la acciones y los
resultados de la mejor forma.
genera Modelos descriptivos: en un contexto de objetivos definidos en los
negocios permite a empresas, sin tener en cuenta la industria o el tamao,
explorar automticamente, visualizar y comprender los datos e identificar
patrones, relaciones y dependencias que impactan en los resultados finales de la
cuenta de resultados (tales como el aumento de los ingresos, incremento de los
beneficios, contencin de costes y gestin de riesgos).
genera Modelos predictivos: permite que relaciones no descubiertas e
identificadas a travs del proceso del Data Mining sean expresadas como reglas
de negocio o modelos predictivos. Estos outputs pueden comunicarse en

formatos tradicionales (presentaciones, informes, informacin electrnica


compartida, embebidos en aplicaciones, etc.) para guiar la estrategia y
planificacin de la empresa.

Ir a Contenido
Conclusiones
El desarrollo de la tecnologa de Minera de Datos est en un momento crtico.
Existe una serie de elementos que la hacen operable, sin embargo, existen
algunos factores que pueden crear un descrdito a la Minera de Datos, como ser:
que los productos a comercializar son, en la actualidad, significativamente
costosos, y los consumidores pueden hallar una relacin costo/beneficio
improductiva
que se requiera de mucha experiencia para utilizar herramientas de la
tecnologa, o que sea muy fcil hallar patrones equvocos, triviales o no
interesantes,
que no sea posible resolver los aspectos tcnicos de hallar patrones en tiempo o
en espacio,
adems, hoy en da, las corporaciones comercializan con millones de perfiles
personales, sin que aquellos a que se refieren los datos intercambiados, estn en
posibilidad de intervenir, entonces, se llega a pensar que presenta un peligro o riesgo
para la privacidad de los clientes

Вам также может понравиться