Вы находитесь на странице: 1из 48

1.

reas de estudio de la inteligencia artificial

INTELIGENCIA ARTIFICIAL
En la actualidad son muchas las reas en las cuales tiene influencia la inteligencia
artificial.
SIMULACIN
DE
LA
CAPACIDAD
SENSORIAL
HUMANA.
La simulacin de la capacidad sensorial humana es rea de estudio de la
inteligencia artificial, que a travs de las computadoras persigue la imitacin de las
capacidades o habilidades sensoriales humanas tales como vista, odo, habla y
tacto.
ROBOTICA.
La robtica es el rea de la inteligencia artificial que estudia la imitacin del
movimiento humano a travs de robots, los cuales son creados con el fin de
apoyar procesos mecnicos repetitivos que requieren gran precisin.
LENGUAJES NATURALES.
Esta rama del estudio de la inteligencia artificial se enfoca en el diseo y desarrollo
de software capaz de aceptar, interpretar y ejecutar instrucciones dadas por los
usuarios en su lenguaje nativo.
SISTEMAS EXPERTOS. Los sistemas expertos constituyen el rea de la
inteligencia artificial que quiz en este momento tiene ms relacin con el apoyo al
proceso de la toma de decisiones en las organizaciones. Estos sistemas,
denominados tambin sistemas basados en el conocimiento, permiten cargar
bases de conocimientos integradas por una serie de reglas de sentido comn o
conocimiento heurstico; es decir, conocimiento basados u obtenidos a travs de la
experiencia de un especialista o experto.
REDES NEURALES.
Las redes neurales permiten que las mquinas aprendan, el nombre de redes
neurales proviene de la similitud con la forma de operar del cerebro humano en
donde las neuronas forman enlaces unas con otras con bases en pulsos
elctricos.
LGICA DIFUSA.
La lgica difusa es una tcnica matemtica para el tratamiento de datos
imprecisos y problemas que tienen ms de una solucin. La lgica difusa puede
tratar con valores entre 0 y 1, es ms parecido a la lgica humana que la lgica
binaria tradicional de las computadoras digitales.

AGENTES INTELIGENTES.
Programa diseado con conocimiento para realizar ciertas tareas especficas,
normalmente repetitivas. Un agente inteligente puede ser programado para tomar
decisiones con base en las preferencias de una persona. El propsito principal es
poder asignar tareas al agente inteligente, las cuales harn ms rpido, ms
frecuentemente y con mayor eficacia que el ser humano, tal como lo haran los
asistentes de ayuda que hoy tienen algunos paquetes para ensear al usuario a
realizar una actividad especfica. Los agentes se clasifican en dos tipos:

Agentes cognitivos: Aquellos capaces de efectuar operaciones complejas.


Son individualmente inteligentes. Pueden comunicarse con los dems
agentes y llegar a un acuerdo con todos o alguno de ellos.
Agentes reactivos: Son agentes de bajo nivel y no disponen de un protocolo
ni de un lenguaje de comunicacin; su nica capacidad es responder a
estmulos.

TARJETAS INTELIGENTES (SMART CARDS)


Una smart card es un pedazo de plstico del mismo tamao que una tarjeta de
crdito con chip de silicio integrado en ella.
La tarjeta es inteligente porque est activa; es decir, puede recibir informacin,
procesarla y tomar una informacin.
Algunas de las ventajas de una smart card en comparacin con una tarjeta
tradicional son las siguientes:

Mayor seguridad: los datos almacenados en una smart card estn


protegidos por complejos mecanismos de seguridad. Estos hace difcil y
costoso copiar (o clonar ) las tarjetas.
Mayor rapidez: las smart cards pueden realizar transacciones seguras fuera
de lnea que generalmente tardan menos que las tarjetas que requieren
transacciones en lnea.
Mayor capacidad para datos: una smart card puede almacenar ms datos
que una tarjeta tradicional de cinta magntica. De esta manera en una
misma tarjeta se puede tener varios tipos de servicios, como por ejemplo
transacciones comerciales de crdito, de dbito, programa de puntos, etc.

Algunas aplicaciones de las tarjetas inteligentes son:

Tarjetas telefnicas: una smart card puede identificar a la persona que


llama desde un telfono pblico y cargar el costo de la llamada a una
cuenta de telfono

Tarjetas de asistencia de salud: las tarjetas inteligentes pueden almacenar


expedientes mdicos, informacin para casos de emergencia, etctera.
Control de seguridad: pueden programarse para permitir el acceso a
edificios o datos, dependiendo del cargo y puesto en una organizacin.
Tarjetas de fidelidad para clientes: en varios programas de fidelidad de
clientes de lneas areas, hoteles, etc. Se utilizan smart cards para que
registren puntos y premios, logrando ofrecer detalle sobre los hbitos de los
clientes a los operadores de dichos programas, con el fin de elaborar
campaas de promocin con mayor precisin.

2. SISTEMA DE CONTROL DIFUSO

Difuso: Borroso, confuso, vago, con incertidumbre


Ejemplos:
Conduccin en una carretera
Operador de una planta industrial
Control de la temperatura de un recinto
Justificaciones para la teora de Sistemas
Difusos:
1. Demasiada complejidad para la obtencin de descripciones precisas en
algunos sistemas reales. Es necesario introduccin aproximacin.
2. Es necesaria una teora que permita formular el conocimiento humano de
forma sistemtica e incluirlo en sistemas de ingeniera.
Qu son Sistemas Difusos?.- Sistemas basados en el conocimiento o sistemas
basados en reglas;
Regla SI_ENTONCES: Describe qu hacer cuando se
presenta una determinada situacin
SI la velocidad del coche es alta ENTONCES pisar con
fuerza baja el acelerador
Ejemplos:
Control de la velocidad de un mvil
Control de temperatura
Descripciones sobre un sistema
3

Principales Campos de Investigacin


Control
Procesamiento de seales
Circuitos integrados
Sistemas expertos
Economa
Medicina
Psicologa

Sistemas Difusos para Control


Definicin.- Sistema experto en tiempo real que implementa una parte de la forma
de operar de una persona o de un proceso con experiencia en ingeniera que no
puede expresarse fcilmente como parmetros PID (mecanismo de control por
realimentacin. Tiene 3 acciones: Proporcional, Integral, y Derivativa) o como
ecuaciones diferenciales, sino como reglas situacin accin.
Ventajas y lmites del control difuso
1.- Emplea el conocimiento experto para conseguir un grado de automatizacin
mayor:

En algunos casos de control de procesos industriales (p.ej., industria


qumica) el grado de automatizacin es muy bajo. Muchas de las acciones
son realizadas por operadores que basan su conocimiento en la experiencia
pero que difcilmente se puede expresar con ecuaciones diferenciales
PERO, slo si existe conocimiento relevante del proceso y su control que
pueda expresarse en trminos de lgica difusa

2.- Control no lineal robusto:

En situaciones de perturbacin externa, un controlador PID afronta el


problema con una compensacin entre reacciones rpidas con excesos
significativos o reacciones suaves pero lentas. El control difuso cubre un
amplio rango de parmetros del sistema y puede afrontar la mayora de las
perturbaciones

PERO, aunque generalmente es as, an no estn bien formalizadas las


caractersticas necesarias para que el control difuso sea robusto y estable

3.- Reduce el tiempo de desarrollo y mantenimiento:

El control difuso posee dos niveles de abstraccin (reglas y


parmetros) que permite un diseo conjunto entre expertos en el
problema e ingenieros electrnicos.
Generalmente s, PERO la adquisicin de conocimiento, codificacin,
prueba y depuracin necesaria en control difuso requiere un alto
grado de preparacin del experto.

Recomendaciones de uso del control difuso


El control difuso es recomendable:

Para procesos muy complejos, cuando no hay un modelo matemtico simple


Para procesos altamente no lineales
Si el procesamiento del (lingsticamente formulado) conocimiento experto
puede ser desempeado

El control difuso no es una buena idea si:

El control convencional tericamente rinde un resultado satisfactorio


Existe un modelo matemtico fcilmente soluble y adecuado
El problema no es soluble
Si ya existe una solucin basada en sistemas difusos para resolver una
problema similar, estamos en la lnea correcta
Si tenemos una buena solucin en trminos de control PID, con rendimiento
del sistema, costes de desarrollo y mantenimiento satisfactorios debemos
mantenernos en esa lnea.
Si no estamos satisfechos con la solucin existente respecto a alguno de
estos criterios o es un problema que no se puede resolver con control
clsico, hay que analizar el motivo.
Si ciertas partes del sistema son desconocidas, no medibles, o con
incertidumbre, se debe optar por un diseo basado en lgica difusa.
Si se desconoce el modelo matemtico del sistema o ste es complejo, un
sistema difuso puede ser la solucin.

Ejemplos de sistemas difusos de control comerciales


Productos de consumo:

Lavadoras

Hornos microondas
Cmaras de videos
Televisores
Traductores

Sistemas:

Ascensores
Trenes
Gras
Automocin (motores, transmisin, frenos...)
Control de trfico

Software:

Diagnstico mdico
Seguridad
Comprensin de datos

3. SISTEMAS EXPERTOS
DEFINICIN
Un Sistema Experto se puede definir como un sistema computacional interactivo
que permite la creacin de bases de conocimiento, las cuales una vez cargadas
responden a preguntas, despejan dudas y sugieren cursos de accin
emulando/simulando el proceso de razonamiento de un experto para resolver
problemas en un rea especfica del conocimiento humano. De esta definicin se
desprenden las dos habilidades fundamentales que poseen los Sistemas
Expertos:

Habilidad de aprendizaje.
Habilidad para simular el proceso de razonamiento humano.

La habilidad de aprendizaje requiere la interaccin de un experto en alguna rama


especfica del saber y un ingeniero de conocimiento, que se encarga de traducir
este conocimiento del experto a reglas heursticas para formar la base de
conocimiento.

La habilidad para imitar el razonamiento que posee el Sistemas Experto se


desprende de caminar a lo largo de las reglas heursticas introducidas o
enseadas al sistema por un experto, a travs del proceso de aprendizaje durante
la carga o generacin de las bases del conocimiento.
BENEFICIOS EN EL USO DE SISTEMAS EXPERTOS.
La utilizacin de los Sistemas Expertos en las organizaciones pueden traer varios
beneficios, los cuales sern comentados a continuacin:

REDUCCIN EN LA DEPENDENCIA DE PERONAL CLAVE. Esto se debe


a que los conocimientos del personal especializado son retenidos durante el
proceso de aprendizaje, y estn listos para ser utilizados por diferentes
personas. Esto es til cuando la experiencia es escasa o costosa, o bien,
cuando los expertos no se encuentran disponibles para la solucin de un
problema en particular.
FACILITA EL ENTRENAMIENTO DEL PERSONAL. El Sistema Expertos
puede ayudar de manera importante, y a costo menor, a la capacitacin y
adiestramiento del personal sin experiencia.
MEJORA EN LA CALIDAD Y EFICIENCIA EN EL PROCESO DE LA TOMA
DE DECISIONES. Lo anterior implica que las decisiones podrn tomarse de
una forma ms gil con el apoyo de un Sistema Experto. Incuso, las
decisiones podrn ser consistentes al presentarse situaciones equivalentes.
Esto significa que un Sistema Expertos responder siempre de la misma
forma ante las mismas situaciones, lo cual no necesariamente ocurre con
las personas.
TRANFERENCIA DE LA CAPACIDAD DE DECISIONES. Un Sistema
Experto puede facilitar la descentralizacin de datos en el proceso de la
toma de decisiones en aquellos casos que se consideren convenientes. Asi,
el conocimiento de un experto puede transferirse a varias personas, de tal
forma que las decisiones sean tomadas en el nivel ms bajo.

COSTOS QUE INVOLUCRAN.

El Shell o paquete generador del Sistema Experto.


El equipo computacional o hardware que se requiera.
Consultora especializada.
El tiempo de los expertos.
Costos de implantacin.
Costos involucrados con el mantenimiento y seguimiento del sistema.

COMPONENTES:
EL GENERADOR DE SISTEMAS EXPERTOS O SHELL.
7

El generador de Sistemas Expertos o Shell es el programa o software que permite


desarrollar el Sistema Experto. Especficamente, el Shell constituye la herramienta
que apoya el proceso de creacin de las bases de conocimiento y facilita la
utilizacin del modelo por parte de los usuarios. A continuacin se dar una breve
descripcin de los componentes del Shell:
INGENIERO DEL CONOCIMIENTO.
El ingeniero del conocimiento es el especialista en el uso del Shell y tcnicas de
entrevistas. Es la persona que entrevista al experto y se encarga de traducir sus
conocimientos y experiencias en reglas heursticas, las cuales integran la base de
conocimiento de un problema en particular.
EXPERTO.
Es la persona que interacta con el ingeniero del conocimiento, aportando su
conocimiento y su experiencia de un rea particular del saber humano.
BASE DEL CONOCIMIENTO.
Una vez que se realizan las entrevistas entre el ingeniero del conocimiento y el
experto, se codifican y capturan todas las reglas heursticas, para integrar la base
del conocimiento que posteriormente ser utilizada para apoyar la solucin de
problemas reales y especficos que se le presenten al usuario.

MOTOR DE INFERENCIA.
Es la parte del Shell que se encarga de razonar, es decir a partir de un problema o
hecho real aplica las reglas y llega a su solucin. Este motor es el vehculo a
travs del cual las reglas que estn en la base del conocimiento se utilizan y
aplican para la solucin de un problema particular. El motor de inferencia puede
operar de dos formas diferentes, de acuerdo con el razonamiento que se emplee:

Razonamiento hacia delante. En este razonamiento se transita a travs de


las reglas, partiendo de hechos o situaciones reales, hasta encontrar las
adecuadas para llegar a una solucin o recomendacin.
Razonamiento hacia atrs. En este razonamiento se transita a travs de las
reglas partiendo de alguna hiptesis y buscando las reglas o hechos reales
que hagan cierta la hiptesis o la idea que se tiene del problema.

INTERFASE DE USUARIO.
Es la parte del Shell que permite al usuario interactuar con el sistema para
resolver sus problemas cotidianos. En este contexto, el usuario tiene un problema,

y a travs del uso de Shell, llega a las soluciones o recomendaciones.

SELECCIN DE APLICACIONES PARA SISTEMAS EXPERTOS.


Las caractersticas que deben tener los problemas para considerarlos susceptibles
de resolver a travs de un Sistema Experto son:

Utilizacin de varios expertos dentro del trabajo rutinario.


Las decisiones que se tornan complejas y siguen una secuencia lgica.
Las decisiones lgicas, as como las soluciones del problema, pueden
expresarse o traducirse a reglas heursticas.
El conocimiento que se est modelando se encuentra bien delimitado y es
profundo, no amplio y superficial.
El problema no tiene solucin analtica, de lo contrario se sugiere la
solucin a travs de tcnicas analticas.
Cuando las reglas del juego no cambian con demasiada frecuencia, en
cuyo caso ser incosteable el desarrollo del modelo experto.
Cuando hay pocos expertos en otras reas de la organizacin o localidades
remotas.

HERRAMIENTAS PARA EL DESARROLLO DE SISTEMAS EXPERTOS.


Para desarrollar Sistemas Expertos es necesario utilizar una herramienta
apropiada. Las herramientas pueden ser lenguajes de programacin o sistemas de
ayuda para la generalizacin de Sistemas Expertos, los cuales son llamados
Shells.

TENDENCIAS FUTURAS.

Los Sistemas Expertos se estn utilizando cada vez ms en las


organizaciones, debido a que la tecnologa tambin es cada vez ms
accesible para una gran mayora de las empresas.
Se piensa que en el futuro las interfaces de los Sistemas Expertos sern
en leguaje natural, lo cual facilitar la comunicacin entre usuarios y el
sistema.
Los Sistemas Expertos darn mayor soporte en el proceso de toma de
decisiones, permitiendo tener el conocimiento del experto capturando en
una base de conocimiento y utilizarlo cuando se requiera sin que est l
presente.
Se manejarn herramientas inteligentes para explotar la informacin que
contengan las bases de datos, permitiendo con ello un mejor uso de la
informacin.
9

Los Sistemas Expertos se integrarn a otras tecnologas para dar un mayor


soporte en todas las reas de la empresa.

4. REDES NEURONALES ARTIFICIALES

El Modelo Biolgico

Se estima que en cada milmetro del cerebro hay cerca de 50.000 neuronas,
conteniendo en total ms de cien mil millones de neuronas y sinapsis en el
sistema nervioso humano.
La teora y modelado de redes neuronales est inspirada en la estructura y
funcionamiento de los sistemas nerviosos, donde la neurona es el elemento
fundamental.
En general, una neurona consta de un cuerpo celular ms o menos esfrico, de 5
a 10 micras de dimetro, del que salen una rama principal, el axn, y varias ramas
ms cortas, llamadas dendritas.

10

El tamao y la forma de las neuronas es variable, pero con las mismas


subdivisiones:
1. El cuerpo de la neurona,
2. Ramas de extensin llamadas dendritas para recibir las entradas, y
3. Un axn que lleva la salida de la neurona a las dendritas de otras neuronas.
El cuerpo de la neurona o Soma contiene el ncleo. Se encarga de todas las
actividades metablicas de la neurona y recibe la informacin de otras neuronas
vecinas a travs de las conexiones sinpticas (algunas neuronas se comunican
solo con las cercanas, mientras que otras se conectan con miles).
Las dendritas, parten del soma y tienen ramificaciones. Se encargan de la
recepcin de seales de las otras clulas a travs de conexiones llamadas
sinpticas. Si pensamos, desde ahora, en trminos electrnicos podemos decir
que las dendritas son las conexiones de entrada de la neurona. Por su parte el
axn es la "salida" de la neurona y se utiliza para enviar impulsos o seales a
otras clulas nerviosas. Cuando el axn est cerca de sus clulas destino se
divide en muchas ramificaciones que forman sinapsis con el soma o axones de
otras clulas. Esta unin puede ser "inhibidora" o "excitadora" segn el transmisor
que las libere. Cada neurona recibe de 10.000 a 100.000 sinapsis y el axn realiza
una cantidad de conexiones similar. Se estia que en el cerebro humano existen del
orden de 1015 conexiones.
Las seales que se utilizan son de dos tipos: elctrica y qumica. La seal
generada por la neurona y transportada a lo largo del axn es un impulso elctrico,
mientras que la seal que se transmite entre los terminales axnicos de una
neurona y las dendritas de la otra es de origen qumico.
Para establecer una similitud directa entre la actividad sinptica y la analoga con
las redes neuronales artificiales podemos considerar: Las seales que llegan a la
sinapsis son las entradas a la neurona; estas son ponderadas (atenuadas o
simplificadas) a travs de un parmetro, denominado peso asociado a la sinapsis
correspondiente. Estas seales de entrada pueden excitar a la neurona (sinapsis
con peso positivo) o inhibirla (peso negativo). El efecto es la suma de las entradas
ponderadas. Si la suma es igual o mayor que el umbral de la neurona, entonces la
neurona se activa (da salida. La facilidad de transmisin de seales se altera
mediante la actividad del sistema nervioso. Las sinapsis son susceptibles a la
fatiga, deficiencia de oxgeno y la presencia de anestsicos, entre otro. Esta
habilidad de ajustar seales es un mecanismo de aprendizaje.

11

ELEMENTOS DE UNA RNA


Las redes neuronales artificiales (RNA) son modelos que intentan reproducir el
comportamiento del cerebro. Como tal modelo, realiza una simplificacin,
averiguando cules son los elementos relevantes del sistema, bien porque la
cantidad de informacin de que se dispone es excesiva o bien porque es
redundante. Unidad de proceso: La neurona Artificial. Existen tres tipos de
unidades en cualquier sistema: entradas, salidas y ocultas. Las unidades de
entrada reciben seales desde el entorno; las de salida envan la seal fuera de la
red, y las unidades ocultas son aquellas cuyas entradas y salidas se encuentran
dentro del sistema.
Se conoce como capa o nivel a un conjunto de neuronas cuyas entradas
provienen de la misma fuente y cuyas salidas se dirigen al mismo destino.
1. Estado de Activacin. Los estados del sistema en un tiempo t se
representan por un vector A(t). Los valores de activacin pueden ser
continuos o discretos, limitados o ilimitados. Si son discretos, suelen tomar
un conjunto discreto de valores binarios, as un estado activo se indicara
con un 1 y un estado pasivo se representara por un cero. En otros modelos
se considera un conjunto de estados de activacin, cuyo valor est entre
[0,1], o en el intervalo [-1,1], siendo una funcin sigmoidal.

2. Funcin de Salida o de Transferencia. Asociada con cada unidad hay una


funcin de salida, que transforma el estado actual de activacin en una
seal de salida.
Existen cuatro funciones de transferencia tpicas que determinan distintos
tipos de neuronas:

Funcin Escaln
Funcin Lineal y Mixta
Sigmoidal
Funcin Gaussiana

Aunque su estructura vara segn el tipo de red, lo ms usual es que haya tres
capas de neuronas, una de entrada, que recoge los estmulos, otra oculta, que
procesa la informacin, y otra de salida, que ejecuta la respuesta.

12

MECANISMO DE APRENDIZAJE. El aprendizaje es el proceso por el cual


una red neuronal modifica sus pesos en respuesta a una informacin de
entrada. Los cambios que se producen durante el proceso de aprendizaje
se reducen a la destruccin, modificacin y creacin de conexiones entre
las neuronas, la creacin de una nueva conexin implica que el peso de la
misma pasa a tener un valor distinto de cero, una conexin se destruye
cuando su peso pasa a ser cero. Se puede afirmar que el proceso de
aprendizaje ha finalizado (la red ha aprendido) cuando los valores de los
pesos permanecen estables (dwij / dt = 0).
Se suele considerar dos tipos de reglas de aprendizaje: las de aprendizaje
supervisado y las de aprendizaje no supervisado, estas reglas dan pie a
una de las clasificaciones que se realizan de las RNA: Redes neuronales
con aprendizaje supervisado y Redes neuronales con aprendizaje no
supervisado. La diferencia fundamental entre ambos tipos estriba en la
existencia o no de un agente externo (supervisor) que controle el
aprendizaje de la red.
REDES CON APRENDIZAJE SUPERVISADO. El proceso de aprendizaje
se realiza mediante un entrenamiento controlado por un agente externo
(supervisor, maestro) que determina la respuesta que debera generar la
red a partir de una entrada determinada. El supervisor comprueba la salida
de la red y en el caso de que sta no coincida con la deseada, se proceder
a modificar los pesos de las conexiones, con el fin de conseguir que la
salida se aproxime a la deseada.
Se consideran tres formas de llevar a cabo este tipo de aprendizaje:

13

Aprendizaje por correccin de error: Consiste en ajustar los pesos en


funcin de la diferencia entre los valores deseados y los obtenidos en la
salida de la red; es decir, en funcin del error.
Aprendizaje por refuerzo: Se basa en la idea de no indicar durante el
entrenamiento exactamente la salida que se desea que proporcione la red
ante una determinada entrada. La funcin del supervisor se reduce a indicar
mediante una seal de refuerzo si la salida obtenida en la red se ajusta a la
deseada (xito=+1 o fracaso=-1), y en funcin de ello se ajustan los pesos
basndose en un mecanismo de probabilidades.
Aprendizaje estocstico: Este tipo de aprendizaje consiste bsicamente
en realizar cambios aleatorios en los valores de los pesos de las
conexiones de la red y evaluar su efecto a partir del objetivo deseado y de
distribuciones de probabilidad.
REDES CON APRENDIZAJE NO SUPERVISADO. Estas redes no
requieren influencia externa para ajustar los pesos de las conexiones entre
neuronas. La red no recibe ninguna informacin por parte del entorno que le
indique si la salida generada es o no correcta.
En algunos casos, la salida representa el grado de familiaridad o similitud
entre la informacin que se le est presentando en la entrada y las
informaciones que se le han mostrado en el pasado. En otro caso podra
realizar una codificacin de los datos de entrada, generando a la salida una
versin codificada de la entrada, con menos bits, pero manteniendo la
informacin relevante de los datos, o algunas redes con aprendizaje no
supervisado lo que realizan es un mapeo de caractersticas, obtenindose
en las neuronas de salida una disposicin geomtrica que representa un
mapa topogrfico de las caractersticas de los datos de entrada.
En general en este tipo de aprendizaje se suelen considerar dos tipos:

Aprendizaje Hebbiano: Consiste bsicamente en el ajuste de los pesos de


las conexiones de acuerdo con la correlacin, as si las dos unidades son
activas (positivas), se produce un reforzamiento de la conexin. Por el
contrario cuando una es activa y la otra pasiva (negativa), se produce un
debilitamiento de la conexin.
Aprendizaje competitivo y cooperativo: Las neuronas compiten (y
cooperan) unas con otras con el fin de llevar a cabo una tarea dada. Con
este tipo de aprendizaje se pretende que cuando se presente a la red cierta
informacin de entrada, solo una de las neuronas de salida se active
(alcance su valor de respuesta mximo). Por tanto las neuronas compiten
por activarse , quedando finalmente una, o una por grupo, como neurona
vencedora.

14

Requieren de algn tipo de patrn


La clase de problemas que mejor se resuelven con las redes neuronales
son los mismos que el ser humano resuelve mejor: Asociacin, evaluacin,
y reconocimiento de patrones. Las redes neuronales son perfectas para
problemas que son muy difciles de calcular pero que no requieren de
respuestas perfectas, slo respuestas rpidas y buenas. Tal y como
acontece con el escenario burstil en el que se quiere saber compro?,
vendo?, mantengo?, o en el reconocimiento cuando se desea saber se
parece? es el mismo pero tienen una ligera modificacin?
Por otra parte, las redes neuronales son muy malas para clculos precisos,
procesamiento en serie, y no son capaces de reconocer nada que no tenga
inherentemente algn tipo de patrn. Es por esto, que no pueden predecir
la lotera, ya que por definicin es un proceso al azar.

Ejemplo: la figura 8 muestra una red neuronal que, a partir de dos entradas
activadas entre los elementos A1,A2,A3, B1,B2,B3 (los tres primeros de la clase A
y los tres ltimos de la clase B), reconoce si stos son de igual o distinta clase.

Para solucionar este problema se realiza la red neuronal mostrada en la figura


anterior, que consta de una capa de nodos ocultos y una capa de nodos de salida
que emiten las conclusiones. Se muestran los pesos asignados a las entradas
adems de los umbrales de cada nodo.
Si por ejemplo, slo se activan las entradas A1 y A3:
o
o

el nodo11 computa 1*A1+1*A2+1*A3 = 1*1+1*0+1*1 = 2, y como 2


>0.5 su salida S11=1
el nodo12 computa 1*B1+1*B2+1*B3 = 1*0+1*0+1*0 = 0, y como 0
<= 0.5 su salida s12= 0
15

o
o

el nodo21 computa 1*S11+1*S12 = 1*1+1*0 = 1, y como 1 <= 1.5 su


salida S21=0.
el nodo22 computa (-1)*S11+(-1)*S12 = (-1)*1+(-1)*0 = -1, y como
1>(-1.5) su salida S22=1.

La interpretacin de las salidas nos indica que las entradas A1 y A3 son de igual
clase. Queda como ejercicio pendiente el probar con entradas de distinta clase,
por ejemplo A1 y B1.

MODELOS DE RNA
Existe una serie de modelos que aparecen en la mayora de estudios acadmicos
y la bibliografa especializada.
Perceptrn simple
Adaline
Perceptrn multicapa
Memorias asociativas
Mquina de Bolzman
Mquina de Cauchy
Redes de Elman
Redes de Hopfield
Redes de neuronas de base radial
Redes de neuronas de aprendizaje competitivo
Redes de Kohonen o mapas autoorganizados
Redes ART (Adaptative Resonance Theory)

16

5. ALGORITMOS GENTICOS

INTRODUCCION
De vez en cuando, los creacionistas acusan a la evolucin de que carece de
utilidad como teora cientfica porque no produce beneficios prcticos y no tiene
relevancia en la vida diaria. Sin embargo, tan slo la evidencia de la biologa
demuestra que esta afirmacin es falsa. Hay numerosos fenmenos naturales
para los que la evolucin nos ofrece un slido fundamento terico. Por nombrar
uno, el desarrollo observado de la resistencia -a los insecticidas en las plagas de
cultivos, a los antibiticos en las bacterias, a la quimioterapia en las clulas
cancerosas, y a los frmacos antiretrovirales en virus como el VIH- es una
consecuencia abierta de las leyes de la mutacin y la seleccin, y comprender que
estos principios nos ha ayudado a desarrollar estrategias para enfrentarnos a
estos nocivos organismos. El postulado evolutivo de la descendencia comn ha
ayudado al desarrollo de nuevos medicamentos y tcnicas, al proporcionar a los
investigadores una buena idea de con qu organismos deben experimentar para
obtener resultados que probablemente sern relevantes para los seres humanos.
Finalmente, el hombre ha utilizado con grandes resultados el principio de cra
selectiva para crear organismos personalizados, distintos a cualquiera que se
pueda encontrar en la naturaleza, para beneficio propio. El ejemplo cannico, por
supuesto, es la diversidad de variedades de perros domsticos (razas tan diversas
como los bulldogs, chihuahuas y dachshunds han sido producidas a partir de lobos
en slo unos pocos miles de aos), pero ejemplos menos conocidos incluyen al
maz cultivado (muy diferente de sus parientes salvajes, que carecen de las
familiares ``orejas'' del maz cultivado), a los peces de colores (como los perros,
hemos criado variedades cuyo aspecto es drsticamente distinto al del tipo
salvaje), y a las vacas lecheras (con ubres inmensas, mucho mayores que las
necesarias para alimentar a una cra).
Los crticos pueden argumentar que los creacionistas pueden explicar estas cosas
sin recurrir a la evolucin. Por ejemplo, a menudo los creacionistas explican el
desarrollo de la resistencia a los agentes antibiticos en las bacterias, o los
cambios forjados en los animales domsticos por seleccin artificial, asumiendo
que Dios decidi crear a los organismos en grupos fijos, llamados ``tipos'' o
baramins. Aunque la microevolucin natural o la seleccin artificial dirigida por
humanos pueden producir diferentes variedades dentro de los ``tipo-perro'', ``tipovaca'' o ``tipo-bacteria'', creados originalmente.
17

Sin embargo, nunca se explica cmo determinan los creacionistas lo que es un


``tipo'', o qu mecanismo impide a los seres vivos evolucionar ms all de sus
lmites.
Pero en las ltimas dcadas, el continuo avance de la tecnologa moderna ha
producido algo nuevo. Ahora la evolucin est produciendo beneficios prcticos en
un campo muy distinto y, esta vez, los creacionistas no pueden afirmar que su
explicacin se adapte a los hechos igual de bien. Este campo es la informtica, y
los beneficios provienen de una estrategia de programacin llamada algoritmos
genticos.
Qu es un algoritmo gentico?
Expuesto concisamente, un algoritmo gentico (o AG para abreviar) es una
tcnica de programacin que imita a la evolucin biolgica como estrategia para
resolver problemas. Dado un problema especfico a resolver, la entrada del AG es
un conjunto de soluciones potenciales a ese problema, codificadas de alguna
manera, y una mtrica llamada funcin de aptitud que permite evaluar
cuantitativamente a cada candidata. Estas candidatas pueden ser soluciones que
ya se sabe que funcionan, con el objetivo de que el AG las mejore, pero se suelen
generar aleatoriamente.
Luego el AG evala cada candidata de acuerdo con la funcin de aptitud. En un
acervo de candidatas generadas aleatoriamente, por supuesto, la mayora no
funcionarn en absoluto, y sern eliminadas. Sin embargo, por puro azar, unas
pocas pueden ser prometedoras -pueden mostrar actividad, aunque slo sea
actividad dbil e imperfecta, hacia la solucin del problema.
Estas candidatas prometedoras se conservan y se les permite reproducirse. Se
realizan mltiples copias de ellas, pero las copias no son perfectas; se introducen
cambios aleatorios durante el proceso de copia. Luego, esta descendencia digital
prosigue con la siguiente generacin, formando un nuevo acervo de soluciones
candidatas, y son sometidas a una ronda de evaluacin de aptitud. Las candidatas
que han empeorado o no han mejorado con los cambios en su cdigo son
eliminadas de nuevo; pero, de nuevo, por puro azar, las variaciones aleatorias
introducidas en la poblacin pueden haber mejorado a algunos individuos,
convirtindolos en mejores soluciones del problema, ms completas o ms
eficientes. De nuevo, se seleccionan y copian estos individuos vencedores hacia la
siguiente generacin con cambios aleatorios, y el proceso se repite.
Aunque a algunos les puede parecer asombroso y anti intuitivo, los algoritmos
genticos han demostrado ser una estrategia enormemente poderosa y exitosa
para resolver problemas, demostrando de manera espectacular el poder de los
principios evolutivos. Se han utilizado algoritmos genticos en una amplia variedad
de campos para desarrollar soluciones a problemas tan difciles o ms difciles que
18

los abordados por los diseadores humanos. Adems, las soluciones que
consiguen son a menudo ms eficientes, ms elegantes o ms complejas que
nada que un ingeniero humano producira.

MTODOS DE REPRESENTACIN
Antes de que un algoritmo gentico pueda ponerse a trabajar en un problema, se
necesita un mtodo para codificar las soluciones potenciales del problema de
forma que una computadora pueda procesarlas. Un enfoque comn es codificar
las soluciones como cadenas binarias: secuencias de 1s y 0s, donde el dgito de
cada posicin representa el valor de algn aspecto de la solucin. Otro mtodo
similar consiste en codificar las soluciones como cadenas de enteros o nmeros
decimales, donde cada posicin, de nuevo, representa algn aspecto particular de
la solucin. Este mtodo permite una mayor precisin y complejidad que el mtodo
comparativamente restringido de utilizar slo nmeros binarios.
Un tercer mtodo consiste en representar a los individuos de un AG como
cadenas de letras, donde cada letra, de nuevo, representa un aspecto especfico
de la solucin. Un ejemplo de esta tcnica es el mtodo basado en ``codificacin
gramatical'' de Hiroaki Kitano, en el que a un AG se le encarg la tarea de
evolucionar un sencillo conjunto de reglas llamadas gramtica libre de contexto,
que a su vez se utilizaban para generar redes neuronales para una variedad de
problemas.
La virtud de estos tres mtodos es que facilitan la definicin de operadores que
causen los cambios aleatorios en las candidatas seleccionadas: cambiar un 0 por
un 1 o viceversa, sumar o restar al valor de un nmero una cantidad elegida al
azar, o cambiar una letra por otra.
Otra estrategia para representar a los programas son las estructuras de datos
ramificadas llamadas rboles. En este mtodo, los cambios aleatorios pueden
generarse cambiado el operador o alterando el valor de un cierto nodo del rbol, o
sustituyendo un subrbol por otro.

19

Figure: Tres sencillos rboles de programa del tipo utilizado normalmente en la


programacin gentica. Debajo se proporciona la expresin matemtica que
representa cada uno.

MTODOS DE SELECCIN
Un algoritmo gentico puede utilizar muchas tcnicas diferentes para seleccionar a
los individuos que deben copiarse hacia la siguiente generacin. Algunos de estos
mtodos son mutuamente exclusivos, pero otros pueden utilizarse en
combinacin, algo que se hace a menudo.

Seleccin elitista: se garantiza la seleccin de los miembros ms aptos de


cada generacin. (La mayora de los AGs no utilizan elitismo puro, sino que
usan una forma modificada por la que el individuo mejor, o algunos de los
mejores, son copiados hacia la siguiente generacin en caso de que no
surja nada mejor).
Seleccin proporcional a la aptitud: los individuos ms aptos tienen ms
probabilidad de ser seleccionados, pero no la certeza.
Seleccin por rueda de ruleta: una forma de seleccin proporcional a la
aptitud en la que la probabilidad de que un individuo sea seleccionado es
proporcional a la diferencia entre su aptitud y la de sus competidores.
(Conceptualmente, esto puede representarse como un juego de ruleta cada individuo obtiene una seccin de la ruleta, pero los ms aptos
obtienen secciones mayores que las de los menos aptos. Luego la ruleta se
hace girar, y en cada vez se elige al individuo que ``posea'' la seccin en la
que se pare la ruleta).
Seleccin escalada: al incrementarse la aptitud media de la poblacin, la
fuerza de la presin selectiva tambin aumenta y la funcin de aptitud se
hace ms discriminadora. Este mtodo puede ser til para seleccionar ms
tarde, cuando todos los individuos tengan una aptitud relativamente alta y
slo les distingan pequeas diferencias en la aptitud.
20

Seleccin por torneo: se eligen subgrupos de individuos de la poblacin, y


los miembros de cada subgrupo compiten entre ellos. Slo se elige a un
individuo de cada subgrupo para la reproduccin.
Seleccin por rango: a cada individuo de la poblacin se le asigna un
rango numrico basado en su aptitud, y la seleccin se basa en este
ranking, en lugar de las diferencias absolutas en aptitud. La ventaja de este
mtodo es que puede evitar que individuos muy aptos ganen dominancia al
principio a expensas de los menos aptos, lo que reducira la diversidad
gentica de la poblacin y podra obstaculizar la bsqueda de una solucin
aceptable.
Seleccin generacional: la descendencia de los individuos seleccionados
en cada generacin se convierte en toda la siguiente generacin. No se
conservan individuos entre las generaciones.
Seleccin por estado estacionario: la descendencia de los individuos
seleccionados en cada generacin vuelven al acervo gentico prexistente,
remplazando a algunos de los miembros menos aptos de la siguiente
generacin. Se conservan algunos individuos entre generaciones.
Seleccin jerrquica: los individuos atraviesan mltiples rondas de
seleccin en cada generacin. Las evaluaciones de los primeros niveles
son ms rpidas y menos discriminatorias, mientras que los que sobreviven
hasta niveles ms altos son evaluados ms rigurosamente. La ventaja de
este mtodo es que reduce el tiempo total de clculo al utilizar una
evaluacin ms rpida y menos selectiva para eliminar a la mayora de los
individuos que se muestran poco o nada prometedores, y sometiendo a una
evaluacin de aptitud ms rigurosa y computacionalmente ms costosa slo
a los que sobreviven a esta prueba inicial.

MTODOS DE CAMBIO
Una vez que la seleccin ha elegido a los individuos aptos, stos deben ser
alterados aleatoriamente con la esperanza de mejorar su aptitud para la siguiente
generacin. Existen dos estrategias bsicas para llevar esto a cabo. La primera y
ms sencilla se llama mutacin. Al igual que una mutacin en los seres vivos
cambia un gen por otro, una mutacin en un algoritmo gentico tambin causa
pequeas alteraciones en puntos concretos del cdigo de un individuo.
El segundo mtodo se llama cruzamiento, e implica elegir a dos individuos para
que intercambien segmentos de su cdigo, produciendo una ``descendencia''
artificial cuyos individuos son combinaciones de sus padres. Este proceso
pretende simular el proceso anlogo de la recombinacin que se da en los
cromosomas durante la reproduccin sexual. Las formas comunes de cruzamiento
incluyen al cruzamiento de un punto, en el que se establece un punto de
intercambio en un lugar aleatorio del genoma de los dos individuos, y uno de los
individuos contribuye todo su cdigo anterior a ese punto y el otro individuo
contribuye todo su cdigo a partir de ese punto para producir una descendencia, y
21

al cruzamiento uniforme, en el que el valor de una posicin dada en el genoma de


la descendencia corresponde al valor en esa posicin del genoma de uno de los
padres o al valor en esa posicin del genoma del otro padre, elegido con un 50%
de probabilidad.

Figura: Cruzamiento y mutacin. El diagrama de arriba ilustra el efecto de estos


dos operadores genticos en los individuos de una poblacin de cadenas de 8
bits. El diagrama superior muestra a dos individuos llevando a cabo un
cruzamiento de un punto; el punto de intercambio se establece entre las
posiciones quinta y sexta del genoma, produciendo un nuevo individuo que es
hbrido de sus progenitores. El segundo diagrama muestra a un individuo
sufriendo una mutacin en la posicin 4, cambiando el 0 de esa posicin de su
genoma por un 1.
Un algoritmo gentico es un termino empleado para describir sistemas de
resolucin de problemas de optimizacin o bsqueda basados en el computador;
que emplean modelos computacionales de algn conocido mecanismo de
evolucin como elemento clave en su diseo e implementacin.

t :=0;
Inicializar P(t);
Evaluar P(t)
While no se termine do
begin
22

P(t) := variacin [P(t)];


evaluar [P(t)];
P(t+1) := seleccione[P(t)Q];
t:=t+1;
end

6. ALMACENES DE DATOS Y MINERA DE DATOS

SISTEMAS DE INFORMACION

Los sistemas de informacin se han dividido de acuerdo al siguiente esquema:

Sistemas Estratgicos, orientados a soportar la toma de decisiones, facilitan la


labor de la direccin, proporcionndole un soporte bsico, en forma de mejor
informacin, para la toma de decisiones. Se caracterizan porque son sistemas sin
carga peridica de trabajo, es decir, su utilizacin no es predecible, al contrario de
los casos anteriores, cuya utilizacin es peridica.
Destacan entre estos sistemas: los Sistemas de Informacin Gerencial (MIS),
Sistemas de Informacin Ejecutivos (EIS), Sistemas de Informacin Georeferencial
(GIS), Sistemas de Simulacin de Negocios (BIS y que en la prctica son sistemas
expertos o de Inteligencia Artificial-AI).
23

Sistemas Tcticos, diseados para soportar las actividades de coordinacin de


actividades y manejo de documentacin, definidos para facilitar consultas sobre
informacin almacenada en el sistema, proporcionar informes y, en resumen,
facilitar la gestin independiente de la informacin por parte de los niveles
intermedios de la organizacin.
Destacan entre ellos: los Sistemas Ofimticos (OA), Sistemas de Transmisin de
Mensajera (E-mail y Fax Server), coordinacin y control de tareas (Work Flow) y
tratamiento de documentos (Imagen, Trmite y Bases de Datos Documentarios).
Sistemas Tcnico-Operativos, que cubren el ncleo de operaciones
tradicionales de captura masiva de datos (Data Entry) y servicios bsicos de
tratamiento de datos, con tareas predefinidas (contabilidad, facturacin, almacn,
presupuesto, personal y otros sistemas administrativos). Estos sistemas estn
evolucionando con la irrupcin de censores, autmatas, sistemas multimedia,
bases de datos relacionales ms avanzadas y data warehousing.
Sistemas Interinstitucionales, este ltimo nivel de sistemas de informacin
recin est surgiendo, es consecuencia del desarrollo organizacional orientado a
un mercado de carcter global, todo sto a partir de la generalizacin de las redes
informticas de alcance nacional y global (INTERNET), que se convierten en
vehculo de comunicacin entre la organizacin y el mercado, no importa dnde
est la organizacin (INTRANET), el mercado de la institucin (EXTRANET) y el
mercado (Red Global).
Sin embargo, la tecnologa data warehousing basa sus conceptos y diferencias
entre dos tipos fundamentales de sistemas de informacin en todas las
organizaciones: los sistemas tcnico-operacionales y los sistemas de soporte de
decisiones. Este ltimo es la base de un data warehouse.

24

Relacin entre Dato, Informacin y conocimiento

Qu es Data Warehousing?
Es un proceso, no un producto. Es una tcnica para consolidar y administrar datos
de variadas fuentes con el propsito de responder preguntas de negocios y tomar
decisiones, de una forma que no era posible hasta ahora.
Consolidar datos desde una variedad de fuentes, dentro del marco conceptual de
Data Warehousing es el proceso de Transformacin de Datos.
Manejar grandes volmenes de datos de una forma que no era posible, o no era
costo efectiva, a estos medios se agrupan en Procesamiento y Administracin de
Datos.
Acceder a los datos de una forma ms directa, en "el lenguaje del negocio", y
analizarlos para obtener relaciones complejas entre los mismos. Estos procesos
se engloban en dos categoras: Acceso a los Datos y Descubrimiento o Data
Mining.
Estos desarrollos tecnolgicos, correctamente organizados e interrelacionados,
constituyen lo que se ha dado en llamar un Data Warehouse o Bodega de Datos.
La definicin ms conocida para el DW, fue propuesta por Inmon [MicroSt96]
(considerado el padre de las Bases de Datos) en 1992: Un DW es una coleccin
25

de datos orientados a temas, integrados, no-voltiles y variante en el tiempo,


organizados para soportar necesidades empresariales.

Caractersticas
Segn, Bill Inmon, existen generalmente cuatro caractersticas que describen un
almacn de datos:
1. orientado al sujeto: los datos se organizan de acuerdo al sujeto en vez de la
aplicacin, por ejemplo, una compaa de seguros usando un almacn de datos
podra organizar sus datos por cliente, premios, y reclamaciones, en lugar de por
diferentes productos (automviles, vida, etc.). Los datos organizados por sujetos
contienen solo la informacin necesaria para los procesos de soporte para la toma
de decisiones.
Las diferencias entre la orientacin de procesos y aplicaciones; y la orientacin a
temas, radican en el contenido de la data a nivel detallado. En el data warehouse
se excluye la informacin que no ser usada por el proceso de sistemas de
soporte de decisiones, mientras que la informacin de las orientadas a las
aplicaciones, contiene datos para satisfacer de inmediato los requerimientos
funcionales y de proceso, que pueden ser usados o no por el analista de soporte
de decisiones. Otra diferencia importante est en la interrelacin de la informacin.
Los datos operacionales mantienen una relacin continua entre dos o ms tablas
basadas en una regla comercial que est vigente. Las del data warehouse miden
un espectro de tiempo y las relaciones encontradas en el data warehouse son
muchas.

26

El ambiente operacional se disea alrededor de las aplicaciones y funciones tales


como prstamos, ahorros, tarjeta bancaria y depsitos para una institucin
financiera. Por ejemplo, una aplicacin de ingreso de rdenes puede acceder a los
datos sobre clientes, productos y cuentas. La base de datos combina estos
elementos en una estructura que acomoda las necesidades de la aplicacin.
27

En el ambiente data warehousing se organiza alrededor de sujetos tales como


cliente, vendedor, producto y actividad. Por ejemplo, para un fabricante, stos
pueden ser clientes, productos, proveedores y vendedores. Para una universidad
pueden ser estudiantes, clases y profesores. Para un hospital pueden ser
pacientes, personal mdico, medicamentos, etc.

2. integrados: cuando los datos residen en muchas aplicaciones separados por


los distintos entornos operacionales, la descodificacin de los datos es a menudo
inconsistente. Por ejemplo, en una aplicacin, la palabra gender podra codificarse
como "m" y "f" en otra como "0" y "1". cuando los datos fluyen de un entorno
operacional a un entorno de almacn de datos o de data warehouse, ellos asumen
una codificacin consistente, por ejemplo gender siempre se transformara a "m" y
f

28

3. variacin-temporal: el almacn de datos contiene un lugar para guardar datos


con una antigedad de 5 a diez aos, o incluso ms antiguos, para poder ser
usados en comparaciones, tendencias y previsiones. Estos datos no se
modificarn.
4. no son inestables (no voltil): los datos no sern modificados o cambiados de
ninguna manera una vez ellos han sido introducidos en el almacn de datos,
solamente podrn ser cargados, ledos y/o accedidos.

Data Warehouse
Es el sistema para el almacenamiento y distribucin de cantidades masivas de
datos. El Data Warehouse analtico resultante puede ser aplicado para mejorar
procesos de negocios en toda la organizacin, en reas tales como manejo de
campaas promocionales, deteccin de fraudes, lanzamiento de nuevos
productos, etc.
Los procesos que conforma el datawarehouse son:
1-Extraccin
2-Elaboracin
3-Carga
4-Explotacin

Objetivos del Data Warehouse

Proveer una visin nica de los clientes en toda la empresa

Poner tanta informacin comercial como sea posible en manos de tantos


usuarios diferentes como sea posible.

Mejorar el tiempo de espera que insumen los informes habituales

Monitorear el comportamiento de los clientes


29

Predecir compras de productos

Mejorar la capacidad de respuesta a problemas comerciales

Incrementar la precisin de las mediciones

Aumentar la productividad

Incrementar y distribuir las responsabilidades.

Cmo trabaja el Data Warehouse?

Extrae la informacin operacional.

Transforma la operacin a formatos consistentes.

Automatiza las tareas de la informacin para prepararla a un anlisis


eficiente.

En qu se lo puede usar?

Manejo de relaciones de marketing.

Anlisis de rentabilidad.

Reduccin de costos.

Olap - procesamiento analtico on-line (On Line Analitic prossesing)


Se refiere a aplicaciones de bases de datos orientadas a array que permite a los
usuarios ver, navegar, manipular y analizar bases de datos multidimensionales.
Un server multidimensional OLAP permite que un modelo de negocios ms
sofisticado pueda ser aplicado cuando se navega por el data warehouse. Las
estructuras multidimensionales permiten que el usuario analice los datos de
acuerdo a como quiera mirar el negocio, por lnea de producto, u otras
perspectivas claves para su negocio. El server de Data Mining debe estar
integrado con el data warehouse y el server OLAP para insertar el anlisis de
negocios directamente en esta infraestructura. Un avanzado, metadato centrado
en procesos define los objetivos del Data Mining para resultados especficos tales
como manejos de campaa, prospecting, y optimizacin de promociones. La
integracin con el data warehouse permite que decisiones operacionales sean
implementadas directamente y monitoreadas.

30

Sistemas de Data Warehouse y Oltp


Una base de datos para soportar procesos transaccionales en lnea (OLTP),
puede no ser adecuada para el Data Warehouse ya que ha sido diseada para
maximizar la capacidad transaccional de sus datos y tpicamente tiene cientos de
tablas la gran mayora normalizadas. Su diseo tambin ha sido condicionado por
los procesos operacionales que deber soportar para la ptima actualizacin de
sus datos, normalmente muchas de sus tablas en constantes y continuos cambios.
Los sistemas Data Warehouse estn orientados a procesos de consultas en
contraposicin con los procesos transaccionales.

Diferencias del Data Warehouse vs Oltp


Los sistemas tradicionales de transacciones y las aplicaciones de Data
Warehousing son polos opuestos en cuanto a sus requerimientos de diseo y sus
caractersticas de operacin.
Las aplicaciones de OLTP estn organizadas para ejecutar las transacciones para
los cuales fueron hechos, como por ejemplo: mover dinero entre cuentas, un cargo
o abono, una devolucin de inventario, etc. Por otro lado, un Data Warehouse est
organizado en base a conceptos, como por ejemplo: clientes, facturas, productos,
etc.
Otra diferencia radica en el nmero de usuarios. Normalmente, el nmero de
usuarios de un Data Warehouse es menor al de un OLTP. Es comn encontrar
que los sistemas transaccionales son accedidos por cientos de usuarios
simultneamente, mientras que los Data Warehouse slo por decenas. Los
sistemas de OLTP realizan cientos de transacciones por segundo mientras que
una sola consulta de un Data Warehouse puede tomar minutos. Otro factor es que
frecuentemente los sistemas transaccionales son menores en tamao a los Data
Warehouses, esto es debido a que un Data Warehouse puede estar formado por
informacin de varios OLTPs.
Existen tambin diferencia en el diseo, mientras que el de un OLTP es
extremadamente normalizado, el de un Data Warehouse tiende a ser
desnormalizado. El OLTP normalmente est formado por un nmero mayor de
31

tablas, cada una con pocas columnas, mientras que en un Data Warehouse el
nmero de tablas es menor, pero cada una de stas tiende a ser mayor en nmero
de columnas.
Los OLTP son continuamente actualizados por los sistemas operacionales del da
con da, mientras que los Data Warehouse son actualizados en batch de manera
peridica.
Las estructuras de los OLTP son muy estables, rara vez cambian, mientras las de
los Data Warehouses sufren cambios constantes derivados de su evolucin. Esto
se debe a que los tipos de consultas a los cuales estn sujetos son muy variados y
es imposible preverlos todos de antemano.
Mejorar la Entrega de Informacin: informacin completa, correcta, consistente,
oportuna y accesible. Informacin que la gente necesita, en el tiempo que la
necesita y en el formato que la necesita.

Mejorar el Proceso de Toma de Decisiones: con un mayor soporte de informacin


se obtienen decisiones ms rpidas; as tambin, la gente de negocios adquiere
mayor confianza en sus propias decisiones y las del resto, y logra un mayor
entendimiento de los impactos de sus decisiones.

Impacto Positivo sobre los Procesos Empresariales: cuando a la gente se le da


acceso a una mejor calidad de informacin, la empresa puede lograr por s sola:

Eliminar los retardos de los procesos empresariales que resultan de


informacin incorrecta, inconsistente y/o no existente.

Integrar y optimizar procesos empresariales a travs del uso compartido e


integrado de las fuentes de informacin.

Eliminar la produccin y el procesamiento de datos que no son usados ni


necesarios, producto de aplicaciones mal diseados o ya no utilizados.

El descubrimiento del conocimiento (KDD)


Se define como la extraccin no trivial de informacin implcita, desconocida, y
potencialmente til de los datos. Hay una distincin clara entre el proceso de
32

extraccin de datos y el descubrimiento del conocimiento. Bajo sus convenciones,


el proceso de descubrimiento del conocimiento toma los resultados tal como
vienen de los datos (proceso de extraer tendencias o modelos de los datos)
cuidadosamente y con precisin los transforma en informacin til y entendible.
Esta informacin no es tpicamente recuperable por las tcnicas normales pero es
descubierta a travs del uso de tcnicas de AI.
KDD puede usarse como un medio de recuperacin de informacin, de la misma
manera que los agentes inteligentes realizan la recuperacin de informacin en la
Web. Nuevos modelos o tendencias en los datos podrn descubrirse usando estas
tcnicas. KDD tambin puede usarse como una base para las interfaces
inteligentes del maana, agregando un componente del descubrimiento del
conocimiento a una mquina de bases de datos o integrando KDD con las hojas
de clculo y visualizaciones.
Al Descubrimiento de Conocimiento de Bases de Datos (KDD) a veces tambin se
le conoce como minera de datos (Data Mining).
Sin embargo, muchos autores se refieren al proceso de minera de datos como el
de la aplicacin de un algoritmo para extraer patrones de datos y a KDD al
proceso completo (pre-procesamiento, minera, post-procesamiento).
El proceso de KDD consiste en usar mtodos de minera de datos (algoritmos)
para extraer (identificar) lo que se considera como conocimiento de acuerdo a la
especificacin de ciertos parmetros usando una base de datos junto con preprocesamientos y post-procesamientos.

Metas de KDD
procesar automticamente grandes cantidades de datos crudos,
identificar los patrones ms significativos y relevantes, y
presentarlos como conocimiento apropiado para satisfacer las metas del
usuario.

33

Tcnicas de KDD
Los algoritmos de aprendizaje son una parte integral de KDD. Las tcnicas de
aprendizaje pueden ser supervisadas o no supervisadas.
El descubrimiento de la mquina es uno de los campos ms recientes que han
contribuido para KDD. Mientras el descubrimiento de la mquina confa solamente
en mtodos autnomos para el descubrimiento de la informacin, KDD
tpicamente combina mtodos automatizados con la interaccin humana para
asegurar resultados exactos, tiles, y entendibles.
Hay muchos mtodos diferentes que son clasificados como las tcnicas de KDD.
Hay mtodos cuantitativos, como los probabilsticos y los estadsticos. Hay
mtodos que utilizan las tcnicas de visualizacin. Hay mtodos de clasificacin
como la clasificacin de Bayesian, lgica inductiva, descubrimiento de modelado
de datos y anlisis de decisin. Otros mtodos incluyen la desviacin y tendencia
al anlisis, algoritmos genticos, redes neuronales y los mtodos hbridos que
combinan dos o ms tcnicas.
Debido a las maneras en que estas tcnicas pueden usarse y combinarse, hay
una falta de acuerdos de cmo estas tcnicas deben categorizarse. Por ejemplo,
el mtodo de Bayesian puede agruparse lgicamente con los mtodos
probabilsticos, de clasificacin o de visualizacin. Por causa de la organizacin,
cada mtodo descrito aqu es incluido en el grupo que mejor encaje. Sin embargo,
esta seleccin no implica una categorizacin estricta.
Mtodo Probabilstico. Esta familia de tcnicas KDD utiliza modelos de
representacin grfica para comparar las diferentes representaciones del
conocimiento. Estos modelos estn basados en las probabilidades e
independencias de los datos. Las tcnicas probabilsticas pueden usarse en los
sistemas de diagnstico, planeacin y sistemas de control.
Mtodo estadstico. El mtodo estadstico usa la regla del descubrimiento y se
basa en las relaciones de los datos. El algoritmo de aprendizaje inductivo puede
seleccionar automticamente trayectorias tiles y atributos para construir las
reglas de una base de datos con muchas relaciones''. El proceso analtico en lnea
(OLAP) es un ejemplo de un mtodo orientado a la estadstica.
Mtodo de clasificacin. La clasificacin es probablemente el mtodo ms viejo
y mayormente usado de todos los mtodos de KDD. Este mtodo agrupa los datos
de acuerdo a similitudes o clases. Hay muchos tipos de clasificacin de tcnicas y
numerosas herramientas disponible que son automatizadas.
Mtodo Bayesian de KDD "es un modelo grfico que usa directamente los arcos
exclusivamente para formar una grfica acclica". Aunque el mtodo Bayesian usa

34

los medios probabilsticos y grficos de representacin, tambin es considerado


un tipo de clasificacin.
Se usan muy frecuentemente las redes de Bayesian cuando la incertidumbre se
asocia con un resultado que puede expresarse en trminos de una probabilidad.
Este mtodo cuenta con un dominio del conocimiento codificado y ha sido usado
para los sistemas de diagnstico.

Data Marts
Es un pequeo Data Warehouse, para un determinado nmero de usuarios, para
un arrea funcional, especifica de la compaa. Tambin podemos definir que un
Data Marts es un subconjunto de una bodega de datos para un propsito
especfico. Su funcin es apoyar a otros sistemas para la toma de decisiones.
Se puede concluir que los Data marts son subconjuntos de datos de un data
warehouse para reas especficas.
Entre las caractersticas de una data mart destacan:

Usuarios limitados.
rea especfica.
Tiene un propsito especfico.
Tiene una funcin de apoyo.

Cubos de informacin
Los cubos de informacin o cubos OLAP (online analitical processing) funcionan
como los cubos de rompecabezas en los juegos, en el juego se trata de armar los
colores y en el data warehouse se trata de organizar los datos por tablas o
relaciones; los primeros (el juego) tienen 3 dimensiones, los cubos OLAP tienen
un nmero indefinido de dimensiones, razn por la cual tambin reciben el nombre
de hipercubos.
Dimensiones
Las dimensiones de un cubo son atributos relativos a las variables, son las
perspectivas de anlisis de las variables (forman parte de la tabla de
dimensiones). Son catlogos de informacin complementaria necesaria para la
presentacin de los datos a los usuarios, como por ejemplo: descripciones,
nombres, zonas, rangos de tiempo, etc.

35

Variables
Tambin llamadas indicadores de gestin, son los datos que estn siendo
analizados. Forman parte de la tabla de hechos. Ms formalmente, las variables
representan algn aspecto cuantificable o medible de los objetos o eventos a
analizar. Normalmente, las variables son representadas por valores detallados y
numricos para cada instancia del objeto o evento medido. En forma contraria, las
dimensiones son atributos relativos a las variables, y son utilizadas para indexar,
ordenar, agrupar o abreviar los valores de las mismas. Ejemplos de dimensiones
podran ser: productos, localidades (o zonas), el tiempo (medido en das,
horas, semanas, etc.),
Ejemplos de variables podran ser:

Beneficios
Gastos
Ventas
etc.

Ejemplos de dimensiones podran ser:

producto (diferentes tipos o denominaciones de productos)


localidades (o provincia, o regiones, o zonas geogrficas)
tiempo (medido de diferentes maneras, por horas, por das, por meses, por
aos, ...)
tipo de cliente (casado/soltero, joven/adulto/anciano, ...)
etc.

Segn lo anterior, podramos construir un cubo de informacin sobre el ndice de


ventas (variable a estudiar) en funcin del producto vendido, la provincia, el
mes del ao y si el cliente est casado o soltero (dimensiones). Tendramos un
cubo de 4 dimensiones.

Metadatos
Uno de los componentes ms importantes de la arquitectura de un almacn de
datos son los metadatos. Se define comnmente como "datos acerca de los
datos", en el sentido de que se trata de datos que describen cul es la estructura
de los datos que se van a almacenar y cmo se relacionan.

36

Funciones ETL (extraccin, transformacin y carga)


Los procesos de extraccin, transformacin y carga (ETL) son importantes ya
que son la forma en que los datos se guardan en un data warehouse (o en
cualquier base de datos). Implican las siguientes operaciones:

Extraccin.- Accin de obtener la informacin deseada a partir de los datos


almacenados en fuentes externas.
Transformacin.- Cualquier operacin realizada sobre los datos para que
puedan ser cargados en el data warehouse o se puedan migrar de ste a
otra base de datos.
Carga.- Consiste en almacenar los datos en la base de datos final, por
ejemplo el data warehouse objetivo.

Middleware es un trmino genrico que se utiliza para referirse a todo tipo de


software de conectividad que ofrece servicios u operaciones que hacen posible el
funcionamiento de aplicaciones distribuidas sobre plataformas heterogneas.

MINERA DE DATOS

Es un mecanismo de explotacin, consistente en la bsqueda de informacin


valiosa en grandes volmenes de datos. Est muy ligada a las bodegas de datos
que proporcionan la informacin histrica con la cual los algoritmos de minera de
datos tienen la informacin necesaria para la toma de decisiones.
La md puede ser dividida en:

minera

de

datos

predictiva

(mdp):

usa

primordialmente

tcnicas

estadsticas.

minera de datos para descubrimiento de conocimiento (mddc): usa


principalmente tcnicas de inteligencia artificial

"La minera de datos es un proceso no trivial de identificacin vlida, novedosa,


potencialmente til y entendible de patrones comprensibles que se encuentran
ocultos en los datos" (Fayyad y otros, 1996).

37

"Es la integracin de un conjunto de reas que tienen como propsito la


identificacin de un conocimiento obtenido a partir de las bases de datos que
aporten un sesgo hacia la toma de decisin" (Molina y otros, 2001).
Se denomina minera de datos (data mining) al anlisis de archivos y bitcoras de
transacciones, trabaja a nivel del conocimiento con el fin de descubrir patrones,
relaciones, reglas, asociaciones o incluso excepciones tiles para la toma de
decisiones. Por ejemplo, qu productos se comercializan mejor en la temporada
navidea, en qu regiones es productivo sembrar caf, qu reas de una zona
urbana incrementarn su demanda de escuelas primarias.
Por eso la minera de datos revela patrones o asociaciones que usualmente nos
eran desconocidas, se la ha llamado tambin Descubrimiento de Conocimiento,
este tiene sus inicios en el Aprendizaje Automtico o la Estadstica.
Un proceso de apoyo a la toma de decisiones de negocio debe incluir 2
componentes: el de verificacin, y el de descubrimiento.
El anlisis de verificacin nos permite obtener conclusiones basadas en el
comportamiento pasado.
La minera de datos con enfoque en el descubrimiento, puede ayudar a descubrir
nuevas oportunidades de negocio.
El anlisis de verificacin nos ayuda a confirmar o rechazar los "descubrimientos"
obtenidos con el nuevo enfoque.
La minera es un tema para grandes bases de datos, ayuda a descubrir a estas
bases informacin rpida. Es una herramienta relacionada directamente al
negocio.
Se empieza a hablar de minera de datos cuando en el mercado se pone atencin
en el producto y el cliente. Esta herramienta existe hace varios aos, el problema
es que trabaja con grandes bases de datos.

Aplicaciones de MD
En la actualidad, existe una gran cantidad de aplicaciones, en reas tales como:
* Astronoma: clasificacin de cuerpos celestes.
38

* Aspectos climatolgicos: prediccin de tormentas, etc.


* Medicina: caracterizacin y prediccin de enfermedades, probabilidad de
respuesta satisfactoria a tratamiento mdico.
* Industria y manufactura: diagnstico de fallas.
* Mercadotecnia: identificar clientes susceptibles de responder a ofertas de
productos y servicios por correo, fidelidad de clientes, seleccin de sitios de
tiendas, afinidad de productos, etc.
* Inversin en casas de bolsa y banca: anlisis de clientes, aprobacin de
prstamos, determinacin de montos de crdito, etc.
* Deteccin de fraudes y comportamientos inusuales: telefnicos, seguros, en
tarjetas de crdito, de evasin fiscal, electricidad, etc.
* Anlisis de canastas de mercado para mejorar la organizacin de tiendas,
segmentacin de mercado (clustering)
* Determinacin de niveles de audiencia de programas televisivos
* Normalizacin automtica de bases de datos

FUENTES DE INFORMACION DEL DM:

Mtodos especficos de rboles de decisin incluyen:


- CART rboles de clasificacin y regresin: tcnica usada para la clasificacin de
un conjunto da datos. Provee un conjunto de reglas que se pueden aplicar a un
nuevo (sin clasificar) conjunto de datos para predecir cules registros darn un
cierto resultado. Segmenta un conjunto de datos creando 2 divisiones.
- CHAID Deteccin de interaccin automtica de Chi cuadrado: tcnica similar a la
anterior, pero segmenta un conjunto de datos utilizando tests de chi cuadrado para
crear mltiples divisiones.
Reglas de Asociacin: establece asociaciones en base a los perfiles de los
clientes sobre los cuales se est realizando el data mining. Las reglas de
Asociacin estn siempre definidas sobre atributos binarios.

39

Algoritmos Genticos: son tcnicas de optimizacin que usan procesos tales


como combinaciones genticas, mutaciones y seleccin natural en un diseo
basado en los conceptos de evolucin.
Redes Bayesianas: buscan determinar relaciones causales que expliquen un
fenmeno en base a los datos contenidos en una base de datos. Se han usado
principalmente para realizar prediccin.
Procesamiento Analtico en Lnea (OLAP): estas herramientas ofrecen un
mayor poder para revisar, graficar y visualizar informacin multidimensional, en
caractersticas temporales, espaciales o propias. Se valen de lenguajes menos
restringidos y estructurados como lo es SQL. Requieren todava de una alta
participacin de un usuario humano, pues son interactivas y requieren la gua del
experto.
Redes neuronales artificiales: son modelos predecibles, no lineales que
aprenden a travs del entrenamiento y semejan la estructura de una red neuronal
biolgica.
Mtodo del vecino ms cercano: una tcnica que clasifica cada registro en un
conjunto de datos basado en una combinacin de las clases de k registro/s ms
similar/es a l en un conjunto de datos histricos. Algunas veces se llama la
tcnica del vecino k-ms cercano.
Regla de induccin: la extraccin de reglas if-then de datos basados en
significado estadstico.
La tcnica usada para realizar estas hazaas en Data Mining se llama Modelado:
es simplemente el acto de construir un modelo en una situacin donde usted
conoce la respuesta y luego la aplica en otra situacin de la cual desconoce la
respuesta.
La Minera de Datos es una herramienta explorativa y no explicativa. Es decir,
explora los datos para sugerir hiptesis. Es incorrecto aceptar dichas hiptesis
como explicaciones o relaciones causa-efecto. Es necesario coleccionar nuevos
datos y validar las hiptesis generadas ante los nuevos datos, y despus descartar
aquellas que no son confirmadas por los nuevos datos.

40

La Minera de Datos no puede ser experimental. En muchas circunstancias, no es


posible reproducir las condiciones que generaron los datos (especialmente si son
datos del pasado, y una variable es el tiempo).

Algoritmos de Minera de Datos


Se clasifican en dos grandes categoras: supervisados o predictivos y no
supervisados o de descubrimiento del conocimiento [Weiss y Indurkhya, 1998].
Los algoritmos supervisados o predictivos predicen el valor de un atributo
(etiqueta) de un conjunto de datos, conocidos otros atributos (atributos
descriptivos). A partir de datos cuya etiqueta se conoce se induce una relacin
entre dicha etiqueta y otra serie de atributos. Esas relaciones sirven para realizar
la prediccin en datos cuya etiqueta es desconocida. Esta forma de trabajar se
conoce

como

aprendizaje

supervisado

se

desarrolla

en

dos

fases:

Entrenamiento (construccin de un modelo usando un subconjunto de datos con


etiqueta conocida) y prueba (prueba del modelo sobre el resto de los datos).
Cuando una aplicacin no es lo suficientemente madura no tiene el potencial
necesario para una solucin predictiva, en ese caso hay que recurrir a los mtodos
no supervisados o del descubrimiento del conocimiento que descubren patrones y
tendencias en los datos actuales (no utilizan datos histricos). El descubrimiento
de esa informacin sirve para llevar a cabo acciones y obtener un beneficio
(cientfico o de negocio) de ellas.

Retos de la minera de datos

que los productos a comercializar son, en la actualidad, significativamente

costosos, y los consumidores pueden hallar una relacin costo/beneficio


improductiva.

que se requiera de mucha experiencia para utilizar herramientas de la

tecnologa, o que sea muy fcil hallar patrones equvocos, triviales o no


interesantes.

que exista una reaccin del pblico por el uso indiscriminado de datos

personales para ejercicios de Minera de Datos.


41

tambin es muy posible que se deseen hacer inferencias y anlisis de datos

sobre un periodo determinado, pero que durante dicho periodo no se haya


registrado el mismo nmero de variables, o que stas no tengan la misma
precisin, o carezcan de la misma interpretacin.

Etapas principales del proceso de data mining


1. Determinacin de los objetivos: delimitar los objetivos que el cliente desea
bajo la orientacin del especialista en data mining.

2. Preprocesamiento de los datos: se refiere a la seleccin, la limpieza, el


enriquecimiento, la reduccin y la transformacin de las bases de datos. Esta
etapa consume generalmente alrededor del setenta por ciento del tiempo total de
un proyecto de data mining.

3. Determinacin del modelo: se comienza realizando un anlisis estadstico de


los datos, y despus se lleva a cabo una visualizacin grfica de los mismos para
tener una primera aproximacin. Segn los objetivos planteados y la tarea que
debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes
reas de la Inteligencia Artificial.

4. Anlisis de los resultados: verifica si los resultados obtenidos son coherentes


y los coteja con los obtenidos por el anlisis estadstico y de visualizacin grfica.
El cliente determina si son novedosos y si le aportan un nuevo conocimiento que
le permita considerar sus decisiones.
Respecto a los modelos inteligentes, se ha comprobado que en ellos se utilizan
principalmente rboles y reglas de decisin, reglas de asociacin, redes
neuronales, redes Bayesianas, conjuntos aproximados (rough sets), algoritmos de
agrupacin (clustering), mquinas de soporte vectorial, algoritmos genticos y
lgica difusa.

Extensiones del data mining


42

Web mining: consiste en aplicar las tcnicas de minera de datos a documentos y


servicios del Web (Kosala y otros, 2000). Todos los que visitan un sitio en Internet
dejan huellas digitales (direcciones de IP, navegador, etc.) que los servidores
automticamente almacenan en una bitcora de accesos (Log). Las herramientas
de Web mining analizan y procesan estos logs para producir informacin
significativa. Debido a que los contenidos de Internet consisten en varios tipos de
datos, como texto, imagen, vdeo, metadatos o hiperligas, investigaciones
recientes usan el trmino multimedia data mining (minera de datos multimedia)
como una instancia del Web mining (Zaiane y otros, 1998) para tratar ese tipo de
datos. Los accesos totales por dominio, horarios de accesos ms frecuentes y
visitas por da, entre otros datos, son registrados por herramientas estadsticas
que complementan todo el proceso de anlisis del Web mining.

Text mining: dado que el ochenta por ciento de la informacin de una compaa
est almacenada en forma de documentos, las tcnicas como la categorizacin de
texto, el procesamiento de lenguaje natural, la extraccin y recuperacin de la
informacin o el aprendizaje automtico, entre otras, apoyan al text mining
(minera de texto). En ocasiones se confunde el text mining con la recuperacin de
la informacin (Information Retrieval o IR) (Hearst, 1999). Esta ltima consiste en
la recuperacin automtica de documentos relevantes mediante indexaciones de
textos, clasificacin, categorizacin, etc. Generalmente se utilizan palabras clave
para encontrar una pgina relevante. En cambio, el text mining se refiere a
examinar una coleccin de documentos y descubrir informacin no contenida en
ningn documento individual de la coleccin; en otras palabras, trata de obtener
informacin sin haber partido de algo (Nasukawa y otros, 2001).

Por qu usar data mining?


Si bien la data mining se presenta como una tecnologa emergente, posee ciertas
ventajas, como son:

Resulta un buen punto de encuentro entre los investigadores y las personas


de negocios.
43

Ahorra grandes cantidades de dinero a una empresa y abre nuevas


oportunidades de negocios.

Trabajar con esta tecnologa implica cuidar un sin nmero de detalles


debido a que el producto final involucra "toma de decisiones".

Contribuye a la toma de decisiones tcticas y estratgicas proporcionando


un

sentido

automatizado

para identificar informacin

clave

desde

volmenes de datos generados por procesos tradicionales y de e-Business.

Permite a los usuarios dar prioridad a decisiones y acciones mostrando


factores que tienen un mayor en un objetivo, qu segmentos de clientes son
desechables y qu unidades de negocio son sobrepasados y por qu.

Proporciona poderes de decisin a los usuarios del negocio que mejor


entienden el problema y el entorno; y es capaz de medir la acciones y los
resultados de la mejor forma.

Genera Modelos descriptivos: en un contexto de objetivos definidos en los


negocios permite a empresas, sin tener en cuenta la industria o el tamao,
explorar automticamente, visualizar y comprender los datos e identificar
patrones, relaciones y dependencias que impactan en los resultados finales
de la cuenta de resultados (tales como el aumento de los ingresos,
incremento de los beneficios, contencin de costes y gestin de riesgos).

Genera Modelos predictivos: permite que relaciones no descubiertas e


identificadas a travs del proceso del Data Mining sean expresadas como
reglas

de

comunicarse

negocio o modelos predictivos.


en

formatos

tradicionales

Estos outputs pueden

(presentaciones,

informes,

informacin electrnica compartida, embebidos en aplicaciones, etc.) para


guiar la estrategia y planificacin de la empresa.

Conclusiones
El desarrollo de la tecnologa de Minera de Datos est en un momento crtico.
Existe una serie de elementos que la hacen operable, sin embargo, existen
algunos factores que pueden crear un descrdito a la Minera de Datos, como ser:

44

Que los productos a comercializar son, en la actualidad, significativamente


costosos, y los consumidores pueden hallar una relacin costo/beneficio
improductiva

Que se requiera de mucha experiencia para utilizar herramientas de la


tecnologa, o que sea muy fcil hallar patrones equvocos, triviales o no
interesantes,

Que no sea posible resolver los aspectos tcnicos de hallar patrones en


tiempo o en espacio,

Adems, hoy en da, las corporaciones comercializan con millones de


perfiles personales, sin que aquellos a que se refieren los datos
intercambiados, estn en posibilidad de intervenir, entonces, se llegue a
pensar que presenta un peligro o riesgo para la privacidad de los clientes.

LOS DSS (DECISION SUPPORT SYSTEM)

Breve historia
A partir de 1990 aproximadamente, los almacenes de datos y el procesamiento
analtico en lnea (OLAP) comenzaron a ampliar el mbito de los DSS. Como el
cambio de milenio, se introdujeron nuevas aplicaciones analticas basadas en la
web.
Es evidente que los DSS pertenecen a un entorno con fundamentos
multidisciplinarios, incluyendo (pero no exclusivamente) la investigacin en base
de datos, inteligencia artificial, Interaccin hombre-mquina, mtodos de
simulacin, ingeniera de software y telecomunicaciones. Los DSS tambin tienen
una dbil conexin con el paradigma de la interfaz de usuario de hipertexto. Tanto
el sistema PROMIS (para la toma de decisiones mdicas) de la Universidad de
Vermont, como el sistema ZOG/KMS (para la toma de decisiones militares y de
negocios) de la Universidad Carnegie Mellon fueron dos sistemas de apoyo a las
decisiones que constituyeron grandes avances en la investigacin de interfaz de
usuario.

45

Funcin y caractersticas
Los DSS son herramientas de mucha utilidad en Inteligencia empresarial
(Business Intelligence), permiten realizar el anlisis de las diferentes variables de
negocio para apoyar el proceso de toma de decisiones de los directivos:

Permite extraer y manipular informacin de una manera flexible.


Ayuda en decisiones no estructuradas.
Permite al usuario definir interactivamente qu informacin necesita y cmo
combinarla.
Suele incluir herramientas de simulacin, modelizacin, etc.
Puede combinar informacin de los sistemas transaccionales internos de la
empresa con los de otra empresa externa.

Su principal caracterstica es la capacidad de anlisis multidimensional (OLAP)


que permite profundizar en la informacin hasta llegar a un alto nivel de detalle,
analizar datos desde diferentes perspectivas, realizar proyecciones de informacin
para pronosticar lo que puede ocurrir en el futuro, anlisis de tendencias, anlisis
prospectivo, etc.
Un DSS da soporte a las personas que tienen que tomar decisiones en cualquier
nivel de gestin, ya sean individuos o grupos, tanto en situaciones
semiestructuradas como en no estructuradas, a travs de la combinacin del juicio
humano e informacin objetiva:

Soporta varias decisiones interdependientes o secuenciales.


Ofrece ayuda en todas las fases del proceso de toma de decisiones inteligencia, diseo, seleccin, e implementacin- as como tambin en una
variedad de procesos y estilos de toma de decisiones.
Es adaptable por el usuario en el tiempo para lidiar con condiciones
cambiantes.
Genera aprendizaje, dando como resultado nuevas demandas y
refinamiento de la aplicacin, que a su vez da como resultado un
aprendizaje adicional.
Generalmente utiliza modelos cuantitativos (estndar o hechos a la
medida).
Los DSS avanzados estn equipados con un componente de
administracin del conocimiento que permite una solucin eficaz y eficiente
de problemas muy complejos.
Puede ser implantado para su uso en Web, en entornos de escritorio o en
dispositivos mviles (PDA).

Diferentes autores proponen diferentes clasificaciones. Utilizando la relacin con


el usuario como criterio:

46

DSS pasivo.- Es un sistema de ayudas para el proceso de toma de


decisiones, pero que no puede llevar a cabo una decisin explcita
sugerencias o soluciones.
DSS activo.- Puede aportar a cabo dicha decisin sugerencias o
soluciones.
DSS cooperativo.- Permite al encargado de la toma de decisiones (o a sus
asesores) modificar, completar o perfeccionar las sugerencias de decisin
proporcionadas por el sistema, antes de enviar de vuelta al sistema para su
validacin. El nuevo sistema mejora, completa y precisa las sugerencias del
tomador de la decisin y las enva de vuelta a su para su validacin.
Entonces, todo el proceso comienza de nuevo, hasta que se genera una
solucin consolidada.

Utilizando el modo de asistencia como criterio:

DSS dirigidos por modelos.- Se hace hincapi en el acceso y


manipulacin de un modelo estadstico, financiero, de optimizacin o de
simulacin. Utiliza datos y parmetros proporcionados por los usuarios para
ayudar a los encargados de adoptar decisiones en el anlisis de una
situacin, que no son necesariamente los datos intensivos. Dicodess es un
ejemplo de un DSS de cdigo abierto basado en modelos.
DSS dirigidos por comunicacin.- Disponen de soporte para varias
personas que trabajan en una misma tarea compartida. Ejemplos incluyen
herramientas integradas como Microsoft NetMeeting o Microsoft Groove.
DSS dirigidos por datos.- Tambin llamados orientados por datos,
enfatizan el acceso y la manipulacin de series temporales de datos
internos de la empresa y, a veces, tambin de datos externos.
DSS dirigidos por documentos.- Gestionan, recuperan y manipulan
informacin no estructurada en una variedad de formatos electrnicos.
DSS dirigidos por conocimiento.- Proporcionan experiencia acumulada
en forma de hechos, normas, procedimientos, o en estructuras similares
especializados para la resolucin de problemas.

Utilizando el mbito como criterio :

DSS para la gran empresa.- Este DSS estar enlazado con un almacn de
datos de gran tamao y dar servicio a muchos gerentes, directores y/p
ejecutivos de la compaa.
DSS de escritorio.- Es un sistema pequeo que puede correr en el
ordenador personal de un gerente al que da servicio (un solo usuario).

Arquitectura

El sistema gestor de datos.


El sistema gestor de modelos.
El motor de conocimiento.
47

La interfaz de usuario.
Los usuarios.

Entornos de desarrollo
Los sistemas DSS no son totalmente diferentes de otros sistemas y requieren un
enfoque estructurado.
1. Los niveles de tecnologa.- Se propone una divisin en 3 niveles de
hardware y software para los DSS:
1. DSS especfico.- Aplicacin real que ser utilizada por el usuario.
sta es la parte de la aplicacin que permite la toma decisiones en
un problema particular. El usuario podr actuar sobre este problema
en particular.
2. Generador de DSS.- Este nivel contiene hardware y software de
entorno que permite a las personas desarrollar fcilmente
aplicaciones especficas de DSS. Este nivel hace uso de
herramientas case. Tambin incluye lenguajes de programacin
especiales, libreras de funciones y mdulos enlazados.
3. Herramientas de DSS.- Contiene hardware y software de bajo nivel.

2. Las personas que participan.- Para el ciclo de desarrollo de un DSS, se


sugieren 5 tipos de usuarios o participantes:
1. Usuario final
2. Intermediario
3. Desarrollador
4. Soporte tcnico
5. Experto de sistemas

3. El enfoque de desarrollo.- El enfoque basado en el desarrollo de un DSS

deber ser muy iterativo. Esto permitir que la aplicacin sea cambiada y
rediseada en diversos intervalos. El problema inicial se utiliza para disear
el sistema y a continuacin, ste es probado y revisado para garantizar que
se alcanza el resultado deseado.

48