Вы находитесь на странице: 1из 35

TCNICAS DE MINERA

DE DATOS PARA LA
DETECCIN Y PREVENCIN
DEL LAVADO DE ACTIVOS
Y LA FINANCIACIN
DEL TERRORISMO (LA/FT)
DOCUMENTOS UIAF

Bogot D.C.
2014

/1

Tcnicas de minera de datos


para la deteccin y prevencin
del lavado de activos y la nanciacin
del terrorismo (LA/FT)
2014

Esta publicacin fue realizada por la Unidad de


Informacin y Anlisis Financiero (UIAF), Unidad
Administrativa Especial adscrita al Ministerio de
Hacienda y Crdito Pblico.

DIRECTOR GENERAL
Unidad de Informacin y Anlisis Financiero
Luis Edmundo Surez Soto

EQUIPO DE PRODUCCIN

/2

Unidad de Informacin y Anlisis Financiero


Este documento fue desarrollado por servidores
pblicos de la UIAF, con el soporte de un equipo interno de coordinacin editorial y bajo la direccin
del Director General y el Subdirector de Anlisis Estratgico.

CORRECCIN DE ESTILO, DISEO,


DIAGRAMACIN E IMPRESIN
Garca Solano y Compaa SAS - Caliche Impresores
Impresores Molher LTDA

De acuerdo con lo previsto en el Artculo 91 de la Ley 23 de 1982, los derechos


de autor del presente documento pertenecen a la Unidad de Informacin y
Anlisis Financiero (UIAF).
Queda prohibida cualquier reproduccin, parcial o total, del contenido de este documento sin la
autorizacin previa y escrita de la
UIAF. Los anlisis contenidos son
de carcter general y no hacen referencia ni constituyen prueba sobre vnculos ciertos y permanentes
de individuos con actividades asociadas al lavado de activos y financiacin del terrorismo.
/3

La UIAF no se responsabiliza por el


uso (accin u omisin) que haga
cualquier persona o grupo de personas de la informacin (total o
parcial) contenida en el texto.

ISBN:

978-958-58578-5-8
Primera edicin 2014, UIAF

/4

TABLA DE CONTENIDO

INTRODUCCIN
pag 8

1
2
3

EL MODELO SAB Y LA MINERA DE


DATOS
pag 10

PROCESO DE GENERACIN DE
CONOCIMIENTO O KDD

/5
pag 13

APLICACIN DE TCNICAS
DE MINERA DE DATOS PARA LA
DETECCIN Y PREVENCIN DEL LA/FT
pag 20

CONCLUSIONES
pag 30

/6

TCNICAS DE MINERA DE DATOS


PARA LA DETECCIN Y PREVENCIN
DEL LAVADO DE ACTIVOS Y LA FINANCIACIN
DEL TERRORISMO (LA/FT)

Puedes utilizar todos los datos cuantitativos a tu alcance; aun as, debes
desconfiar de ellos y utilizar tu propia inteligencia y juicio (Alvin Toffler,
escritor y doctor en Letras, Leyes y Ciencias, 1928 - presente).

/7

INTRODUCCIN

/8

El lavado de activos consiste en

ocultar, manejar, invertir o aprovechar, en cualquier forma, dinero u otros bienes provenientes de
actividades delictivas, o para dar
apariencia de legalidad a las transacciones y fondos vinculados con
las mismas, actividad que con el
tiempo ha trascendido del sector
financiero a diferentes entornos
de la economa, donde contamina y desestabiliza los mercados,
poniendo en riesgo los pilares econmicos, polticos y sociales de la
democracia (Blanco, 1997).
La inteligencia financiera y econmica juega un papel fundamental
en ese contexto, dado que a travs
del anlisis y conocimiento que
produce, busca prevenir y detectar
muchas de las actividades ilcitas
antes descritas y, as mismo, contener sus impactos. Ante un creciente volumen de informacin por
centralizar y estudiar, y en aras de
desempear una labor ms efectiva, se hace necesario emplear
tcnicas de anlisis de datos ms
complejas y dinmicas a la estadstica, para lograr, finalmente, la
extraccin de conocimiento no
implcito. Concretamente, se trata
de herramientas como la minera

de datos, la cual apoya el proceso


de Knowledge Discovery in Data Bases (KDD), que consiste en analizar
grandes volmenes de datos para
generar conocimiento til a favor
de la toma de decisiones.
El objetivo de este documento es
presentar las principales tcnicas
de minera de datos (MD) utilizadas
para describir, clasificar y detectar
irregularidades a partir de la creacin de perfiles normales transaccionales, facilitando el hallazgo de patrones o reglas generales
(incluye mtodos de agrupacin)
en el registro histrico de las transacciones. En contraste, los procedimientos de prediccin describen
las proyecciones obtenidas a partir
de diversas metodologas1 para
pronosticar el comportamiento
futuro de las transacciones realizadas. En la actualidad se utilizan
las siguientes: Redes Neuronales,
rboles de Decisin y Bayes; as
mismo, se emplean sistemas de
aprendizaje autnomo para reconocimiento de patrones que parten de eventos histricos.

desarrollo tecnolgico de la UIAF,


desde la implementacin del modelo de gestin Sistmico, Amplio
y Bidireccional (SAB), en los ltimos casi cuatro aos; contina,
con una presentacin del proceso
de generacin de conocimiento
KDD, que abarca desde la obtencin de informacin hasta la aplicacin del conocimiento adquirido
para la toma de decisiones, seguida por una explicacin de la aplicacin de tcnicas de minera de
datos para la deteccin y prevencin del lavado de activos (LA) y la
financiacin del terrorismo (FT); y,
finalmente, ofrece unas conclusiones generales.

Este documento consta de cuatro


secciones: primero, una contextualizacin sobre la aplicacin de
tcnicas de minera de datos2 en el
1
Crdenas Rojas, Liliam (2010). Anlisis Predictivo para la Prevencin de LA/FT Caso Bancolombia. Oficina de Naciones Unidas contra la droga y el delito,
Cmara de Comercio de Bogot, Embajada Britnica. http://incp.org.co/Site/info/archivos/bancolombia.pdf.
2
Para conocer el contexto histrico de la minera de datos, consultar, (2014) Aplicabilidad de la Minera de Datos y el Anlisis de Redes Sociales en la Inteligencia
Financiera. Bogot: Unidad de Informacin y Anlisis Financiero.

/9

/10

01
EL MODELO SAB
Y LA MINERIA DE DATOS

Con el diseo y aplicacin en la

UIAF del modelo de gestin Sistmico, Amplio y Bidireccional


(SAB)3, se han potencializado las
capacidades de anlisis y respuesta del Sistema Nacional Antilavado
de Activos y Contra la Financiacin
del Terrorismo (ALA/CFT). En particular, su componente Amplio, al
incorporar nuevas fuentes de informacin, propende por la creacin
de ms y mejores sensores que
aporten datos sobre la evolucin
de las diferentes actividades econmicas en el pas, requiriendo, as
mismo, una mayor capacidad de
anlisis.
En este contexto, bajo el modelo SAB, la UIAF crea la Plataforma
de Inteligencia Econmica (PIE),
basada en un conjunto de hardware y software, que se potencializa gracias a la integracin de un
equipo humano con las capacidades necesarias para utilizar estas
herramientas,
implementando
metodologas provenientes de las
Matemticas, Estadstica, Economa, Finanzas y otras ciencias, con
el fin de mejorar el entendimiento
de la amenaza y producir mejores
resultados en el Sistema ALA/CFT.

En particular, las herramientas de


minera de datos, objeto de este
documento, facilitan la identificacin de patrones y tendencias. As
mismo, permiten identificar transacciones atpicas, posiblemente
relacionadas con los delitos mencionados.
La aplicacin de estas tcnicas le
ha permitido a la UIAF optimizar
tiempo y recursos en el desarrollo
de la inteligencia financiera y, principalmente, robustecer la informacin y anlisis que produce en apoyo a las autoridades competentes,
(como fuerzas del orden, Fiscala
General de la Nacin), entre otros
agentes, de acuerdo con las posibilidades y restricciones legales de
cada uno. Lo anterior reafirma el
carcter Amplio y Bidireccional del
modelo SAB, al fortalecer la articulacin entre los agentes del sistema, para mejorar la efectividad de
sus resultados.
La estructura del modelo SAB, desde la perspectiva de la recoleccin
y procesamiento de informacin,
se resume en la Figura 1; tener este
contexto presente, ayudar a ilustrar la utilidad de las tcnicas de
minera de datos abordadas en el

3
Para conocer el contexto histrico, la estructura y los componentes del modelo SAB, consultar. Surez Soto, Luis Edmundo (2014). Las Unidades de Inteligencia
Financiera y el Sistema Antilavado de Activos y Contra la Financiacin del Terrorismo. Un Nuevo Modelo de Gestin: Sistmico, Amplio y Bidireccional. Segunda
edicin. Bogot: Unidad de Informacin y Anlisis Financiero (UIAF). https://www.uiaf.gov.co/index.php?idcategoria=20569

/11

presente documento, el cual busca


ofrecer una perspectiva detallada
sobre la aplicacin de las mismas y
servir como punto de referencia de
especialistas del sistema nacional
e internacional ALA/CFT (especial-

mente, pero no exclusivamente,


otras Unidades de Inteligencia Financiera - UIF), para quienes el conocimiento aqu desarrollado puede aportar a sus propias labores y
efectividad.

Figura 1. Modelo SAB


recoleccin, manejo y procesamiento de informacin

Plataforma de
Inteligencia
Econmica

Ms y Mejores
Sensores

/12

Reportantes
*Entidades del estado
*Gremios
*Organismos internacionales
*Centros acadmicos

Base de Datos
Politemticas
*Volumen
*Velocidad
*Variedad
*Veracidad

Mejoras en la Calidad de dos Reportes:


Crecimiento Continuo del Sistema ALA/CFT

Inteligencia
Financiera y
Econmica
*Anlisis financiero
*Anlisis econmico
*Anlisis matemtico
y Estadstico
*Anlisis visual

Mejor
Entendimiento de
la Amenaza

*Entender el Pasado
*Monitorear el Presente
*Anticipar el Futuro

Ms Capacidades
de Deteccin y
Judicializacin:
Mejores
Resultados

/13

02

PROCESO
DE GENERACIN

DE CONOCIMIENTO O KDD

El proceso de Knowledge Discovery in DataBases (KDD) surte cuatro pasos para la generacin de
conocimiento. Estas etapas pueden ser recursivas, es decir, que se
retorna a ellas una y otra vez (proceso iterativo) a medida que se obtienen resultados preliminares que
requieren replantear las variables
iniciales.

A continuacin se expone una forma de representar el proceso que


puede ser empleado por cualquier
unidad de inteligencia financiera
para la generacin de conocimiento sobre posibles operaciones de
LA/FT (ver Figura 2).

Figura 2. Proceso de KDD


Interpretacin y
resultados
Minera
de datos
Transformacin

/14
Procesamiento

Generacin
de conocimiento
Patrones

Seleccin
Datos
Transformados

Limpieza base
de datos

Datos
Preprocesados
Seleccin de
atributos

Nueva
base de datos
Bases de datos

En adelante se describen cada una


de las etapas del proceso.

1. Seleccin de los
datos

2. Pre procesamiento de datos

Es la etapa ms dispendiosa (requiere cerca del 90% del tiempo),


como se describe en Fayyad et. al.
(1996), ya que consiste en la recoleccin y preparacin de los datos.
En este proceso se comprende la
problemtica asociada a la base
de datos y se establecen objetivos.
A la vez, se identifican las variables
que sern consideradas para la
construccin del modelo de minera de datos (MD).

Integracin de datos: Se
analiza si la base de datos requiere
incluir o integrar informacin o variables que reposan en otras bases
de datos, y que ser relevante para
el modelo de minera de datos. Si
es necesario, se realiza un modelo
de entidad-relacin entre tablas,
el cual permite representar las entidades relevantes (representaciones grficas y lingsticas) de un
sistema, as como sus propiedades
e interrelaciones (vila, 2005).

De acuerdo con el origen de cada


tabla(s) de datos, se establece el
mecanismo que se utilizar para
extraer la informacin requerida
por el modelo; tambin incide la
opinin del experto, quien puede sugerir las series que explican
parcialmente la variable objetivo
(clase).

Reconocimiento y limpieza: Se depura el conjunto de


datos respecto a valores atpicos,
faltantes y errneos (eliminacin
de ruido e inconsistencias).

/15

3. Seleccin de
caractersticas

/16

Exploracin y limpieza
de datos: Aplicando tcnicas de
anlisis exploratorio de datos (estadstico, grfico, entre otros), se
busca identificar la distribucin
de los datos, simetra, pruebas de
normalidad y correlaciones existentes entre los datos. En esta
etapa es til el anlisis descriptivo
del conjunto de datos (clustering
y segmentacin, escalamiento, reglas de asociacin y dependencia,
reduccin de la dimensin), identificacin de datos nulos, ruido y
outliers, as como el uso de matrices de correlacin (si las variables
son numricas), diagramas (barras,
histogramas, caja y bigotes), entre
otras tcnicas adecuadas de muestreo.
Transformacin: Se estandariza o normaliza la informacin (colocarla en los mismos
trminos de formato y forma). La
seleccin de la tcnica a aplicar depender del algoritmo que se utilizar para la generacin de conocimiento. Las tcnicas comnmente
utilizadas son: discretizacin, esca-

lado (simple y multidimensional) y


estandarizacin.
Reduccin de datos: Se
disminuye el tamao de los datos
mediante la eliminacin de caractersticas redundantes.
Seleccin/extraccin de atributos:
Se realiza un proceso de identificacin y seleccin de variables
relevantes. Entre las tcnicas ms
utilizadas para este proceso se encuentran, mtodos basados en filtros y en wrappers (seleccionan los
atributos en funcin de la calidad
del modelo de MD asociado a los
atributos utilizados).
Construccin de atributos:
En caso que los datos se encuentren asociados a patrones complejos, se construye un atributo sencillo que facilite la interpretacin
del algoritmo. Se puede recurrir a
diferentes tcnicas, como la construccin guiada por los datos, el
modelo o el conocimiento; finaliza
cuando se han analizado y seleccionado las tcnicas de extraccin
de conocimiento que mejor se
adapten al lote de datos.

4. Minera
de Datos
La minera de datos segn Esteban
(2008) et. al. (1991 / 1995), se puede
definir como un proceso no trivial
de identificacin vlida, novedosa,
potencialmente til y entendible
de patrones comprensibles que se
encuentran ocultos en los datos,
que a su vez, facilita la toma de
decisiones y emplea tcnicas de
aprendizaje supervisado y no-supervisado. En la fase se define el
tipo de investigacin a realizar de
acuerdo con las caractersticas
de los atributos que conforman la
base de datos, que pueden ser de
tipo descriptivo4 y/o predictivo. El
siguiente paso es la eleccin y aplicacin de mtodos de extraccin
de conocimiento y la seleccin de
medidas de validacin para evaluar el rendimiento y la precisin
del(os) mtodo(s) escogido(s) por
el analista de MD.
A continuacin se presentan las
tcnicas empleadas, las cuales
pueden ser de tipo supervisado o
no supervisado.

Identificacin: Evidenciar la existencia de objetos, eventos y actividades en el conjunto de


datos (anlisis factorial, discriminante, regresivo, de correlaciones).

Clasificacin: Particionar
los datos de acuerdo a las clases o
etiquetas asignadas al conjunto de
datos (ej: tablas de decisin, reglas
de decisin, clasificadores basados
en casos, redes neuronales, clasificadores bayesianos y clasificadores basados en acoplamientos).

Agrupacin: Permitir la
maximizacin de similitudes y minimizacin de diferencias entre
objetos, mediante la aplicacin de
algn criterio de agrupacin.

Asociacin: Tener presente que las reglas de asociacin


buscan descubrir conexiones existentes entre objetos identificados.

Prediccin: Descubrir el
comportamiento de ciertos atributos en el futuro. (Regresin y series
temporales, anlisis discriminante,
mtodos bayesianos, algoritmos
genricos, rboles de decisin, redes neuronales).

Identifica elementos comunes en los individuos analizados y determinan agrupaciones que surgen de manera natural, dados los datos disponibles.

/17

/18

El proceso ms importante en minera de datos es el proceso de


limpieza de los datos y definicin
de las variables. Si los datos no son
correctos el modelo creado no servir. Del mismo modo, la validez de
los patrones descubiertos depende de cmo se apliquen al mundo
real o a las circunstancias. Aunque
integra el conocimiento de diferentes fuentes como la Biologa,
Matemticas, Estadstica, Ciencias
Sociales, entre otras, la minera de
datos presenta diferencias importantes, por ejemplo, respecto a la
estadstica, la cual plantea una hiptesis y usa datos para probarla
o refutarla. La eficacia de este enfoque se ve limitada por la creatividad del usuario para desarrollar
las diversas hiptesis, as como por
la estructura del software que utiliza; por el contrario, la minera de
datos emplea una aproximacin
de descubrimiento para examinar
simultneamente varias relaciones
en bases de datos multidimensionales, identificando aquellas que
se presentan con frecuencia (2008).

5. Interpretacin y
Resultados
Se analizan los resultados de los
patrones obtenidos en la fase de
MD, mediante tcnicas de visualizacin y de representacin, con el
fin de generar conocimiento que
aporte mayor valor a los datos. En
esta fase se evalan los resultados
con los expertos y, si es necesario,
se retorna a las fases anteriores
para una nueva iteracin. Las actividades mencionadas anteriormente se resumen en la Figura 3.

Figura 3. Proceso de generacin de conocimiento automtico

Comprensin y
analisis de
informacin

Transformacin de
datos (discretizacion,
normalizacin otros
depende del conjunto
de datos)

Evaluacin

Reduccin de datos
Eliminacin de datos
redundantes, seleccin
de atributos, clases y
conjuntos.
Construccin de
atributos.

Resultados de
Data-set
vs. algoritmos de
validacin (cross
validation, split
validation, otros)

Preprocesamiento

Modelacin

Integracin
reconocimiento y
limpieza de datos
(analisis exploratorio
y estadstico)

Seleccin de
tcnicas de
MD:
Det. Algoritmica y
anlisis de
resultados parciales.

Despliegue

Consolidacin de
conocimiento Patrones de
conocimiento

/19

/20

03

APLICACIN DE TCNICAS
DE MINERA DE DATOS

PARA LA DETECCIN Y PREVENCIN


DEL LA/FT

Durante

la ltima dcada, el
crecimiento de las bases de datos
(BD) ha trado consigo la dificultad para analizar la informacin, lo
que ha llevado a desarrollar herramientas de anlisis cada vez ms
sofisticadas y potentes que permitan la exploracin y anlisis de
informacin, generando patrones
de conocimiento no trivial vlidos,
tiles y comprensibles. Uno de estos casos es el de la informacin
respecto a actividades criminales
como el trfico de drogas, soborno
y contrabando, delitos que generan cuantiosas ganancias y derivan
en un alto volumen de transacciones, realizadas con un creciente
nivel de complejidad para esconder el origen ilcito de los recursos,
dificultando as la deteccin de los
entes de control.
En este sentido, diversos pases desarrollados han avanzado significativamente en emplear sistemas de
monitoreo online para la deteccin
de operaciones de lavado de activos y financiacin del terrorismo
(LA/FT). El Financial Artificial Intelligence System (FAIS) del Financial
Crime Enforcement Network (FinCEN) de Estados Unidos, integra el
criterio de expertos con herramien-

tas tecnolgicas para identificar


operaciones potencialmente relacionadas con LA, configurando as
un sistema antilavado automtico
(ALM) (Senator et. al., 1995), el cual
se entiende como una inversin a
largo plazo para prevenir el ingreso
de dinero de origen ilcito a la economa legal.
Varias tcnicas de aprendizaje automtico han sido implementadas para la deteccin de fraude y
de lavado de activos, cuya tasa de
clasificacin ha sido alta (verdaderos positivos y falsos positivos
bajos), comparados con tcnicas tradicionales (Maimon et.al.,
2003/2007/2010).
Tomando el caso de los Sistemas
Antilavado de Activos y Contra la
Financiacin del Terrorismo (ALA/
CFT), los procedimientos aplicados
ms conocidos son:

Algoritmos de agrupacin: Tambin denominados procedimientos de clustering, buscan


generar nuevos conjuntos a partir
de los datos analizados, tales que
los individuos en un mismo grupo
sean lo ms parecidos posible y
que, simultneamente, cada grupo
sea lo ms diferente posible. Estos

/21

mtodos trabajan con la distancia


que hay entre cada elemento y el
centro de cada uno de los grupos,
asignando el individuo al grupo al
cual se encuentre ms cerca.

/22

La complejidad de estos algoritmos radica en la definicin de un


criterio para establecer distancias
o similitudes y el procedimiento
recursivo que se sigue para conformar cada uno de los grupos hasta
satisfacer los criterios establecidos.
Entre estos mtodos se encuentran los jerrquicos, de particin,
basados en densidades, modelos y
cuadrculas y los computacionales
(Maimon y Rokach, 2010). Ejemplo:
para la deteccin de outliers. Sin
embargo, estos mtodos no pueden identificar tendencias de comportamiento sospechoso.

Reglas de asociacin:
Examinan todas las posibles combinaciones de caractersticas contenidas en una base de datos y
determinan la probabilidad de
configuracin de estos rasgos.
Ejemplo: un individuo se puede
definir de acuerdo con el tipo de
persona (natural o jurdica), sector
econmico, grupo de frecuencia de
transacciones y relacin con una
investigacin de inteligencia eco-

nmica. Las reglas de asociacin


evalan todas las posibles combinaciones de estas caractersticas
y determinan las configuraciones
ms probables (Maimon y Rokach,
2010).
Los modelos predictivos de MD
buscan obtener los valores adquiridos por una variable de inters
en situaciones no observadas (ej:
el futuro), en funcin de los valores
que toman otras series relacionadas. En el contexto de la lucha ALA/
CFT, este tipo de algoritmos permite establecer los comportamientos
del individuo relacionados con su
judicializacin por una actividad
delictiva, o su inclusin en un caso
de inteligencia financiera o reporte
de operacin sospechosa (ROS). A
continuacin se describen algunos
mtodos principales:

rboles de decisin: Un
rbol de decisin es un modelo de
clasificacin que divide un conjunto de anlisis, buscando el mayor
grado de pureza entre los grupos
resultantes5 . En todo rbol hay un
nodo inicial denominado raz, que
contiene la totalidad de la informacin. Este grupo se subdivide en
dos o ms grupos denominados
como internos, si continan sub-

Pureza se entiende como la presencia representativa de una de las caractersticas que toma la variable de inters (junto con la participacin insignificante
de la otra categora).

dividindose, o terminales u hojas,


si no enfrentan ms segmentacin
(Maimon y Rokach, 2010).

una de las categoras que toma la


variable de inters. Se dispone de
varios algoritmos para la generacin de rboles de decisin, entre
los cuales se cuentan ID3 (introducido por Quinlan en 1986), C4.5
o J486 , CART, CHAID Random Tree
y QUEST (Safavin y Landgrebe,
1991). En la Figura 4 se presenta un
ejemplo de la aplicacin del C4.5.

En un rbol de clasificacin cada


nodo interno se parte de acuerdo
a una funcin discreta sobre las
variables utilizadas para el anlisis,
hasta llegar a los nodos terminales donde se tiene la proporcin
de individuos ubicados en cada

Figura 4. Ejemplo de aplicacin de C4.5

a3
> 2.450
> 1.750

< 2.450

/23

a4

Iris Virginica

Iris-setosa

< 1.750

> 5.350

a3
< 5.350

Iris Virginica

a3
< 4.950

> 4.950

a4
> 1.550
Iris Versicolor

Iris Versicolor
< 1.550
Iris Virginica

6
Dependiendo del lenguaje de desarrollo empleado para la construccin del algoritmo, se denota su nombre. El C4.5 fue desarrollado en C++, mientras que
J48 fue desarrollado en Java.


Redes neuronales artificiales (RNA): Son un sistema
de aprendizaje y procesamiento
automtico inspirado en la forma
como funciona el sistema nervioso animal, que parte de la interconexin de neuronas que colaboran
entre s para generar un resultado.
Esta salida o resultado proviene de
tres funciones (Maimon y Rokach,
2010):

/24

1. Propagacin (funcin de excitacin): Es la sumatoria de cada entrada multiplicada por el peso de


su interconexin (valor neto). Si el
peso es positivo, la conexin se denomina excitatoria, y si es negativo,
se denomina inhibitoria.
2. Activacin (modifica a la funcin anterior): su existencia no es
obligatoria, siendo en este caso la
salida, la misma funcin de propagacin.
3. Transferencia: se aplica al valor
devuelto por la funcin de activacin. Se utiliza para acotar la salida de la neurona y generalmente
viene dada por la interpretacin
que se desee dar a dichas salidas.
Algunas de las ms utilizadas son
la funcin sigmoidea (para obtener valores en el intervalo [0,1]) y la

tangente hiperblica (para obtener


valores en el intervalo [-1,1]).
Las RNA usualmente implementadas dependen del patrn de conexiones que representan. Existen
varias formas de clasificarlas. Por
topologa se definen dos tipos bsicos:
1. Feed-forward Neural Net (FNN):
Redes de propagacin progresivas
o acclicas, en las que las seales
avanzan desde la capa de entrada
hacia la salida, sin presentar ciclos
ni conexiones entre neuronas de
la misma capa. Pueden ser de dos
tipos: monocapa (ej. perceptrn,
Adaline) y multicapa (ej. Perceptrn multicapa. Ver Figura 5).
2. Recurrent Neural Network (RNN):
Redes neuronales recurrentes, que
presentan al menos un ciclo cerrado de activacin neuronal (ej. Elman, Hopfield, mquina de Boltzmann).

Figura 5. RNA perceptrn multicapa


Capa de
entrada

Capa
oculta

Capa de
salida

Entrada 1

1
Entrada 2

Entrada 3

Salida

/25
Entrada n

Una segunda clasificacin es en


funcin del tipo de aprendizaje:
1. Supervisado: Requieren un conjunto de datos de entrada previamente clasificado. Tal es el caso
del perceptrn simple, la red Adaline, el perceptrn multicapa, red
backpropagation, y la memoria
asociativa bidireccional.

2. No supervisado o autoorganizado: No necesitan de un conjunto


previamente clasificado. Tal es el
caso de las memorias asociativas,
las redes de Hopfield, la mquina de Boltzmann y la mquina de
Cauchy, las redes de aprendizaje
competitivo, las redes de Kohonen o mapas autoorganizados y
las redes de resonancia adaptativa
(ART).

3. Redes hbridas: Son un enfoque


mixto en el que se utiliza una funcin de mejora para facilitar la convergencia. Ej: redes de base radial.
4. Reforzado: Se sita a medio camino entre el supervisado y el autoorganizado.
Una tercera clasificacin est en
funcin del tipo de entrada:
1. Redes analgicas: Procesan datos de entrada con valores continuos que normalmente son acotados. Ej. Hopfield, Kohonen y las
redes de aprendizaje competitivo.
/26

2. Redes discretas: Procesan datos


de entrada de naturaleza discreta (habitualmente valores lgicos
booleanos). Ej: mquinas de Boltzmann y Cauchy, y la red discreta de
Hopfield.

Naive Bayes: Este tipo de


algoritmo comparte elementos de
la biologa, inteligencia artificial
y estadstica. Estn definidos por
un grafo donde existen nodos que
representan variables aleatorias
junto con sus enlaces, los cuales
hacen referencia a dependencias
entre las mismas. El xito de las
redes bayesianas se debe a su ha-

bilidad para manejar modelos probabilsticos complejos al descomponerlos en componentes ms


pequeos y digeribles. Se utilizan
para investigar relaciones entre
variables y para predecir y explicar
su comportamiento al calcular la
distribucin de probabilidad condicional de una variable, dados los
valores de otras series de inters
(Maimon y Rokach, 2010).

Mquinas de soporte
vectorial (MSV): Son un conjunto de algoritmos de aprendizaje
supervisado, relacionados con
problemas de clasificacin y regresin. En este contexto, el aprendizaje se relaciona con la estimacin
de funciones a partir de un conjunto de entrenamiento, que permite etiquetar las clases y entrenar
una MSV para construir un modelo que prediga la clase de una
nueva muestra. La MSV construye
un hiperplano(s) en un espacio
hiperdimensional de mxima distancia respecto a los puntos que
estn ms cerca del mismo. Estos
modelos estn estrechamente relacionados con las RNA e incorpora la funcin de Kernel (ej. radial,
polinomial, neural, anova, epachnenikov, combinacin gaussiana y
multicuadrtica). Ver Figura 6.

Figura 6. MSV

Las MSV y las RNA obtienen un mejor resultado pero su costo computacional es muy alto, lo que se
suma a la complejidad asociada a
su interpretacin y al entrenamiento requerido para obtener un buen
resultado (LiuXuan, 2007; Shijia
Gao, 2007; Shijia Gao y Huaiqing
Wang, 2006). A continuacin, un
comparativo entre las RNA y MSV
(ver tabla 1):

x2

Hi

pe

rp

la

no

tim

Margen
mximo

x1

Tabla 1
RNA
Las capas ocultas transforman a
espacios de cualquier dimensin.
El espacio de bsqueda tiene
mltiples mnimos locales.
El entrenamiento es costoso.
Se establece el nmero de nodos
y capas ocultas.
Alto funcionamiento en
problemas tpicos.

MSV
Kernels Transforma a espacios de
dimensin muy alta.
El espacio de bsqueda tiene
un mnimo global.
El entrenamiento es
altamente eficiente
Se disea la funcin de kernel y el
parametro de coste C.
Muy buen funcionamiento en problemas tipicos.
Extremadamente robusto para generalizacin.
Menos necesidad de emplear heursticos en el entrenamiento.

Fuente: LiuXuan, 2007; Shijia Gao, 2007; Shijia Gao y Huaiqing Wang, 2006

/27

/28

Reglas de induccin:
Considerando que los patrones
ocultos en grandes bases de datos
suelen expresarse como un conjunto de reglas, aquellas de induccin
se adaptan a los objetivos de la MD
aun cuando son una de las tcnicas ms representativas del aprendizaje de mquina. Aqu, una regla
suele consistir de instrucciones del
tipo Si (caracterstica 1, atributo 1)
y Si (caracterstica 2, atributo 2) y
y Si (caracterstica n, atributo n) entonces (decisin, valor), aunque se
pueden encontrar reglas ms complejas. La informacin utilizada por
este algoritmo es de carcter categrico, lo cual facilita en gran medida el procesamiento de los datos
y el entendimiento de los resultados. Los algoritmos utilizados por
las reglas de induccin son LEM1,
LEM2 y AQ.
A continuacin se documentan los
resultados presentados en (Wang y

Yang, 2007), para dar mayor claridad al uso de las herramientas de


minera de datos en la deteccin
de operaciones de LA o FT. Los
autores emplean el mtodo de rboles de decisin para obtener reglas que determinen el riesgo que
tienen los diferentes tipos de clientes, de un banco comercial en un
determinado pas, de estar involucrados en una operacin de lavado
de activos7. Los datos utilizados
corresponden a una muestra aleatoria de 28 individuos provenientes
de un universo de 160 mil clientes,
para los cuales se utilizan cuatro de
52 variables disponibles: industria,
localizacin, tamao del negocio y
productos abiertos con el banco.
Las categoras de cada variable se
califican en tres niveles de acuerdo
con el riesgo de LA que perciben
los gerentes de oficina: L (riesgo
bajo), M (riesgo medio) y H (riesgo
alto). Por ejemplo, para la variable
industria:

Tabla 2
Industria
Manufacturera

Riesgo LA
L

Qumica

Comercio domstico

Medicina

Tecnologa

Comercio internacional

Comercio al por menor

Publicidad

Venta de Automviles

Este enfoque difiere de otros ms tradicionales donde el anlisis se centra en las transacciones.

Los autores utilizan el algoritmo


ID3 sobre una muestra de entrenamiento de 21 individuos y prueban
la validez de los resultados sobre
los 7 individuos restantes. La representacin grfica de los resultados
obtenidos es la que se muestra en
la Figura 7. En este caso, se evidencia que la industria es la variable
ms relevante en la determinacin
del riesgo de LA del cliente (se ubica al principio del rbol de decisin), seguida por localizacin y
tamao del negocio.

tenecen a una industria con bajo


riesgo de LA (rama marcada como
L originada en industria, nmero 1
en la figura) y una localizacin con
bajo o mediano riesgo (ramas marcadas como L y M, nmeros 2 y 3
en la figura) tienen un bajo riesgo
de estar involucradas en LA. Por
el contrario, un individuo de una
industria con alto riesgo (rama
marcada como H originada en industria, nmero 1 en la figura) y
tamao de bajo riesgo (rama marcada como L originada en tamao
del negocio, nmero 4 en la figura),
en realidad tienen un alto riesgo de
LA.

Al observar el rbol de decisin se


observa que los clientes que per-

Figura 7. Resultados presentados en Wang y Yang, 2007.


1
Industry

3
Location

L
Low

Bussines Size

H
Low

Middle

Middle

Low

M
Bank
products

Middle

Bussines Size

Middle

Middle

Bank
products

High

Middle

High

Location

Middle

High

Middle

High

/29

CONCLUSIONES

/30

Dado el incremento del volumen


de la informacin reportada a las
Unidades de Inteligencia Financiera (UIF) y la complejidad de su
anlisis, son fundamentales las
herramientas
computacionales
robustas, que permitan extraer conocimiento no trivial y faciliten la
identificacin de seales de alerta
y construccin y seguimiento de
perfiles por sector, respecto a casos atpicos u outliers.
Especficamente, los resultados
obtenidos mediante la seleccin y
aplicacin de tcnicas de minera
de datos pueden contribuir al proceso de toma de decisiones en entidades especializadas en prevencin, deteccin y/o administracin
del riesgo de LA/FT.
Experiencias nacionales e internacionales demuestran que la adopcin de tcnicas de minera de datos para la prevencin y deteccin
de delitos ha arrojado importantes
resultados respecto al hallazgo de
patrones de comportamiento de
anomalas.

BIBLIOGRAFA

FUENTES
ACADMICAS
vila Flores, Jos Salvador (2005).
Sistema de Administracin de Red
(S.A.R.) Versin 1.0. Universidad
Autnoma del Estado de Hidalgo.
Instituto de Ciencias Bsicas e Ingeniera. Mxico.
Blanco Cordero, Isidoro (1997). El
delito de blanqueo de capitales.
Edit. Aranzadi.
Fayyad, Usama, Piatetsky-Shapiro, Gregory and Smyth, Padhraic (1996). From Data Mining to
Knowledge Discovery in Databases. American Association for Artificial Intelligence.
Esteban Talaya, gueda (2008).
Principios de marketing. ESIC Editorial. Tercera edicin.
LiuXuan, Zhang Pengzhu (2007).
An agent based Anti-Money Laundering system architecture for financial supervision. International
Conference on Wireless Communications, Networking and Mobile
Computing, Septiembre, pp: 54725475.

/31

Maimon, Oded and Rokach, Lior


(2010). Data Mining and Knowledge Discovery Handbook. Second
Edition. Springer.
Ramrez Quintana, Mara Jos y
Hernndez Orallo, Jos (2003).
Extraccin Automtica de Conocimiento en Bases de Datos e Ingeniera del Software. Espaa.
Safavin, S.R., Landgrebe, D (1991).
A survey of decision tree classifier
methodology [J]. IEEE Transactions on Systems, Man and Cybernetics, Vol.21, No.3, pp.660-667.

/32

Anti-money Laundering System.


International Conference on Service Operation and Loqistics, and
Informatics, SOLI06, IEEE. pp: 851856.
Sudjianto, A., Nair, S., Yuan, M.,
Zhang, A., Kern, D., Cela-Daz, F.
(2010). Statistical Methods for Fighting Financial Crimes. Technometrics 52(1) 519.
Virseda Benito, Fernando y Romn
Carrillo, Javier (sin ao). Minera
de datos y aplicaciones. Universidad Carlos III.

Senator, Ted E., Goldberg, Henry G.


y Wooton, Jerry (1995). The financial crimes enforcement network AI
system (FAIS) identifying potential
money laundering from reports of
large cash transactions[J], AI Magazine, Vol.16, No.4, pp. 21-39.

Wang, Su-Nan and Yang, Jian-Gang


(2007). A money Laundering Risk
Evaluation Method Based on Decision Tree. Proceedings of the sixth
international conference on Machine Learning and Cybernetics, Hong
Kong.

Shijia Gao, Dongming Xu (2007).


Conceptual modeling and development of an intelligent agent-assisted decision support system
for anti-money laundering. Expert System with Applications,
doi:10.1016/j.eswa.

Yue, D., Wu, X. y Wang, Y. (2007). A


Review of Data Mining-Based Financial Fraud Detection Research.
In: 2007 Wireless Comm., Networking and Mobile Computing, IEEE.

, Huaiqing Wang,
Yingfeng Wang (2006). Intelligent

Zhang, Z. y Salerno, J. (2003). Applying data mining in investigating


money laundering crimes. Discovery and data mining (Mlc) 747.

FUENTES
INSTITUCIONALES
Asobancaria (2011). Banco Central
Rumiahui. Construccin y calibracin de un ndice multicriterio para
la deteccin de Lavado de Activos.

FUENTES
ELECTRNICAS

q=isbn:8497324927. Consultado el
14 de agosto de 2014.
Cruz Arrela, Liliana (2010). Minera
de datos con aplicaciones. Universidad Nacional Autnoma de Mxico.
http://132.248.9.195/ptd2010/
abril/0656187/0656187_A1.pdf.
Consultado el 14 de agosto de
2014.

Artculos estadsticos. http://www.


estadistico.com/arts.html. Consultado el 14 de agosto de 2014.
Crdenas Rojas, Liliam (2010). Anlisis Predictivo para la Prevencin
de LA/FT Caso Bancolombia. Oficina de Naciones Unidas contra la
droga y el delito, Cmara de Comercio de Bogot, Embajada Britnica.
http://incp.org.co/Site/info/archivos/bancolombia.pdf. Consultado
el 14 de agosto de 2014.
Prez Lpez, Cesar y Santn Gonzlez, Daniel (2007). Minera de datos:
conceptos, tcnicas y sistemas.
https://www.google.com.co/
search?hl=es&tbo=p&tbm=bks&-

/33

TCNICAS DE MINERA
DE DATOS PARA LA
DETECCIN Y PREVENCIN
DEL LAVADO DE ACTIVOS
Y LA FINANCIACIN
DEL TERRORISMO (LA/FT)
DOCUMENTOS UIAF

Bogot D.C.
2014