Вы находитесь на странице: 1из 12

Minera de Datos y Deteccin de Fraude

Aylin Briones, Lady Pitty

1. Introduccin

La Minera de Datos es el proceso analtico de exploracin de los datos en la bsqueda de patrones


consistentes, o relaciones sistemticas entre las variables y para poder validar y aplicar los patrones
encontrados a un nuevo conjunto de datos.

Las tcnicas de la Minera de Datos han sido aplicadas en los ms variados entornos desde la
educacin, las relaciones con clientes, la inteligencia de negocios. El estudio del fraude y su
investigacin es un campo natural para la aplicacin de las tcnicas de la Minera de Datos.

La deteccin de anomalas en los procesos de creacin, almacenamiento, registro y transmisin de


un conjunto de datos de un punto a otro es otro escenario para la aplicacin de las tcnicas de
Minera de Datos. El escenario econmico actual en que se presentan distintos tipos de fraudes en
las finanzas y la contabilidad ha propiciado la aplicacin de las tcnicas de la Minera de Datos
para la deteccin de las posibles fallas en los sistemas contables. Dentro de esta problemtica esta
investigacin tuvo como objetivo analizar el tema de la aplicacin de las tcnicas de la Minera de
Datos en la deteccin del fraude contable.

La revisin de la de la informacin y los sistemas permite comprobar que la aplicacin de las


tcnicas de la Minera de datos puede ser de gran utilidad para la deteccin de los distintos tipos de
fraude contable y una lnea de investigacin de gran perspectiva. La Minera de Datos permite la
clasificacin, deteccin de valores anmalos., el agrupamiento, la prediccin y la regresin
necesarios para poder tratar los datos contables.

Tradicionalmente, las tcnicas de minera de datos se aplicaban sobre informacin contenida en


almacenes de datos. De hecho, muchas grandes empresas e instituciones han creado y alimentan
bases de datos especialmente diseadas para proyectos de minera de datos en las que centralizan
informacin potencialmente til de todas sus reas de negocio. No obstante, actualmente est
cobrando una importancia cada vez mayor la minera de datos desestructurados como informacin
contenida en ficheros de texto, en Internet, etc.
2. Minera de datos y deteccin de fraude

El termino fraude hace referencia al abuso de los beneficios de una organizacin sin derivar
directamente en consecuencias legales para los autores, lo cual puede convertirse en un problema
critico si ocurre de manera recurrente o los mecanismos de prevencin no son lo suficientemente
blindados ante fallos. Generalmente, el mayor esfuerzo se enfoca en brindar herramientas para el
monitoreo y chequeo de procesos, los cuales de realizarse de manera manual implica un inmenso
esfuerzo y estaran sujeto a numerosas subjetividades. Se debe tener en cuenta que es absolutamente
imposible tener la certeza respecto a la intencin o legitimidad detrs de una aplicacin o
transaccin, lo que se busca en realidad, es acotar el espacio de aplicaciones y/o transacciones que
puedan ser fraudulentas teniendo en cuenta la evidencia obtenida mediante la aplicacin de
algoritmo

Cabe destacar que el aporte de la Minera De Datos a la deteccin de fraude no se limita


nicamente el hecho de detectar casos potencialmente fraudulentos, minimizando el espectro del
conjunto de datos, sino que tambin permite la obtencin de patrones que describan las
caractersticas de los casos detectados, lo cual puede, con la colaboracin de expertos en el rea de
estudio, a acotar y/o detectar de manera ms eficiente aquellos potenciales casos fraudulento.

La deteccin de anomalas no es un tema novel de investigacin, sino que se cuentan con registros
de fines del siglo XIX, lo que ha evolucionado y sobre en lo que actualmente se centran las
investigaciones son las tcnicas aplicables para su deteccin, como por ejemplo la utilizacin de
MDD. El punto de unin entre la MDD y la deteccin de fraude contable o financiero, es la
introduccin de la MDD como una herramienta analtica avanzada que puede asistir al auditor en la
toma de decisiones al momento de detectar casos de fraude y tiene el potencial para resolver la tan
mencionada contradiccin entre los efectos y la eficiencia de la deteccin de fraude.

A simple vista se puede plantear que la deteccin de anomalas es simplemente aislar aquellas
instancias que no presentan las mismas caractersticas que la mayora de las instancias analizadas,
sin embargo, esta tarea presenta una serie de desafos que definen su complejidad:

Definir la regin normal de tal manera que represente a todos y cada uno de los
comportamientos normales resulta sumamente difcil, esto sumado al hecho de que la diferencia
entre el comportamiento normal y el anmalo puede ser insignificante, contribuye al hecho de poder
identificar a las instancias normales como anmalas o vice versa.

Cuando las anomalas son resultado de acciones maliciosas pre meditadas, los infractores suelen
adaptarse y/o evolucionar las tcnicas utilizadas para cometer la irregularidad, de forma de emular
de manera casi perfecta a las instancias normales.

La naturaleza de los dominios de estudio es evolutiva, es decir, que a medida que va pasando el
tiempo van tomando caractersticas distintas, esto representa un desafo importante, ya que el
identificar los comportamientos normales en el presente, puede no representar las caractersticas en
el futuro. Otro punto relacionado a la naturaleza del dominio se relaciona con la escala con la cual
se miden, un valor numrico puede ser insignificante en un dominio pero totalmente drstico en
otro, he aqu la importancia en la seleccin de la tcnica y los parmetros disponibles para la
misma.

La no disponibilidad de datos etiquetados, como conjuntos para entrenamiento validacin de


modelos, contra los cuales pueda validarse la eficiencia de los procesos aplicados representa otro
inconveniente a solucionar.[CITATION Yat05 \l 6154 ]
2.1. Fraude con tarjeta de crdito

Existen varias formas de fraude con tarjetas de crdito como son la clonacin o el phishing.
Pero el patrn de conducta es siempre el mismo. Por norma general, una vez se hacen con los datos
de nuestra tarjeta de crdito, los estafadores sacan pequeas cantidades de dinero sin que apenas
seamos capaces de darnos cuenta.

Por un lado, la polica es capaz de establecer patrones de conducta a partir de los datos
recogidos en los histricos. Por otro lado, el data mining rene tcnicas que abarcan desde la
estadstica o la inteligencia artificial, hasta el procesamiento masivo de datos, que ayudan a
establecer patrones de comportamiento de las transacciones que incitan al fraude financiero.

El data mining funciona de una forma simple. Analiza las transacciones histricas que se
realizan con tarjetas de crdito, establece un patrn de comportamiento del estafador y crea un
perfil. A partir de aqu, el sistema clasifica y da la alarma cada vez que se produce un patrn
similar en el sistema. De esta forma, se detecta una estafa de forma inmediata y puede bloquearse la
tarjeta para frenar el fraude. [ CITATION Ana16 \l 6154 ]

2.2. Modelos sospechosos Del Fraude

Para detectar el fraude es necesario establecer el perfil del estafador. El data mining
establece modelos de patrones de conducta:
Modelos de datos inusuales: Determina comportamientos raros en un dato concreto
respecto al resto de su grupo de comparacin. Por ejemplo, movimientos de sumas de
dinero en efectivo.
Modelos de relaciones inexplicables: Establece relaciones entre registros que tienen valores
iguales para determinados campos. Por ejemplo, una transferencia de fondos entre dos o
ms compaas con la misma direccin de envo.
Modelos de caractersticas generales de fraude: Sirve para hacer predicciones de futuros
ingresos de transacciones sospechosas.

La finalidad es encontrar patrones de conducta que estn relacionados con los datos en cuestin, es
decir, con transacciones o pagos. Aunque tambin se puede predecir situaciones que son
susceptibles de acabar en fraude. [ CITATION Ana16 \l 6154 ]

2.3. ANALISIS PREDICTIVO DE FRAUDES

A juicio de la organizacin, la analtica y arquitectura de big data proveen distintas soluciones para
crmenes financieros, siendo capaces de ofrecer evaluaciones rpidas y distintos escenarios anti
lavado de dinero, permitiendo modernizar procesos, visualizar exposiciones al riesgo y validar
estrategias.

Estos servicios, caracterizados por ser un modelo hbrido en el que se utilizan reglas del negocio,
deteccin de anomalas, modelos predictivos, minera de texto y anlisis de redes, son mayormente
utilizados por entidades financieras porque ayudan a reducir costos e incrementar la efectividad de
sus programas. Al mismo tiempo, permite unificar el enfoque de las empresas en asuntos de fraude,
cumplimiento y seguridad mientras potencian los esfuerzos de deteccin y prevencin, razn por la
que cada vez ms autoridades fiscales implementan estas herramientas.
Pese a que los mtodos tradicionales para abordar riesgos han sido efectivos, algunos gobiernos
estn apostando por tecnologas ms avanzadas para combatir el fraude. Un ejemplo de ello es el
Irish Tax and Customs. Las autoridades irlandesas decidieron luchar contra el fraude a travs de la
analtica predictiva, con los servicios de SAS, utilizando la minera de datos y anlisis para mejorar
sus procesos, lo que dio como resultado un mejor cumplimiento de nuevas normas y regulaciones,
mejor servicio al cliente y reduccin los costos a los contribuyentes irlandeses.[ CITATION Dia14 \l
6154 ]

3. Aplicaciones de la minera de datos

Algunas de las tareas importantes de la minera de datos incluyen la identificacin de aplicaciones


para las tcnicas existentes, y desarrollar nuevas tcnicas para dominios tradicionales o de nueva
aplicacin, como el comercio electrnico y la bioinformtica. Existen numerosas reas donde la
minera de datos se puede aplicar, prcticamente en todas las actividades humanas que generen
datos:

Comercio y banca: segmentacin de clientes, previsin de ventas, anlisis de riesgo.

Medicina y Farmacia: diagnstico de enfermedades y la efectividad de los tratamientos.

Seguridad y deteccin de fraude: reconocimiento facial, identificaciones biomtricas, accesos a


redes no permitidos, etc.

Recuperacin de informacin no numrica: minera de texto, minera web, bsqueda e


identificacin de imagen, video, voz y texto de bases de datos multimedia.

Astronoma: identificacin de nuevas estrellas y galaxias.

Geologa, minera, agricultura y pesca: identificacin de reas de uso para distintos cultivos o de
pesca o de explotacin minera en bases de datos de imgenes de satlites

Ciencias Ambientales: identificacin de modelos de funcionamiento de ecosistemas naturales y/o


artificiales (p.e. plantas depuradoras de aguas residuales) para mejorar su observacin, gestin y/o
control.

Ciencias Sociales: Estudio de los flujos de la opinin pblica. Planificacin de ciudades:


identificar barrios con conflicto en funcin de valores sociodemogrficos. [CITATION San06 \l
6154 ]

En la actualidad se puede afirmar que la Minera De Datos ha demostrado la validez de una primera
generacin de algoritmos mediante diferentes aplicaciones al mundo real. Sin embargo estas
tcnicas todava estn limitadas por bases de datos simples, donde los datos se describen mediante
atributos numricos o simblicos, no conteniendo atributos de tipo texto o imgenes, y los datos se
preparan con una tarea

Hoy en da los sistemas de informacin modernos, son capaces de generar volmenes siderales de
datos, registrando los conceptos ms diversos, desde las ms triviales como el acceso a un sitio web,
el acceso a un edificio, imgenes de cmaras de seguridad, pasando por movimientos bancarios,
transacciones con tarjetas de crdito e inclusive documento y patentes generados en centros de
investigacin, laboratorios, o centros de observacin del espacio. La gestin de estos datos ha
acompaado esta evolucin desde dos grandes ramas, por un lado las colecciones de datos, la
creacin y mantenimiento de estos datos, y por otro lado el anlisis y la comprensin de los
mismos. La evolucin del hardware, sumada al desarrollo de software de control, trajo aparejada un
sin fin de mejoras en lo relacionado al almacenamiento y gestin de los datos, pasando de archivos
planos simples y de pequeo tamao a complejos sistemas de gestin de base de datos, con un gran
volumen de informacin sobre ellos, con una gran heterogeneidad en el formato, origen y medios de
almacenamiento.

Si bien la gestin eficiente de un alto volumen de informacin es competitivamente ventajosa para


todas las organizaciones, lo que resulta an ms importante se relaciona con la capacidad de
transformar este marcado volumen de informacin en conocimiento potencialmente til para la
toma de decisiones, disminuyendo la probabilidad de cometer errores en el proceso decisorio
aprovechando el gran activo que representa la informacin para la organizacin.

La Minera De Datos es el anlisis de conjuntos de datos, generalmente de gran tamao, para


encontrar relaciones insospechadas y para sumariar los datos en nuevas maneras de modo que sean
tiles y comprensibles para el propietario de los datos; los resultados de este anlisis dependen de la
tcnica y del objetivo que se persigue, pueden convertirse en modelos o patrones, representados por
ecuaciones lineales, reglas, clusters, grficos, rboles de decisin, patrones recurrentes en series de
tiempo, entre otro.[CITATION Yat05 \l 6154 ]

4. Clasificacin de tcnicas de Minera De Datos

En el nivel de mayor abstraccin las tcnicas de Minera De Datos pueden enmarcarse en dos
grandes grupos, por un lado las tcnicas descriptivas, las cuales buscan, como su nombre lo indica,
expresar las caractersticas del conjunto de datos a travs de un modelo, el cual sumariza las
caractersticas de los datos analizados; y por el otro lado las tcnicas predictivas, las cuales tienen
por objetivo, teniendo como base los datos disponibles, predecir el valor o el comportamiento que
tendr un conjunto de datos teniendo en cuenta un rango de valores para ciertos atributos. La
principal diferencia que se plantea entre las tcnicas descriptivas y las predictivas, esta en que en las
primeras el anlisis no se encuentra enfocado en un atributo o variable en particular, mientras que
en las segundas si, convirtindose sta en el centro del anlisis. Esta caracterizacin de alto nivel,
resulta superficial y poco prctica, por lo que es recomendable disminuir el nivel de abstraccin
utilizando taxonomas que tengan en cuenta el objetivo de estas, facilitando la eleccin de las
mismas al momento de aplicarlas al anlisis, una de las que resulta interesante es la propuesta en la
cual lo plantea de la siguiente manera.
Figura 1 Clasificacin de las Tcnicas de Minera de Datos

a. Anlisis de datos exploratorio: consiste bsicamente en tcnicas que permiten


explorar el conjunto de datos disponible sin tener bases y/o ideas solidas o
especficas sobre qu es lo que se est buscando. Estas tcnicas son principalmente
interactivas y visuales, las cuales permiten proyectar los puntos del conjunto de
datos en el espacio, para espacios hasta 3 o 4 variables existen tcnicas simples y
efectivas de visualizacin, pero a medida que la cantidad de variables aumenta,
resulta compleja su visualizacin he aqu en donde cobran importancia las tcnicas
de proyeccin.

b. Modelos descriptivos: en estas tcnicas el objetivo es describir a todos los datos


analizados, para lograrlo se utilizan tcnicas relacionadas a la estimacin de la
probabilidad de atributos, segmentacin del conjunto de datos en unidades ms
pequeas que poseen caractersticas similares, anlisis de la relacin entre los
atributos del conjunto de datos.

c. Modelos predictivos, clasificacin y regresin: la meta en estos casos es,


mediante el anlisis y modelado a partir de los datos disponibles, permitir la
prediccin de los valores de ciertos atributos. En la clasificacin la variable a
predecir es categrica, mientras que en la regresin la variable es cuantitativa.
Dentro de este grupo podemos mencionar: arboles de decisin, redes bayesianas,
redes neuronales, regresin logstica, entre las ms popular

d. Descubrimiento de patrones y reglas: las tareas mencionadas en los tres puntos


anteriores se refieren a la construccin de modelos, en este grupo, en cambio, el
objetivo es el descubrimiento de patrones o reglas que definan el comportamiento
de los datos, como as tambin la relacin que existe entre los datos en si. Una tarea
la cual en la actualidad posee un incipiente desarrollo y se encuentra enmarcada en
este grupo de tcnicas, se relaciona con la deteccin de transacciones fraudulentas,
la cual ha sido ampliamente estudiada en el campo de la estadstica, planteando un
gran nmero de desafos, principalmente en cuanto a la diferenciacin entre
aquellas transacciones fraudulentas y las verdaderas; esta tarea en general es
delegada a expertos en el rea de estudio, aunque esta pericia por parte del experto
resulta prcticamente nula al analizar un gran volumen de datos.

e. Recuperacin por contenido: en esta categora se enmarcan aquellas tcnicas, las cuales
parten de un patrn de informacin conocido y se buscan rplicas de ese comportamiento
y/o modelo en un gran volumen de datos. Este grupo posee dos grandes divisiones, por un
lado la bsqueda de patrones sobre texto y por el otro, sobre imgenes. En el primer sub
grupo, mediante la obtencin de palabras claves, se buscan textos que posean ocurrencias
de estas palabras claves o combinaciones de las mismas.[CITATION Yat05 \l 6154 ]

5. Metodologa de implementacin de MDD

El proceso de Minera De Datos est constituido por una serie de tareas relacionadas lgicamente
las cuales son ejecutadas sobre un conjunto de informacin ya existente en la organizacin, y que
tiene por objetivo aadir un nuevo conjunto de informacin de mayor valor que el conjunto inicial.

En el mbito de la ingeniera de software, la utilizacin de modelos y metodologas se basa en el


seguimiento de proyectos de tecnologa de la informacin para dotarlos de una alta cuota de
predictibilidad y calidad mediante la incorporacin de puntos de control en las diferentes fases que
forman parte del proceso productivo, no limitndose nicamente a los productos de cada una de
estas fases, sino tambin a los procesos asociados a los mismos.

Teniendo en cuenta este proceso ingenieril relacionado al proceso de de Minera De Datos, surge la
importancia en la utilizacin de metodologas que doten de mayor calidad al proceso y en
consecuencia al producto obtenido de este proceso de calidad.

En el desarrollo de software existe una gran cantidad de modelos y metodologas que tienen por
objetivo el aporte de calidad al producto a travs de la mejora de los procesos, dentro de las mismas
podemos mencionar CMMI. la mejora que aportan estos modelos es ampliamente conocida en el
mbito de desarrollo de software, el inconveniente que se plantea es que los procesos de Minera De
Datos tienen caractersticas particulares que lo diferencian de los desarrollos de productos software,
teniendo en cuenta este punto surge la necesidad de utilizar metodologas y/o modelos
especficamente destinados a procesos de Minera De Datos

Diariamente se realizan millones de transacciones con tarjetas bancarias. Uno de los riesgos ms
altos que corre la banca es el fraude con tarjetas de crdito. Los defraudadores han desarrollado
mtodos sofisticados para robar la informacin de los clientes contenidos en las bandas magnticas
de los plsticos a travs del skimming y la clonacin de stos en tarjetas apcrifas para realizar la
compra de productos o servicios de manera ilcita.

Cada banco cuenta con rea dedicada exclusivamente a la prevencin del fraude buscando reducir
las prdidas sufridas ao con ao. Los sistemas de prevencin han sido bastante tiles para la
deteccin en lnea pero resultan insuficientes pues muchas veces no logran detectar el cambiante
comportamiento del defraudador que busca no ser atrapado y se las ingenia para mezclarse entre los
patrones de compra habituales de los clientes pasando desapercibidos dentro de la herramienta
calificadora de las transacciones al realizar la compra.

En promedio se registran ms de 100 millones de transacciones diariamente a nivel mundial con


una venta anual de ms de $190 millones de dlares donde el fraude obtiene ganancias por $2.8
millones. En Mxico, Amrica Latina y el Caribe el fraude por clonacin representa un 60% con un
monto anual de 100 millones de dlares en promedio cada ao.

Los datos anteriores dan una idea del impacto que tiene el fraude en el sector bancario, adems del
costo por mantenimiento del rea. Este gasto lo absorben tanto el banco como los usuarios pues el
precio de los servicios se ve incrementado para absorber la prdida sufrida.

El impacto del fraude va ms all dentro de la institucin ya que afecta de manera directa a sus
clientes. Es necesario considerar los puntos clave del negocio como mantener la venta e
incrementarla y el servicio al cliente, que se ve afectado cuando su transaccin es calificada como
fraude deteniendo alguna de sus compras con la tarjeta lo que provoca malestar y puede llevar a la
cancelacin de la cuenta por recibir un mal servicio. Mantener en equilibrio este tringulo es muy
importante para alcanzar las metas de negocio propuestas por la direccin.

La tendencia actual es utilizar sistemas analticos y predictivos que ayudan a mejorar el desempeo
de las herramientas calificadoras del fraude de manera significativa. Una de estas tecnologas es la
minera de datos (DataMining) que rene tcnicas provenientes de diversas disciplinas como la
estadstica, la inteligencia artificial, la computacin grfica y el procesamiento masivo de datos y
que ayudan de manera rpida y fcil a desarrollar las reglas para definir un patrn de
comportamiento del fraude para identificar y detener las transacciones de este tipo al momento que
son hechas en el punto de venta.

Teniendo en cuenta los obstculos que son necesarios traspasar para la deteccin de fraude se
analizan las siguientes tcnicas en profundidad:

5.1. Mapas Auto Organizados: constituye un mtodo de red neuronal con aprendizaje no
supervisado, que produce como resultado un grfico de similitud de los datos de entrada. Consiste
en un conjunto finito de modelos, que aproxima el conjunto de datos de entrada inicial, y los
modelos son asociados con nodos (neuronas) que son organizadas en un grilla regular de dos
dimensiones. Los modelos son producidos por un proceso de aprendizaje automtico que ordena las
instancias sobre una grilla de dos dimensiones teniendo en cuenta su similaridad, este algoritmos es
un proceso de regresin recursivo.

5.2.Arboles de decisin: un rbol de decisin es un mtodo de aprendizaje supervisado no


paramtrico construido a partir se un set de entrenamiento que consiste en una serie de objetos, cada
uno de estos objetos es descripto por un conjunto de atributos y una etiqueta de clase, estos atributos
a su vez pueden ser ordenables o no ordenables, el mtodo busca formar todos los pares posibles y
combinacin de categoras, agrupando aquellas que se comportan de manera similar con respecto a
una variable en un grupo y mantenindolas separadas de aquellas que se comportan de forma
distinto.

5.3. Redes bayesiana: estas redes son grficos a cclicos que permiten una representacin
eficiente y efectiva de la distribucin de probabilidad conjunta sobre un conjunto de variables
aleatorias. Cada vrtice en el grfico representa una variable aleatoria y las lneas representan
relaciones directas entre las variables, ms precisamente, la red codifica las siguientes sentencias de
independencia condicional: cada variable es independiente de sus no descendientes en el grfico
dado el estado de sus padres. Estas independencias son luego explotadas pare reducir el nmero de
parmetros necesarios para caracterizar a una distribucin de probabilidad, a para procesar
eficientemente probabilidades posteriores dada la evidencia. Los parmetros probabilsticos con
codificados en un conjunto de tablas, una para cada variable, en la forma de distribuciones
condicionales locales de una variable dados sus padres. Usando las sentencias de independencia
codificadas en la red, la distribucin conjunta es unvocamente determinada por estas distribuciones
condicionales locales.

Figura 2 Divisin de Minera de Datos

6. Aplicaciones de minera de datos

La minera de datos intenta extraer valor de la informacin a travs de distintas aplicaciones, entre
las que destacan:

Redes neurales: clasificacin y secuenciacin.


Clustering: segmentacin de mercado o comunidades de social networks.
Clasificacin por segmentacin: filtros de spam y anlisis de sentimiento de Twitter.
Minera en tiempo real: recomendaciones de compra o market basket mining.

Precisamente esta ltima est ganando en importancia en la nueva era, dadas las posibilidades de la
interaccin de las empresas con big data y el nivel de exigencia al que se ha sometido a la toma de
decisiones hoy da. La aceleracin de los negocios hace necesario ser capaz de tomar accin en
tiempo real y, para eso, hace falta poder contar con un buen conocimiento de la situacin, que
minimice el riesgo de errores.
Esta evolucin ha hecho que el enfoque de minera de datos real time se vea impulsada, relegando a
un segundo plano la concepcin ms tradicional de data mining que se basaba en la creacin de
modelos a travs del anlisis de muestras de datos o de registros histricos. Hoy da es preciso que
la introspeccin en la informacin se d a ritmo de streaming para poder dar soporte a la estrategia
de negocio en lo concerniente a:

Anlisis del trfico web para las acciones del marketing online en tiempo real.
Deteccin del fraude en transacciones en lnea.
Minimizacin del riesgo en las operaciones financieras e intercambios comerciales.

Para conseguirlo, es preciso contar con el soporte de fuentes de grandes datos como son los
sensores o los satlites. Ambos, con velocidades extremas y una fiabilidad mxima, permiten ganar
en precisin y rapidez aunque, al mismo tiempo, complican la maniobrabilidad de las compaas al
dificultar la seleccin de muestras representativas del global de datos, por tratarse de volmenes
impracticables. No obstante, los avances han salvado estos obstculos gracias a acciones como el
muestreo mltiple o la implementacin de tcnicas cuantitativas auto-optimizadas, que a travs del
aprendizaje automtico consiguen resolver muchas de estas situaciones.

Segn Big Data Stream Minning Tutorial, el enfoque estndar ya no es suficiente para tratar con big
data analytics en las condiciones que se precisan hoy da. Recoger, limpiar, modelar y realizar el
despliegue de la informacin es un proceso que no puede dar de s, ni en cuanto a su escalabilidad
ni en cuanto a su velocidad de respuesta, para adaptarse a los requisitos de negocio actuales.
Continuar con este tipo de mtodos es desperdiciar el valor de los datos y, por eso, la minera de
datos debe adaptarse a los nuevos tiempos para poder exprimir las posibilidades de big data.
[ CITATION Ist16 \l 6154 ]

6.1.La nueva corriente de data mining:

Es capaz de mantener modelos en lnea.


Permite incorporar datos sobre la marcha.
Se adapta a conjuntos de entrenamiento sin lmites.
Es efectiva a la hora de detectar cambios y ajustarse a ellos.
Proporciona modelos dinmicos.

Actualizaciones de Twitter, estados de Facebook, transacciones realizadas online usando tarjetas de


crdito, imgenes posteadas en Flickr o Instagram, bsquedas lanzadas a los motores online, emails
intercambiados y clicks de los usuarios son slo algunas de las fuentes de datos que no dejan de
generar registros cada segundo.

Sin embargo, hay que tener en cuenta que esta minera de datos en tiempo real o streaming data
mining optimiza su valor cuando se aplica a la bsqueda de soluciones aproximadas dentro de un
margen de tiempo limitado y haciendo un uso muy coherente de los recursos disponibles. Para
generar conocimiento de mayor valor en el largo plazo, sobre asuntos crticos desde el punto de
vista estratgico o en materias que no requieran de una solucin en cuestin de segundos, merece
ms la pena e trabajo en base a algoritmos para la clasificacin, regresin o clustering, por ejemplo.
Y, desde el plano prctico, se pueden emplear sistemas de computacin simple para trabajar con
streams de volmenes reducidos pero, siempre que se escale, hay que plantearse el optar por
sistemas distribuidos.[ CITATION Ist16 \l 6154 ]

Conclusin

La tendencia actual es utilizar sistemas analticos y predictivos que ayudan a mejorar el desempeo
de las herramientas calificadoras del fraude de manera significativa. Una de estas tecnologas es la
minera de datos que rene tcnicas provenientes de diversas disciplinas como la estadstica, la
inteligencia artificial, la computacin grfica y el procesamiento masivo de datos y que ayudan de
manera rpida y fcil a desarrollar las reglas para definir un patrn de comportamiento del fraude
para identificar y detener las transacciones de este tipo al momento que son hechas en el punto de
venta.

Los anlisis de riesgo fuera de plazo, fraudes no detectados y las investigaciones pobremente
ejecutadas, as como el fracaso en el seguimiento de los controles internos, nicamente exacerban el
riesgo al que se enfrentan las empresas.

Para los encargados de la prevencin, deteccin e investigacin del fraude, la minera de datos
puede ser una herramienta eficaz en el cumplimiento global y los esfuerzos antifraude, aunque
tambin representa un reto importante ante la carencia, en muchos casos, de experiencia tcnica en
el manejo de instrumentos avanzados.

La minera de datos ha cambiado la perspectiva de cmo detectar y prevenir el fraude en tarjetas de


crdito ya que mediante tcnicas analticas y una metodologa, es posible determinar el patrn de
comportamiento del defraudador y que sumado a una estrategia de negocio bien definida lleva a
minimizar el impacto ocasionado por el fraude.

El impacto del fraude va ms all dentro de la institucin ya que afecta de manera directa a sus
clientes. Es necesario considerar los puntos clave del negocio como mantener la venta e
incrementarla y el servicio al cliente, que se ve afectado cuando su transaccin es calificada como
fraude deteniendo alguna de sus compras con la tarjeta lo que provoca malestar y puede llevar a la
cancelacin de la cuenta por recibir un mal servicio. Mantener en equilibrio este tringulo es muy
importante para alcanzar las metas de negocio propuestas por la direccin.
Bibliografa

Ana, J. (2016). Google. Obtenido de http://culturacrm.com/data-mining/detectar-fraude-con-data-


mining/

Facundo, Y. (2005). Google . Obtenido de


http://sistemas.unla.edu.ar/sistemas/gisi/TFLS/Yatchesen-TFL.pdf

Riquelme, S. (2006). Google Academico . Obtenido de


https://idus.us.es/xmlui/handle/11441/43290

TI, D. (2014). Google. Obtenido de https://diarioti.com/la-analitica-es-una-herramienta-clave-


contra-el-fraude-financiero-segun-sas/100059

Zhudifer, I. (2016). Obtenido de https://blog.es.logicalis.com/analytics/mineria-de-datos-en-


tiempo-real

Вам также может понравиться