Вы находитесь на странице: 1из 5

Deteccin de documentos errneos mediante ID3

Resumen
En el presente trabajo se plantea una propuesta de un modelo de clasificacin ID3 para
la identificacin y clasificacin de documentos incorrectos,a travs de sus atributos,
sobre facturas de un establecimiento, las facturas las clasificara como: documentos
alterados y no alterados, seguiremos como base a la metodologa Crisp-MD.

Antecedentes
Mientras que la Estadstica plantea hiptesis que deben ser validadas a partir de los
datos disponibles, la Minera de Datos descubre patrones en los datos disponibles que
mediante la interpretacin de expertos del dominio propone patrones de
comportamiento social Las teoras sobre las transacciones delictivas en los casos
detectados como anmalos no necesariamente se tratan de casos de fraudes, ya que es
posible que falte agregar nuevos parmetros al software [Cravero, 2009]. La Minera de
Datos es el proceso de descubrir conocimiento interesante de grandes cantidades de
datos almacenadas en bases de datos, data warehouses u otro repositorio de informacin
[Antonio, 13], es el proceso de planteamiento de bsqueda y extraccin de patrones
[Ros, 2013].

Existe una metodologa para el estudio de clientes con alta probabilidad de fraude, en
sistemas de distribucin por medio de la minera de datos, aplicando tcnicas
inteligentes como herramienta de clasificacin y extraccin de caractersticas, mediante
el cual se extrae el conocimiento comprensible y til previamente desconocido desde
bases de datos, en diversos formatos y de forma automtica [Wanumen, 2010]. Es una
de las soluciones de la Inteligencia de Negocios, que ayuda a extraer conocimiento a
partir de: una combinacin de bases de datos y tecnologas de inteligencia artificial (IA)
[Cravero, 2009].
Mientras que la Estadstica plantea hiptesis que deben ser validadas a partir de los
datos disponibles, la Minera de Datos descubre patrones en los datos disponibles que
mediante la interpretacin de expertos del dominio propone patrones de
comportamiento social, un elemento fundamental para una tcnica ms amplia cuyo
objetivo es el descubrir conocimiento en grandes bases de datos [Wanumen, 2010].
Busca generar informacin similar a la que podra generar un experto humano: patrones,
asociaciones, cambios, anomalas y estructuras significativas [Valenga, 2007].
Dentro de la minera de datos existen tcnicas para generar un sistema experto en la
deteccin de anomala, algunas tales como anlisis de fidelizacin de clientes,
segmentacin de mercados, cross-selling, optimizacin de la cadena de suministro,
deteccin y prevencin de fraudes deteccin de intrusiones en sistemas computacionales
y situaciones en las que se quiera analizar ciertos datos cuyo comportamiento parecen
distintos del resto o tambin conocido como la Deteccin de Anomalas (DA) [Cravero,
2009]. Se puede generar un impacto negativo si se prejuzga errneamente a un
ciudadano debido a mala documentacin del sistema (falsificacin de documento
pblico). La revisin manual y tcnica de la prevencin de fraudes no detecta algunos
de los patrones ms prevalentes como el uso de una tarjeta de crdito varias veces, en
mltiples locaciones (fsicas o digitales) y en poco tiempo [Cravero, 2009].
Las principales tcnicas de minera de datos se suelen clasificar segn su tarea de
descubrimiento, en tal sentido a continuacin se describen las clasificaciones
consideradas ms relevantes para el actual proyecto: Agrupacin o clustering
Clasificacin [Valenga, 2007]. La minera de datos y la deteccin de fraudes pueden
convertirse en una herramienta de enorme utilidad, que en conjunto con tcnicas de
Clustering, posibilitan el reconocimiento de grupos de datos cuyo comportamiento sea
muy diferente al resto de los datos y tambin cuando no conocemos o no podemos
etiquetar de manera confiable los datos para su clasificacin [Cravero, 2009].
El Proceso de Descubrimiento del Conocimiento en Base de Datos (DCDB) resulta
complejo ya que no slo incluye la obtencin de los modelos o patrones, sino tambin la
evaluacin e interpretacin de los mismos. El DCDB es definido como el proceso no
trivial de identificar patrones vlidos, novedosos, potencialmente tiles y, en ltima
instancia, compresibles a partir de los datos. Entre tanto, las principales tareas del
proceso de DCDB son, a grandes rasgos, las siguientes: pre-procesar los datos, hacer
minera de datos, evaluar los resultados [Wanumen, 2010]. Implementar una
metodologa de pre-procesamiento de datos, que logre un mejor desempeo para el
modelo desarrollado. Desarrollar un modelo de clasificacin de datos basado en tcnicas
computacionales siempre y cuando se disponga de un conjunto de datos suficientes
para un correcto anlisis y una metodologa que permita llevar un control de los
resultados dando la posibilidad de reestructurar medidas [Cravero, 2009].

Uno de los Algoritmos mejor empleados es el algoritmo J48 funciona bien con atributos
nominales y numricos. Un paso importante en la construccin del rbol de decisin es
la poda, la cual elimina las ramas no necesarias, resultando en una clasificacin ms
rpida y una mejora en la precisin de la clasificacin de datos. Existen en la actualidad
varias herramientas de libre distribucin que permiten aplicar las tcnicas antes
mencionadas, entre ellas se encuentra Weka. La cuan fue desarrollada originalmente en
la universidad de Waikato y hoy da es accesible fcilmente desde Internet [Valenga,
2007]. La modelacin de los datos en defensa de proteccin contra las anomalas le
entrega como resultado grupos de datos con caractersticas similares, los cuales son
llamados grupos homlogos del modelo. Adems los perfiles de carga tambin sirven
como una herramienta para que las empresas de distribucin puedan mejorar sus
estrategias de mercado y ofrecer nuevos servicios, as como para desarrollar nuevas
tarifas en el mercado regulado. Muchas tcnicas diferentes, que van desde mtodos
convencionales a mtodos ms sofisticados, se han utilizado para el modelado de
perfiles de carga [Ros, 2013].
Los perfiles de carga se identifican a travs de las siguientes caractersticas: Debe ser
capaz de analizar y entregar indicadores sobre los siguientes datos: Consumo de
servicios entregados, Tiempo, Ubicacin, donde se entrega el servicio y las
Caractersticas del servicio; Debe proveer capacidad de anlisis visual, matemtico, y
entrega de reportes. El proceso se basan fundamentalmente en el manejo de distancias
entre objetos, entre mayor sea la distancia del objeto respecto a los dems, ste es
considerado como una Anomala [Valenga, 2007]. El proceso de minera de datos no es
un procedimiento simple, porque a menudo involucra una variedad de ciclos de
retroalimentacin, ya que si se aplica una tcnica en particular, el usuario puede
determinar que los datos seleccionados son de mala calidad o que las tcnicas aplicadas
no produjeron los resultados esperados. La exploracin y deteccin de patrones
delictivos y su complementariedad con el abordaje estadstico utilizado en la DNPC se
han hecho algunos trabajos exploratorios cuyos resultados se presentan en las siguientes
secciones [Cravero, 2009].
La tcnica de agrupamiento tambin se conoce, como aprendizaje no supervisado
porque no hay ninguna clase de ser predicha [Ros, 2013]. La Seleccin/extraccin de
atributos: Se realiza un proceso de identificacin y seleccin de variables relevantes
[Surez, 2014]. La agrupacin o el clustering consisten en agrupar un conjunto de
datos, sin tener clases predefinidas, basndose en la similitud de los valores de los
atributos de los distintos datos. Esta agrupacin, a diferencia de la clasificacin, se
realiza de forma no supervisada, ya que no se conoce de antemano las clases del
conjunto de datos de entrenamiento. El Clustering se basa en maximizar la similitud de
lasinstancias en cada cluster y minimizar la similitud entre clusters. Dentro del anlisis
de Clustering existen, bsicamente, los siguientes tipos de mtodos: los jerrquicos, los
de particin, los basados en densidad, los mtodos basados en cuadrculas, los basados
en restricciones y los escalabres [Cravero, 2009].
El Clustering, que consiste en agrupar un conjunto de datos, sin tener clases
predefinidas, basndose en la similitud de los valores de los atributos de los distintos
datos, la agrupacin o el clustering consiste en agrupar un conjunto de datos, sin tener
clases predefinidas, basndose en la similitud de los valores de los atributos de los
distintos datos[Valenga, 2007]. Y la segmentacin, escalamiento, reglas de asociacin y

dependencia, reduccin de la dimensin Esta agrupacin, a diferencia de la


clasificacin, se realiza de forma no supervisada, ya que no se conoce de antemano las
clases del conjunto de datos de entrenamiento. Esta agrupacin, a diferencia de la
clasificacin, se realiza de forma no supervisada, ya que no se conoce de antemano las
clases del conjunto de datos de entrenamiento. El clustering identifica clusters, o
regiones densamente pobladas, de acuerdo a alguna medida de distancia, en un gran
conjunto de datos multidimensional [Valenga, 2007].
Algunos de los mtodos existentes: Modelizacin estadstica, Modelizacin bayesiana,
Modelos relacionales y declarativos, Redes neuronales artificiales, Modelos estocsticos
y difusos, rboles de Decisin y Sistemas de Aprendizaje de Reglas, Modelos basados
en ncleo y mquinas de soporte vectorial, Modelos basados en casos, densidad o
distancia. Para el caso de deteccin de fraudes deben elegirse los ms relevantes. La
clasificacin es predictiva y, adems, genera un modelo de conocimiento que permite
predecir ciertos comportamientos ante la ocurrencia de nuevas situaciones [Cravero,
2009]. El sistema procesamiento analtico en lnea Procesan las transacciones de
tiempo real de un negocio. Contienen estructuras optimizadas para la introduccin y a la
adicin de los datos. Se podra decir que estos sistemas definen el comportamiento
operacional de un entorno operacional de gestin [Ibarra, 2006]. Es una tecnologa que
utiliza estructuras multidimensionales para proporcionar un acceso rpido a los datos
con el fin de analizarlos. Los datos de origen de OLAP se almacenan habitualmente en
almacenes de datos en una base de datos relacional [Harreguy, 2000].
Las teoras sobre las transacciones delictivas en los casos detectados como anmalos no
necesariamente se tratan de casos de fraudes, ya que es posible que falte agregar nuevos
parmetros al software. Existe una metodologa para el estudio de clientes con alta
probabilidad de fraude, en sistemas de distribucin por medio de la minera de datos,
aplicando tcnicas inteligentes como herramienta de clasificacin y extraccin de
caractersticas [Cravero, 2009]. El fraude es una de las principales causas de la prdida
de ingresos en muchas reas de negocio. Entre ellos, tarjeta de crdito, telfono celular
y el seguro, son los ms destacados. Por lo tanto, una gran cantidad de trabajos de
investigacin han hecho frente al problema de la identificacin del fraude. Al igual que
en otras reas de negocios [Ros, 2013]. Los datos dentro de las tcnicas y herramientas
de la minera de base de datos en la deteccin de anomalas o fraudes se basan en el
hecho de que muchos eventos que podran considerarse anormales para un conjunto de
datos pueden agruparse en pequeos cluster (Agrupamiento de Datos) de anomalas
[Cravero, 2009].
Algo similar ocurre en que propone una aplicacin de la MD para la deteccin de
fraudes en subastas por Internet, usando para ello anlisis de redes sociales y rboles de
decisin. La idea es analizar patrones de relaciones e interaccin entre participantes de
la red, con el fin de descubrir estructuras sociales subyacentes por otro lado, propone el
anlisis de grupo de pares para monitorear el comportamiento en el tiempo en el uso de
tarjetas de crdito con el fin de buscar posibles fraudes. La Discretizacin es un Proceso
en la preparacin de datos en el cual los valores continuos se vuelven discretos
[Wanumen, 2010]. Los modelos predictivos de MD buscan obtener los valores
adquiridos por una variable de inters en situaciones no observadas en funcin de los
valores que toman otras series relacionadas [Surez, 2014]. La Preparacin de los Datos
en la Minera de Datos y la Deteccin de Fraudes en cuanto a los datos de anlisis,
debi disearse un Almacn de Datos que se alimente de las bases de datos

transaccionales a travs de un proceso de extraccin de datos previamente definido


llamado ETL. El proceso ms importante en minera de datos es el proceso de limpieza
de los datos y definicin de las variables. Si los datos no son correctos el modelo creado
no servir. Del mismo modo, la validez de los patrones descubiertos depende de cmo
se apliquen al mundo real o a las circunstancias [Surez, 2014].
Es crtico para los negocios tener un claro entendimiento del contexto comercial
(clientes, mercado, proveedores, recursos, competencia, etc.) de cada organizacin. Sin
la minera de datos muchas empresas no pudieran ser capaces de hacer un anlisis
efectivo del mercado, analizar la retroalimentacin de los clientes sobre los productos o
servicios, descubrir las fortalezas y debilidades de los competidores, retener a los
clientes ms rentables y tomar decisiones de negocio ms inteligentes [Cravero, 2009].
Si el modelo del sistema que produce los datos es bien conocido, entonces no
necesitamos de la minera de datos ya que todas las variables son de alguna manera
predecibles. Al contar con mucha informacin en algunas bases de datos es importante
para una empresa encontrar la forma de analizar "montaas" de informacin (lo que
para un humano sera imposible) y que ello le produzca algn tipo de beneficio [Surez,
2014].
El fraude es el engao, la informacin que se facilita o la que se omite induce a la
vctima [CNUDMI, 2013]. Toda astucia, falacia o maquinacin empleada para engaar
burlar ilusionar a otros, podra ser perseguida por un medio de un acto intencional
[Zamora, 2000]. Llevado a cabo por una o ms personas de la gerencia del ente, sus
empleados o terceras partes, el cual resulta en una afirmacin errnea en los estados
financieros. El fraude puede involucrar entre otros: la manipulacin, falsificacin o
alteracin de registros contables o documentos, la malversacin o distraccin de activos
o aplicar mal intencionalmente las normas contables [Horwaht, 2002].

Вам также может понравиться