Академический Документы
Профессиональный Документы
Культура Документы
Tarjetahabientes
Inteligencia de Mercado
2016
Página 2
Tabla de contenido
1. Metodología ......................................................................................................................... 4
2. Objetivos y Generalidades ..................................................................................................... 4
3. Alcances y Limitaciones ......................................................................................................... 4
4. Descripción del concepto de morosidad .................................................................................. 5
5. Modelo Propuesto ................................................................................................................. 5
6. Descripción de la metodología ............................................................................................... 6
a. Recolección de la data: se trabajaron con tres estructuras de datos que corresponden a: ........ 6
b. Procesamiento de la data: se creó una tabla consolidada por cliente, donde se creó una tabla
modelada con las variables que se consideraron para el análisis exploratorio y desarrollo del modelo.
(En el Anexo 1 se detalla las variables de la tabla consolidada). ..................................................... 7
c. Preparación de la data: se tomó una muestra mediante la técnica de muestreo aleaotorio
simple(MAS), luego de tomar la muestra de la base se divide la data en dos grupo: conjunto de datos
de entrenamiento el cual se usará para entrenar el modelo y el otro grupo corresponde al conjunto de
dato de prueba, con estos datos se valida el rendimiento del modelo. Esto con el objetivo de evitar
problemas de dimensionalidad, dado que es evidente que el número de clientes no morosos es mayor
que los clientes morosos. ............................................................................................................. 7
d. Preparación de la data: se tomó una muestra mediante la técnica de muestreo aleaotorio
simple(MAS), luego de tomar la muestra de la base se divide la data en dos grupo: conjunto de datos
de entrenamiento el cual se usará para entrenar el modelo y el otro grupo corresponde al conjunto de
dato de prueba, con estos datos se valida el rendimiento del modelo. Esto con el objetivo de evitar
problemas de dimensionalidad, dado que es evidente que el número de clientes no morosos es mayor
que los clientes morosos. ............................................................................................................. 7
e. Selección de variables: El objetivo en esta fase es escoger o seleccionar las variables explicativas
que serán parte del conjunto de datos de entrenamiento el cual permitirá al modelo predictivo dar la
mejor precisión posible, minimizando la tasa de error y maximizar la precisión del mismo. Para las
variables cualitativas realizaremos si existe relación entre la variables dependiente (Indicador
Morosidad) vs. variables independiente, mediante el Test de Pearson de Chi Cuadraro donde la
variables es significativa si el valor p es menor a 5. ....................................................................... 7
f. Modelo de Predicción: El objetivo en esta fase es escoger o seleccionar las variables explicativas
que serán parte del conjunto de datos de entrenamiento el cual permitirá al modelo predictivo dar la
mejor precisión posible, minimizando la tasa de error y maximizando la precisión del mismo. Se
escogerá un modelo apropiado que contenga el número mínimo de variables explicativas posible del
conjunto de variables. .................................................................................................................. 7
g. Evaluación del modelo: En esta fase se analizará el rendimiento del modelo mediante el método
de la “Matriz de Confusión” el cuál se medirá el % de precisión y % de error del modelo. ............... 7
h. Selección del modelo: Una vez realizado el análisis de los indicadores de rendimiento del modelo
se selecciona el mejor modelo acorde a las necesidades del negocio. ............................................. 7
7. Variables Explicativas ............................................................................................................ 7
8. Modelos de Predicción ........................................................................................................... 8
a. Variables de decisión a utilizar ............................................................................................... 9
Página 3
Modelo de Predicción de Morosidad en
Tarjehabientes
1. Metodología
El objetivo del presente trabajo es analizar y predecir la morosidad en los clientes de tarjeta de crédito
a nivel nacional. Para ello, es preciso aplicar una metodología determinada.
De lo que se trata es de determinar los factores de mayor influencia en el comportamiento de pago de
los clientes de las entidades financieras y que permiten distinguir los clientes solventes, que cumplen
con sus obligaciones, de los morosos, que las incumplen o se retrasan en su cumplimiento. Por tanto,
el objetivo del trabajo se centra en explicar el comportamiento de una variable categórica con dos
modalidades: ser un cliente moroso o bien un cliente no moroso.
2. Objetivos y Generalidades
Objetivo General
Proveer de información predictiva a la Gerencia de Riesgo para la toma de decisiones, como un
mecanismo en la planificación de las estrategias de prevenir el incremento del índice de morosidad en
los Tarjetahabientes.
Objetivo Específico
• Definir un modelo predictivo de deserción que permita saber los posibles clientes morosos.
• Determinar la probabilidad de morosidad de los clientes y de esta forma tomar acciones
preventivas.
3. Alcances y Limitaciones
Página 4
Además, el alcance de este proyecto estaría dirigido específicamente a los clientes de Tarjeta de
Crédito con estado normal (0000000000 - Normal) y moroso (0001000000 - Cliente en Mora(3-7)) al
corte de la fecha que se solicitó la data (Abril 2016). Con antigüedad mayor a 1 año, dado que se
analizará la transaccionalidade del cliente de un año completo.
Por esta razón para estimar la probabilidad de morosidad necesitamos un conjunto de variables
independientes x1, x2, … xp que explicarán una variable dependiente binaria Yi que tomará el valor de
1 si el individuo es catalogado como Moroso y 0 si es catalogado como No moroso, así:
5. Modelo Propuesto
Página 5
Los modelos más utilizados para el problema de la predicción de clientes con riesgo de mora en la
literatura son:
• Regresión Logística
• Árboles de Clasificación
• Bosques Aleatorios
• Máquinas de Soporte Vectorial
• Redes Neuronales
Regresión Logística: La variable dependiente o respuesta presenta dos categorías, en este caso
representa la ocurrencia y no ocurrencia del acontecimiento definido por la variable, codificándose
con los valores de uno y cero, respectivamente. Por lo que se refiere a las variables independientes o
explicativas, no se establece ninguna restricción, pudiendo ser cuantitativas, tanto continuas como
discretas, y categóricas.
Definida la variable dependiente como la ocurrencia o no de un acontecimiento, el modelo de
regresión logística la expresa en términos de probabilidad, utilizando la función logística la expresa en
términos de probabilidad, utilizando la función logística para estimar la probabilidad de que ocurra el
acontecimiento.
El proceso iterativo que se sigue para generar los segmentos es el siguiente: Primero se particiona la
población de dos subconjuntos homogéneos, luego cada uno de estos subconjuntos es particionado
nuevamente en dos subconjuntos más homogéneos, el proceso es repetido recursivamente y termina
si el subconjunto presenta una cantidad de clientes menor o igual a la mínima requerida (criterio de
parada), finalmente se establece el tipo de subconjunto (Moroso/No moroso).
En el presente estudio emplearemos los árboles de decisión para identificar y construir características
que permitan generar las variables de decisión basadas en los clientes que son morosos.
6. Descripción de la metodología
Página 6
b. Procesamiento de la data: se creó una tabla consolidada por cliente, donde se creó una
tabla modelada con las variables que se consideraron para el análisis exploratorio y desarrollo
del modelo. (En el Anexo 1 se detalla las variables de la tabla consolidada).
g. Evaluación del modelo: En esta fase se analizará el rendimiento del modelo mediante el
método de la “Matriz de Confusión” el cuál se medirá el % de precisión y % de error del
modelo.
h. Selección del modelo: Una vez realizado el análisis de los indicadores de rendimiento del
modelo se selecciona el mejor modelo acorde a las necesidades del negocio.
7. Variables Explicativas
Página 7
Tabla 1: RESULTADOS TABLA DE CONTINGENCIA
Variable Chi^2 Valor p
Profesión 22.7628 2.98E-02
Situacion laboral 14.26109 4.67E-02
Actividad económica 17.86373 3.68E-02
Segmento Padre 25.10248 4.80E-05
Segmento 34.26666 3.63E-05
Oficial asignado 24.04265 6.01E-06
Indicador Producto Pasivo 48.62423 3.10E-12
Indicador Cuenta Corriente 31.49981 1.99E-08
Indicador Cuenta Ahorro 23.40708 1.31E-06
Indicador CDP 12.50113 4.07E-04
Canal Radicador 27.22714 5.28E-06
Tipo de Tarjeta (ORO, PLATA,…) 8.98363 2.72E-03
Indicador Crédito Consumo 34.02448 5.44E-09
Indicador Morosidad Crédito Consumo 237.3043 1.52E-53
Indicador Morosidad Microcrédito 13.44938 2.45E-04
Calificación CDR 421.2204 7.90E-89
Monto Crédito Consumo 46.70323 1.75E-07
Como se muestra en la Tabla 1, se puede observar que en los resultados obtenidos mediante la prueba
de Chi - cuadrado, se presenta el valor p de las variables, lo cual significa que a un nivel de significancia
α=0.05, se concluye que existe suficiente evidencia estadística para determinar que son variables
explicativas que influyen para predecir la morosidad de los tarjetahabientes.
8. Modelos de Predicción
Los modelos más utilizados para el problema de la predicción de la deserción de clientes en la literatura
son:
Regresión Logística: es una técnica de modelización estadística con resultados dicotómicos y que
transforma la variable respuesta.
Página 8
En el presente estudio emplearemos los árboles de decisión y regresión logística para identificar y
construir características que permitan generar las variables de decisión basadas en los clientes que
cayeron en mora.
Página 9
X21 Promedio cupo
X22 Dummy, si tiene crédito consumo es 1 sino 0
X23 Dummy, si tiene crédito microcrédito es 1 sino 0
X24 Rango monto crédito consumo (categórica)
X25 Rango monto crédito microcrédito (categórica)
X26 Dummy, si tiene crédito consumo vencido es 1 sino 0
X27 Dummy, si tiene crédito microcrédito vencido es 1 sino 0
X28 Calificación central de Riesgo
Modelo 1: el primer modelo es construido en base a todas variables predictoras que dieron como
resultado aplicando el el Test de Pearson Chi Cuadraro que se realizó y las variables continuas, esto
mediante la Regresión Logística. (Ver Tabla 2)
Modelo 1: el primer modelo es construido en base a todas variables predictoras que dieron como
resultado aplicando el el Test de Pearson Chi Cuadraro que se realizó y las variables continuas .
Página 10
9. Criterios de Evaluación de Modelos – Matriz de Confusión
En el campo de minería de datos una matriz de confusión es una herramienta que permite la
visualización del desempeño de un algoritmo que se emplea en aprendizaje supervisado. Cada
columna de la matriz representa el número de predicciones de cada clase, mientras que cada fila
representa a las instancias en la clase real. Uno de los beneficios de las matrices de confusión es que
facilitan ver si el sistema está confundiendo dos clases.
La siguiente tabla muestra la matriz de confusión para un clasificador de dos clases en este caso
Moroso y No Moroso.
Predicción
Matriz de Confusión No Moroso Moroso
(Negativo) (Positivo)
No Moroso 𝑎 𝑏
(Negativo) Precisión Negativa Falso Positivo
Valor Real
Moroso 𝑐 𝑑
(Positivo) Falso Negativo Precision Positiva
Specificity (True Negative Rate TNR): es la proporción de casos negativos que fueron identificados
correctamente, tal como se calcula usando la ecuación:
𝑇𝑁𝑅 = 𝑎/(𝑎 + 𝑏)
Accuracy (ACC): es la proporción de casos positivos clasificados incorrectamente como negativos, tal como
se calcula utilizando la ecuación:
𝐴𝐶𝐶 = (𝑎 + 𝑑)/(𝑎 + 𝑏 + 𝑐 + 𝑑)
Type I Error : es la proporción de casos negativos que fueron clasificados incorrectamente como positivos,
tal como se calcula utilizando la ecuación:
𝑇𝑦𝑝𝑒 𝐼 𝐸𝑟𝑟𝑜𝑟 = 𝑏/(𝑎 + 𝑏)
Página 11
Type II Error : es la proporción de casos positivos que fueron clasificados incorrectamente como negativos,
tal como se calcula utilizando la ecuación:
𝑇𝑦𝑝𝑒 𝐼𝐼 𝐸𝑟𝑟𝑜𝑟 = 𝑐/(𝑐 + 𝑑)
Average Error : es la proporción de casos negativos que fueron clasificados incorrectamente como
positivos y la proporción de casos positivos que fueron clasificados incorrectamente como negativos tal
como se calcula utilizando la ecuación:
𝐴𝑣𝑒𝑟𝑎𝑔𝑒 𝐸𝑟𝑟𝑜𝑟 = (𝑏 + 𝑐)/(𝑎 + 𝑏 + 𝑐 + 𝑑)
Para la construcción del modelo se utilizó una muestra de 1,533 clientes, de los cuales 383 son clientes
morosos.
Mediante el empleo de muestreo aleatorio simple se seleccionó dos conjuntos de datos, con el
objetivo de desarrollar el modelo con el conjunto de datos de entrenamiento que representó el 60%
y validarlo con la segunda que corresponde a conjunto de datos de prueba que corresponde el 40%
de la población.
Una vez definido el conjunto de datos con el cual se construirá y validará el modelo, en este capítulo
nos centraremos en presentar varios resultados obtenidos de los 2 modelos que se mencionaron
Página 12
mediante regresión logística y árboles de decisión, de los cuáles analizaremos el rendimiento y
precisión de cada uno y mediante los indicadores de Matriz de Confusión se discutirá cuál es el mejor
modelo.
Se mencionó el Error Tipo I, Error Tipo II y Promedio del Error los cuáles son generalmente utilizados
para medir la calidad y precisión de un modelo.
En la tabla 3 muestra el desempeño de los 4 modelos aplicados, mediante el conjunto de datos de
prueba, los cuales fueron realizados en el Software R (en el Anexo 2 se muestra paquetes, librerías y
códigos empleados para la ejecución del modelo).
Tabla 3: Rendimiento del Modelo en base a Regresión Logística(RL) y Árboles de Decisión (AD)
Modelo 1 Modelo 2 Modelo 3 Modelo 4
Matriz Confusión RL RL AD AD
Error Tipo I % 7.78% 6.22% 7.14% 5.71%
Error Tipo 2 % 34.59% 32.70% 31.01% 41.09%
Error Promedio % 14.78% 13.14% 13.57% 15.24%
Accuracy
Precisión (Accuracy) % 85.22% 86.86% 86.43% 84.76%
El Modelo I es construido con todas las variables significativas que dio como predictoras aplicando
Regresión Logística, la Tabla 3 muestra que el Modelo I tiene error tipo 1 de 7.78% y el segundo tipo de
Error es 34.59%, por otro lado, tiene una Precisión del 85.22%. El siguiente cuadro muestra la Matriz de
Confusión del Modelo I
Predicción
Matriz de Confusión
No Moroso Moroso
Modelo 1(RL)
(Negativo) (Positivo)
No Moroso 415 35
(Negativo) Precisión Negativa Falso Positivo
Valor Real
Moroso 55 104
(Positivo) Falso Negativo Precision Positiva
Página 13
El Modelo II es construido con todas las variables significativas que dio como predictoras en el primer
modelo aplicando Regresión Logística, la Tabla 3 muestra que el modelo I tiene error tipo 1 de 6.22% y el
segundo tipo de Error es 32.70%, por otro lado, tiene una Precisión del 86.86%. El siguiente cuadro muestra
la Matriz de Confusión del Modelo II.
Predicción
Matriz de Confusión
No Moroso Moroso
Modelo 2(RL)
(Negativo) (Positivo)
No Moroso 422 28
(Negativo) Precisión Negativa Falso Positivo
Valor Real
Moroso 52 107
(Positivo) Falso Negativo Precision Positiva
Por otro lado, en el Modelo 3 es construido en base a variables que se me mencionaron en la tablas
mediante el algoritmo de Árboles de decisión. Lo cual resulta ser un buen modelo, en comparación con los
Modelos I y II el error promedio es 18.33% y los costos por una mala clasificación en la predicción es
$27,008.06 son menores.
Predicción
Matriz de Confusión
No Moroso Moroso
Modelo 3(AD)
(Negativo) (Positivo)
No Moroso 330 28
(Negativo) Precisión Negativa Falso Positivo
Valor Real
Moroso 52 107
(Positivo) Falso Negativo Precision Positiva
En el Modelo 4 es una combinación de variables del Modelo I, II y III, el % del error promedio dio
como resultado 16.11 lo cual es menor que los Modelos mencionados anteriormente, siendo un
buen modelo dada la precisión fue del 83.89 % y los costos de una mala clasificación son menos
altos incurriendo en costos de $23,664. El siguiente cuadro muestra la Matriz de Confusión del
Modelo 4.
Página 14
Predicción
Matriz de Confusión
No Desertor Desertor
Modelo 4
(Negativo) (Positivo)
No Desertor 1061 12
(Negativo) Precisión Negativa Falso Positivo
Valor Real
Desertor 249 298
(Positivo) Falso Negativo Precision Positiva
A continuación, se mencionan las principales reglas extraídas del árbol de decisión del modelo 4,
los cuales indican que son desertores si cumplen tal regla.
Finalmente, el modelo que mejor poder de predicción resultó mediante la aplicación de árboles
de decisión fue el modelo 5, dado que el promedio del error es menor que los demás modelos
siendo 6.30%, incluso fue el modelo que dio los costos más bajos, obteniendo un valor de $9,180
y la precisión del modelo fue del 93.70%. Para la construcción del modelo 5 solo se utilizaron las
variables demográficas y externas. A continuación, se muestra la matriz de confusión.
Predicción
Matriz de Confusión
No Desertor Desertor
Modelo 5
(Negativo) (Positivo)
No Desertor 1073 0
(Negativo) Precisión Negativa Falso Positivo
Valor Real
Desertor 102 445
(Positivo) Falso Negativo Precision Positiva
Página 15
A continuación, se mencionan las principales reglas extraídas del árbol de decisión del modelo 5,
los cuales indican que son desertores si cumplen tal regla.
Página 16