Вы находитесь на странице: 1из 16

Modelo de Predicción de Morosidad en

Tarjetahabientes

Inteligencia de Mercado
2016
Página 2
Tabla de contenido
1. Metodología ......................................................................................................................... 4
2. Objetivos y Generalidades ..................................................................................................... 4
3. Alcances y Limitaciones ......................................................................................................... 4
4. Descripción del concepto de morosidad .................................................................................. 5
5. Modelo Propuesto ................................................................................................................. 5
6. Descripción de la metodología ............................................................................................... 6
a. Recolección de la data: se trabajaron con tres estructuras de datos que corresponden a: ........ 6
b. Procesamiento de la data: se creó una tabla consolidada por cliente, donde se creó una tabla
modelada con las variables que se consideraron para el análisis exploratorio y desarrollo del modelo.
(En el Anexo 1 se detalla las variables de la tabla consolidada). ..................................................... 7
c. Preparación de la data: se tomó una muestra mediante la técnica de muestreo aleaotorio
simple(MAS), luego de tomar la muestra de la base se divide la data en dos grupo: conjunto de datos
de entrenamiento el cual se usará para entrenar el modelo y el otro grupo corresponde al conjunto de
dato de prueba, con estos datos se valida el rendimiento del modelo. Esto con el objetivo de evitar
problemas de dimensionalidad, dado que es evidente que el número de clientes no morosos es mayor
que los clientes morosos. ............................................................................................................. 7
d. Preparación de la data: se tomó una muestra mediante la técnica de muestreo aleaotorio
simple(MAS), luego de tomar la muestra de la base se divide la data en dos grupo: conjunto de datos
de entrenamiento el cual se usará para entrenar el modelo y el otro grupo corresponde al conjunto de
dato de prueba, con estos datos se valida el rendimiento del modelo. Esto con el objetivo de evitar
problemas de dimensionalidad, dado que es evidente que el número de clientes no morosos es mayor
que los clientes morosos. ............................................................................................................. 7
e. Selección de variables: El objetivo en esta fase es escoger o seleccionar las variables explicativas
que serán parte del conjunto de datos de entrenamiento el cual permitirá al modelo predictivo dar la
mejor precisión posible, minimizando la tasa de error y maximizar la precisión del mismo. Para las
variables cualitativas realizaremos si existe relación entre la variables dependiente (Indicador
Morosidad) vs. variables independiente, mediante el Test de Pearson de Chi Cuadraro donde la
variables es significativa si el valor p es menor a 5. ....................................................................... 7
f. Modelo de Predicción: El objetivo en esta fase es escoger o seleccionar las variables explicativas
que serán parte del conjunto de datos de entrenamiento el cual permitirá al modelo predictivo dar la
mejor precisión posible, minimizando la tasa de error y maximizando la precisión del mismo. Se
escogerá un modelo apropiado que contenga el número mínimo de variables explicativas posible del
conjunto de variables. .................................................................................................................. 7
g. Evaluación del modelo: En esta fase se analizará el rendimiento del modelo mediante el método
de la “Matriz de Confusión” el cuál se medirá el % de precisión y % de error del modelo. ............... 7
h. Selección del modelo: Una vez realizado el análisis de los indicadores de rendimiento del modelo
se selecciona el mejor modelo acorde a las necesidades del negocio. ............................................. 7
7. Variables Explicativas ............................................................................................................ 7
8. Modelos de Predicción ........................................................................................................... 8
a. Variables de decisión a utilizar ............................................................................................... 9

Página 3
Modelo de Predicción de Morosidad en
Tarjehabientes

1. Metodología

El objetivo del presente trabajo es analizar y predecir la morosidad en los clientes de tarjeta de crédito
a nivel nacional. Para ello, es preciso aplicar una metodología determinada.
De lo que se trata es de determinar los factores de mayor influencia en el comportamiento de pago de
los clientes de las entidades financieras y que permiten distinguir los clientes solventes, que cumplen
con sus obligaciones, de los morosos, que las incumplen o se retrasan en su cumplimiento. Por tanto,
el objetivo del trabajo se centra en explicar el comportamiento de una variable categórica con dos
modalidades: ser un cliente moroso o bien un cliente no moroso.

En este trabajo llevamos a cabo un estudio mediante la aplicación de metodología de tablas de


contingencia aplicando la prueba de chi cuadrado para determinar las variables significativas en la
predicción y partiendo de esto se realizarán los diferentes escenarios para el desarrollo del modelo
mediante regresión logística.

2. Objetivos y Generalidades

Objetivo General
Proveer de información predictiva a la Gerencia de Riesgo para la toma de decisiones, como un
mecanismo en la planificación de las estrategias de prevenir el incremento del índice de morosidad en
los Tarjetahabientes.

Objetivo Específico
• Definir un modelo predictivo de deserción que permita saber los posibles clientes morosos.
• Determinar la probabilidad de morosidad de los clientes y de esta forma tomar acciones
preventivas.

3. Alcances y Limitaciones

Página 4
Además, el alcance de este proyecto estaría dirigido específicamente a los clientes de Tarjeta de
Crédito con estado normal (0000000000 - Normal) y moroso (0001000000 - Cliente en Mora(3-7)) al
corte de la fecha que se solicitó la data (Abril 2016). Con antigüedad mayor a 1 año, dado que se
analizará la transaccionalidade del cliente de un año completo.

4. Descripción del concepto de morosidad

La morosidad hace referencia al incumplimiento de las obligaciones de pago.


Así, la tasa de morosidad se define como:

Tasa de morosidad = Cartera vencida/Total de cartera

Para definir específicamente el concepto de morosidad en el presente estudio, debemos dividir la


ventana de tiempo en dos fases: el período de observación y período de evaluación.

En el período de observación se diseñaron variables para analizar los comportamientos de las


transacciones de un cliente, y luego se analiza si el cliente se convirtió en un moroso o no durante el
período de evaluación. Las variables independientes (x1, x2, … xp) son calculadas a partir la base de
datos transaccional, así como las variables asociadas al comportamiento crediticio y variables
sociodemográficas, información obtenida durante el periodo de observación y la variable dependiente
(Y) es calculada partir de los datos almacenados de la información durante el periodo de evaluación.
Después de observar el comportamiento de los clientes de un año entero, nuestro modelo predice si
el cliente se convierte en un moroso o no en el período de evaluación (Ver Figura 1.5). En nuestro
estudio, el periodo de observación es desde Mayo 2015 a Abril 2016 y el periodo de evaluación
comprende Abril 2016. Después de observar el comportamiento durante un año de los clientes, el
modelo predecirá si el cliente es un moroso o no en el periodo de observación.

Por esta razón para estimar la probabilidad de morosidad necesitamos un conjunto de variables
independientes x1, x2, … xp que explicarán una variable dependiente binaria Yi que tomará el valor de
1 si el individuo es catalogado como Moroso y 0 si es catalogado como No moroso, así:

1 𝑆𝑖 𝑒𝑙 𝑐𝑙𝑖𝑒𝑛𝑡𝑒 𝑖 𝑒𝑠 𝑚𝑜𝑟𝑜𝑠𝑜 𝑑𝑢𝑟𝑎𝑛𝑡𝑒 𝑒𝑙 𝑝𝑒𝑟𝑖𝑜𝑑𝑜 𝑑𝑒 𝑒𝑣𝑎𝑙𝑢𝑎𝑐𝑖ó𝑛


𝑌𝑖 = {
0 𝑆𝑖 𝑒𝑙 𝑐𝑙𝑖𝑒𝑛𝑡𝑒 𝑖 𝑠𝑖𝑔𝑢𝑒 𝑠𝑖𝑒𝑛𝑑𝑜 𝑐𝑙𝑖𝑒𝑛𝑡𝑒 𝑛𝑜 𝑚𝑜𝑟𝑜𝑠𝑜 𝑑𝑢𝑟𝑎𝑛𝑡𝑒 𝑒𝑙 𝑝𝑒𝑟𝑖𝑜𝑑𝑜 𝑑𝑒 𝑒𝑣𝑎𝑙𝑢𝑎𝑐𝑖ó𝑛

5. Modelo Propuesto

En el presente estudio se elaborará un modelo de predicción de morosidad de tarjeta de créditos.


La información disponible se encuentra especificada por tarjeta, por cliente, mes, con el objetivo de
tener mayor facilidad al momento que la información sea generada.
Los datos históricos son de 1 año, la muestra con la cual desarrollaremos el estudio serán todas las
tarjetas con antigüedad mínima de 1 año.

Página 5
Los modelos más utilizados para el problema de la predicción de clientes con riesgo de mora en la
literatura son:

• Regresión Logística
• Árboles de Clasificación
• Bosques Aleatorios
• Máquinas de Soporte Vectorial
• Redes Neuronales

Específicamente, en este estudio proponemos combinar árboles de decisión y regresión logística.

Regresión Logística: La variable dependiente o respuesta presenta dos categorías, en este caso
representa la ocurrencia y no ocurrencia del acontecimiento definido por la variable, codificándose
con los valores de uno y cero, respectivamente. Por lo que se refiere a las variables independientes o
explicativas, no se establece ninguna restricción, pudiendo ser cuantitativas, tanto continuas como
discretas, y categóricas.
Definida la variable dependiente como la ocurrencia o no de un acontecimiento, el modelo de
regresión logística la expresa en términos de probabilidad, utilizando la función logística la expresa en
términos de probabilidad, utilizando la función logística para estimar la probabilidad de que ocurra el
acontecimiento.

Árboles de Decisión: Consideraremos la variable dependiente binaria (Moroso/No Moroso) y las


variables explicativas (cualitativa y cuantitativas), la técnica del árbol de decisión es un algoritmo
recursivo que consiste en particionar la población de estudio en segmentos homogéneos mediante la
utilización de reglas de partición basadas en los valores que tomen las variables explicativas.

El proceso iterativo que se sigue para generar los segmentos es el siguiente: Primero se particiona la
población de dos subconjuntos homogéneos, luego cada uno de estos subconjuntos es particionado
nuevamente en dos subconjuntos más homogéneos, el proceso es repetido recursivamente y termina
si el subconjunto presenta una cantidad de clientes menor o igual a la mínima requerida (criterio de
parada), finalmente se establece el tipo de subconjunto (Moroso/No moroso).

En el presente estudio emplearemos los árboles de decisión para identificar y construir características
que permitan generar las variables de decisión basadas en los clientes que son morosos.

6. Descripción de la metodología

a. Recolección de la data: se trabajaron con tres estructuras de datos que corresponden a:


 Datos demográficos del cliente
 Datos de central de riesgo
 Datos de la transaccionalidad de la tarjeta

Página 6
b. Procesamiento de la data: se creó una tabla consolidada por cliente, donde se creó una
tabla modelada con las variables que se consideraron para el análisis exploratorio y desarrollo
del modelo. (En el Anexo 1 se detalla las variables de la tabla consolidada).

c. Preparación de la data: se tomó una muestra mediante la técnica de muestreo aleaotorio


simple(MAS), luego de tomar la muestra de la base se divide la data en dos grupo: conjunto
de datos de entrenamiento el cual se usará para entrenar el modelo y el otro grupo
corresponde al conjunto de dato de prueba, con estos datos se valida el rendimiento del
modelo. Esto con el objetivo de evitar problemas de dimensionalidad, dado que es evidente
que el número de clientes no morosos es mayor que los clientes morosos.

d. Preparación de la data: se tomó una muestra mediante la técnica de muestreo aleaotorio


simple(MAS), luego de tomar la muestra de la base se divide la data en dos grupo: conjunto
de datos de entrenamiento el cual se usará para entrenar el modelo y el otro grupo
corresponde al conjunto de dato de prueba, con estos datos se valida el rendimiento del
modelo. Esto con el objetivo de evitar problemas de dimensionalidad, dado que es evidente
que el número de clientes no morosos es mayor que los clientes morosos.

e. Selección de variables: El objetivo en esta fase es escoger o seleccionar las variables


explicativas que serán parte del conjunto de datos de entrenamiento el cual permitirá al
modelo predictivo dar la mejor precisión posible, minimizando la tasa de error y maximizar la
precisión del mismo. Para las variables cualitativas realizaremos si existe relación entre la
variables dependiente (Indicador Morosidad) vs. variables independiente, mediante el Test de
Pearson de Chi Cuadraro donde la variables es significativa si el valor p es menor a 5.

f. Modelo de Predicción: El objetivo en esta fase es escoger o seleccionar las variables


explicativas que serán parte del conjunto de datos de entrenamiento el cual permitirá al
modelo predictivo dar la mejor precisión posible, minimizando la tasa de error y maximizando
la precisión del mismo. Se escogerá un modelo apropiado que contenga el número mínimo de
variables explicativas posible del conjunto de variables.

g. Evaluación del modelo: En esta fase se analizará el rendimiento del modelo mediante el
método de la “Matriz de Confusión” el cuál se medirá el % de precisión y % de error del
modelo.

h. Selección del modelo: Una vez realizado el análisis de los indicadores de rendimiento del
modelo se selecciona el mejor modelo acorde a las necesidades del negocio.

7. Variables Explicativas

Mediante tablas de contingencia se examinó la relación de las variables categóricas (cualitativas) vs


variables dependiente (Indicador Morosidad) y concluir si son significativas.

Página 7
Tabla 1: RESULTADOS TABLA DE CONTINGENCIA
Variable Chi^2 Valor p
Profesión 22.7628 2.98E-02
Situacion laboral 14.26109 4.67E-02
Actividad económica 17.86373 3.68E-02
Segmento Padre 25.10248 4.80E-05
Segmento 34.26666 3.63E-05
Oficial asignado 24.04265 6.01E-06
Indicador Producto Pasivo 48.62423 3.10E-12
Indicador Cuenta Corriente 31.49981 1.99E-08
Indicador Cuenta Ahorro 23.40708 1.31E-06
Indicador CDP 12.50113 4.07E-04
Canal Radicador 27.22714 5.28E-06
Tipo de Tarjeta (ORO, PLATA,…) 8.98363 2.72E-03
Indicador Crédito Consumo 34.02448 5.44E-09
Indicador Morosidad Crédito Consumo 237.3043 1.52E-53
Indicador Morosidad Microcrédito 13.44938 2.45E-04
Calificación CDR 421.2204 7.90E-89
Monto Crédito Consumo 46.70323 1.75E-07

Como se muestra en la Tabla 1, se puede observar que en los resultados obtenidos mediante la prueba
de Chi - cuadrado, se presenta el valor p de las variables, lo cual significa que a un nivel de significancia
α=0.05, se concluye que existe suficiente evidencia estadística para determinar que son variables
explicativas que influyen para predecir la morosidad de los tarjetahabientes.

8. Modelos de Predicción

Cuando la variable a predecir es discreta entonces el problema de clasificación consiste en predecir el


estado del cliente dado el conjunto de atributos que lo caracteriza.

Los modelos más utilizados para el problema de la predicción de la deserción de clientes en la literatura
son:

Regresión Logística: es una técnica de modelización estadística con resultados dicotómicos y que
transforma la variable respuesta.

Árboles de Decisión: es una técnica de clasificación que puede representar el conocimiento


extraído en un conjunto de reglas de decisión de fácil entendimiento, además que puede considerar
atributos continuos y discretos .

Página 8
En el presente estudio emplearemos los árboles de decisión y regresión logística para identificar y
construir características que permitan generar las variables de decisión basadas en los clientes que
cayeron en mora.

a. Variables de decisión a utilizar

Tabla 2 Variables Decisión a utilizar


Var Descripción
X1 Monto Ingreso Mensual
X2 Monto Egreso Mensual
X3 Edad
X4 Profesión(categórica)
X5 Número de cargas familiares
X6 Actividad económica (categórica)
X7 Segmento padre (categórica)
X8 Segmento (categórica)
X9 Oficial asignado (categórica)
X10 Dummy, si tiene al menos un producto pasivo es 1 sino 0
X11 Dummy, si tiene cuenta corriente es 1 sino 0
X12 Dummy, si tiene cdp es 1 sino 0
X13 Antigüedad tarjehabiente
X14 Canal radicador (categórica)
X15 Número de veces sobregirado
X16 Número de impagos previo
X17 Número veces que realiza solo pagos mínimos
X18 Número de avances efectivo
X19 Promedio de consumos
X20 Número de transacciones facturadas

Página 9
X21 Promedio cupo
X22 Dummy, si tiene crédito consumo es 1 sino 0
X23 Dummy, si tiene crédito microcrédito es 1 sino 0
X24 Rango monto crédito consumo (categórica)
X25 Rango monto crédito microcrédito (categórica)
X26 Dummy, si tiene crédito consumo vencido es 1 sino 0
X27 Dummy, si tiene crédito microcrédito vencido es 1 sino 0
X28 Calificación central de Riesgo

Como se muestra en la Tabla 2 existe disponibilidad de 28 variables, de los cuales se construyeron


4 modelos con diferentes combinaciones de variables para evaluar el poder de los diferentes tipos
de información.

Modelo 1: el primer modelo es construido en base a todas variables predictoras que dieron como
resultado aplicando el el Test de Pearson Chi Cuadraro que se realizó y las variables continuas, esto
mediante la Regresión Logística. (Ver Tabla 2)

Modelo 1: el primer modelo es construido en base a todas variables predictoras que dieron como
resultado aplicando el el Test de Pearson Chi Cuadraro que se realizó y las variables continuas .

Tabla 2 Variables Decisión a utilizar


Var Descripción
X1 Monto Ingreso Mensual
X2 Monto Egreso Mensual
X3 Número de cargas familiares
X4 Segmento padre (categórica)
X5 Dummy, si tiene al menos un producto pasivo es 1 sino 0
X6 Número de veces sobregirado
X7 Número de impagos previo
X8 Promedio de consumos
X9 Número de transacciones facturadas
X10 Dummy, si tiene crédito consumo es 1 sino 0
X11 Rango monto crédito consumo (categórica)
X12 Dummy, si tiene crédito consumo vencido es 1 sino 0

Página 10
9. Criterios de Evaluación de Modelos – Matriz de Confusión

En el campo de minería de datos una matriz de confusión es una herramienta que permite la
visualización del desempeño de un algoritmo que se emplea en aprendizaje supervisado. Cada
columna de la matriz representa el número de predicciones de cada clase, mientras que cada fila
representa a las instancias en la clase real. Uno de los beneficios de las matrices de confusión es que
facilitan ver si el sistema está confundiendo dos clases.

La siguiente tabla muestra la matriz de confusión para un clasificador de dos clases en este caso
Moroso y No Moroso.

Predicción
Matriz de Confusión No Moroso Moroso
(Negativo) (Positivo)
No Moroso 𝑎 𝑏
(Negativo) Precisión Negativa Falso Positivo
Valor Real
Moroso 𝑐 𝑑
(Positivo) Falso Negativo Precision Positiva

La terminología y derivaciones a partir de una matriz de confusión se muestran a continuación:


Sensitive (True Positive Rate TPR): es la proporción de casos positivos que fueron identificados
correctamente, tal como se calcula usando la ecuación:
𝑇𝑃𝑅 = 𝑑/(𝑐 + 𝑑)

Specificity (True Negative Rate TNR): es la proporción de casos negativos que fueron identificados
correctamente, tal como se calcula usando la ecuación:
𝑇𝑁𝑅 = 𝑎/(𝑎 + 𝑏)

Accuracy (ACC): es la proporción de casos positivos clasificados incorrectamente como negativos, tal como
se calcula utilizando la ecuación:
𝐴𝐶𝐶 = (𝑎 + 𝑑)/(𝑎 + 𝑏 + 𝑐 + 𝑑)

Type I Error : es la proporción de casos negativos que fueron clasificados incorrectamente como positivos,
tal como se calcula utilizando la ecuación:
𝑇𝑦𝑝𝑒 𝐼 𝐸𝑟𝑟𝑜𝑟 = 𝑏/(𝑎 + 𝑏)

Página 11
Type II Error : es la proporción de casos positivos que fueron clasificados incorrectamente como negativos,
tal como se calcula utilizando la ecuación:
𝑇𝑦𝑝𝑒 𝐼𝐼 𝐸𝑟𝑟𝑜𝑟 = 𝑐/(𝑐 + 𝑑)

Average Error : es la proporción de casos negativos que fueron clasificados incorrectamente como
positivos y la proporción de casos positivos que fueron clasificados incorrectamente como negativos tal
como se calcula utilizando la ecuación:
𝐴𝑣𝑒𝑟𝑎𝑔𝑒 𝐸𝑟𝑟𝑜𝑟 = (𝑏 + 𝑐)/(𝑎 + 𝑏 + 𝑐 + 𝑑)

10. Análisis y Discusión de Resultados

10.1 Construcción del Modelo de Morosidad

Para la construcción del modelo se utilizó una muestra de 1,533 clientes, de los cuales 383 son clientes
morosos.
Mediante el empleo de muestreo aleatorio simple se seleccionó dos conjuntos de datos, con el
objetivo de desarrollar el modelo con el conjunto de datos de entrenamiento que representó el 60%
y validarlo con la segunda que corresponde a conjunto de datos de prueba que corresponde el 40%
de la población.

En la siguiente tabla se muestra la distribución:


Moroso No Moroso Total
MuestraTotal 383 1,149 1,532
Muestra de Entrenamiento 224 699 923
Muestra de validación 159 450 609

De acuerdo a lo definido la variable objetivo es la morosidad lo cual se definió de la siguiente forma:

1 𝑆𝑖 𝑒𝑙 𝑐𝑙𝑖𝑒𝑛𝑡𝑒 𝑖 𝑒𝑠 𝑚𝑜𝑟𝑜𝑠𝑜 𝑑𝑢𝑟𝑎𝑛𝑡𝑒 𝑒𝑙 𝑝𝑒𝑟𝑖𝑜𝑑𝑜 𝑑𝑒 𝑒𝑣𝑎𝑙𝑢𝑎𝑐𝑖ó𝑛


𝑌𝑖 = {
0 𝑆𝑖 𝑒𝑙 𝑐𝑙𝑖𝑒𝑛𝑡𝑒 𝑖 𝑠𝑖𝑔𝑢𝑒 𝑠𝑖𝑒𝑛𝑑𝑜 𝑐𝑙𝑖𝑒𝑛𝑡𝑒 𝑛𝑜 𝑚𝑜𝑟𝑜𝑠𝑜 𝑑𝑢𝑟𝑎𝑛𝑡𝑒 𝑒𝑙 𝑝𝑒𝑟𝑖𝑜𝑑𝑜 𝑑𝑒 𝑒𝑣𝑎𝑙𝑢𝑎𝑐𝑖ó𝑛

Una vez definido el conjunto de datos con el cual se construirá y validará el modelo, en este capítulo
nos centraremos en presentar varios resultados obtenidos de los 2 modelos que se mencionaron

Página 12
mediante regresión logística y árboles de decisión, de los cuáles analizaremos el rendimiento y
precisión de cada uno y mediante los indicadores de Matriz de Confusión se discutirá cuál es el mejor
modelo.

10.2 Rendimiento de predicción del modelo

Se mencionó el Error Tipo I, Error Tipo II y Promedio del Error los cuáles son generalmente utilizados
para medir la calidad y precisión de un modelo.
En la tabla 3 muestra el desempeño de los 4 modelos aplicados, mediante el conjunto de datos de
prueba, los cuales fueron realizados en el Software R (en el Anexo 2 se muestra paquetes, librerías y
códigos empleados para la ejecución del modelo).

Tabla 3: Rendimiento del Modelo en base a Regresión Logística(RL) y Árboles de Decisión (AD)
Modelo 1 Modelo 2 Modelo 3 Modelo 4
Matriz Confusión RL RL AD AD
Error Tipo I % 7.78% 6.22% 7.14% 5.71%
Error Tipo 2 % 34.59% 32.70% 31.01% 41.09%
Error Promedio % 14.78% 13.14% 13.57% 15.24%
Accuracy
Precisión (Accuracy) % 85.22% 86.86% 86.43% 84.76%

El Modelo I es construido con todas las variables significativas que dio como predictoras aplicando
Regresión Logística, la Tabla 3 muestra que el Modelo I tiene error tipo 1 de 7.78% y el segundo tipo de
Error es 34.59%, por otro lado, tiene una Precisión del 85.22%. El siguiente cuadro muestra la Matriz de
Confusión del Modelo I

Predicción
Matriz de Confusión
No Moroso Moroso
Modelo 1(RL)
(Negativo) (Positivo)
No Moroso 415 35
(Negativo) Precisión Negativa Falso Positivo
Valor Real
Moroso 55 104
(Positivo) Falso Negativo Precision Positiva

Página 13
El Modelo II es construido con todas las variables significativas que dio como predictoras en el primer
modelo aplicando Regresión Logística, la Tabla 3 muestra que el modelo I tiene error tipo 1 de 6.22% y el
segundo tipo de Error es 32.70%, por otro lado, tiene una Precisión del 86.86%. El siguiente cuadro muestra
la Matriz de Confusión del Modelo II.

Predicción
Matriz de Confusión
No Moroso Moroso
Modelo 2(RL)
(Negativo) (Positivo)
No Moroso 422 28
(Negativo) Precisión Negativa Falso Positivo
Valor Real
Moroso 52 107
(Positivo) Falso Negativo Precision Positiva

Por otro lado, en el Modelo 3 es construido en base a variables que se me mencionaron en la tablas
mediante el algoritmo de Árboles de decisión. Lo cual resulta ser un buen modelo, en comparación con los
Modelos I y II el error promedio es 18.33% y los costos por una mala clasificación en la predicción es
$27,008.06 son menores.

Predicción
Matriz de Confusión
No Moroso Moroso
Modelo 3(AD)
(Negativo) (Positivo)
No Moroso 330 28
(Negativo) Precisión Negativa Falso Positivo
Valor Real
Moroso 52 107
(Positivo) Falso Negativo Precision Positiva

En el Modelo 4 es una combinación de variables del Modelo I, II y III, el % del error promedio dio
como resultado 16.11 lo cual es menor que los Modelos mencionados anteriormente, siendo un
buen modelo dada la precisión fue del 83.89 % y los costos de una mala clasificación son menos
altos incurriendo en costos de $23,664. El siguiente cuadro muestra la Matriz de Confusión del
Modelo 4.

Página 14
Predicción
Matriz de Confusión
No Desertor Desertor
Modelo 4
(Negativo) (Positivo)
No Desertor 1061 12
(Negativo) Precisión Negativa Falso Positivo
Valor Real
Desertor 249 298
(Positivo) Falso Negativo Precision Positiva

A continuación, se mencionan las principales reglas extraídas del árbol de decisión del modelo 4,
los cuales indican que son desertores si cumplen tal regla.

Si X2≤34.5, X21≤0.42, X26=1, X15=Quito y Cuenca, X24≤21.5, X4≤67.5 es desertor


Si X21<1.07, X2≤21.5, X20≤334.14, X15=Quito y Cuenca, X26=1 es desertor
Si X2≤21.5, X26=1, X20<271.3, X19<3,255.59, es desertor
Acorde a las reglas que se mencionaron, se puede observar cuáles son las variables más
importantes para la predicción de la deserción de clientes, corresponden a: ubicación geográfica
(X1), antigüedad del cliente (X2), edad (X4), monto promedio de consumo (X19), monto promedio
consumo rotativo (X20), monto promedio sobregiros (X21), si solo utiliza la T/C transacciones
recurrentes (X26) y total transacciones facturadas (X24).

Finalmente, el modelo que mejor poder de predicción resultó mediante la aplicación de árboles
de decisión fue el modelo 5, dado que el promedio del error es menor que los demás modelos
siendo 6.30%, incluso fue el modelo que dio los costos más bajos, obteniendo un valor de $9,180
y la precisión del modelo fue del 93.70%. Para la construcción del modelo 5 solo se utilizaron las
variables demográficas y externas. A continuación, se muestra la matriz de confusión.

Predicción
Matriz de Confusión
No Desertor Desertor
Modelo 5
(Negativo) (Positivo)
No Desertor 1073 0
(Negativo) Precisión Negativa Falso Positivo
Valor Real
Desertor 102 445
(Positivo) Falso Negativo Precision Positiva

Página 15
A continuación, se mencionan las principales reglas extraídas del árbol de decisión del modelo 5,
los cuales indican que son desertores si cumplen tal regla.

Si X2≤34.5, X26=1, X4≤67.5, X1=Quito y Cuenca, X7=Empleado Público, Privado y actividades


comercio mayor y menor, es desertor.
Si X2≤21.5, X1=Quito y Cuenca, X17=A, X13<934.5, X7=Empleado Público, Privado y actividades
comercio mayor y menor, es desertor

Página 16

Вам также может понравиться