Por Balán Elías, César Alfonzo & Llamas Carpio, José Alejandro

1. Problemática:

El mercado financiero se ha visto impactado por los acontecimientos referentes al COVID y estado de calamidad en Guatemala. La mora de créditos ha incrementado un punto porcentual durante los últimos meses derivando así en incumplimientos y decrecimientos que afectan la calidad de la cartera. La entidad financiera para la cual se elaboró este proyecto no es la excepción.

Por ello, es menester elaborar un estudio que indique a la organización insights sobre el perfil de su cartera morosa (desde su demografía hasta la relación con los productos) y evaluar algún evento que sea de suma importancia para la entidad. La muestra recabada consta de 19,745 registros con los siguientes campos: edad, género, producto adquirido y tiempo de atraso. Primordialmente, son clientes que incurrieron en mora de 30 días durante el 2019, y que se observó su comportamiento 3 meses después.

Con este contexto se analizará qué características de la población llegaron a más de 90 días de atraso en su desempeño de pago.

2. Análisis descriptivo de los datos

A partir de los 19,745 registros recabados se procederá a realizar un análisis demográfico mediante dos variables cualitativas: la edad y el género. Esto ayudará a la organización a saber cuál es el perfil de usuarios que manejan en su institución respecto al tema crediticio. Posteriormente será indispensable interrlacionarla con los productos que ofrece la organización para generar insights que sean de utilidad y con ello para evaluar el evento planteado.

 

2.1 Perfil demográfico

Las siguientes dos tablas muestran un resumen con las prinicpales medidas de tendencia central y posición (tabla 1), la moda y medidas de dispersión de los datos (tabla 2) correspondientes a variables demográficas.

Tabla 1. Resumen de datos
Tabla 2. Medidas de dispersión y moda

Los resultados anteriores señalan que la media de edad en las mujeres en temas de morosidades es de aproximadamente 39 años, habiendo una desviación estándar de ±12.19 años en los datos. Este dato representa un 31% sobre la media. Finalmente, en lo que respecta a la moda o bien el dato más común, son los 30 años.

Por otro lado, la edad promedio en los hombres con pagos atrasados es de 39 años, es decir 1 año menos que en las mujeres. La desviación estándar es unos cuantos meses más amplia (±12.69). Respecto al coeficiente de variación, este representa un 33% sobre la media, lo que representa una dispersidad ligeramente mayor en comparación con los datos femeninos.

Para comprender de mejor forma el comportamiento de ambos géneros se muestra el siguiente histograma:

Gráfica 1. Histogramas con los perfiles demográficos

Fuente: Elaboración propia, 2020.

En la gráfica de la izquierda (mujeres), los rangos más altos de edades oscilan entre los 25 hasta los 40 años. Esto significa que la concentración de los datos se encuentra en las edades más jóvenes, especialmente a los 30 años (la barra más grande), seguida por la barra de los 35 - 40 años. Y no es de sorprenderse ya que la primera [barra] corresponden a la moda, mientras que la segunda a la media y la mediana. Más allá de los 40 años se logra ver un decrecimiento logarítmico hacia el lado derecho (un sesgo). Esto quiere decir que conforme se avanza en edad, cada vez hay menos registros de clientes mujeres.

La gráfica de la derecha (hombres) muestra un comportamiento similar: una concentración mayor en las edades jóvenes con un sesgo hacia el lado derecho. Sin embargo es importante prestar atención a dos factores: 1) la edad con mayor frecuencia (25 años) posee un valor 60% más grande que el de las mujeres, lo que quiere decir que los hombres poseen más créditos ante las mujeres en el mismo rango de edad; 2) el sesgo es prácticamente lineal, lo que quiere decir que, si bien decrecen conforme avanzan las edades, su descenso es más paulatino. Esto apunta a que los hombres incurren en más morosidad que las mujeres en todos rangos de edad.

Ahora bien, es momento de ver estos datos desde el panorama de las medidas de concentración. Para ello se utilizarán los estadísticos obtenidos anteriormente a través de los gráficos de cajas.

Gráfica 2. Medidas de posición del perfil demográfico

Las medidas de posición son una excelente herramienta para comprender la concentración de los datos. A continuación se presentan gráficos de cajas que describen dicho comportamiento.

Fuente: Elaboración propia, 2020

La concentración de los datos es muy competitiva entre ambos géneros. La caja de los hombres es un poco más robusta dado por una mayor cantidad de datos atípicos o outliers. No obstante la diferencia entre ambos grupos es nada más de 1 año, y por lo que cualquier diferencia se considera insignificativa.

En general se puede decir que, en temas de concentración, ambos géneros son prácticamente idénticos.

 

2.2 Productos y demografía

Es momento de conocer como las dos variables anteriores entran en juego con los productos de la entidad financiera. En temas de créditos la organización emite 5 tipos:

  • Préstamos mayores a Q6,000
  • Préstamos menores a Q4,000
  • Consumo en línea blanca
  • Adquisición de motos
  • Ampliaciones de crédito

En base a lo anterior, a continuación se presenta una gráfica que relaciona esta variable respecto a los géneros para entender el comportamiento de compra.

 

Gráfica 3. Comportamiento de compra según el género

Fuente: Elaboración propia, 2020

A simple vista se puede observar que los hombres son el mercado objetivo de la entidad financiera. El producto más consumido son los préstamos menores. Le siguen los créditos por consumo; luego se encuentran las ampliaciones de créditos, los cuales oscilnan entre Q.500 y Q.7,500. En cuarta posición están los préstamos mayores; y finalmente aquellos emitidos para adquirir motos. Este mismo comportamiento se refleja en las mujeres solo que en menor proporción.

A continuación se presenta un análisis más concreto donde se integra la variable edad y las medidas de posición.

Gráfica 4. Comportamiento de compra según edades

Fuente: Elaboración propia, 2020.

Préstamos menores Respecto a la concentración de edades, se puede decir que es una de las más amplias, puesto que inicia a los 25 y termina a los 50 años, sin afinidad específica en género. Quiere decir que es un producto buscado por todos los segmentos. Respecto a los outliers, es uno de los productos con mayor cantidad de ellos (en ambos géneros).

Préstamos mayores Tiene un comportamiento bastante similar al anterior. Sin embargo existe la concentración se desplaza en rangos de edades: de 35 a 55 años. Es decir que es un producto que lo buscan personas en edades más maduras. En cuanto al género es un factor insignificativo; y respecto a los outliers se distribuyen equitativamente.

Ampliación Las ampliaciones tienen una concentración mayor en hombres que en mujeres. El promedio entre ambos oscila entre los 34 y 54 años de edad. Por ende también es un producto buscado por personas de varias edades. Puede ser que las mismas personas anteriores busquen extender el préstamo otorgado para algún fin.

Consumo Los créditos por consumo son otorgados, en su mayoría, a un perfil femenino joven. La concentración de datos promedio oscila entre los 24 y 42 años, y una mediana entre los 36 y 38 años. Contrariamente es el producto con la mayor atipicidad en datos, un fenómeno bastante extraño.

Motos Evidentemente es un producto consumido ampliamente por las mujeres y bastante concentrado entre hombres, hablando en términos de edad. El rango inicia a los 25 años en ambos géneros, pero finalizando a los 38 y 43 años de edad en hombres y mujeres, respectivamente. Además es interesante observar que los hombres presentan atipicidad a partir de los 60 años, pero sobre todo que el dato máximo en mujeres sea 70 años.

 

2.3 Morosidad en relación a la edad

Antes de comenzar este apartado es necesario hacer una aclaración: de ahora en adelante los productos serán clasificados de tres maneras: 1) préstamos (engloba a los menores, mayores y ampliaciones); 2) motos; y 3) consumo. Se hace esto porque es la clasificación que brinda la organización internamente. Además, como se vio anteriormente, no existe diferencia abismal entre los primeros tres.

A continuación se presenta una gráfica de densidad por cada producto evaluando la morosidad a través de 8 meses, respecto a las edades de la muestra. Esto permitirá comprender el factor “incumplimiento” a lo largo de dos factores temporales: edad y meses del año.

Cabe la pena mencionar que son clientes que poseen un producto y nada más que ese producto.

Gráfica 5. Morosidad respecto a las motos

Fuente: Elaboración propia, 2020.

La gráfica anterior muestra que la mayoria de meses tienen el siguiente patrón: 1) una mayor concentración en el intervalo de 20 a 30 años; 2) curvas atípicas para el mes de junio y diciembre.La de diciembre evidencia un comportamiento menor ya que muchas personas aprovechan su Aguinaldo para hacer sus pagos.

 

Gráfica 6. Morosidad respecto a consumos

Fuente: Elaboración propia, 2020.

Para el producto consumo, la gráfica muestra un patrón semejante en todos los meses con una concentración alta en las edades de 25 y 32 años. Difiere ligeramente el mes de julio. Esto evidencia que, en temas de compra de línea blanca, los jóvenes son los más morosos por sobre las demás edades, pero que aprovechan a hacer sus pagos en julio con el Bono 14.

 

Gráfica 7. Morosidad respecto a préstamos

Fuente: Elaboración propia, 2020.

Finalmente, el clúster de préstamos muestra el nivel más alto de morosidad (encuanto a productos), atribuido en personas maduras, comprendidas entre 38 y 42 años de edad. El patrón se repite en los 8 meses de medición.

 

2.4 Morosidad respecto al género

Como último análisis de la parte descriptiva es importante conocer si la morosidad es algo que va vinculado al género. Para ello se realizó un gráfico Trellis donde, además de dicha variable, se segmenta por: 1) producto adquirido; y 2) el grado de morosidad. Este último puede ser de dos tipos: cuentas recuperables (menos de 120 días de atraso) y cuentas no recuperables o incobrables (más de 120 días de atraso).

Gráfica 8. Recuperación de cartera por producto

Fuente: Elaboración propia, 2020.

Como se puede obserar, para ambos géneros el comportamiento demuestra una similitud relativa. Por ende, el género no es un factor para medir el atraso por producto.

 

2.5 Insights

  • ¿Qué se puede inferir de la frecuencia en términos de edades respecto al perfil demográfico? La frecuencia indica qué tantos datos existen entre cierto intervalo. Como se pudo observar, la frecuencia es mayor en el rango de los 25 a 30 años entre ambos géneros. Sin embargo, sobresale +60% en los hombres. Esto quiere decir que, en caso la organización necesite idear su buyer persona puede partir de una figura masculina con 25 años de edad puesto que es donde existen más casos.

  • ¿Qué nos dice que la desviación estándar sea similar en ambos géneros? La desviación estándar es una medida de dispersión e indica qué tan alejados se encuentran, en promedio, los datos de la media. El hecho que este estadístico sea muy similar (±12 años) significa que la concentración de los datos es prácticamente el mismo entre ambos géneros. Es decir que, partiendo de una media de 38 años, en promedio los acreditados se encuentran entre los 26 y 50 años, tanto en hombres como en mujeres.

  • ¿Qué significa que el sesgo sea lineal en los hombres frente al sesgo logarítmico en las mujeres? Una función exponencial desciende en mayor proporción frente a una lineal con pendiente negativa. Entonces, el hecho que el sesgo sea lineal en los hombres denota un decrecimiento “menos considerado” frente al de las mujeres. En otras palabras, conforme avanzan las edades es más probable encontrar hombres que incurren en morosidad que mujeres.

  • ¿Qué nos dicen las medidas de posición respecto a los productos adquiridos y el perfil demográfico? El clúster de préstamos se concentra entre los 25 y 55 años de edad, sin discriminar el género. Por otro lado los créditos por adquisición de línea blanca (consumo) tienen una concentración más amplia en mujeres de 24 y 42 años. Finalmente, y no muy distante del anterior, la concentración de créditos por motocicletas, es entre 25 y 43 años, siendo más buscado por el género femenino.

 

3. Problemática del evento en específico

El foco de atención para esta problemática se centra en los ya mencionados clientes no recuperados. Este será el evento a evaluar. Para ello se mide la proporción de clientes irrecuperables (atraso de 90 días o más) como numerador y el denominador será el total de elementos del conjunto al que pertenecen. Por ejemplo, para el universo de hombres que tienen un crédito para “motos”, se divide el total de clientes hombres irrecuperables entre el total de clientes hombres.

Para obtener un estadístico base se medirán los grupos por géneros:

#Hombres
nrow(filter(BloqueHomb,MarcaAtraso13Semanas=='No recuperado'))/nrow(BloqueHomb)*100
## [1] 24.4588
#Mujeres
nrow(filter(BloqueMuj,MarcaAtraso13Semanas=='No recuperado'))/nrow(BloqueMuj)*100
## [1] 24.77075

El índice para hombres es de 24.4% mientras que el de mujeres es de 24.77. Si se promedian ambos resultados, se podría decir que el 24% de los casos son clientes no recuperados.

Los eventos son los siguientes: 0 - Ninguna persona será incobrable 1 - 1 persona será incobrable 2 - 2 personas serán incobrables.

Entonces, de 10 personas que alcanzaron el estatus de incobrable dado que ya contaban con 30 días de atraso la probabilidad de que 3 personas (25%) sean considerados incobrables. El supuesto es si dos personas llegan a un atraso de 30 días, cual su probabilidad de ser considerados incobrables.

Supuesto Si 2 personas llegan a un atraso de 30 días ¿cual es la probabilidad de ser considerados incobrables?

4. Análisis probabilístico

4.1 Obtención de la PDF

Tabla 3. PDF

Gráfica 9. Gráfica de la PDF

n<-10
p<-0.46666667  #--px
x<-0:10
pdf<-dbinom(x,n,p)
barplot(pdf,main="Distribución Binomial",names.arg = x)

Fuente: Elaboración propia, 2020.

El resultado indica un valor de 0.06, como probabilidad que ambos sean considerados incobrables.

 

4.2 Valor esperado

A continuación se obtendrá el valor esperado de la distribución, lo que equivale a la media pondereada del mismo.

## [1] 0.6

El valor esperado del evento es de 0.6 para el ejercicio del evento de cliente no recuperable.

 

4.3 Varianza

## [1] 0.3733333

La varianza es de 0.37, que indica qué tan dispersos se encuentran los datos respecto al valor esperado. Como el anterior es 0.6, significa que el resto de valores tiende alrededor de la mitad tanto positiva como negativa.

5. Conclusiones

6. Recomendaciones