Visión Estratégica: ¿Qué estamos construyendo?

“Transformamos datos complejos en decisiones de negocio rentables.”

  • Objetivo Central: Cuantificar con una probabilidad matemática quién pagará y quién podría incumplir sus obligaciones de pago con el banco, Riesgo de Incumplimiento (Default).
  • La Herramienta: Un Scorecard analítico que genera un puntaje único por cliente.
  • Impacto: Sustituimos la subjetividad por objetividad y consistencia en cada crédito otorgado.

Agenda del Proyecto

1. Fundamentos del Scorecard

  • ¿Qué es y cómo funciona?: Transformación de datos en probabilidades matemáticas de impago.

  • Componentes clave: Selección de variables, asignación de pesos (WoE) y escalamiento de puntos.

2. Metodología Propuesta

  • Núcleo Estadístico: Implementación de un modelo de clasificación mediante Regresión Logística.
  • Justificación: Equilibrio óptimo entre capacidad predictiva, puesta en producción y transparencia (interpretabilidad).

3. Arquitectura del Modelo

  • Ventanas de Tiempo:
    • Ventana de observación (histórico).
    • Ventana de desempeño (maduración del crédito).
  • Variables Predictoras:
    • Indicadores y datos de corte financieros.
    • Comportamiento en el buró de crédito.
    • Historial interno de transaccionalidad.
  • Proceso de Construcción:
    • Limpieza y curaduría de datos.
    • Análisis Univariado y Multivariado.
    • Estimación de Coeficientes y Validación.

4. Métricas y Validación

  • Gini, KS, AUC.
    • Medición de qué tan bien el modelo separa a los clientes de alto riesgo de los de bajo riesgo.
    • Verificación de que el modelo asigne correctamente un puntaje de mayor riesgo a un cliente “malo” que a uno “bueno” elegido al azar.
    • Identificar el punto de máxima separación entre las distribuciones de clientes buenos y malos.
  • Matriz de confusión, Precisión, Recall (Sensibilidad).
    • Comparamos la predicción del modelo contra la realidad histórica.
    • Validación de los clientes marcados como “Malos”, cuántos cayeron realmente en impago.
    • De los clientes “malos”, que porcentaje el modelo es capaz de capturar.

5. Puntos de Corte y Estrategia de Aprobación

Un modelo no es estático; requiere un marco de control para asegurar su vigencia.

  • Definición de Puntos de Corte (Cut-off):
    • No es solo un número; es una decisión de negocio. Establecemos umbrales basados en el apetito de riesgo del banco.

Zona Verde

Aprobación Automática El cliente supera el puntaje de seguridad.

Zona Amarilla

A Criterio del Especialista El cliente minimamente cumple con las condiciones (casos fronterizos).

Zona Roja

Rechazo Automático El riesgo excede las políticas de la institución.

Contexto Estratégico

El Desafío del Crédito en la Era Digital

Situación Actual

  • Crecimiento exponencial de solicitudes.

  • Necesidad de decisiones en tiempo real.

  • Competencia de fintechs y bancos digitales.

  • Regulaciones cada vez más exigentes.

Oportunidad

  • Datos históricos disponibles

  • Capacidad de cómputo moderna

  • Cultura de data analytics en evolución

El Núcleo Tecnológico: Estadística de Precisión

¿Por qué Regresión Logística?

A diferencia de modelos abstractos (“cajas negras”), nuestra metodología se basa en estadística clásica robusta.

  • Efectividad: Alta capacidad predictiva del incumplimiento.
  • Transparencia: Fácil de explicar a entes reguladores y personal no técnico.
  • Agilidad: Calibración y puesta en producción rápida.

La regresión logística mide la relación entre una o más variables independientes y la variable dependiente categórica mediante la estimación de probabilidades a través de una función logística.

\[ \ln\left(\frac{P(X)}{1 - P(X)}\right) = \beta_0 + \beta_1x_1 + \dots + \beta_nx_n \]

Componentes del Score: El ADN del Cliente

El puntaje final es la suma de pesos específicos asignados a variables clave:

Categoría Variables Críticas
Ratio de Liquidez Corriente Capacidad de pagar deudas de corto plazo con sus activos líquidos.
Apalancamiento (Deuda/Patrimonio) Qué tan endeudada está la empresa respecto a lo que poseen los dueños.
Comportamiento Historial en Buró, puntualidad, créditos abiertos.

Análisis de Predictibilidad de Variables.

# resumen IV y WoE por variable
lapply(
    X = vars, 
    FUN = (iv, woe),
    dt = dt_sets$dt_train, 
    y = 'status'
    ) -> predict_summ
names(predict_summ) <- vars
print(predict_summ)

## |variable       |breaks         |     woe| total_iv|
## |:--------------|:--------------|-------:|--------:|
## |prom_saldo     |missing        |   1.402|    2.216|
## |prom_saldo     |[0, 100)       |   1.369|    2.216|
## |prom_saldo     |[100, 200]     |  -1.204|    2.216|
## |prom_saldo     |[200, 200<=x)  |  -1.102|    2.216|
## |prom_dep       |missing        |   1.607|    1.801|
## |prom_dep       |28.5           |   0.296|    1.801|
## |prom_dep       |182            |  -1.551|    1.801|
## |nro_moras_obs  |1              |  -0.636|    0.309|
## |nro_moras_obs  |2              |   0.386|    0.309|

Cada variable es filtrada por su Poder Predictivo (IV) y su Fuerza de Evidencia (WoE).

Construcción y Diagnóstico del Modelo

Tenemos el Modelo Logístico:

\[ \ln\left(\frac{P(X)}{1 - P(X)}\right) = \beta_0 + \beta_1x_1 + \dots + \beta_nx_n \] Conformado por:

  • Probabilidad (\(P\)): La probabilidad de que un cliente sea categorizado como “Malo”.
  • Intersección (\(\beta_0\)): El riesgo base o punto de partida del modelo.
  • Coeficientes (\(\beta_i\)): El peso asignado a cada variable (\(X_i\)). Un \(\beta\) positivo y alto indica que esa variable aumenta significativamente el riesgo.

Salida y Diagnóstico del Modelo Logístico

# construccion del modelo logistico
set.seed(123)
glm(
    status ~ .,
    family = binomial(link = 'logit'),
    data = dt_woe$dt_train
    ) -> logit_model

summ(logit_model, model.info = FALSE)

## MODEL FIT:
## χ²(5) = 42585.49, p = 0.00
## Pseudo-R² (Cragg-Uhler) = 0.39
## Pseudo-R² (McFadden) = 0.29
## AIC = 106387.41, BIC = 106446.88 
## 
## Standard errors: MLE
## -------------------------------------------------------
##                             Est.   S.E.   z val.      p
## ------------------------ ------- ------ -------- ------
## (Intercept)                -0.74   0.01   -74.34   0.00
## prom_saldo                  0.80   0.04    21.26   0.00
## prom_dep                    0.75   0.04    19.38   0.00
## nro_moras_obs               0.81   0.01    57.70   0.00
## -------------------------------------------------------

Validación y Desempeño

Evaluación del Modelo (Datos de Prueba)

Una vez entrenado, el modelo se somete a una prueba de “estrés” utilizando el set de datos de prueba (20% - 30% del total), verificando su capacidad de generalización.

Métricas de Clasificación (Matriz de Confusión)

Métrica Cálculo
Precisión \(\frac{VP}{VP + FP}\)
Recall \(\frac{VP}{VP + FN}\)
F1-Score \(\frac{2 \cdot P \cdot R}{P + R}\)

Validación del Modelo Logístico

# metricas
threshold = 0.181
mapply(
    function(x,y){
        perf_eva(
            pred = x,
            label = as.numeric(as.character(y$status)), 
            confusion_matrix = TRUE,
            threshold = threshold,
            show_plot = FALSE
            )
        }, 
    predict_model, dt_woe, SIMPLIFY = F
    ) -> metrics
# matriz de confusión
metrics$dt_test$confusion_matrix

## $dat
##    label pred_0 pred_1     error
## 1:     0  44434  19041 0.2999764
## 2:     1     44    290 0.1317365
## 3: total  44478  19331 0.2990957

# precisión, recall, media armónica entre presición y recall
accuracy.meas(
    response = dt_woe$dt_test$status,
    predicted =  predict_model$dt_test,
    threshold = threshold
    )
## 
## Call: 
## accuracy.meas(response = dt_woe$dt_test$status, predicted = predict_model$dt_test, 
##     threshold = threshold)
## 
## Examples are labelled as positive when predicted is greater than 0.181 
## 
## precision: 0.015
## recall: 0.868
## F: 0.015

# otras métricas
metrics$dt_test$binomial_metric

## $dat
##           MSE      RMSE   LogLoss        R2        KS       AUC      Gini
## 1: 0.08437658 0.2904765 0.2693769 -15.20454 0.6084199 0.8592149 0.7184298

Propuesta Técnica Para la Creación de un Scorecard “Dinámico”

Para el esquema de negocio que se desea proponer se requiere de un modelo dinámico que sea capaz no solo de mitigar el riesgo al momento del otorgamiento del crédito, si no que también permitá la segmentación por niveles de riesgo y valor. Para ello se propone integrar un complemento al modelo que cumpla la misión de evaluar el comportamiento de pago crediticio, logrando segmentar a clientes en función de su desempeño y permitir “subir” o “bajar” niveles previamente establecidos.

  • Fase 1: Scoring de Admisión (Modelo Logístico): Determina la probabilidad de incumplimiento inicial para decidir el otorgamiento del crédito.

  • Fase 2: Scoring de Comportamiento (Behavioral Engine): Un modelo recurrente que recalibra el puntaje del cliente basado en su actividad reciente.

  • Sinergia: La combinación de ambos genera el Score Maestro, el cual ubica al cliente en categorías de gestión específicas.

Beneficios para la Institución

Una ventaja competitiva real:

  • Velocidad: Procesamiento de solicitudes masivas.
  • Rentabilidad: Reducción drástica del índice de mora mediante una selección optimizada donde se busca tomar una decisión en base a los patrones ocultos en los datos.
  • Escalabilidad: Capacidad de lanzar campañas de créditos pre-aprobados con seguridad de mantener un ratio de morosidad “aceptable” por la entidad bancaria.