Introducción

El avance en la ciencia de datos y el aprendizaje automático ha facilitado el análisis predictivo en diversas áreas, entre ellas, el sector bancario. La clasificación de clientes, especialmente en lo que respecta al riesgo crediticio, es fundamental para minimizar las pérdidas y optimizar la asignación de recursos financieros. En este proyecto, se ha implementado el algoritmo de los K-vecinos más cercanos (KNN) con el objetivo de predecir si un cliente pagará o no un crédito solicitado. A través de este modelo de clasificación, es posible mejorar la toma de decisiones en instituciones bancarias, utilizando datos relacionados con la edad del cliente, el monto del crédito solicitado y el historial de pago.

Justificación

El análisis de crédito es uno de los procesos más críticos para los bancos, ya que una mala evaluación de riesgo puede llevar a pérdidas significativas. Implementar técnicas de aprendizaje automático como el KNN proporciona una herramienta eficaz para evaluar el perfil de un cliente basado en la similitud con otros solicitantes. Este proyecto justifica la necesidad de integrar modelos de predicción robustos en el proceso de toma de decisiones crediticias, para mejorar la tasa de éxito en el otorgamiento de créditos y reducir la morosidad. Además, dado que los datos utilizados son sintéticos, este proyecto ofrece un entorno controlado para probar y optimizar el modelo antes de su implementación en escenarios reales.

Objetivos

Objetivo General

  • Desarrollar un modelo de clasificación basado en el algoritmo KNN para predecir la probabilidad de pago de créditos bancarios por parte de los clientes.

Objetivos Específicos

  • Implementar un modelo de KNN utilizando datos sintéticos de clientes bancarios, que incluya variables como la edad del cliente, el monto solicitado y el historial de pago.
  • Realizar un proceso de limpieza, transformación y escalamiento de datos para asegurar la calidad de los mismos.
  • Evaluar el desempeño del modelo mediante técnicas de validación cruzada, para asegurar su robustez y capacidad predictiva.
  • Identificar patrones en los datos que permitan caracterizar mejor a los clientes con mayor riesgo de no pago.

Fases del Proceso KDD

1. Dominio del problema

El problema a abordar es la clasificación de clientes bancarios para determinar si, en base a su perfil y características, pagarán o no un crédito solicitado. Esto tiene implicaciones directas en la evaluación de riesgo crediticio por parte de los bancos, lo cual es crucial para la sostenibilidad financiera de estas instituciones.

En el análisis del conjunto de datos de créditos bancarios, se identificaron un total de 12 variables. De estas, se seleccionaron tres variables para el desarrollo del modelo KNN: edad, credito y cumplio. A continuación, se detalla la naturaleza de cada variable, su tipo y categoría:

Variables Identificadas

Edad

Variable cuantitativa continua: la edad de los clientes puede influir en su comportamiento de pago, ya que diferentes grupos de edad pueden tener diferentes patrones financieros.

Importancia: la edad es relevante porque puede estar asociada con la estabilidad laboral, ingresos y hábitos de consumo, factores que pueden influir en la capacidad de pago de un cliente.

Credito

Variable cuantitativa Continua: esta variable representa la cantidad de crédito otorgado a cada cliente.

Importancia: entender la relación entre la cantidad de crédito y el cumplimiento del pago es fundamental, ya que un mayor crédito puede conllevar a mayores riesgos de incumplimiento.

Cumplio

Variable cualitativa nominal: esta variable indica si el cliente cumplió o no con sus obligaciones de pago.

Importancia: esta variable es crucial para el modelo, ya que es la etiqueta que se intenta predecir. Conocer si un cliente ha cumplido o no permite evaluar el riesgo de crédito y ajustar las estrategias de otorgamiento de créditos.

Se optó por incluir solo las variables edad, credito y cumplio en el modelo KNN debido a los siguientes motivos:

Relevancia Directa: estas variables tienen una relación directa con la capacidad y comportamiento de pago del cliente.

Simplicidad: utilizar un número reducido de variables ayuda a simplificar el modelo, evitando el sobreajuste y facilitando la interpretación de los resultados.

Disponibilidad de Datos: estas variables son generalmente fáciles de obtener y están menos sujetas a errores de medición, lo que aumenta la confiabilidad del modelo.

Además de las variables seleccionadas, hay otras tres variables que también son significativas en el análisis del comportamiento de pago de los clientes, que son:

Valor en Pesos

  • Tipo: Cuantitativa
  • Categoría: Continua
  • Breve descripción: Representa el valor total del crédito en pesos colombianos.
  • Importancia: El valor en pesos es crucial para determinar la capacidad de pago de un cliente. Un mayor monto puede aumentar la probabilidad de incumplimiento.

Horas de Clase

  • Tipo: Cuantitativa
  • Categoría: Continua
  • Breve descripción: Indica la cantidad de horas que el cliente ha dedicado a educación o capacitación.
  • Importancia: Esta variable puede reflejar la inversión en educación y desarrollo personal, lo que podría correlacionarse con una mayor estabilidad financiera y menor riesgo de incumplimiento.

Estudio

  • Tipo: Cualitativa
  • Categoría: Ordinal
  • Breve descripción: Indica el nivel educativo del cliente (por ejemplo, primaria, secundaria, universitario).
  • Importancia: Un mayor nivel educativo generalmente se asocia con una mejor capacidad de gestión financiera y, por ende, una mayor probabilidad de cumplimiento en los pagos.

2. Selección (Datos objetivo)

Se seleccionaron datos sintéticos que incluyen tres variables principales: la edad del cliente, el monto del crédito solicitado y una variable categórica que indica si el cliente pagó o no el crédito. Esta selección de datos es clave para entrenar el modelo de KNN y realizar predicciones sobre nuevos solicitantes de crédito​(Algoritmo KNN aplicado …).

3. Limpieza de datos (Datos procesados)

En esta fase, se realizó un filtro de los datos para separar a los clientes que pagaron de aquellos que no pagaron el crédito. Además, se identificaron posibles valores atípicos y se prepararon los datos para su análisis. Por ejemplo, la columna de “historial de pago” fue transformada a valores binarios (0 para no pago y 1 para pago), facilitando la tarea de clasificación​(Algoritmo KNN aplicado …).

4. Transformación (Datos transformados)

Se aplicó una técnica de escalamiento utilizando el método MinMaxScaler, que ajusta los datos dentro de un rango de 0 a 1. Esta transformación fue necesaria para que las diferentes variables (edad y monto de crédito) se encuentren en la misma escala, evitando que una variable tenga más peso que otra en el modelo de KNN​(Algoritmo KNN aplicado …).

Esta estructura proporciona un documento organizado y claro sobre el proceso aplicado, abarcando desde la fundamentación teórica hasta la implementación del modelo KNN en el análisis de créditos.