El avance en la ciencia de datos y el aprendizaje automático ha facilitado el análisis predictivo en diversas áreas, entre ellas, el sector bancario. La clasificación de clientes, especialmente en lo que respecta al riesgo crediticio, es fundamental para minimizar las pérdidas y optimizar la asignación de recursos financieros. En este proyecto, se ha implementado el algoritmo de los K-vecinos más cercanos (KNN) con el objetivo de predecir si un cliente pagará o no un crédito solicitado. A través de este modelo de clasificación, es posible mejorar la toma de decisiones en instituciones bancarias, utilizando datos relacionados con la edad del cliente, el monto del crédito solicitado y el historial de pago.
El análisis de crédito es uno de los procesos más críticos para los bancos, ya que una mala evaluación de riesgo puede llevar a pérdidas significativas. Implementar técnicas de aprendizaje automático como el KNN proporciona una herramienta eficaz para evaluar el perfil de un cliente basado en la similitud con otros solicitantes. Este proyecto justifica la necesidad de integrar modelos de predicción robustos en el proceso de toma de decisiones crediticias, para mejorar la tasa de éxito en el otorgamiento de créditos y reducir la morosidad. Además, dado que los datos utilizados son sintéticos, este proyecto ofrece un entorno controlado para probar y optimizar el modelo antes de su implementación en escenarios reales.
El problema a abordar es la clasificación de clientes bancarios para determinar si, en base a su perfil y características, pagarán o no un crédito solicitado. Esto tiene implicaciones directas en la evaluación de riesgo crediticio por parte de los bancos, lo cual es crucial para la sostenibilidad financiera de estas instituciones.
En el análisis del conjunto de datos de créditos bancarios, se identificaron un total de 12 variables. De estas, se seleccionaron tres variables para el desarrollo del modelo KNN: edad, credito y cumplio. A continuación, se detalla la naturaleza de cada variable, su tipo y categoría:
Variable cuantitativa continua: la edad de los clientes puede influir en su comportamiento de pago, ya que diferentes grupos de edad pueden tener diferentes patrones financieros.
Importancia: la edad es relevante porque puede estar asociada con la estabilidad laboral, ingresos y hábitos de consumo, factores que pueden influir en la capacidad de pago de un cliente.
Variable cuantitativa Continua: esta variable representa la cantidad de crédito otorgado a cada cliente.
Importancia: entender la relación entre la cantidad de crédito y el cumplimiento del pago es fundamental, ya que un mayor crédito puede conllevar a mayores riesgos de incumplimiento.
Variable cualitativa nominal: esta variable indica si el cliente cumplió o no con sus obligaciones de pago.
Importancia: esta variable es crucial para el modelo, ya que es la etiqueta que se intenta predecir. Conocer si un cliente ha cumplido o no permite evaluar el riesgo de crédito y ajustar las estrategias de otorgamiento de créditos.
Se optó por incluir solo las variables edad, credito y cumplio en el modelo KNN debido a los siguientes motivos:
Relevancia Directa: estas variables tienen una relación directa con la capacidad y comportamiento de pago del cliente.
Simplicidad: utilizar un número reducido de variables ayuda a simplificar el modelo, evitando el sobreajuste y facilitando la interpretación de los resultados.
Disponibilidad de Datos: estas variables son generalmente fáciles de obtener y están menos sujetas a errores de medición, lo que aumenta la confiabilidad del modelo.
Además de las variables seleccionadas, hay otras tres variables que también son significativas en el análisis del comportamiento de pago de los clientes, que son:
Se seleccionaron datos sintéticos que incluyen tres variables principales: la edad del cliente, el monto del crédito solicitado y una variable categórica que indica si el cliente pagó o no el crédito. Esta selección de datos es clave para entrenar el modelo de KNN y realizar predicciones sobre nuevos solicitantes de crédito(Algoritmo KNN aplicado …).
En esta fase, se realizó un filtro de los datos para separar a los clientes que pagaron de aquellos que no pagaron el crédito. Además, se identificaron posibles valores atípicos y se prepararon los datos para su análisis. Por ejemplo, la columna de “historial de pago” fue transformada a valores binarios (0 para no pago y 1 para pago), facilitando la tarea de clasificación(Algoritmo KNN aplicado …).
Se aplicó una técnica de escalamiento utilizando el método MinMaxScaler, que ajusta los datos dentro de un rango de 0 a 1. Esta transformación fue necesaria para que las diferentes variables (edad y monto de crédito) se encuentren en la misma escala, evitando que una variable tenga más peso que otra en el modelo de KNN(Algoritmo KNN aplicado …).
Esta estructura proporciona un documento organizado y claro sobre el proceso aplicado, abarcando desde la fundamentación teórica hasta la implementación del modelo KNN en el análisis de créditos.