Clasificador KNN de Clientes Pagadores y no Pagadores

Fases del Proceso KDD

1. Dominio del problema

El problema a abordar es la clasificación de clientes bancarios para determinar si, en base a su perfil y características, pagarán o no un crédito solicitado. Esto tiene implicaciones directas en la evaluación de riesgo crediticio por parte de los bancos, lo cual es crucial para la sostenibilidad financiera de estas instituciones.

En el análisis del conjunto de datos de créditos bancarios, se identificaron un total de 12 variables. De estas, se seleccionaron tres variables para el desarrollo del modelo KNN: edad, credito y cumplio. A continuación, se detalla la naturaleza de cada variable, su tipo y categoría:

Variables Identificadas

Edad

Variable cuantitativa continua: la edad de los clientes puede influir en su comportamiento de pago, ya que diferentes grupos de edad pueden tener diferentes patrones financieros.

Importancia: la edad es relevante porque puede estar asociada con la estabilidad laboral, ingresos y hábitos de consumo, factores que pueden influir en la capacidad de pago de un cliente.

Credito

Variable cuantitativa Continua: esta variable representa la cantidad de crédito otorgado a cada cliente.

Importancia: entender la relación entre la cantidad de crédito y el cumplimiento del pago es fundamental, ya que un mayor crédito puede conllevar a mayores riesgos de incumplimiento.

Cumplio

Variable cualitativa nominal: esta variable indica si el cliente cumplió o no con sus obligaciones de pago.

Importancia: esta variable es crucial para el modelo, ya que es la etiqueta que se intenta predecir. Conocer si un cliente ha cumplido o no permite evaluar el riesgo de crédito y ajustar las estrategias de otorgamiento de créditos.

Se optó por incluir solo las variables edad, credito y cumplio en el modelo KNN debido a los siguientes motivos:

Relevancia Directa: estas variables tienen una relación directa con la capacidad y comportamiento de pago del cliente.

Simplicidad: utilizar un número reducido de variables ayuda a simplificar el modelo, evitando el sobreajuste y facilitando la interpretación de los resultados.

Disponibilidad de Datos: estas variables son generalmente fáciles de obtener y están menos sujetas a errores de medición, lo que aumenta la confiabilidad del modelo.

Además de las variables seleccionadas, hay otras tres variables que también son significativas en el análisis del comportamiento de pago de los clientes, que son:

Valor en Pesos

Tipo: Cuantitativa
Categoría: Continua
Breve descripción: Representa el valor total del crédito en pesos colombianos.
Importancia: El valor en pesos es crucial para determinar la capacidad de pago de un cliente. Un mayor monto puede aumentar la probabilidad de incumplimiento.

Horas de Clase

Tipo: Cuantitativa
Categoría: Continua
Breve descripción: Indica la cantidad de horas que el cliente ha dedicado a educación o capacitación.
Importancia: Esta variable puede reflejar la inversión en educación y desarrollo personal, lo que podría correlacionarse con una mayor estabilidad financiera y menor riesgo de incumplimiento.

Estudio

Tipo: Cualitativa
Categoría: Ordinal
Breve descripción: Indica el nivel educativo del cliente (por ejemplo, primaria, secundaria, universitario).
Importancia: Un mayor nivel educativo generalmente se asocia con una mejor capacidad de gestión financiera y, por ende, una mayor probabilidad de cumplimiento en los pagos.

2. Selección (Datos objetivo)

Se seleccionaron datos sintéticos que incluyen tres variables principales: la edad del cliente, el monto del crédito solicitado y una variable categórica que indica si el cliente pagó o no el crédito. Esta selección de datos es clave para entrenar el modelo de KNN y realizar predicciones sobre nuevos solicitantes de crédito(Algoritmo KNN aplicado …).

3. Limpieza de datos (Datos procesados)

En esta fase, se realizó un filtro de los datos para separar a los clientes que pagaron de aquellos que no pagaron el crédito. Además, se identificaron posibles valores atípicos y se prepararon los datos para su análisis. Por ejemplo, la columna de “historial de pago” fue transformada a valores binarios (0 para no pago y 1 para pago), facilitando la tarea de clasificación(Algoritmo KNN aplicado …).

4. Transformación (Datos transformados)

Se aplicó una técnica de escalamiento utilizando el método MinMaxScaler, que ajusta los datos dentro de un rango de 0 a 1. Esta transformación fue necesaria para que las diferentes variables (edad y monto de crédito) se encuentren en la misma escala, evitando que una variable tenga más peso que otra en el modelo de KNN(Algoritmo KNN aplicado …).

Esta estructura proporciona un documento organizado y claro sobre el proceso aplicado, abarcando desde la fundamentación teórica hasta la implementación del modelo KNN en el análisis de créditos.

Clasificador KNN de Clientes Pagadores y no Pagadores

Josué Romero

14/10/2024

Introducción

Justificación

Objetivos

Objetivo General

Objetivos Específicos