REPORTE TRABAJO 2: APLICACIONES DE REDES NEURONALES A DATOS TABULARES
REDES NEURONALES Y ALGORITMOS BIOINSPIRADOS
Presentado por:
Leonardo Federico Corona Torres
David Escobar Ruiz
Johan Sebastian Robles Rincón
Sebastián Soto Arcila
Profesor: Juan David Ospina Arango
Monitor: Andrés Mauricio Zapata Rincón
Universidad Nacional de Colombia
Facultad de Minas
Ingeniería de
Sistemas e Informática
12 de junio de 2025
Introducción
Las redes neuronales son un tipo de modelo computacional inspirado en
el funcionamiento del cerebro humano, compuesto por capas de unidades
llamadas neuronas artificiales (Wikipedia, s.f., Artificial Neural
Networks). Estas redes son capaces de aprender patrones complejos a
partir de grandes volúmenes de datos mediante un proceso conocido como
entrenamiento. A través de este proceso, ajustan internamente sus
parámetros para minimizar el error en la tarea que se les asigna.
Se utilizan ampliamente en tareas de clasificación, regresión,
detección de anomalías, procesamiento de imágenes, procesamiento de
lenguaje natural, entre muchas otras aplicaciones. Su capacidad para
capturar relaciones no lineales y complejas entre variables las
convierte en una herramienta poderosa dentro del campo del aprendizaje
automático.
Uno de los problemas clásicos en los que se aplican técnicas de
aprendizaje supervisado es la clasificación de riesgo de crédito , que
consiste en predecir la probabilidad de que un solicitante de crédito
cumpla o no con sus obligaciones financieras (Synapse Analytics, s.f.,
Credit Scoring Explained - The Problem Statement). Este tipo de modelos
es crucial para las instituciones financieras, ya que les permite tomar
decisiones más informadas, reducir riesgos y mejorar la asignación de
recursos.
En este contexto, las redes neuronales ofrecen una alternativa eficaz
frente a modelos más tradicionales, ya que pueden modelar relaciones no
evidentes entre los atributos financieros y demográficos de los
solicitantes y su comportamiento crediticio futuro. A pesar de que
requieren más datos y mayor capacidad de cómputo, su rendimiento suele
ser superior cuando se dispone de información suficiente y bien
estructurada.
Para facilitar el uso del modelo desarrollado, se construyó una
aplicación web que permite ingresar los datos relevantes del solicitante
y obtener, en tiempo real, la predicción del nivel de riesgo de crédito.
Esta interfaz busca demostrar cómo una solución basada en inteligencia
artificial puede integrarse fácilmente en entornos reales, brindando
accesibilidad, automatización y soporte a la toma de decisiones.
Metodología
El desarrollo del proyecto se dividió en tres etapas principales:
limpieza de datos y análisis exploratorio (EDA), ingeniería de features
y modelado. Cada una de estas fases fue abordada de manera modular para
facilitar la comprensión y el desarrollo iterativo del modelo.
Para el procesamiento y análisis, se utilizaron Jupyter Notebooks, lo
cual permitió una exploración interactiva del dataset. No obstante, se
reconoce que para entornos de producción y mejor escalabilidad, sería
recomendable implementar estos procesos como pipelines orquestados con
herramientas como Apache Airflow.
El dataset utilizado proviene de Kaggle y está disponible en su
respectivo enlace (Kaggle, s.f., Credit Risk Analysis).
Durante la etapa de análisis exploratorio y visualización, se hizo
uso de librerías como Seaborn y Matplotlib, mientras que para la
manipulación y transformación de los datos se emplearon NumPy y Pandas.
El preprocesamiento y el modelado inicial se realizaron con herramientas
de Scikit-learn, y para la construcción del modelo de red neuronal se
utilizó PyTorch, lo que permitió una mayor flexibilidad en la
implementación del modelo de deep learning.
Definición del problema
El riesgo crediticio se puede abordar como un problema de
clasificación binaria, en el que se busca predecir si un solicitante de
crédito representa un riesgo alto o bajo de incumplimiento. Esta tarea
es fundamental para instituciones financieras, ya que les permite tomar
decisiones más seguras y eficientes al momento de otorgar préstamos.
El objetivo principal de la solución a este problema es entrenar un
modelo basado en redes neuronales que sea capaz de aprender patrones a
partir de los datos históricos y realizar predicciones precisas sobre el
riesgo crediticio de nuevos solicitantes.
Para lograrlo, es necesario identificar y seleccionar las variables
más relevantes del conjunto de datos, de manera que el modelo pueda
capturar la información crítica que influye en el comportamiento
financiero de los individuos.
El qué tan bueno sea el modelo estará definido por las siguientes
métricas (Geeks for Geeks, 2025):
Accuracy: Proporción de predicciones correctas
sobre el total de casos.
Precision: Casos que el modelo predijo como alto
riesgo y sí lo eran realmente (verdaderos positivos).
Recall: Tasa de verdaderos positivos, es decir,
los casos que el modelo detectó correctamente de todos los casos de alto
riesgo.
F1-score: Media armónica entre precision y
recall.
AUC-ROC: Área bajo la curva ROC. Evalúa la
capacidad del modelo para distinguir entre clases. Mientras más cercano
a 1 esté esta métrica, más discriminativo será el modelo, lo cual es lo
ideal.
Parte 1. Limpieza de Datos y Análisis Exploratorio de Datos
A continuación se presenta una síntesis de lo realizado en el proceso
de limpieza de datos y análisis exploratorio de datos. Todo el código
con los detalles de implementación se puede encontrar en el archivo
poc_EDA.ipynb en el repositorio del proyecto.
1.1 Objetivos
Antes de comenzar a modelar, es necesario asegurarse de que los datos
están lo suficientemente procesados y preparados para poder entrenar el
modelo, de tal forma que este pueda alcanzar los niveles deseados en las
métricas previamente definidas.
Adicionalmente, se debe entender primero el conjunto de datos junto
con sus propiedades estadísticas tanto univariadas como multivariadas,
con el objetivo de encontrar patrones o relaciones que den pistas de qué
factores podrían estar más relacionados con la probabilidad de
cumplimiento o incumplimiento del pago del préstamo.
A manera de síntesis, se tienen los siguientes objetivos para la
limpieza de datos y el análisis exploratorio de datos:
Entender la estructura general del dataset y sus columnas,
recogiendo información como las dimensiones del dataset, sus tipos de
datos y cómo se ven las primeras y últimas filas del dataset.
Definir un conjunto de criterios de limpieza de datos previo al
análisis exploratorio de datos que permita evitar desvíos de los
patrones realmente relevantes del conjunto de datos.
Realizar una adecuada limpieza de los datos a partir de los
criterios anteriormente definidos.
Realizar un análisis univariado y multivariado de las columnas
tanto numéricas como no numéricas del dataset para poder entender de
mejor manera las propiedades estadísticas del mismo.
Derivar conclusiones relevantes a partir de cada análisis
realizado.
Contar con un dataset lo suficientemente limpio como para poder
seguir con un proceso de ingeniería de features.
1.2 Estructura del dataset
Antes de comenzar con la limpieza de los datos, se debe estar
familiarizado con el propio dataset. Es por esto que se parte de una
visión general, revisando la estructura del dataset, para después ir a
lo particular, revisando cada columna.
1.2.1 Origen del dataset
El dataset a utilizar se puede encontrar en (Kaggle, s.f., Credit
Risk Analysis).
1.2.2 Dimensiones del dataset
Las dimensiones del dataset, calculadas a partir de la lectura del
mismo como un DataFrame de pandas (ver código en repositorio), son las
siguientes:
| Columnas |
74 columnas |
| Filas |
887379 filas |
Tabla 1. Dimensiones del dataset crudo.
De la Tabla 1 se puede evidenciar que se está lidiando con un dataset
de tamaño relativamente grande, lo cual hay que considerar a la hora de
realizar la limpieza y el modelado.
Algo bueno a resaltar es que se cuenta con una buena abundancia de
datos para poder entrenar el modelo, y por lo tanto con una buena
limpieza y preprocesamiento, se cree que se pueden alcanzar valores
ideales para las métricas del modelo una vez entrenado.
1.2.3 Primeras y últimas 5 filas del dataset
Debido al gran tamaño del dataset, se complica la exploración del
mismo por el uso de herramientas de ofimática básicas como Excel o
Google Sheets. Es por esto que se optó por revisar las primeras y
últimas 5 filas del dataset por medio del uso de los métodos head() y
tail() de pandas.
Debido al gran tamaño del dataset no es posible adjuntar las filas y
columnas en este reporte. Sin embargo, se puede revisar el archivo
poc_EDA.ipynb en el repositorio del proyecto para revisarlas.
1.2.5 Conclusiones
A partir de lo anterior, se derivaron las siguientes
conclusiones:
Se cuenta con un dataset relativamente grande, con
aproximadamente 887K filas y 74 columnas. Se tendrá que hacer un
análisis riguroso para poder limpiar los datos apropiadamente.
Se cuenta con datos tanto de tipo numérico (float64 e int64) como
no numérico (object). Probablemente los de tipo no numérico pertenecen a
columnas de texto plano, categóricas y ordinales, que se tendrán que
tratar más adelante.
Puede que algunos valores de columnas object pertenezcan a
fechas, los cuales se analizarán más adelante.
Las columnas de identificación se podrán eliminar (id y
member_id) debido a que son de identificación de cada fila y no
impactarán en la probabilidad de pago.
1.3 Limpieza de datos inicial
Una vez más familiarizados con los datos, se procederá a definir
ciertos criterios de limpieza generales para implementar antes del
análisis exploratorio de datos.
1.3.1 Criterios de limpieza
Se definen los siguientes criterios de limpieza previo al análisis
con el objetivo de mitigar la cantidad de “pistas falsas” con las que se
podría estropear el entendimiento del dataset.
Criterio 1: El porcentaje de valores nulls no debe
superar el 80%:
Columnas que tengan más del 80% de sus valores nulos serán difíciles
de imputar mas adelante, y por lo tanto se optará por
eliminarlas.
Criterio 2: No se dejarán columnas de texto plano. Se
aceptarán columnas categóricas y ordinales que luego se
codificarán:
Columnas que sean de texto plano y no sigan ninguna estructura
definida que permitan tratarlas serán eliminadas debido a la dificultad
que podrían traer al momento de codificarlos a valores
numéricos.
Criterio 3: No se dejarán columnas de identificación, ya
que son para identificar filas y entidades y no están relacionados con
ningún patrón relevante para el análisis:
Columnas que correspondan a formas de identificación de filas serán
eliminadas ya que no contribuirán al análisis.
Criterio 4: Se descartarán columnas que tengan solamente
un valor único:
Se descartarán columnas que consten de solamente un valor único para
evitar redundancias entre los datos.
1.3.2 Cumplimiento de criterio 1
| desc |
761353 |
85.797951 |
| mths_since_last_record |
750326 |
84.555303 |
| mths_since_last_major_derog |
665676 |
75.015974 |
| annual_inc_joint |
886868 |
99.942415 |
| dti_joint |
886870 |
99.942640 |
| verification_status_joint |
886868 |
99.942415 |
| open_acc_6m |
866007 |
97.591559 |
| open_il_6m |
866007 |
97.591559 |
| open_il_12m |
866007 |
97.591559 |
| open_il_24m |
866007 |
97.591559 |
| mths_since_rcnt_il |
866569 |
97.654892 |
| total_bal_il |
866007 |
97.591559 |
| il_util |
868762 |
97.902024 |
| open_rv_12m |
866007 |
97.591559 |
| open_rv_24m |
866007 |
97.591559 |
| max_bal_bc |
866007 |
97.591559 |
| all_util |
866007 |
97.591559 |
| inq_fi |
866007 |
97.591559 |
| total_cu_tl |
866007 |
97.591559 |
| inq_last_12m |
866007 |
97.591559 |
Tabla 3. Columnas que tienen más del 80% de sus
valores como nulos.
Para cumplir el criterio del porcentaje de valores nulls se
identificaron las columnas que se muestran en la Tabla 3 que tienen un
porcentaje de valores nulls mayor al 80%.
Se procedió a eliminarlos, pasando de tener un dataset de 74 columnas
a uno de 55 columnas.
Se filtraron las columnas utilizando las herramientas y los métodos
de tratamiendo de datos de pandas.
1.3.3 Cumplimiento de criterio 2
Para el cumplimiento de este criterio se tuvieron que separar las
columnas numéricas de las no numéricas.
| term |
[’ 36 months’ ’ 60 months’] |
| grade |
[‘B’ ‘C’ ‘A’ ‘E’ ‘F’ ‘D’ ‘G’] |
| sub_grade |
[‘B2’ ‘C4’ ‘C5’ ‘C1’ ‘B5’ ‘A4’ ‘E1’ ‘F2’ ‘C3’ ‘B1’ ‘D1’ ‘A1’ ‘B3’
‘B4’ ‘C2’ ‘D2’ ‘A3’ ‘A5’ ‘D5’ ‘A2’] |
| emp_title |
[nan ‘Ryder’ ‘AIR RESOURCES BOARD’ ‘University Medical Group’
‘Veolia Transportaton’ ‘Southern Star Photography’ ‘MKC Accounting’
‘Starbucks’ ‘Southwest Rural metro’ ‘UCLA’ ‘Va. Dept of
Conservation/Recreation’ ‘Target’ ‘SFMTA’ ‘Internal revenue Service’
“Chin’s Restaurant” ‘Duracell’ ‘Connection Inspection’ ‘Network
Interpreting Service’ ‘Archdiocese of Galveston Houston’ ‘Osram
Sylvania’] |
| emp_length |
[‘10+ years’ ‘< 1 year’ ‘1 year’ ‘3 years’ ‘8 years’ ‘9 years’ ‘4
years’ ‘5 years’ ‘6 years’ ‘2 years’ ‘7 years’ nan] |
| home_ownership |
[‘RENT’ ‘OWN’ ‘MORTGAGE’ ‘OTHER’ ‘NONE’ ‘ANY’] |
| verification_status |
[‘Verified’ ‘Source Verified’ ‘Not Verified’] |
| issue_d |
[‘Dec-2011’ ‘Nov-2011’ ‘Oct-2011’ ‘Sep-2011’ ‘Aug-2011’ ‘Jul-2011’
‘Jun-2011’ ‘May-2011’ ‘Apr-2011’ ‘Mar-2011’ ‘Feb-2011’ ‘Jan-2011’
‘Dec-2010’ ‘Nov-2010’ ‘Oct-2010’ ‘Sep-2010’ ‘Aug-2010’ ‘Jul-2010’
‘Jun-2010’ ‘May-2010’] |
| loan_status |
[‘Fully Paid’ ‘Charged Off’ ‘Current’ ‘Default’ ‘Late (31-120 days)’
‘In Grace Period’ ‘Late (16-30 days)’ ‘Does not meet the credit policy.
Status:Fully Paid’ ‘Does not meet the credit policy. Status:Charged Off’
‘Issued’] |
| pymnt_plan |
[‘n’ ‘y’] |
| url |
[‘https://www.lendingclub.com/browse/loanDetail.action?loan_id=1077501’
‘https://www.lendingclub.com/browse/loanDetail.action?loan_id=1077430’
‘https://www.lendingclub.com/browse/loanDetail.action?loan_id=1077175’
‘https://www.lendingclub.com/browse/loanDetail.action?loan_id=1065775’
‘https://www.lendingclub.com/browse/loanDetail.action?loan_id=1069971’
‘https://www.lendingclub.com/browse/loanDetail.action?loan_id=1062474’
‘https://www.lendingclub.com/browse/loanDetail.action?loan_id=1069742’] |
| purpose |
[‘credit_card’ ‘car’ ‘small_business’ ‘other’ ‘wedding’
‘debt_consolidation’ ‘home_improvement’ ‘major_purchase’ ‘medical’
‘moving’ ‘vacation’ ‘house’ ‘renewable_energy’ ‘educational’] |
| title |
[‘Computer’ ‘bike’ ‘real estate business’ ‘personel’ ‘Personal’ ‘My
wedding loan I promise to pay back’ ‘Loan’ ‘Car Downpayment’ ‘Expand
Business & Buy Debt Portfolio’ ‘Building my credit history.’ ‘High
intrest Consolidation’ ‘Consolidation’ ‘freedom’ ‘citicard fund’ ‘Other
Loan’ ‘Debt Consolidation Loan’ ‘Home’ ‘Holiday’ ‘Medical’
‘lowerratemeanseasiertogetoutofdebt!’] |
| zip_code |
[‘860xx’ ‘309xx’ ‘606xx’ ‘917xx’ ‘972xx’ ‘852xx’ ‘280xx’ ‘900xx’
‘958xx’ ‘774xx’ ‘853xx’ ‘913xx’ ‘245xx’ ‘951xx’ ‘641xx’ ‘921xx’ ‘067xx’
‘890xx’ ‘770xx’ ‘335xx’] |
| addr_state |
[‘AZ’ ‘GA’ ‘IL’ ‘CA’ ‘OR’ ‘NC’ ‘TX’ ‘VA’ ‘MO’ ‘CT’ ‘UT’ ‘FL’ ‘NY’
‘PA’ ‘MN’ ‘NJ’ ‘KY’ ‘OH’ ‘SC’ ‘RI’] |
| earliest_cr_line |
[‘Jan-1985’ ‘Apr-1999’ ‘Nov-2001’ ‘Feb-1996’ ‘Jan-1996’ ‘Nov-2004’
‘Jul-2005’ ‘Jan-2007’ ‘Apr-2004’ ‘Sep-2004’ ‘Jan-1998’ ‘Oct-1989’
‘Jul-2003’ ‘May-1991’ ‘Sep-2007’ ‘Oct-1998’ ‘Aug-1993’ ‘Oct-2003’
‘Jan-2001’ ‘Nov-1997’] |
| initial_list_status |
[‘f’ ‘w’] |
| last_pymnt_d |
[‘Jan-2015’ ‘Apr-2013’ ‘Jun-2014’ ‘Jan-2016’ ‘Apr-2012’ ‘Nov-2012’
‘Jun-2013’ ‘Sep-2013’ ‘Jul-2012’ ‘Oct-2013’ ‘May-2013’ ‘Feb-2015’
‘Aug-2015’ ‘Oct-2012’ ‘Sep-2012’ nan ‘Dec-2012’ ‘Dec-2014’ ‘Aug-2013’
‘Nov-2013’] |
| next_pymnt_d |
[nan ‘Feb-2016’ ‘Jan-2016’ ‘Sep-2013’ ‘Feb-2014’ ‘May-2014’
‘Jun-2013’ ‘Mar-2012’ ‘Apr-2012’ ‘May-2013’ ‘Aug-2012’ ‘Aug-2013’
‘Jun-2012’ ‘Nov-2013’ ‘Feb-2012’ ‘Oct-2011’ ‘Jan-2013’ ‘Jan-2014’
‘Jul-2013’ ‘Jul-2015’] |
| last_credit_pull_d |
[‘Jan-2016’ ‘Sep-2013’ ‘Jan-2015’ ‘Sep-2015’ ‘Dec-2014’ ‘Aug-2012’
‘Mar-2013’ ‘Dec-2015’ ‘Aug-2013’ ‘Nov-2012’ ‘Mar-2014’ ‘Apr-2015’
‘May-2014’ ‘Jul-2015’ ‘Jul-2012’ ‘Sep-2012’ ‘May-2013’ ‘Oct-2015’
‘Jun-2012’ ‘Mar-2015’] |
| application_type |
[‘INDIVIDUAL’ ‘JOINT’] |
Tabla 4. Columnas no numéricas junto con algunos de
sus valores únicos
Se revisaron las columnas de tipo object (mostradas en la Tabla 4 y
se revisaron sus valores únicos para verificar cuáles eran de texto
plano para poder eliminarlas.
De lo anterior, se concluyó que las columnas de texto plano eran las
siguientes: emp_title, title y url. Se procedió con su eliminación,
pasando de tener 55 columnas a tener 52.
1.3.4 Cumplimiento de criterio 3
Del propio nombre de las columnas id y member_id y del diccionario de
datos que vino con el dataset, se concluye que estas dos columnas son de
identificación y se procede a eliminarlas para cumplir el criterio
3.
Tras la eliminación, se pasa de 52 columnas a 50 columnas.
1.3.5 Cumplimiento de criterio 4
Tras examinar los valores únicos de las columnas numéricas, se
identificó que la columna policy_code solamente tenía 1 solo valor para
cada fila de las columnas, y por eso se procedió con su eliminación,
pasando de tener 50 columnas a 49 columnas.
1.3.6 Conclusiones
A partir de lo anterior, se derivaron las siguientes
conclusiones:
Se eliminaron columnas con más del 80% de valores nulos, lo que
permitió reducir significativamente la cantidad de ruido y valores
faltantes difíciles de imputar.
Se descartaron columnas de texto plano que no aportaban
estructura útil para el modelado, lo que facilitó la futura codificación
de variables categóricas.
Se eliminaron columnas de identificación y aquellas con un único
valor, ya que no aportaban información relevante al análisis.
Tras aplicar todos los criterios de limpieza definidos, se pasó
de un total de 74 columnas a 49, dejando un conjunto de datos más
limpio, manejable y adecuado para el análisis y modelado
posterior.
1.4 Análisis exploratorio univariado de columnas numéricas
Utilizando este nuevo dataset procesado, se permite proceder con el
análisis exploratorio de los datos. Se comenzó por el análisis
univariado de las columnas numéricas.
1.4.1 Estadísticas descriptivas
| loan_amnt |
14755.264605 |
8435.455601 |
500.000000 |
8000.000000 |
13000.000000 |
20000.000000 |
35000.000000 |
0.681683 |
-0.256715 |
| funded_amnt |
14741.877625 |
8429.897657 |
500.000000 |
8000.000000 |
13000.000000 |
20000.000000 |
35000.000000 |
0.683745 |
-0.251638 |
| funded_amnt_inv |
14702.464383 |
8442.106732 |
0.000000 |
8000.000000 |
13000.000000 |
20000.000000 |
35000.000000 |
0.680983 |
-0.251765 |
| int_rate |
13.246740 |
4.381867 |
5.320000 |
9.990000 |
12.990000 |
16.200000 |
28.990000 |
0.429481 |
-0.155362 |
| installment |
436.717127 |
244.186593 |
15.670000 |
260.705000 |
382.550000 |
572.600000 |
1445.460000 |
0.936952 |
0.685970 |
| annual_inc |
7.502759e+04 |
6.469830e+04 |
0.000000e+00 |
4.500000e+04 |
6.500000e+04 |
9.000000e+04 |
9.500000e+06 |
4.447849e+01 |
4.808192e+03 |
| dti |
18.157039 |
17.190626 |
0.000000 |
11.910000 |
17.650000 |
23.950000 |
9999.000000 |
441.486775 |
256126.862941 |
| delinq_2yrs |
0.314442 |
0.862244 |
0.000000 |
0.000000 |
0.000000 |
0.000000 |
39.000000 |
5.473796 |
57.309081 |
| inq_last_6mths |
0.694623 |
0.998448 |
0.000000 |
0.000000 |
0.000000 |
1.000000 |
33.000000 |
2.108411 |
11.925103 |
| mths_since_last_delinq |
34.063798 |
21.884940 |
0.000000 |
15.000000 |
31.000000 |
50.000000 |
188.000000 |
0.455520 |
-0.767314 |
| open_acc |
11.548469 |
5.317313 |
0.000000 |
8.000000 |
11.000000 |
14.000000 |
90.000000 |
1.249380 |
3.103994 |
| pub_rec |
0.195307 |
0.582091 |
0.000000 |
0.000000 |
0.000000 |
0.000000 |
86.000000 |
13.261941 |
993.199008 |
| revol_bal |
1.692079e+04 |
2.242679e+04 |
0.000000 |
6.443000e+03 |
1.187500e+04 |
2.082900e+04 |
2.904836e+06 |
1.594930e+01 |
9.858908e+02 |
| revol_util |
55.067693 |
23.834344 |
0.000000 |
37.700000 |
56.000000 |
73.600000 |
892.300000 |
-0.123869 |
1.027269 |
| total_acc |
25.268026 |
11.840561 |
0.000000 |
17.000000 |
24.000000 |
32.000000 |
169.000000 |
0.892539 |
1.377589 |
| out_prncp |
8403.124852 |
8493.450269 |
0.000000 |
0.000000 |
6458.290000 |
13659.055000 |
49372.860000 |
0.932018 |
0.122621 |
| out_prncp_inv |
8399.713242 |
8489.997617 |
0.000000 |
0.000000 |
6455.810000 |
13654.050000 |
49372.860000 |
0.931868 |
0.121827 |
| total_pymnt |
7558.826684 |
7871.243336 |
0.000000 |
1914.590000 |
4894.999117 |
10616.814231 |
57777.579870 |
1.788894 |
3.620120 |
| total_pymnt_inv |
7521.160306 |
7846.108604 |
0.000000 |
1899.700000 |
4862.010000 |
10565.690000 |
57777.580000 |
1.793832 |
3.641981 |
| total_rec_prncp |
5757.706424 |
6625.441046 |
0.000000 |
1200.570000 |
3215.320000 |
8000.000000 |
35000.030000 |
1.935036 |
3.989046 |
| total_rec_int |
1754.804327 |
2095.356099 |
0.000000 |
441.460000 |
1073.280000 |
2238.265000 |
24205.620000 |
2.826100 |
11.543598 |
| total_rec_late_fee |
0.396692 |
4.087825 |
0.000000 |
0.000000 |
0.000000 |
0.000000 |
358.680000 |
17.404085 |
515.724165 |
| recoveries |
45.919243 |
409.693874 |
0.000000 |
0.000000 |
0.000000 |
0.000000 |
33520.270000 |
18.061839 |
617.211417 |
| collection_recovery_fee |
4.880757 |
63.125281 |
0.000000 |
0.000000 |
0.000000 |
0.000000 |
7002.190000 |
29.655693 |
1684.165364 |
| last_pymnt_amnt |
2164.145585 |
4794.783233 |
0.000000 |
280.170000 |
462.780000 |
831.245000 |
36475.590000 |
3.475852 |
13.355772 |
| collections_12_mths_ex_med |
0.014380 |
0.134191 |
0.000000 |
0.000000 |
0.000000 |
0.000000 |
20.000000 |
17.410400 |
1097.854795 |
| mths_since_last_major_derog |
44.104838 |
22.179841 |
0.000000 |
27.000000 |
44.000000 |
61.000000 |
188.000000 |
0.264932 |
-0.031362 |
| acc_now_delinq |
0.004991 |
0.077625 |
0.000000 |
0.000000 |
0.000000 |
0.000000 |
14.000000 |
24.066357 |
1630.866453 |
| tot_coll_amt |
2.257026e+02 |
1.031137e+04 |
0.000000 |
0.000000e+00 |
0.000000e+00 |
0.000000e+00 |
9.152545e+06 |
8.561805e+02 |
7.596112e+05 |
| tot_cur_bal |
1.394582e+05 |
1.537500e+05 |
0.000000 |
2.985300e+04 |
8.055900e+04 |
2.082050e+05 |
8.000078e+06 |
2.918174e+00 |
2.940881e+01 |
| total_rev_hi_lim |
3.206862e+04 |
3.749826e+04 |
0.000000 |
1.390000e+04 |
2.370000e+04 |
3.980000e+04 |
9.999999e+06 |
7.304552e+01 |
1.840039e+04 |
Tabla 5. Resumen de estadísticas descriptivas para
cada columna numérica.
De esta tabla se pueden realizar las siguientes observaciones:
annual_inc, dti, pub_rec, recoveries, collection_recovery_fee,
tot_coll_amt, total_rev_hi_lim, entre otras, presentan fuerte asimetría
a la derecha (valores extremos altos). Esto podría llegar a afectar el
modelo de redes neuronales.
dti, annual_inc, tot_coll_amt, pub_rec,
collections_12_mths_ex_med, total_rev_hi_lim, etc., tienen colas pesadas
con outliers extremos.
delinq_2yrs, inq_last_6mths, pub_rec, collections_12_mths_ex_med,
acc_now_delinq, etc., tienen mayoría de valores en 0.
Variables financieras como loan_amnt, funded_amnt, installment,
total_pymnt, etc., probablemente están altamente
correlacionadas.
Montos como total_rec_late_fee, recoveries,
collection_recovery_fee tienen valores extremos que pueden distorsionar
análisis
1.4.2 Valores vacíos y conteo de valores por columna
| annual_inc |
4 |
0.000451 |
49385 |
| delinq_2yrs |
29 |
0.003268 |
30
[ 0. 2. 3. 1. 4. 6. 5. 8. 7. 9. 11. nan 13. 15. 10. 12. 17. 18. 29.
24.] |
| inq_last_6mths |
29 |
0.003268 |
29
[ 1. 5. 2. 0. 3. 4. 6. 7. 8. 9. 10. 11. 12. 15. 14. 33. 17. 32. 24.
13.] |
| mths_since_last_delinq |
454312 |
51.197065 |
156
[nan 35. 38. 61. 8. 20. 18. 68. 45. 48. 41. 40. 74. 25. 53. 39. 10.
26. 56. 77.] |
| open_acc |
29 |
0.003268 |
78
[ 3. 2. 10. 15. 9. 7. 4. 11. 14. 12. 20. 8. 6. 17. 5. 13. 16. 30. 21.
18.] |
| pub_rec |
29 |
0.003268 |
33
[ 0. 1. 2. 3. 4. 5. nan 6. 9. 8. 7. 11. 49. 10. 54. 12. 18. 19. 16.
15.] |
| revol_util |
502 |
0.056571 |
1357 |
| total_acc |
29 |
0.003268 |
136 |
| collections_12_mths_ex_med |
145 |
0.016340 |
13
[ 0. nan 1. 2. 4. 3. 6. 16. 20. 5. 7. 10. 14.] |
| mths_since_last_major_derog |
665676 |
75.015974 |
169
[nan 53. 34. 54. 69. 7. 16. 71. 33. 59. 45. 8. 56. 11. 50. 47. 64.
32. 62. 39.] |
| acc_now_delinq |
29 |
0.003268 |
9
[ 0. 1. nan 2. 3. 5. 4. 6. 14.] |
| tot_coll_amt |
70276 |
7.919502 |
10326 |
| tot_cur_bal |
70276 |
7.919502 |
327343 |
| total_rev_hi_lim |
70276 |
7.919502 |
21252 |
Tabla 6. Valores vacíos y conteo de valores únicos
para cada columna numérica.
Los valores null de las columnas categóricas se resumen en la Tabla
6. A partir de esto se pudo notar lo siguiente:
Las columnas con mayor número de nulos son
mths_since_last_major_derog y mths_since_last_delinq. Se deberán imputar
con precaución.
La mayoría de valores tienen una cantidad de nulos relativamente
baja, así que se podrá realizar una imputación sencilla para llenar
estos valores.
Hay varias columnas que tienen nans, así que se tendrán que
imputar con precaución también.
1.4.3 Distribución e identificación de datos atípicos
(outliers)

Figura 1. Violin plots y box plots de cada variable
numérica en el dataset.
En la Figura 1 se muestran plots de violin y caja para poder
identificar tanto la distribución de los datos como para identificar los
valores anómalos por cada columna. Se puede apreciar lo siguiente:
loan_amnt, funded_amnt, funded_amnt_inv tienen distribuciones
simétricas y estables, sin valores extremos notables.
installment presenta un leve sesgo a la derecha.
out_prncp y out_prncp_inv están centradas en cero, indicando
muchos préstamos pagados.
total_rec_prncp se concentra cerca de cero pero con un rango
amplio.
annual_inc tiene un fuerte sesgo a la derecha, con outliers
significativos.
revol_bal, tot_cur_bal, total_rev_hi_lim, total_rec_int,
total_rec_late_fee, tot_coll_amt están sesgadas a la derecha con colas
largas.
collection_recovery_fee, recoveries, last_pymnt_amnt, avg_cur_bal
también muestran colas largas hacia la derecha.
delinq_2yrs, inq_last_6mths, open_acc, pub_rec, acc_now_delinq,
collections_12_mths_ex_med tienen distribuciones discretas, centradas en
pocos valores.
mths_since_last_delinq y mths_since_last_major_derog presentan
huecos grandes debido a muchos valores nulos.
collections_12_mths_ex_med, acc_now_delinq, total_rec_late_fee,
recoveries, collection_recovery_fee están dominadas por ceros.
funded_amnt, loan_amnt, funded_amnt_inv tienen patrones similares
y pueden ser redundantes.
out_prncp y out_prncp_inv también son similares entre
sí.
total_rec_prncp, total_rec_int, total_rec_late_fee, recoveries
podrían agruparse como montos recuperados.
Variables fuertemente sesgadas podrían beneficiarse de
transformaciones.
Variables con muchos ceros podrían eliminarse.
Variables redundantes podrían eliminarse o consolidarse.
Variables discretas con pocos valores pueden tratarse como
categorías ordinales.
1.4.4. Conclusiones
A partir de lo anterior, se derivaron las siguientes
conclusiones:
Entre los datos se encuentran varias columnas que están muy o
poco sesgadas, además de contar con muchos o pocos outliers. Se tendrá
que tener esto en cuenta a la hora de preprocesar los datos.
Existen varias columnas con valores nulos pero imputables, y por
lo tanto se podrá realizar la debida imputación al momento de hacer el
preprocesado.
1.5 Análisis exploratorio univariado de columnas no numéricas
1.5.1 Distribución de frecuencias y cardinalidad
A partir del análisis de la estructura del proyecto, se pudieron
identificar las columnas no numéricas que se muestran en la Tabla 4. Se
procedió a analizar la frecuencia y cardinalidad de estas columnas.
De esto, se pudo identificar lo siguiente:
term solo tiene dos valores posibles, y por lo tanto podrá ser
codificada fácilmente.
grade y sub_grade están relacionadas, pero sub_grade tiene más
granularidad, y por lo tanto se decide eliminar la columna
grade.
emp_length es ordinal, y por lo tanto deberá ser codificada según
corresponde.
home_ownership tiene algunas clases similares, como OTHER, NONE y
ANY, por lo que dependiendo de su frecuencia se podrían
agrupar.
verification_status también será fácil de codificar debido a que
cuenta solamente con 2 valores.
Debido a la antiguedad de los datos, se optará luego por
descartar las columnas que contengan fechas.
loan_status será nuestro target, el cual más adelante se
codificará siguiendo las recomendaciones dadas por el enunciado del
problema.
purpose es una versión más estructurada y constante de title, y
por lo tanto se conservará.
zip_code y addr_state están relacionadas, pero addr_state tiene
menos cardinalidad, y por lo tanto se optará por eliminar la columna
zip_code.
initial_list_status será fácil de codificar al contar con pocos
valores.
1.5.2 Conteo de valores por columna

Figura 2. Gráficos de barras para las variables
categóricas.
En la Figura 2 se muestran los gráficos de barras generados para ver
la frecuencia de los valores de cada variable categórica. De esta, se
puede identificar lo siguiente:
Muchas variables categóricas (como term,
grade, pymnt_plan,
application_type) tienen categorías dominantes, lo que
sugiere un fuerte desbalance que se tendría que tratar, por ejemplo,
eliminando las filas que contienen valores que no son comunes.
Se puede ver que la mayoría de los préstamos son a 36 meses y los
principales motivos de préstamo son deb_consolidation y
credit_card.
La mayoría de los datos tienen a MORTGAGE como su estado de
home_ownership.
Columnas como application_type, last_credit_pull_d, next_pymnt,
last_pymnt_d, pymnt_plan y home_ownership tienen muy poca variabilidad o
tienen valores que son muy raros. Para tratarlos, se optará por eliminar
las filas que contengan valores extremadamente raros, y se eliminarán
columnas que tengan más del 80% de los valores iguales.
1.5.3 Limpieza adicional de columnas con poca varianza
A partir de lo anteriormente mencionado, se decidió por realizar las
siguientes acciones de limpieza para las columnas categóricas:
Se eliminarán las columnas grade y zip_code debido a que ya
tienen otras columnas que encapsulan sus significados.
Por el momento, debido a que los datos van hasta el 2016, se
eliminarán las siguientes columnas que representan fechas: last_pymnt_d,
next_pymnt_d, issue_d, earliest_cr_line, last_credit_pull_d.
Se eliminarán las filas que no cumplan con los siguientes
criterios:
El valor de home_ownership deberá ser RENT, MORTGAGE o
OWN.
El valor de pymnt_plan deberá ser “n”.
El valor de application_type deberá ser INDIVIDUAL.
Una vez aplicada la limpieza de acuerdo a los anteriores criterios,
se pasó de tener 887379 filas a tener 886623 filas, es decir, que hubo
una reducción de menos del 0.01% del dataset.
1.6 Análisis multivariado
1.6.2 Matriz de correlación

Figura 3. Matriz de correlación.
De esta matriz de correlación, considerando que loan_status es el
target del problema de aprendizaje supervisado, se observa lo
siguiente:
Las columnas loan_amnt, funded_amnt y funded_amnt_inv están
fuertemente correlacionadas, lo cual tiene sentido al tratarse de
representaciones del monto del préstamo.
La mayoría de las variables presentan correlaciones moderadas o
bajas, lo cual es positivo para evitar redundancia en modelos lineales
como regresión logística.
loan_status no tiene correlaciones muy fuertes, lo que sugiere
que no hay ningún predictor lineal dominante y que el modelo podría
beneficiarse de enfoques no lineales o combinaciones de múltiples
variables.
1.6.3 Análisis de target
Tras hacer la conversión de loan_status a valores binarios, se
procedió a realizar el análisis de la frecuencia de las clases.
| NaN |
618330 |
69.7% |
| 0 |
209526 |
23.6% |
| 1 |
58767 |
6.6% |
Tabla 7. Balance de target antes de eliminar valores
NaN.
En la Tabla 7 se muestran los valores en la columna del target
loan_status. Como se busca realizar el entrenamiento del modelo,
aquellos valores NaN que están en la columna no nos servirán, y por lo
tanto esas filas se eliminarán.
| 0 |
209526 |
78.1% |
| 1 |
58767 |
21.9% |
Tabla 8. Balance de target después de eliminar
valores NaN.
En la Tabla 8 se muestra el nuevo balance de los valores de las
clases después de eliminar las filas con NaNs en el target.
Ya se cuenta con un total de 268293 de 887379 que se tenían
inicialmente, lo cual representa una disminución considerable del 70% de
los datos. Sin embargo, debido a cómo se recomendó codificar el target,
se considera apropiado.
1.6.4 Conclusiones
A partir de lo anterior, se derivaron las siguientes
conclusiones:
- La transformación del target
loan_status a una variable
binaria permitió definir con claridad las clases positivas y negativas,
eliminando aquellos casos con estado incierto.
- La matriz de correlación reveló que no existe una variable numérica
con correlación fuerte directa con el target, lo que sugiere que se
requerirán modelos no lineales o técnicas de combinación de variables
para una predicción efectiva.
- La eliminación de registros con valores nulos en el target redujo el
dataset en aproximadamente un 70%, lo cual representa una pérdida
significativa de datos, pero es necesaria para garantizar la calidad del
aprendizaje supervisado.
- Tras la depuración, se identificó un leve desbalance de clases
(78.1% positivas vs 21.9% negativas), lo cual se deberá tener en cuenta
en el diseño del modelo y en la selección de métricas de
evaluación.
1.7 Conclusiones parte 1
- Se realizó una limpieza estructurada del dataset, eliminando
columnas irrelevantes, redundantes o con valores excesivos nulos, lo que
permitió reducir la dimensionalidad y facilitar futuros análisis.
- A través del análisis de variables categóricas, se identificaron
patrones de frecuencia esperables en atributos como term, grade,
home_ownership y purpose, lo cual aporta contexto relevante para la
posterior construcción del modelo.
- El análisis de correlación evidenció que muchas variables numéricas
tienen baja correlación entre sí y con el target, lo que reduce el
riesgo de multicolinealidad pero también sugiere que el problema no será
fácilmente resuelto por modelos lineales simples.
- La transformación del target loan_status a una variable binaria (0:
positivo, 1: negativo) permitió estructurar el problema como una
clasificación supervisada binaria, eliminando casos con estatus
indefinido.
- La depuración del target implicó una pérdida significativa de datos
(70%), pero se consideró necesaria para asegurar la coherencia y
confiabilidad del modelo predictivo.
- El conjunto final presenta un leve desbalance de clases, lo que debe
ser tratado adecuadamente en la etapa de modelado mediante técnicas como
el uso de métricas apropiadas o balanceo de datos.
Ya con el dataset limpio, se procede a la sección dedicada a la
ingeniería de features.
Parte 2. Ingeniería de Features
A continuación se presenta una síntesis de lo realizado en el proceso
de ingeniería de features. Todo el código con los detalles de
implementación se puede encontrar en el archivo
poc_FeatureEngineering.ipynb en el repositorio del proyecto.
2.1 Objetivos
Una vez con el dataset lo suficientemente limpio, se procederá a
preprocesar estos datos para poder realizar el entrenamiento de los
modelos. Se tendrán los siguientes objetivos:
Codificar las columnas no numéricas de acuerdo a su naturaleza
categórica u ordinal, y de acuerdo a la cardinalidad de cada
una.
Imputar valores nulls para variables numéricas que lo
permitan.
Escalar los datos numéricos para mitigar el efecto de las
anomalías en el modelo.
2.2 Tratamiento de columnas numéricas
2.2.1 Imputación de nulls
Para la imputación de nulls, se optó por utilizar un SimpleImputer de
la herramienta sklearn, el cual permite realizar imputación de nulls
sencilla utilizando la media, mediana o el valor más frecuente. Para
este caso, se optó por imputar utilizando el valor de la media para cada
columna numérica.
Esto se hizo para poder verificar cómo se comportaba el modelo con
este tipo de imputación. Si se notaba que las métricas no eran las
deseadas a la hora de evaluar el modelo, se volvería aquí a cambiar la
técnica de imputación. Sin embargo, de los resultados del modelado se
concluyó que esto era suficiente.
2.2.2 Escalado de datos
Para el escalado de datos, se optó por utilizar el escalador
RobustScaler de sklearn, ya que aplica un escalado que es más robusto a
los valores atípicos. Según (Interactive Chaos,s.f., Robust Scaler),
realiza dos pasos principales:
- Calcula la mediana y el rango intercuartil (IQR) de cada
característica en el conjunto de datos (el IQR es la diferencia entre el
percentil 75 y el percentil 25 de los datos).
- Utiliza la mediana y el IQR de cada característica para escalar los
datos.
En caso de ver que el modelo no tiene métricas favorables, se
cambiaría. Sin embargo, a partir de los resultados del modelado se
concluyó que esta opción era suficiente.
2.3 Tratamiento de columnas no numéricas
2.3.1 Transformación de variables ordinales
A partir de la Tabla 4, se pudieron identificar que las variables
ordinales a codificar eran sub_grade y emp_length respectivamente.
Para codificar a sub_grade, dado que se trataba de una “nota” similar
a una nota académica, se optó por intentar codificarla de una forma
similar a como se califica del 1 al 5 en los sistemas educativos
colombianos. Sin embargo, al tratarse de 7 notas mayores (A, B, C, D, E,
F y G), la calificación ahora sería del 1 al 7. Por otro lado, cada
valor estaba acompañado de un número del 1 al 5, por lo que se optó
porque estos valores representaran cierta fracción dentro de la nota
mayor.
Se codificó utilizando la siguiente función:
def sub_grade_mapper(val):
val = str(val)
grade_mapping = {
"A": 7,
"B": 6,
"C": 5,
"D": 4,
"E": 3,
"F": 2,
"G": 1
}
num_mapping = {
"1": 0.8,
"2": 0.6,
"3": 0.4,
"4": 0.2,
"5": 0.0
}
num_val = grade_mapping[val[0]] + num_mapping[val[1]]
return num_val
Para la columna emp_length, se optó por utilizar la clase
OrdinalEncoder y sus métodos para codificarla de acuerdo al siguiente
orden:
- “Unknown”: Estos son los valores que estaban como NaN en esta
columna.
- “< 1 year”
- “1 year”
- “2 years”
- “3 years”
- “4 years”
- “5 years”
- “6 years”
- “7 years”
- “8 years”
- “9 years”
- “10+ years”
Se utilizó la siguiente porción de código para hacerlo:
ordered_vals = [
"Unknown",
"< 1 year",
"1 year",
"2 years",
"3 years",
"4 years",
"5 years",
"6 years",
"7 years",
"8 years",
"9 years",
"10+ years"
]
ordinal_encoder = OrdinalEncoder(categories=[ordered_vals])
df["emp_length"] = ordinal_encoder.fit_transform(df[["emp_length"]])
2.4 Conclusiones parte 2
Tras haber realizado todo el preprocesamiento adecuado de los datos y
haber generado un nuevo dataset con todos estos datos tratados, se
sacaron las siguientes conclusiones y aprendizajes:
Se implementaron técnicas adecuadas de preprocesamiento para
preparar los datos para el siguiente proceso de modelado, implementando
técnicas de imputación, escalado y codificación de variables no
numéricas.
Una variable ordinal puede ser codificada tanto manualmente (si
se ve un paralelo claro y una forma de implementación concisa) como
apoyándose en herramientas especializadas en codificación, como lo son
las herramientas que brinda SKlearn.
Se logró una transformación del dataset que se considera lo
suficientemente coherente, escalada y completamente numérica como para
pasar a la siguiente fase de modelado.
Parte 3. Modelado
A continuación se presenta una síntesis de lo realizado en el proceso
de modelado. Todo el código con los detalles de implementación se puede
encontrar en el archivo poc_Modeling.ipynb en el repositorio del
proyecto.
3.1 Objetivos
Ya contando con un dataset listo para el entrenamiento de modelos de
deep learning y clasificación binaria, se espera cumplir con los
siguientes objetivos:
Realizar una división apropiada del dataset para entrenar y
validar el modelo, concretamente un 70% para entrenamiento y un 30% para
la evaluación.
Entrenar un modelo simple de XGBoost para tenerlo como punto de
comparación vs los modelos multiperceptron a definir.
Entrenar dos modelos multiperceptron con varias variaciones de
arquitectura para comparar cómo es el impacto de estos cambios en los
valores objetivos para las métricas del modelado.
3.2 Train-Test split
Para hacer el split de los datos, se optó por utilizar una proporción
del 70% para el entrenamiento y un 30% para el testeo, el cual es una
proporción estándar en machine learning (Stojiljkovic, 2025).
Se hizo el split utilizando la siguiente porción de código:
y = df["loan_status"].astype(int)
X = df.drop(columns=["loan_status"])
X_train, X_test, y_train, y_test = train_test_split(
X, y,
test_size = 0.3,
random_state = 35,
stratify = y,
shuffle=True
)
3.3. Modelo 1: XGBoost
XGBoost es una librería de código abierto que emplea árboles de
decisiones potenciados por gradiente. (IBM, 2024). Suele ser muy veloz y
eficiente con conjuntos grandes de datos. Suele ser muy utilizado en
problemas de clasificación y regresión.
3.3.1 Definición del modelo
El modelo utilizado se definió de la siguiente manera:
xgb_classifier = XGBClassifier(
objective='multi:softmax', #
num_class=2,
n_estimators=500,
learning_rate=0.1,
max_depth=3,
subsample=0.8,
colsample_bytree=0.8,
gamma=0,
reg_lambda=1,
use_label_encoder=False,
eval_metric='mlogloss',
random_state=35,
n_jobs=-1
)
A continuación algunas observaciones recogidas para definir el
modelo:
Se optó por utilizar un objetivo multiclase para poder ver cómo
afectaba esto a la calidad del modelo, sabiendo que la tarea en cuestión
es de clasificación binaria.
Se optó por utilizar un número relativamente alto de estimadores
para garantizar tener un desempeño descente del modelo, considerando que
se tiene un alto número de features.
Se optó por un valor bajo de la tasa de aprendizaje para tener un
modelo más robusto.
Se optó por una profundización de 3 para evitar sobreajuste y
ayudar al modelo con la generalización.
Se introduce una proporción de muestras aleatorias de 80% para
reducir el sobreajuste.
Se introduce una proporción de features para la construcción de
los árboles de 0.8 para reducir el sobre ajuste.
Se le pasa un gamma igual a 0 para darle algo de flexibilidad al
modelo.
Se optó por utilizar multi log loss para la función de pérdida,
la cual es válida tanto para problemas multiclase como de clasificación
binaria.
3.3.2 Evaluación
Los resultados obtenidos en el conjunto de entrenamiento se resumen
en la siguiente tabla generada por el código encargado de realizar la
evaluación:

Figura 4. Tabla de resultados de XGBoost en el
conjunto de entrenamiento
De igual forma, a continuación se tiene la tabla respectiva para el
conjunto de testing.

Figura 5. Tabla de resultados de XGBoost en el
conjunto de testing
3.3.3. Conclusiones modelado XGBoost
De los anteriores resultados se obtuvieron las siguientes
conclusiones y aprendizajes:
- Sorprendentemente, el modelo tuvo resultados excelentes en ambos
conjuntos de datos. Esto es algo sospechoso, debido a que puede haber
una alta probabilidad de data leakage debido a la falta de revisión en
algún punto durante la limpieza de los datos.
3.4. Modelo 2: XGBoost tras resolver problema de data leakage
Debido a lo anterior, hizo falta revisar nuevamente las columnas
utilizadas para verificar que no hubiera ninguna fuga de datos, es
decir, que no hubiera ninguna columna que no debiera aparecer al momento
de entrenar y evaluar el modelo.
Después de una revisión del diccionario de datos, se confirmó que
había un problema de fuga de datos, específicamente con las siguientes
columnas que se estaban utilizando:
- total_rec_prncp: Pagos principales recibidos hasta
la fecha.
- total_rec_int: Intereses recibidos hasta la
fecha.
- total_rec_late_fee: Intereses tardíos recibidos
hasta la fecha.
- recoveries: Monto total recuperado por el acreedor
después de considerar la deuda como incobrable.
- total_pymnt: Pagos recibidos hasta la fecha de la
totalidad de lo prestado.
- total_pymnt_inv: Pagos recibidos hasta la fecha en
proporción a lo pagado por inversores.
- collection_recovery_fee: Monto de tarifas cobradas
por recuperar la deuda después de haber sido cobrada.
- last_pymnt_amnt: Monto total del último pago
recibido.
3.4.2 Evaluación
Los resultados obtenidos en el conjunto de entrenamiento se resumen
en la siguiente tabla generada por el código encargado de realizar la
evaluación:

Figura 4. Tabla de resultados de XGBoost en el
conjunto de entrenamiento corregido
De igual forma, a continuación se tiene la tabla respectiva para el
conjunto de testing.

Figura 5. Tabla de resultados de XGBoost en el
conjunto de testing corregido
3.4.3. Conclusiones modelado XGBoost
De los anteriores resultados se obtuvieron las siguientes
conclusiones y aprendizajes:
- Ahora sí, se cuentan con valores de las métricas más razonables, y
por lo tanto se puede concluir que se ha resuelto el problema del data
leakage.
- Debido al desbalance de clases, se puede notar que el modelo tiene
un buen rendimiento general identificando a las personas que pagan sus
deudas (f1 score 0.9), pero no lo es a la hora de identificar los casos
de personas que no pagan (f1 score 0.4). Esto es crítico, ya que el
interés principal está en identificar a estos últimos para mitigar el
riesgo de dar préstamos que no se van a pagar después.
3.5 Modelo 3: MultiLayer Perceptron
3.5.1 Definición del modelo
Para crear el modelo, se optó por utilizar la herramienta PyTorch
para crear un modelo multiperceptron. El modelo como tal está definido
en la siguiente clase:
class MLP(nn.Module):
def __init__(self, input_dim, n_classes):
super(MLP, self).__init__()
self.model = nn.Sequential(
nn.Linear(input_dim, 128),
nn.ReLU(),
nn.BatchNorm1d(128),
nn.Dropout(0.3),
nn.Linear(128, 64),
nn.ReLU(),
nn.BatchNorm1d(64),
nn.Dropout(0.3),
nn.Linear(64, n_classes)
)
def forward(self, x):
return self.model(x)
Para el entrenamiento, se utilizó como función de pérdida la función
CrossEntropyLoss, y como optimzador, se optó por usar el optimizador
ADAM. Se utilizaron 10 épocas para entrenar el respectivo modelo
3.5.2 Evaluación
Los resultados obtenidos en el conjunto de entrenamiento se resumen
en la siguiente tabla generada por el código encargado de realizar la
evaluación:

Figura 6. Tabla de resultados de Multilayer
Perceptronen el conjunto de entrenamiento corregido
De igual forma, a continuación se tiene la tabla respectiva para el
conjunto de testing.

Figura 7. Tabla de resultados de Multilayer
Perceptron en el conjunto de testing corregido
3.5.3 Conclusiones multilayer perceptron
Se tiene una situación similar a con el anterior modelo, pero
esta vez el modelo pudo clasificar los verdaderos positivos a la
perfección.
Sin embargo, debido al desbalance sigue estando la dificultad con
la segunda categoría, lo cual sigue siendo muy crítico.
Talvez con cambios breves en la red neuronal creada pueda mejorar
un poco, pero si no se trata el desbalance se tendrá el mismo
problema.
3.6 Conclusiones parte 3
- La división 70/30 de entrenamiento y prueba permitió garantizar que
ambas particiones tuvieran una representación balanceada de las clases,
lo cual es crucial para problemas de clasificación binaria y
especialmente útil en presencia de desbalance.
- El modelo inicial de XGBoost ofreció resultados prometedores, aunque
inicialmente demasiado buenos, lo cual llevó a sospechar de un posible
problema de data leakage. Esto demuestra la utilidad de este modelo como
un baseline fuerte para evaluar comparativamente otros enfoques más
complejos como las redes neuronales.
- La detección de variables relacionadas directamente con el resultado
a predecir (como pagos realizados, intereses recibidos, etc.) confirmó
la existencia de una fuga de información. Su exclusión fue fundamental
para obtener resultados realistas y fiables, evidenciando la importancia
de una limpieza rigurosa de los datos basada en un buen entendimiento
del negocio.
- A pesar de corregir el leakage, ambos modelos (XGBoost y MLP)
evidenciaron dificultades para identificar correctamente a los deudores
(la clase minoritaria), logrando un F1 score bajo (cercano a 0.4) en esa
clase, mientras que el desempeño en la clase mayoritaria fue mucho
mejor. Esto es problemático desde el punto de vista de negocio, ya que
el foco está en identificar correctamente los casos de alto riesgo.
- El modelo de red neuronal mostró un rendimiento comparable al de
XGBoost, con incluso mejor precisión para verdaderos positivos. Sin
embargo, el problema de desbalance persistió, lo que indica que ajustes
en la arquitectura por sí solos no serán suficientes.
- El modelado no solo sirve para ajustar hiperparámetros y
arquitecturas, sino también para validar supuestos, detectar problemas
en los datos y comprender las limitaciones de los modelos ante
características del dataset como el desbalance o la calidad de las
features.
Casos de uso alternativos
El análisis y la detección de personas con alto riesgo de impago
crediticio no solo son fundamentales para la gestión financiera de las
entidades prestamistas, sino que también pueden extrapolarse a otros
dominios mediante el desarrollo de modelos predictivos similares.
Este tipo de enfoque basado en datos permite identificar patrones de
comportamiento y factores de riesgo que, una vez comprendidos, pueden
aplicarse a problemas como la detección temprana de fraudes financieros,
la evaluación de riesgo en la suscripción de seguros o la predicción de
enfermedades crónicas en el ámbito de la salud.
Conclusiones finales
A lo largo del desarrollo del proyecto, se evidenció que la calidad
del preprocesamiento es determinante para el éxito del modelado, ya que
las decisiones tomadas durante la ingeniería de features —como la
imputación de valores faltantes, el escalado de variables numéricas y la
codificación adecuada de variables categóricas— permitieron construir un
conjunto de datos sólido y apto para el entrenamiento de modelos. No
obstante, la experiencia con el primer modelo XGBoost también demostró
que el data leakage puede invalidar completamente los resultados,
resaltando la necesidad de comprender a profundidad el significado y la
temporalidad de cada variable para evitar fugas de información.
Una vez corregido este problema, los modelos entrenados dejaron en
evidencia otro gran desafío: el desbalance de clases. A pesar de obtener
buenos resultados generales, tanto XGBoost como el modelo MultiLayer
Perceptron mostraron ser ineficientes para detectar correctamente a los
usuarios que no pagan sus deudas, lo cual es crítico dado el objetivo
del problema.
Finalmente, se concluye que utilizar modelos más complejos no
garantiza mejores resultados si no se aborda de forma adecuada la
estructura del problema; por ello, el foco debe estar tanto en la
calidad de los datos como en estrategias específicas que respondan a los
retos particulares del dominio, como el balanceo de clases o el ajuste
fino de métricas.
Reporte de contribución individual
- Leonardo Federico Corona Torres
- Definición y escritura de estructura del reporte.
- Colaboración en creación de video promocional.
- Aportes entregable escrito.
- David Escobar Ruiz
Realización de limpieza de datos.
Realización de EDA.
Realización de ingeniería de features.
Realización de proceso de modelado.
Colaboración en creación de video promocional.
- Johan Sebastián Robles Rincón
Desarrollo del backend de la aplicación web.
Apoyo en despliegue de la aplicación.
Apoyo en desarrollo frontend.
Apoyo en conexión de API del modelo con vistas de
Django.
- Sebastian Soto Arcila
Desarrollo frontend de la aplicación web.
Apoyo en conexión de API del modelo con vistas de
Django.
Apoyo en despliegue de la aplicación.
Aportes entregable escrito.
