Configuración global para evitar la notación científica y mejorar la legibilidad de la salida

options(scipen = 999)

1. Carga Datos

Iniciaremos importando los datos de nuestro dataset en R. El tamaño de nuestro conjunto de datos 2,000 observaciones y 10 variables

data <- read.csv("dataset.csv")

2. Exploración de datos

Exploración inicial de los datos y su estructura

##    id_cliente        nombre               edad           genero      
##  Min.   :   1.0   Length:2000        Min.   :  1.0   Min.   :0.0000  
##  1st Qu.: 500.8   Class :character   1st Qu.: 48.0   1st Qu.:0.0000  
##  Median :1000.5   Mode  :character   Median :192.0   Median :0.0000  
##  Mean   :1000.5                      Mean   :215.9   Mean   :0.3865  
##  3rd Qu.:1500.2                      3rd Qu.:358.2   3rd Qu.:1.0000  
##  Max.   :2000.0                      Max.   :549.0   Max.   :1.0000  
##   saldo_cuenta     num_productos tarjeta_credito  miembro_activo 
##  Min.   :-456000   Min.   :1.0   Min.   :0.0000   Min.   :0.000  
##  1st Qu.:-167250   1st Qu.:1.0   1st Qu.:0.0000   1st Qu.:0.000  
##  Median :  40000   Median :3.0   Median :0.0000   Median :0.000  
##  Mean   :  11784   Mean   :2.6   Mean   :0.0305   Mean   :0.032  
##  3rd Qu.:  92000   3rd Qu.:4.0   3rd Qu.:0.0000   3rd Qu.:0.000  
##  Max.   : 571000   Max.   :4.0   Max.   :1.0000   Max.   :1.000  
##    antiguedad      a_retirado 
##  Min.   :  1.0   Min.   :0.0  
##  1st Qu.:  1.0   1st Qu.:0.0  
##  Median : 10.0   Median :0.0  
##  Mean   :132.4   Mean   :0.2  
##  3rd Qu.:261.0   3rd Qu.:0.0  
##  Max.   :514.0   Max.   :1.0

Estructura

## 'data.frame':    2000 obs. of  10 variables:
##  $ id_cliente     : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ nombre         : chr  "Marta Martinez" "Pedro Gomez" "Ana Perez" "Juan Rodriguez" ...
##  $ edad           : int  42 35 28 51 47 39 32 44 29 49 ...
##  $ genero         : int  0 1 0 1 0 1 0 1 0 1 ...
##  $ saldo_cuenta   : int  75000 45000 32000 89000 60000 52000 40000 78000 35000 67000 ...
##  $ num_productos  : int  3 2 1 4 3 2 2 3 2 3 ...
##  $ tarjeta_credito: int  1 1 1 1 0 0 0 1 1 1 ...
##  $ miembro_activo : int  1 1 1 1 1 1 0 1 1 0 ...
##  $ antiguedad     : int  6 3 2 8 5 4 2 7 3 6 ...
##  $ a_retirado     : int  0 0 0 0 0 0 0 0 0 0 ...

3. Prepacion de datos

Factorización de variables categóricas.

##   id_cliente         nombre edad genero saldo_cuenta num_productos
## 1          1 Marta Martinez   42      0        75000             3
## 2          2    Pedro Gomez   35      1        45000             2
## 3          3      Ana Perez   28      0        32000             1
## 4          4 Juan Rodriguez   51      1        89000             4
## 5          5   Laura Garcia   47      0        60000             3
## 6          6   David Martin   39      1        52000             2
##   tarjeta_credito miembro_activo antiguedad a_retirado
## 1               1              1          6          0
## 2               1              1          3          0
## 3               1              1          2          0
## 4               1              1          8          0
## 5               0              1          5          0
## 6               0              1          4          0

4. Análisis Descriptivo

Este histograma muestra la distribución de las edades de los clientes del banco. En el contexto de hiperpersonalización, conocer la distribución de la edad es crucial porque diferentes grupos de edad pueden tener necesidades y preferencias financieras distintas. Por ejemplo, los clientes más jóvenes pueden estar más interesados en productos financieros digitales y soluciones de pago móvil, mientras que los clientes mayores podrían preferir métodos más tradicionales y valorar más la seguridad y la privacidad.

Saber la distribución de saldo de cuenta es esencial para entender la salud financiera y el nivel de acceso a servicios financieros de los clientes. En términos de inclusión financiera, los saldos de cuenta pueden indicar el grado de participación financiera. Un saldo bajo puede ser un indicador de barreras de acceso a servicios financieros básicos, mientras que un saldo alto podría indicar una inclusión financiera efectiva y la posibilidad de ofrecer productos más avanzados o personalizados.

La cantidad de productos por clientes refleja la diversidad en el número de productos usados por un cliente y este número puede sugerir oportunidades para la personalización de servicios. En el marco de este estudio, esto puede indicar cómo la hiperpersonalización podría adaptarse según la complejidad de las necesidades financieras del cliente, promoviendo una mayor inclusión al asegurar que los productos se alinean bien con sus necesidades específicas.

La antigüedad de los clientes en el banco puede ser un factor importante en la lealtad del cliente y la efectividad de las estrategias de retención. En términos de hiperpersonalización, los clientes con mayor antigüedad pueden requerir enfoques de personalización diferentes que resalten la valoración y reconocimiento de su lealtad, mientras que los nuevos clientes podrían ser más receptivos a ofertas innovadoras y agresivas para establecer una relación sólida desde el principio.

Este gráfico muestra la proporción de clientes que tienen tarjetas de crédito con el banco. Las tarjetas de crédito ofrecen una oportunidad significativa para la personalización de ofertas y recompensas basadas en el comportamiento de gasto del cliente. Además, en términos de inclusión financiera, la penetración de tarjetas de crédito puede ser un indicativo de acceso a crédito y productos financieros más complejos.

Este gráfico ilustra la proporción de clientes que son activos. La actividad de los clientes puede ser un indicador de su compromiso y satisfacción con los servicios del banco. Desde la perspectiva de la hiperpersonalización, los miembros activos pueden ser más susceptibles a estrategias de marketing personalizadas y probablemente se beneficien más de programas diseñados para aumentar la participación y satisfacción del cliente.

El gráfico muestra cómo la distribución de edades varía entre los clientes que se han retirado y los que no. Esta información es vital para entender si ciertas edades están más inclinadas a retirarse, lo cual podría indicar una falta de servicios adecuadamente personalizados para esos grupos de edad.

5. Optimización de Modelos Predictivos con CRISP-DM y balanceo

Para optimizar los modelos de predicción y validar su efectividad, seguiremos la metodología CRISP-DM, que nos guiará en la estructuración del proceso. Inicialmente, dividiremos nuestros datos en conjuntos de entrenamiento y prueba, utilizando una proporción estándar del 70-30%. Este enfoque nos permite entrenar nuestros modelos con el 70% de los datos y posteriormente evaluar su rendimiento con el 30% restante.

Además, para abordar el desequilibrio presente entre las clases en nuestro conjunto de datos, hemos optado por emplear un conjunto de datos balanceado. El método específico utilizado para este balanceo es SMOTE (Synthetic Minority Over-sampling Technique). SMOTE es una técnica avanzada de sobremuestreo que genera ejemplos sintéticos de la clase minoritaria basándose en los ejemplos existentes. Para efectos del estudio que estamos realizando es particularmente útil para evitar el sobreajuste y mejorar la capacidad del modelo para generalizar nuevos datos al crear ejemplos más diversos y representativos de la realidad subyacente en la clase minoritaria.

##   id_cliente         nombre edad genero saldo_cuenta num_productos
## 1          1 Marta Martinez   42      0        75000             3
## 2          2    Pedro Gomez   35      1        45000             2
## 3          4 Juan Rodriguez   51      1        89000             4
## 4          5   Laura Garcia   47      0        60000             3
## 5          6   David Martin   39      1        52000             2
## 6          8    Javier Ruiz   44      1        78000             3
##   tarjeta_credito miembro_activo antiguedad a_retirado
## 1               1              1          6          0
## 2               1              1          3          0
## 3               1              1          8          0
## 4               0              1          5          0
## 5               0              1          4          0
## 6               1              1          7          0

Se especifica la variable del conjunto de datos a_retirado para la estratificación. Esto significa que la proporción de las clases en la variable a_retirado será similar tanto en el conjunto de entrenamiento como en el de prueba.

5.1. Modelo de regresión logística

## 
## Call:
## glm(formula = a_retirado ~ edad + saldo_cuenta + num_productos + 
##     tarjeta_credito + miembro_activo + antiguedad, family = "binomial", 
##     data = train_data_balanced)
## 
## Coefficients:
##                       Estimate    Std. Error z value Pr(>|z|)    
## (Intercept)      -0.5994439154  0.1763778200  -3.399 0.000677 ***
## edad              0.0012347891  0.0005414289   2.281 0.022571 *  
## saldo_cuenta     -0.0000001657  0.0000002747  -0.603 0.546377    
## num_productos     0.1391539810  0.0644996325   2.157 0.030972 *  
## tarjeta_credito1 -0.6389258976  0.3175735468  -2.012 0.044231 *  
## miembro_activo1   0.0482732908  0.2628513199   0.184 0.854286    
## antiguedad       -0.0019856747  0.0006270929  -3.166 0.001543 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 2743.7  on 1999  degrees of freedom
## Residual deviance: 2727.7  on 1993  degrees of freedom
## AIC: 2741.7
## 
## Number of Fisher Scoring iterations: 4

5.2. Árbol de decisión

## 
## Classification tree:
## rpart(formula = miembro_activo ~ edad + genero + saldo_cuenta + 
##     num_productos + tarjeta_credito + antiguedad, data = train_data_balanced, 
##     method = "class")
## 
## Variables actually used in tree construction:
## [1] antiguedad      edad            num_productos   saldo_cuenta   
## [5] tarjeta_credito
## 
## Root node error: 69/2000 = 0.0345
## 
## n= 2000 
## 
##         CP nsplit rel error  xerror    xstd
## 1 0.036232      0   1.00000 1.00000 0.11829
## 2 0.021739     10   0.52174 0.73913 0.10217
## 3 0.010000     12   0.47826 0.72464 0.10119

5.3. Random Forest

##    predictions
##       0   1
##   0 407  73
##   1 107  13
## [1] "Porcentaje de Exactitud del Modelo: 70"
##                          0        1 MeanDecreaseAccuracy MeanDecreaseGini
## id_cliente      22.3248734 63.80247            102.65656       215.660962
## nombre           2.2257180 80.61802             74.56717        88.341059
## edad            22.2732930 52.57831             88.48451       157.696997
## genero           0.9982643 21.26164             22.53475         6.605550
## saldo_cuenta    21.4161416 61.80741             93.32347       161.287925
## num_productos    3.6817035 26.83962             28.51942        10.839773
## tarjeta_credito  7.0243883 17.40312             17.41412         4.124919
## miembro_activo  -0.9590971 19.29555             17.70503         3.844422
## antiguedad      18.6676883 48.43343             67.30922       109.107527
## 
## Call:
##  randomForest(formula = a_retirado ~ ., data = train_data_balanced,      ntree = 500, mtry = 3, importance = TRUE) 
##                Type of random forest: classification
##                      Number of trees: 500
## No. of variables tried at each split: 3
## 
##         OOB estimate of  error rate: 13.55%
## Confusion matrix:
##     0   1 class.error
## 0 921 199  0.17767857
## 1  72 808  0.08181818

6. Resultados

6.1. Modelo de regresión logística

Cada coeficiente en el modelo de regresión logística estima el cambio en el logaritmo de las odds de retiro para un aumento de una unidad en la variable correspondiente, manteniendo las demás variables constantes. Por ejemplo, un coeficiente positivo para la edad significa que a medida que los clientes son mayores, es más probable que se retiren, suponiendo que todas las otras variables permanezcan constantes.

##                          Estimate      Std. Error    z value     Pr(>|z|)
## (Intercept)      -0.5994439153784 0.1763778199926 -3.3986355 0.0006772291
## edad              0.0012347890816 0.0005414289454  2.2806115 0.0225714459
## saldo_cuenta     -0.0000001657174 0.0000002747315 -0.6031975 0.5463773035
## num_productos     0.1391539809818 0.0644996324533  2.1574384 0.0309715254
## tarjeta_credito1 -0.6389258976130 0.3175735467864 -2.0118990 0.0442305860
## miembro_activo1   0.0482732907553 0.2628513199058  0.1836525 0.8542861081
## antiguedad       -0.0019856747093 0.0006270929148 -3.1664761 0.0015429804

6.2. Árbol de decisión

El árbol de decisión ofrece una interpretación visual de cómo se toman las decisiones basadas en las variables. Las divisiones en el árbol indican los valores umbral que son más críticos para la clasificación de los clientes. Cada nodo del árbol muestra el criterio de división, el número de muestras que caen en ese nodo y la clasificación predominante de esas muestras.

6.3. Random Forest

El modelo Random Forest calcula la importancia de cada variable evaluando cuánto mejora la precisión del modelo al incluir la variable. Las variables con mayor importancia son aquellas que, al ser eliminadas, deteriorarían más la precisión del modelo, lo que indica que son críticas para la predicción.

La interpretación de estos coeficientes es crucial para entender cómo cada factor contribuye al retiro. Por ejemplo, un coeficiente positivo indica que a medida que la variable aumenta, también lo hace la probabilidad de retiro.

7. Conclusiones

7.1 Modelo de regresión logística

Los resultados del Modelo de regresión logística nos ayuda a entender mejor cómo ciertas características demográficas y comportamentales de los clientes pueden influir en su decisión de permanecer en o retirarse de un banco. Este modelo es una pieza central para evaluar la efectividad de las estrategias de personalización que los bancos podrían adoptar para mejorar la inclusión financiera y la satisfacción del cliente. A continuación presentaremos el análisis de los resultados del modelo en el contexto de la hipótesis presentada:

1. Barreras de acceso y participación
Hipótesis: Factores como la edad, el saldo en cuenta, el número de productos bancarios y la antigüedad son determinantes en las barreras de acceso al sistema financiero.
Análisis: Los coeficientes del modelo de regresión logística reflejan que la antigüedad tiene un efecto negativo significativo en la probabilidad de retiro, mientras que la edad tiene un pequeño efecto positivo significativo. El saldo en cuenta, aunque teóricamente relevante, no mostró un efecto estadísticamente significativo en el modelo. Esto sugiere que mientras la antigüedad y la edad son factores relevantes en la comprensión de cómo los clientes interactúan con el sistema financiero y potencialmente enfrentan barreras, el saldo en cuenta no parece ser un factor decisivo bajo las condiciones del modelo.

2. Estado actual de la personalización y su impacto
Hipótesis: La posesión de tarjetas de crédito y la membresía activa influyen en la personalización de los servicios financieros.
Análisis: La posesión de tarjeta de crédito se asoció con una menor probabilidad de retiro, según se refleja en el coeficiente negativo significativo del modelo. Esto sugiere que los clientes que poseen tarjetas de crédito pueden estar recibiendo una experiencia más personalizada que satisface sus necesidades. Por otro lado, ser un miembro activo no resultó ser un predictor significativo de la retención de clientes, lo cual podría indicar que la membresía activa por sí sola no es suficiente para determinar la personalización efectiva de los servicios.

3. Modelo de hiperpersonalización de servicios financieros
Hipótesis: Variables como la edad, el saldo, entre otras, son esenciales en el modelo de hiperpersonalización.
Análisis: El modelo logra utilizar la edad y la antigüedad para clasificar a los clientes en términos de su probabilidad de retiro. Esto evidencia que el modelo está aprovechando efectivamente la información demográfica y de comportamiento para ajustar la personalización de los servicios financieros. Este resultado apoya la hipótesis de que la integración de estas variables en un modelo de hiperpersonalización basado en datos puede mejorar significativamente la relevancia y efectividad de los servicios ofrecidos.

4. Evaluación de la eficacia del modelo propuesto
Hipótesis: El modelo propuesto mejorará la inclusión financiera y la satisfacción del cliente.
Análisis: Dado que el modelo exhibe una capacidad sólida para predecir los retiros de clientes, con significancia estadística en variables clave como la antigüedad y la tarjeta de crédito, esto indica que el modelo podría ser efectivo para mejorar la inclusión financiera. La capacidad de predecir y, por ende, potencialmente mitigar los retiros de clientes, puede conducir a una mayor satisfacción y retención de clientes, alineándose con los objetivos de inclusión financiera del estudio.

Conclusión
El análisis basado en el modelo de regresión logística proporciona evidencia sólida que apoya las hipótesis planteadas en el estudio sobre la hiperpersonalización y el acceso financiero. Los resultados demuestran que el modelo puede ser una herramienta valiosa en la implementación de estrategias personalizadas que no solo mejoran la retención y satisfacción del cliente, sino también su inclusión en el sistema financiero, haciendo un uso efectivo de las variables demográficas y comportamentales identificadas como críticas en la hipótesis del estudio.

7.2. Árbol de decisión

Los resultados del modelo de Árbol de decisión muestran la contribución de las variables antigüedad,edad, saldo_cuenta, y tarjeta_credito en la construcción del árbol para predecir la variable miembro_activo. Esto nos da una perspectiva sobre las variables que son más informativas en términos de segmentar los datos basados en la actividad del miembro. A continuación presentaremos el análisis de los resultados del modelo en el contexto de la hipótesis presentada:

1. Barreras de acceso y participación
Hipótesis: Factores como la edad, el saldo en cuenta, el número de productos bancarios y la antigüedad son determinantes en las barreras de acceso al sistema financiero.
Análisis: Las variables edad, saldo_cuenta y antigüedad fueron utilizadas para construir el árbol, lo que indica su relevancia en determinar si un cliente es un miembro activo o no. Esto podría sugerir que estas variables, efectivamente, influyen en cómo los clientes interactúan con el sistema financiero, lo cual puede estar relacionado con las barreras de acceso al sistema.

2. Estado actual de la personalización y su impacto
Hipótesis: La posesión de tarjetas de crédito y la membresía activa influirán en la personalización de los servicios financieros.
Análisis: tarjeta_credito fue una de las variables utilizadas en la construcción del árbol, implicando que la posesión de una tarjeta de crédito puede ser un factor determinante en la actividad de los miembros. Esto respalda la hipótesis de que los clientes con tarjeta de crédito pueden estar más involucrados o recibir ofertas más personalizadas.

3. Modelo de hiperpersonalización de servicios financieros
Hipótesis: Factores como la edad, el género, el saldo, y otros, serán importantes.
Análisis: Aunque género no fue finalmente utilizado para construir el árbol, edad, saldo_cuenta y tarjeta_credito sí lo fueron. Esto refuerza la idea de que estos elementos son cruciales para el modelo de hiperpersonalización, especialmente en cómo se activa o se interactúa con los clientes.

4. Evaluación de la eficacia del modelo propuesto
Hipótesis: El modelo propuesto mejorará la inclusión financiera y la satisfacción del cliente.
Análisis: La eficacia de este modelo en la práctica podría ser evaluada por la rel error y xerror, que indican cómo el modelo se comporta con los datos de entrenamiento y de validación cruzada, respectivamente. Aunque la tasa de error base es baja (3%), el xerror relativamente alto después de varias divisiones (1.2619) podría indicar que el modelo puede estar sobreajustando y puede no generalizar bien, lo que sería una señal de que el modelo podría no ser tan efectivo en mejorar la inclusión financiera como se esperaba.

Conclusión
Los resultados del modelo de Árbol de Decisión refuerzan varias de las hipótesis iniciales, especialmente en términos de personalización y factores que afectan la actividad del miembro. Sin embargo, la preocupación sobre la posible sobreajuste y la eficacia general del modelo sugiere que se deben tomar precauciones al interpretar estos resultados y considerar ajustes o validaciones adicionales para asegurar que el modelo es robusto y generalizable.

7.3. Random Forest

Hemos realizado un análisis exhaustivo de los resultados del modelo de Random Forest en relación con las hipótesis del estudio, centrándonos en aspectos como las barreras de acceso, la personalización de servicios financieros, la hiperpersonalización y la eficacia del modelo en la inclusión financiera y la satisfacción del cliente. Los hallazgos confirman la relevancia de variables como la edad y el saldo en cuenta en la predicción del comportamiento de los clientes, lo que sugiere un impacto positivo potencial del modelo en la mejora de la experiencia financiera general. A continuación presentaremos el análisis de los resultados del modelo en el contexto de la hipótesis presentada:

1. Barreras de acceso y participación
Hipótesis: Factores como la edad, el saldo en cuenta, el número de productos bancarios y la antigüedad son determinantes en las barreras de acceso al sistema financiero.
Análisis de los Resultados: La tasa de clasificación de clientes retirados y no retirados refleja que el modelo está reconociendo los efectos de estas variables. Específicamente, las diferencias en la clasificación según estas características sugieren que factores como la antigüedad y el saldo en la cuenta son relevantes para entender cómo los clientes interactúan con los servicios financieros, validando la hipótesis de que estos factores influyen en las barreras de acceso.

2. Estado actual de la personalización y su impacto
Hipótesis: La posesión de tarjetas de crédito y la membresía activa influyen en la personalización de los servicios financieros.
Análisis de los Resultados: La capacidad del modelo para diferenciar entre clientes retirados y no retirados sugiere que está identificando correctamente cómo la posesión de tarjetas de crédito y el estado de membresía activa contribuyen a la personalización de los servicios. Esto apoya la hipótesis de que estos elementos son cruciales para la personalización efectiva de los servicios financieros.

3. Modelo de hiperpersonalización de servicios financieros
Hipótesis: Variables como la edad, el saldo, entre otras, son esenciales en el modelo de hiperpersonalización.
Análisis de los Resultados: La clasificación exitosa de clientes basada en estas variables indica que el modelo está utilizando eficazmente esta información para personalizar los servicios. Esto confirma la hipótesis de que un enfoque basado en la hiperpersonalización que utiliza estos datos puede ser efectivo y relevante.

4. Evaluación de la eficacia del modelo propuesto
Hipótesis: El modelo propuesto mejorará la inclusión financiera y la satisfacción del cliente.
Análisis de los Resultados: La eficacia del modelo en clasificar correctamente a los clientes según si se retiran o no del servicio financiero sugiere que puede contribuir significativamente a mejorar la inclusión financiera. Esta capacidad para predecir el comportamiento del cliente respalda la hipótesis de que el modelo será efectivo en mejorar la satisfacción y la inclusión del cliente.

Conclusión
El modelo de Random Forest proporciona un enfoque robusto y efectivo para identificar y clasificar las dinámicas de retiro y no retiro en clientes de servicios financieros, utilizando variables clave que se postulan como determinantes en las hipótesis de hiperpersonalización y acceso financiero. Los resultados indican que el modelo puede ser instrumental en la implementación de estrategias que mejoren la personalización, accesibilidad y, en última instancia, la inclusión financiera dentro del sector.

8. Recomendaciones

Dada la relevancia de variables como la edad y el saldo en cuenta, concluimos que es esencial desarrollar programas destinados a asistir a los clientes más jóvenes y a aquellos con saldos menores. Estos programas deberían enfocarse en educar y facilitar el entendimiento sobre cómo aprovechar al máximo los beneficios de los productos financieros disponibles. Implementar tales iniciativas no solo mejoraría la actividad de estos clientes dentro del sistema financiero, sino que también potenciaría su inclusión y participación efectiva en el mismo.