Configuración global para evitar la notación científica y mejorar la legibilidad de la salida
options(scipen = 999)
Iniciaremos importando los datos de nuestro dataset. El tamaño de nuestro conjunto de datos es de 2,000 observaciones y 10 variables
data <- read.csv("dataset.csv")
Exploración inicial de los datos y su estructura.
## id_cliente nombre edad genero
## Min. : 1.0 Length:2000 Min. : 1.0 Min. :0.0000
## 1st Qu.: 500.8 Class :character 1st Qu.: 48.0 1st Qu.:0.0000
## Median :1000.5 Mode :character Median :192.0 Median :0.0000
## Mean :1000.5 Mean :215.9 Mean :0.3865
## 3rd Qu.:1500.2 3rd Qu.:358.2 3rd Qu.:1.0000
## Max. :2000.0 Max. :549.0 Max. :1.0000
## saldo_cuenta num_productos tarjeta_credito miembro_activo
## Min. :-456000 Min. :1.0 Min. :0.0000 Min. :0.000
## 1st Qu.:-167250 1st Qu.:1.0 1st Qu.:0.0000 1st Qu.:0.000
## Median : 40000 Median :3.0 Median :0.0000 Median :0.000
## Mean : 11784 Mean :2.6 Mean :0.0305 Mean :0.032
## 3rd Qu.: 92000 3rd Qu.:4.0 3rd Qu.:0.0000 3rd Qu.:0.000
## Max. : 571000 Max. :4.0 Max. :1.0000 Max. :1.000
## antiguedad a_retirado
## Min. : 1.0 Min. :0.0
## 1st Qu.: 1.0 1st Qu.:0.0
## Median : 10.0 Median :0.0
## Mean :132.4 Mean :0.2
## 3rd Qu.:261.0 3rd Qu.:0.0
## Max. :514.0 Max. :1.0
## 'data.frame': 2000 obs. of 10 variables:
## $ id_cliente : int 1 2 3 4 5 6 7 8 9 10 ...
## $ nombre : chr "Marta Martinez" "Pedro Gomez" "Ana Perez" "Juan Rodriguez" ...
## $ edad : int 42 35 28 51 47 39 32 44 29 49 ...
## $ genero : int 0 1 0 1 0 1 0 1 0 1 ...
## $ saldo_cuenta : int 75000 45000 32000 89000 60000 52000 40000 78000 35000 67000 ...
## $ num_productos : int 3 2 1 4 3 2 2 3 2 3 ...
## $ tarjeta_credito: int 1 1 1 1 0 0 0 1 1 1 ...
## $ miembro_activo : int 1 1 1 1 1 1 0 1 1 0 ...
## $ antiguedad : int 6 3 2 8 5 4 2 7 3 6 ...
## $ a_retirado : int 0 0 0 0 0 0 0 0 0 0 ...
Factorización de variables categóricas.
## id_cliente nombre edad genero saldo_cuenta num_productos
## 1 1 Marta Martinez 42 0 75000 3
## 2 2 Pedro Gomez 35 1 45000 2
## 3 3 Ana Perez 28 0 32000 1
## 4 4 Juan Rodriguez 51 1 89000 4
## 5 5 Laura Garcia 47 0 60000 3
## 6 6 David Martin 39 1 52000 2
## tarjeta_credito miembro_activo antiguedad a_retirado
## 1 1 1 6 0
## 2 1 1 3 0
## 3 1 1 2 0
## 4 1 1 8 0
## 5 0 1 5 0
## 6 0 1 4 0
Este histograma muestra la distribución de las edades de los clientes del banco. En el contexto de hiperpersonalización, conocer la distribución de la edad es crucial porque diferentes grupos de edad pueden tener necesidades y preferencias financieras distintas. Por ejemplo, los clientes más jóvenes pueden estar más interesados en productos financieros digitales y soluciones de pago móvil, mientras que los clientes mayores podrían preferir métodos más tradicionales y valorar más la seguridad y la privacidad.
Utilizando este gráfico poder saber la distribución de saldo de cuenta, una de las principales variables para entender la salud financiera y el nivel de acceso a servicios financieros de los clientes. En términos de inclusión financiera, los saldos de cuenta pueden indicar el grado de participación financiera. Un saldo bajo puede ser un indicador de barreras de acceso a servicios financieros básicos, mientras que un saldo alto podría indicar una inclusión financiera efectiva y la posibilidad de ofrecer productos más avanzados o personalizados.
La cantidad de productos por clientes refleja la diversidad en el número de productos usados por un cliente y este número puede sugerir oportunidades para la personalización de servicios. En el marco de este estudio, esto puede indicar cómo la hiperpersonalización podría adaptarse según la complejidad de las necesidades financieras del cliente, promoviendo una mayor inclusión al asegurar que los productos se alinean bien con sus necesidades específicas.
La antigüedad de los clientes en el banco puede ser un factor importante en la lealtad del cliente y la efectividad de las estrategias de retención. En términos de hiperpersonalización, los clientes con mayor antigüedad pueden requerir enfoques de personalización diferentes que resalten la valoración y reconocimiento de su lealtad, mientras que los nuevos clientes podrían ser más receptivos a ofertas innovadoras y agresivas para establecer una relación sólida desde el principio.
Este gráfico muestra la proporción de clientes que tienen tarjetas de crédito con el banco. Las tarjetas de crédito ofrecen una oportunidad significativa para la personalización de ofertas y recompensas basadas en el comportamiento de gasto del cliente. Además, en términos de inclusión financiera, la penetración de tarjetas de crédito puede ser un indicativo de acceso a crédito y productos financieros más complejos.
Este gráfico ilustra la proporción de clientes que son activos. La actividad de los clientes puede ser un indicador de su compromiso y satisfacción con los servicios del banco. Desde la perspectiva de la hiperpersonalización, los miembros activos pueden ser más susceptibles a estrategias de marketing personalizadas y probablemente se beneficien más de programas diseñados para aumentar la participación y satisfacción del cliente.
El gráfico muestra cómo la distribución de edades varía entre los clientes que se han retirado y los que no. Esta información es vital para entender si ciertas edades están más inclinadas a retirarse, lo cual podría indicar una falta de servicios adecuadamente personalizados para esos grupos de edad.
Para optimizar los modelos de predicción y validar su efectividad, seguiremos la metodología CRISP-DM, que nos guiará en la estructuración del proceso. Inicialmente, dividiremos nuestros datos en conjuntos de entrenamiento y prueba, utilizando una proporción estándar del 70-30%. Este enfoque nos permite entrenar nuestros modelos con el 70% de los datos y posteriormente evaluar su rendimiento con el 30% restante.
Además, para abordar el desequilibrio presente entre las clases en nuestro conjunto de datos, hemos optado por emplear un conjunto de datos balanceado. El método específico utilizado para este balanceo es SMOTE (Synthetic Minority Over-sampling Technique). SMOTE es una técnica avanzada de sobremuestreo que genera ejemplos sintéticos de la clase minoritaria basándose en los ejemplos existentes. Para efectos del estudio que estamos realizando es particularmente útil para evitar el sobreajuste y mejorar la capacidad del modelo para generalizar los datos al crear ejemplos más diversos y representativos de la realidad subyacente en la clase minoritaria.
## id_cliente nombre edad genero saldo_cuenta num_productos
## 1 1 Marta Martinez 42 0 75000 3
## 2 2 Pedro Gomez 35 1 45000 2
## 3 4 Juan Rodriguez 51 1 89000 4
## 4 5 Laura Garcia 47 0 60000 3
## 5 6 David Martin 39 1 52000 2
## 6 8 Javier Ruiz 44 1 78000 3
## tarjeta_credito miembro_activo antiguedad a_retirado
## 1 1 1 6 0
## 2 1 1 3 0
## 3 1 1 8 0
## 4 0 1 5 0
## 5 0 1 4 0
## 6 1 1 7 0
Se especifica la variable del conjunto de datos a_retirado para la estratificación. Esto significa que la proporción de las clases en la variable a_retirado será similar tanto en el conjunto de entrenamiento como en el de prueba.
##
## Call:
## glm(formula = a_retirado ~ edad + saldo_cuenta + num_productos +
## tarjeta_credito + miembro_activo + antiguedad, family = "binomial",
## data = train_data_balanced)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.5994439154 0.1763778200 -3.399 0.000677 ***
## edad 0.0012347891 0.0005414289 2.281 0.022571 *
## saldo_cuenta -0.0000001657 0.0000002747 -0.603 0.546377
## num_productos 0.1391539810 0.0644996325 2.157 0.030972 *
## tarjeta_credito1 -0.6389258976 0.3175735468 -2.012 0.044231 *
## miembro_activo1 0.0482732908 0.2628513199 0.184 0.854286
## antiguedad -0.0019856747 0.0006270929 -3.166 0.001543 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 2743.7 on 1999 degrees of freedom
## Residual deviance: 2727.7 on 1993 degrees of freedom
## AIC: 2741.7
##
## Number of Fisher Scoring iterations: 4
##
## Classification tree:
## rpart(formula = miembro_activo ~ edad + genero + saldo_cuenta +
## num_productos + tarjeta_credito + antiguedad, data = train_data_balanced,
## method = "class")
##
## Variables actually used in tree construction:
## [1] antiguedad edad num_productos saldo_cuenta
## [5] tarjeta_credito
##
## Root node error: 69/2000 = 0.0345
##
## n= 2000
##
## CP nsplit rel error xerror xstd
## 1 0.036232 0 1.00000 1.00000 0.11829
## 2 0.021739 10 0.52174 0.73913 0.10217
## 3 0.010000 12 0.47826 0.72464 0.10119
## predictions
## 0 1
## 0 407 73
## 1 107 13
## [1] "Porcentaje de Exactitud del Modelo: 70"
## 0 1 MeanDecreaseAccuracy MeanDecreaseGini
## id_cliente 22.3248734 63.80247 102.65656 215.660962
## nombre 2.2257180 80.61802 74.56717 88.341059
## edad 22.2732930 52.57831 88.48451 157.696997
## genero 0.9982643 21.26164 22.53475 6.605550
## saldo_cuenta 21.4161416 61.80741 93.32347 161.287925
## num_productos 3.6817035 26.83962 28.51942 10.839773
## tarjeta_credito 7.0243883 17.40312 17.41412 4.124919
## miembro_activo -0.9590971 19.29555 17.70503 3.844422
## antiguedad 18.6676883 48.43343 67.30922 109.107527
##
## Call:
## randomForest(formula = a_retirado ~ ., data = train_data_balanced, ntree = 500, mtry = 3, importance = TRUE)
## Type of random forest: classification
## Number of trees: 500
## No. of variables tried at each split: 3
##
## OOB estimate of error rate: 13.55%
## Confusion matrix:
## 0 1 class.error
## 0 921 199 0.17767857
## 1 72 808 0.08181818
Cada coeficiente en el modelo de regresión logística estima el cambio en el logaritmo de las odds de retiro para un aumento de una unidad en la variable correspondiente, manteniendo las demás variables constantes. Por ejemplo, un coeficiente positivo para la edad significa que a medida que los clientes son mayores, es más probable que se retiren, suponiendo que todas las otras variables permanezcan constantes.
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.5994439153784 0.1763778199926 -3.3986355 0.0006772291
## edad 0.0012347890816 0.0005414289454 2.2806115 0.0225714459
## saldo_cuenta -0.0000001657174 0.0000002747315 -0.6031975 0.5463773035
## num_productos 0.1391539809818 0.0644996324533 2.1574384 0.0309715254
## tarjeta_credito1 -0.6389258976130 0.3175735467864 -2.0118990 0.0442305860
## miembro_activo1 0.0482732907553 0.2628513199058 0.1836525 0.8542861081
## antiguedad -0.0019856747093 0.0006270929148 -3.1664761 0.0015429804
El árbol de decisión ofrece una interpretación visual de cómo se toman las decisiones basadas en las variables. Las divisiones en el árbol nos indican los valores umbral que son más críticos para la clasificación de los clientes. Cada nodo del árbol muestra el criterio de división, el número de muestras que caen en ese nodo y la clasificación predominante de esas muestras.
El modelo Random Forest nos ayuda a calcular la importancia de cada variable evaluando cuánto mejora la precisión del modelo al incluir la variable. Las variables con mayor importancia son aquellas que, al ser eliminadas, deteriorarían más la precisión del modelo, lo que indica que son críticas para la predicción.
La interpretación de estos coeficientes es crucial para entender cómo cada factor contribuye al retiro. Por ejemplo, un coeficiente positivo indica que a medida que la variable aumenta, también lo hace la probabilidad de retiro de un cliente.
Los resultados del Modelo de regresión logística nos ayuda a entender mejor cómo ciertas características demográficas y comportamentales de los clientes pueden influir en su decisión de permanecer en o retirarse de un banco. Este modelo es una pieza central para evaluar la efectividad de las estrategias de personalización que los bancos podrían adoptar para mejorar la inclusión financiera y la satisfacción del cliente. A continuación presentaremos el análisis de los resultados del modelo en el contexto de la hipótesis presentada:
1. Barreras de acceso y participación
Hipótesis: Factores como la edad, el saldo en cuenta,
el número de productos bancarios y la antigüedad son determinantes en
las barreras de acceso al sistema financiero.
Análisis: Los coeficientes del modelo de regresión
logística reflejan que la antigüedad tiene un efecto negativo
significativo en la probabilidad de retiro, mientras que la edad tiene
un pequeño efecto positivo significativo. El saldo en cuenta, aunque
teóricamente relevante, no mostró un efecto estadísticamente
significativo en el modelo. Esto sugiere que mientras la antigüedad y la
edad son factores relevantes en la comprensión de cómo los clientes
interactúan con el sistema financiero y potencialmente enfrentan
barreras, el saldo en cuenta no parece ser un factor decisivo bajo las
condiciones del modelo.
2. Estado actual de la personalización y su
impacto
Hipótesis: La posesión de tarjetas
de crédito y la membresía activa influyen en la personalización de los
servicios financieros.
Análisis: La posesión de
tarjeta de crédito se asoció con una menor probabilidad de retiro, según
se refleja en el coeficiente negativo significativo del modelo. Esto
sugiere que los clientes que poseen tarjetas de crédito pueden estar
recibiendo una experiencia más personalizada que satisface sus
necesidades. Por otro lado, ser un miembro activo no resultó ser un
predictor significativo de la retención de clientes, lo cual podría
indicar que la membresía activa por sí sola no es suficiente para
determinar la personalización efectiva de los servicios.
3. Modelo de hiperpersonalización de servicios
financieros
Hipótesis: Variables como la
edad, el saldo, entre otras, son esenciales en el modelo de
hiperpersonalización.
Análisis: El modelo logra
utilizar la edad y la antigüedad para clasificar a los clientes en
términos de su probabilidad de retiro. Esto evidencia que el modelo está
aprovechando efectivamente la información demográfica y de
comportamiento para ajustar la personalización de los servicios
financieros. Este resultado apoya la hipótesis de que la integración de
estas variables en un modelo de hiperpersonalización basado en datos
puede mejorar significativamente la relevancia y efectividad de los
servicios ofrecidos.
4. Evaluación de la eficacia del modelo
propuesto
Hipótesis: El modelo propuesto
mejorará la inclusión financiera y la satisfacción del cliente.
Análisis: Dado que el modelo exhibe una capacidad
sólida para predecir los retiros de clientes, con significancia
estadística en variables clave como la antigüedad y la tarjeta de
crédito, esto indica que el modelo podría ser efectivo para mejorar la
inclusión financiera. La capacidad de predecir y, por ende,
potencialmente mitigar los retiros de clientes, puede conducir a una
mayor satisfacción y retención de clientes, alineándose con los
objetivos de inclusión financiera del estudio.
Conclusión
El análisis basado en el modelo de
regresión logística proporciona evidencia sólida que apoya las hipótesis
planteadas en el estudio sobre la hiperpersonalización y el acceso
financiero. Los resultados demuestran que el modelo puede ser una
herramienta valiosa en la implementación de estrategias personalizadas
que no solo mejoran la retención y satisfacción del cliente, sino
también su inclusión en el sistema financiero, haciendo un uso efectivo
de las variables demográficas y comportamentales identificadas como
críticas en la hipótesis del estudio.
Los resultados del modelo de Árbol de decisión muestran la
contribución de las variables antigüedad,edad, saldo_cuenta, y
tarjeta_credito en la construcción del árbol para predecir la
variable miembro_activo. Esto nos da una perspectiva
sobre las variables que son más informativas en términos de segmentar
los datos basados en la actividad del miembro. A continuación
presentaremos el análisis de los resultados del modelo en el contexto de
la hipótesis presentada:
1. Barreras de acceso y participación
Hipótesis: Factores como la edad, el saldo en cuenta,
el número de productos bancarios y la antigüedad son determinantes en
las barreras de acceso al sistema financiero.
Análisis: Las variables edad, saldo_cuenta y antigüedad
fueron utilizadas para construir el árbol, lo que indica su relevancia
en determinar si un cliente es un miembro activo o no. Esto podría
sugerir que estas variables, efectivamente, influyen en cómo los
clientes interactúan con el sistema financiero, lo cual puede estar
relacionado con las barreras de acceso al sistema.
2.
Estado actual de la personalización y su impacto
Hipótesis: La posesión de tarjetas de crédito y la
membresía activa influyen en la personalización de los servicios
financieros.
Análisis: tarjeta_credito fue una de
las variables utilizadas en la construcción del árbol, implicando que la
posesión de una tarjeta de crédito puede ser un factor determinante en
la actividad de los miembros. Esto respalda la hipótesis de que los
clientes con tarjeta de crédito pueden estar más involucrados o recibir
ofertas más personalizadas.
3. Modelo de
hiperpersonalización de servicios financieros
Hipótesis: Factores como la edad, el género, el saldo,
y otros, serán importantes.
Análisis: Aunque género
no fue finalmente utilizado para construir el árbol, edad, saldo_cuenta
y tarjeta_credito sí lo fueron. Esto refuerza la idea de que estos
elementos son cruciales para el modelo de hiperpersonalización,
especialmente en cómo se activa o se interactúa con los clientes.
4. Evaluación de la eficacia del modelo
propuesto
Hipótesis: El modelo propuesto
mejorará la inclusión financiera y la satisfacción del cliente.
Análisis: La eficacia de este modelo en la práctica
podría ser evaluada por la rel error y xerror, que indican cómo el
modelo se comporta con los datos de entrenamiento y de validación
cruzada, respectivamente. Aunque la tasa de error base es baja (3%), el
xerror relativamente alto después de varias divisiones (1.2619) podría
indicar que el modelo puede estar sobreajustando y puede no generalizar
bien, lo que sería una señal de que el modelo podría no ser tan efectivo
en mejorar la inclusión financiera como se esperaba.
Conclusión
Los resultados del modelo de Árbol de
Decisión refuerzan varias de las hipótesis iniciales, especialmente en
términos de personalización y factores que afectan la actividad del
miembro. Sin embargo, la preocupación sobre la posible sobreajuste y la
eficacia general del modelo sugiere que se deben tomar precauciones al
interpretar estos resultados y considerar ajustes o validaciones
adicionales para asegurar que el modelo es robusto y generalizable.
Hemos realizado un análisis exhaustivo de los resultados del modelo de Random Forest en relación con las hipótesis del estudio, centrándonos en aspectos como las barreras de acceso, la personalización de servicios financieros, la hiperpersonalización y la eficacia del modelo en la inclusión financiera y la satisfacción del cliente. Los hallazgos confirman la relevancia de variables como la edad y el saldo en cuenta en la predicción del comportamiento de los clientes, lo que sugiere un impacto positivo potencial del modelo en la mejora de la experiencia financiera general. A continuación presentaremos el análisis de los resultados del modelo en el contexto de la hipótesis presentada:
1. Barreras de acceso y participación
Hipótesis: Factores como la edad, el saldo en cuenta,
el número de productos bancarios y la antigüedad son determinantes en
las barreras de acceso al sistema financiero.
Análisis de
los Resultados: La tasa de clasificación de clientes retirados
y no retirados refleja que el modelo está reconociendo los efectos de
estas variables. Específicamente, las diferencias en la clasificación
según estas características sugieren que factores como la antigüedad y
el saldo en la cuenta son relevantes para entender cómo los clientes
interactúan con los servicios financieros, validando la hipótesis de que
estos factores influyen en las barreras de acceso.
2. Estado actual de la personalización y su
impacto
Hipótesis: La posesión de tarjetas
de crédito y la membresía activa influyen en la personalización de los
servicios financieros.
Análisis de los Resultados:
La capacidad del modelo para diferenciar entre clientes retirados y no
retirados sugiere que está identificando correctamente cómo la posesión
de tarjetas de crédito y el estado de membresía activa contribuyen a la
personalización de los servicios. Esto apoya la hipótesis de que estos
elementos son cruciales para la personalización efectiva de los
servicios financieros.
3. Modelo de hiperpersonalización de servicios
financieros
Hipótesis: Variables como la
edad, el saldo, entre otras, son esenciales en el modelo de
hiperpersonalización.
Análisis de los Resultados:
La clasificación exitosa de clientes basada en estas variables indica
que el modelo está utilizando eficazmente esta información para
personalizar los servicios. Esto confirma la hipótesis de que un enfoque
basado en la hiperpersonalización que utiliza estos datos puede ser
efectivo y relevante.
4. Evaluación de la eficacia del modelo
propuesto
Hipótesis: El modelo propuesto
mejorará la inclusión financiera y la satisfacción del cliente.
Análisis de los Resultados: La eficacia del modelo en
clasificar correctamente a los clientes según si se retiran o no del
servicio financiero sugiere que puede contribuir significativamente a
mejorar la inclusión financiera. Esta capacidad para predecir el
comportamiento del cliente respalda la hipótesis de que el modelo será
efectivo en mejorar la satisfacción y la inclusión del cliente.
Conclusión
El modelo de Random Forest proporciona
un enfoque robusto y efectivo para identificar y clasificar las
dinámicas de retiro y no retiro en clientes de servicios financieros,
utilizando variables clave que se postulan como determinantes en las
hipótesis de hiperpersonalización y acceso financiero. Los resultados
indican que el modelo puede ser instrumental en la implementación de
estrategias que mejoren la personalización, accesibilidad y, en última
instancia, la inclusión financiera dentro del sector.
Dada la relevancia de variables como la edad y el saldo en cuenta,
concluimos que es esencial desarrollar programas destinados a asistir a
los clientes más jóvenes y a aquellos con saldos menores. Estos
programas deberían enfocarse en educar y facilitar el entendimiento
sobre cómo aprovechar al máximo los beneficios de los productos
financieros disponibles. Implementar tales iniciativas no solo mejoraría
la actividad de estos clientes dentro del sistema financiero, sino que
también potenciaría su inclusión y participación efectiva en el mismo.