## Loading required package: survival
## Loading required package: survminer
## Loading required package: ggplot2
## Loading required package: ggpubr
## Loading required package: magrittr
Se pretende hacer un análisis acerca del tiempo de permanencia de los clientes de un banco con relación a ciertas características de los mismos que se capturaron en la base de datos del banco. Las variables son:
## [1] "RowNumber" "CustomerId" "Surname"
## [4] "CreditScore" "Geography" "Gender"
## [7] "Age" "Tenure" "Balance"
## [10] "NumOfProducts" "HasCrCard" "IsActiveMember"
## [13] "EstimatedSalary" "Exited"
La variable “Exited” indica si se ha perdido o no al cliente en cuestión. La variable “Tenure” es el tiempo que el cliente ha permanecido con el banco hasta su partida o censura.
Primero se observará la supervivencia general, es decir, la función de supervivencia estimada de todos los tiempos de permanencia “Tenure” de los clientes del banco, sin considerar características particulares de los mismos.
Ahora se intentará ver si el país del cliente tiene algún efecto en la permanencia del mismo.
En la gráfica se puede apreciar que los clientes alemanes son más propensos a dejar el banco que los franceses o españoles. Hecho que puede ser confirmado con una prueba de hipótesis sobre las supervivencias estimadas.
## Call:
## survdiff(formula = Surv(Tenure, Exited) ~ Geography, data = Datos)
##
## N Observed Expected (O-E)^2/E (O-E)^2/V
## Geography=France 5014 810 1019 42.7 90.6
## Geography=Germany 2509 814 516 171.6 244.0
## Geography=Spain 2477 413 502 15.8 22.2
##
## Chisq= 244 on 2 degrees of freedom, p= <2e-16
Es decir, se rechaza que las supervivencias sean iguales, cómo se suponía de ver la gráfica.
A continuación se verá si la calificación crediticia de los clientes tiene relación con su tiempo de permanencia en el banco.
El gráfico no parece mostrar ninguna diferencia significativa en las supervivencias en función de las calificaciones crediticias de los grupos. Esto se puede corroborar con una pruebe de hipótesis de diferencia de supervivencias.
## Call:
## survdiff(formula = Surv(Tenure, Exited) ~ Credit_scores, data = Datos)
##
## N Observed Expected (O-E)^2/E (O-E)^2/V
## Credit_scores=High 3303 654 680 0.996 1.585
## Credit_scores=Low 3363 724 683 2.481 3.957
## Credit_scores=Medium 3334 659 674 0.340 0.539
##
## Chisq= 4 on 2 degrees of freedom, p= 0.1
El p-value de 0.1 de la prueba no es lo suficientemente pequeño cómo para descartar que las supervivencias sean iguales.
Veamos si los miembros activos del banco son menos propensos a cerrar sus cuentas que los no miembros. Efectivamente, la gráfica parece mostrar lo que se suponía acerca de las supervivencias de los miembros contra las de los no miembros. En la siguiente prueba de hipótesis se confirma esta afirmación.
## Call:
## survdiff(formula = Surv(Tenure, Exited) ~ IsActiveMember, data = Datos)
##
## N Observed Expected (O-E)^2/E (O-E)^2/V
## IsActiveMember=0 4849 1302 1009 85.1 179
## IsActiveMember=1 5151 735 1028 83.5 179
##
## Chisq= 179 on 1 degrees of freedom, p= <2e-16
Aquí se inquirirá si el nivel salarial de los clientes influye en su tiempo de estadía con el banco.
Los niveles salariales de los clientes tienen las siguientes características:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 11.58 51002.11 100193.91 100090.24 149388.25 199992.48
La gráfica es:
El raro comportamiento de la supervivencia del grupo de bajo salario quizás se debe a que es un grupo mucho menor que el de salario alto. El resultado no es concluyente.
Lo que se hará a continuación es explorar si el tener targeta de crédito hace que un cliente se quede más con el banco o no.
No parece haber ninguna diferencia significativa en las supervivencias de los dos grupos. La siguiente prueba confirma lo anterior:
## Call:
## survdiff(formula = Surv(Tenure, Exited) ~ HasCrCard, data = Datos)
##
## N Observed Expected (O-E)^2/E (O-E)^2/V
## HasCrCard=0 2945 613 587 1.197 1.78
## HasCrCard=1 7055 1424 1450 0.484 1.78
##
## Chisq= 1.8 on 1 degrees of freedom, p= 0.2
Veamos si la cantidad de productos bancarios adicionales que el cliente utiliza hace que éste dure más tiempo con el banco.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.00 1.00 1.00 1.53 2.00 4.00
Parece que el hacer uso de más productos incrementa el tiempo de lealtad del cliente. Comprobémoslo con una prueba de hipótesis.
## Call:
## survdiff(formula = Surv(Tenure, Exited) ~ N_products, data = Datos)
##
## N Observed Expected (O-E)^2/E (O-E)^2/V
## N_products=Few 5084 1409 1027 142 304
## N_products=Many 4916 628 1010 144 304
##
## Chisq= 304 on 1 degrees of freedom, p= <2e-16
Intentemos averiguar el monto que el cliente tiene en su cuenta es un buen predictor del tiempo que permanecerá con el banco.
Parece ser que los que tienen montos menores se quedan más tiempo con el banco.
## Call:
## survdiff(formula = Surv(Tenure, Exited) ~ Qbalance, data = Datos)
##
## N Observed Expected (O-E)^2/E (O-E)^2/V
## Qbalance=Lower 4081 611 844 64.1 116
## Qbalance=Upper 5919 1426 1193 45.3 116
##
## Chisq= 116 on 1 degrees of freedom, p= <2e-16
La prueba anterior confirma este hecho.
Veamos cómo influye la edad de los clientes en su tiempo de permanencia.
Los clientes jovenes, de acuerdo con la gráfica anterior, tienden a permanecer más con el banco que los más viejos.
## Call:
## survdiff(formula = Surv(Tenure, Exited) ~ Ages, data = Datos)
##
## N Observed Expected (O-E)^2/E (O-E)^2/V
## Ages=Lower 5564 525 1129 323 769
## Ages=Upper 4436 1512 908 402 769
##
## Chisq= 770 on 1 degrees of freedom, p= <2e-16
Esta prueba es la confirma lo anterior.
Veamos si el género del cliente tiene algo que ver con el tiempo que se queda con el banco.
Parece que los hombres se quedan más tiempo con el banco que las mujeres.
## Call:
## survdiff(formula = Surv(Tenure, Exited) ~ Gender, data = Datos)
##
## N Observed Expected (O-E)^2/E (O-E)^2/V
## Gender=Female 4543 1139 920 52.2 101
## Gender=Male 5457 898 1117 43.0 101
##
## Chisq= 101 on 1 degrees of freedom, p= <2e-16
La prueba de hipótesis anterior valida la conclusión arriba enunciada.