## Loading required package: survival
## Loading required package: survminer
## Loading required package: ggplot2
## Loading required package: ggpubr
## Loading required package: magrittr

Introducción.

Se pretende hacer un análisis acerca del tiempo de permanencia de los clientes de un banco con relación a ciertas características de los mismos que se capturaron en la base de datos del banco. Las variables son:

##  [1] "RowNumber"       "CustomerId"      "Surname"        
##  [4] "CreditScore"     "Geography"       "Gender"         
##  [7] "Age"             "Tenure"          "Balance"        
## [10] "NumOfProducts"   "HasCrCard"       "IsActiveMember" 
## [13] "EstimatedSalary" "Exited"

La variable “Exited” indica si se ha perdido o no al cliente en cuestión. La variable “Tenure” es el tiempo que el cliente ha permanecido con el banco hasta su partida o censura.

Gráficas de supervivencia.

Supervivencia base.

Primero se observará la supervivencia general, es decir, la función de supervivencia estimada de todos los tiempos de permanencia “Tenure” de los clientes del banco, sin considerar características particulares de los mismos.

Influencia de la geografía.

Ahora se intentará ver si el país del cliente tiene algún efecto en la permanencia del mismo.

En la gráfica se puede apreciar que los clientes alemanes son más propensos a dejar el banco que los franceses o españoles. Hecho que puede ser confirmado con una prueba de hipótesis sobre las supervivencias estimadas.

## Call:
## survdiff(formula = Surv(Tenure, Exited) ~ Geography, data = Datos)
## 
##                      N Observed Expected (O-E)^2/E (O-E)^2/V
## Geography=France  5014      810     1019      42.7      90.6
## Geography=Germany 2509      814      516     171.6     244.0
## Geography=Spain   2477      413      502      15.8      22.2
## 
##  Chisq= 244  on 2 degrees of freedom, p= <2e-16

Es decir, se rechaza que las supervivencias sean iguales, cómo se suponía de ver la gráfica.

Influencia de la calificación crediticia.

A continuación se verá si la calificación crediticia de los clientes tiene relación con su tiempo de permanencia en el banco.

El gráfico no parece mostrar ninguna diferencia significativa en las supervivencias en función de las calificaciones crediticias de los grupos. Esto se puede corroborar con una pruebe de hipótesis de diferencia de supervivencias.

## Call:
## survdiff(formula = Surv(Tenure, Exited) ~ Credit_scores, data = Datos)
## 
##                         N Observed Expected (O-E)^2/E (O-E)^2/V
## Credit_scores=High   3303      654      680     0.996     1.585
## Credit_scores=Low    3363      724      683     2.481     3.957
## Credit_scores=Medium 3334      659      674     0.340     0.539
## 
##  Chisq= 4  on 2 degrees of freedom, p= 0.1

El p-value de 0.1 de la prueba no es lo suficientemente pequeño cómo para descartar que las supervivencias sean iguales.

Membresía con el banco.

Veamos si los miembros activos del banco son menos propensos a cerrar sus cuentas que los no miembros. Efectivamente, la gráfica parece mostrar lo que se suponía acerca de las supervivencias de los miembros contra las de los no miembros. En la siguiente prueba de hipótesis se confirma esta afirmación.

## Call:
## survdiff(formula = Surv(Tenure, Exited) ~ IsActiveMember, data = Datos)
## 
##                     N Observed Expected (O-E)^2/E (O-E)^2/V
## IsActiveMember=0 4849     1302     1009      85.1       179
## IsActiveMember=1 5151      735     1028      83.5       179
## 
##  Chisq= 179  on 1 degrees of freedom, p= <2e-16

Influencia del nivel salarial.

Aquí se inquirirá si el nivel salarial de los clientes influye en su tiempo de estadía con el banco.

Los niveles salariales de los clientes tienen las siguientes características:

##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
##     11.58  51002.11 100193.91 100090.24 149388.25 199992.48

La gráfica es:

El raro comportamiento de la supervivencia del grupo de bajo salario quizás se debe a que es un grupo mucho menor que el de salario alto. El resultado no es concluyente.

Posesión de targeta de crédito.

Lo que se hará a continuación es explorar si el tener targeta de crédito hace que un cliente se quede más con el banco o no.

No parece haber ninguna diferencia significativa en las supervivencias de los dos grupos. La siguiente prueba confirma lo anterior:

## Call:
## survdiff(formula = Surv(Tenure, Exited) ~ HasCrCard, data = Datos)
## 
##                N Observed Expected (O-E)^2/E (O-E)^2/V
## HasCrCard=0 2945      613      587     1.197      1.78
## HasCrCard=1 7055     1424     1450     0.484      1.78
## 
##  Chisq= 1.8  on 1 degrees of freedom, p= 0.2

Número de productos utilizados.

Veamos si la cantidad de productos bancarios adicionales que el cliente utiliza hace que éste dure más tiempo con el banco.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00    1.00    1.00    1.53    2.00    4.00

Parece que el hacer uso de más productos incrementa el tiempo de lealtad del cliente. Comprobémoslo con una prueba de hipótesis.

## Call:
## survdiff(formula = Surv(Tenure, Exited) ~ N_products, data = Datos)
## 
##                    N Observed Expected (O-E)^2/E (O-E)^2/V
## N_products=Few  5084     1409     1027       142       304
## N_products=Many 4916      628     1010       144       304
## 
##  Chisq= 304  on 1 degrees of freedom, p= <2e-16

Balance de la cuenta.

Intentemos averiguar el monto que el cliente tiene en su cuenta es un buen predictor del tiempo que permanecerá con el banco.

Parece ser que los que tienen montos menores se quedan más tiempo con el banco.

## Call:
## survdiff(formula = Surv(Tenure, Exited) ~ Qbalance, data = Datos)
## 
##                   N Observed Expected (O-E)^2/E (O-E)^2/V
## Qbalance=Lower 4081      611      844      64.1       116
## Qbalance=Upper 5919     1426     1193      45.3       116
## 
##  Chisq= 116  on 1 degrees of freedom, p= <2e-16

La prueba anterior confirma este hecho.

Influencia de la edad de los clientes.

Veamos cómo influye la edad de los clientes en su tiempo de permanencia.

Los clientes jovenes, de acuerdo con la gráfica anterior, tienden a permanecer más con el banco que los más viejos.

## Call:
## survdiff(formula = Surv(Tenure, Exited) ~ Ages, data = Datos)
## 
##               N Observed Expected (O-E)^2/E (O-E)^2/V
## Ages=Lower 5564      525     1129       323       769
## Ages=Upper 4436     1512      908       402       769
## 
##  Chisq= 770  on 1 degrees of freedom, p= <2e-16

Esta prueba es la confirma lo anterior.

Influencia del género.

Veamos si el género del cliente tiene algo que ver con el tiempo que se queda con el banco.

Parece que los hombres se quedan más tiempo con el banco que las mujeres.

## Call:
## survdiff(formula = Surv(Tenure, Exited) ~ Gender, data = Datos)
## 
##                  N Observed Expected (O-E)^2/E (O-E)^2/V
## Gender=Female 4543     1139      920      52.2       101
## Gender=Male   5457      898     1117      43.0       101
## 
##  Chisq= 101  on 1 degrees of freedom, p= <2e-16

La prueba de hipótesis anterior valida la conclusión arriba enunciada.