Análisis de Supervivencia Aplicado a Telecomunicaciones

Herrera Paniagua Lizbeth Guadalupe

2018-11-09

“La empresa sin estrategia está dispuesta a intentar cualquier cosa”

(Michael Porter - Profesor de Harvard)

Management Solutions.

El mundo se enfrenta a una revolución tecnológica sin precedentes. La propagación del acceso a internet de banda ancha, junto con la democratización de los precios de acceso, tanto de terminales como de conectividad, está digitalizando los hábitos de las personas, empresas e instituciones, trasladando a la red gran parte de sus actuaciones cotidianas. Es por ello que para una empresa de telecomunicaciones la necesidad de desarrollar diversas estrategias de mercado que puedan atraer y conservar a la cartera de clientes y potenciales clientes para aumentar los ingresos de la compañía y así poder ofrecer más y mejores sevicios además de tarifas y precios accesibles para poder tener el mejor de los escenarios donde se pueda crear una situación ganar-ganar, tanto para el cliente como para al compañía.

Es por ello que el objetivo principal de este trabajo es el de analizar una cartera de clientes de una compañía de telecomunicaciones a través del análisis de supervivencia para poder mostrar através de herramientas estadísticas las características y la forma en que los clientes interactuan con la empresa.

Es fundamental analizar la estancia de sus clientes dentro de la cartera, ya que de esta forma se pueden planear estrategias operativas y de mercado que logren mantener y aumentar su cartera.

Ahora bien, para este trabajo se eligió una compañía de telecomunicaciones europea, de la cual se obtuvo una pequeña base de datos la cual consta de 7043 registros, cada uno inttegrado de un total de 21 variables. Presentadas a continuación:

## [1] "C:/Users/bec-rene3/Documents/Lizbeth/Trabajos/R"
x
customerID
gender
SeniorCitizen
Partner
Dependents
tenure
PhoneService
MultipleLines
InternetService
OnlineSecurity
OnlineBackup
DeviceProtection
TechSupport
StreamingTV
StreamingMovies
Contract
PaperlessBilling
PaymentMethod
MonthlyCharges
TotalCharges
Churn

Análisis Descriptivo.

El Primer paso para realizar de forma correcta nuestro análisis de supervivencia es concocer cada una de las variables, para ello realizaremos un análisis exploratorio. Pues bien, ¡comencemos!

## [1] 11

Primero notemos que nuestra base tiene 11 datos faltantes. al ser menos del 1% de los datos de la base, se decidió eliminar dichos registros por practicidad del ejercicio.

## [1] 0

Ahora bien, al no tener datos faltantes, procedemos a hacer un análisis descriptivo.

##       customerID      gender     SeniorCitizen Partner    Dependents
##  0002-ORFBO:   1   Female:3483   no :5890      No :3639   No :4933  
##  0003-MKNFE:   1   Male  :3549   yes:1142      Yes:3393   Yes:2099  
##  0004-TLHLJ:   1                                                    
##  0011-IGKFF:   1                                                    
##  0013-EXCHZ:   1                                                    
##  0013-MHZWF:   1                                                    
##  (Other)   :7026                                                    
##      tenure      PhoneService          MultipleLines     InternetService
##  Min.   : 1.00   No : 680     No              :3385   DSL        :2416  
##  1st Qu.: 9.00   Yes:6352     No phone service: 680   Fiber optic:3096  
##  Median :29.00                Yes             :2967   No         :1520  
##  Mean   :32.42                                                          
##  3rd Qu.:55.00                                                          
##  Max.   :72.00                                                          
##                                                                         
##              OnlineSecurity              OnlineBackup 
##  No                 :3497   No                 :3087  
##  No internet service:1520   No internet service:1520  
##  Yes                :2015   Yes                :2425  
##                                                       
##                                                       
##                                                       
##                                                       
##             DeviceProtection              TechSupport  
##  No                 :3094    No                 :3472  
##  No internet service:1520    No internet service:1520  
##  Yes                :2418    Yes                :2040  
##                                                        
##                                                        
##                                                        
##                                                        
##               StreamingTV              StreamingMovies
##  No                 :2809   No                 :2781  
##  No internet service:1520   No internet service:1520  
##  Yes                :2703   Yes                :2731  
##                                                       
##                                                       
##                                                       
##                                                       
##            Contract    PaperlessBilling                   PaymentMethod 
##  Month-to-month:3875   No :2864         Bank transfer (automatic):1542  
##  One year      :1472   Yes:4168         Credit card (automatic)  :1521  
##  Two year      :1685                    Electronic check         :2365  
##                                         Mailed check             :1604  
##                                                                         
##                                                                         
##                                                                         
##  MonthlyCharges    TotalCharges    Churn     
##  Min.   : 18.25   Min.   :  18.8   No :5163  
##  1st Qu.: 35.59   1st Qu.: 401.4   Yes:1869  
##  Median : 70.35   Median :1397.5             
##  Mean   : 64.80   Mean   :2283.3             
##  3rd Qu.: 89.86   3rd Qu.:3794.7             
##  Max.   :118.75   Max.   :8684.8             
## 

Como podemos Observar, de las 21 variables en total, podemos darnos el pequeño lujo de descartar 1, customerID, debido a que dicha variable es sólo de identificación de algún usuario de forma particular, lo que para este caso es intrascendente.

Después de descartar cosas, procedemos a realizar el análisis individual de cada una de las variables restantes.

Análisis Individual

Iniciemos con las variables Cuantitativas

Para iniciar tomemos en cuenta las características de los clientes de telecomunicaciones. La primera variable en analizar es Género, en este caso se tienen 3483 Mujeres, lo que representa un 49.5% del total de clientes, mientras que en el caso de hombres se tienen 3549, es decir un 50.5% del total de clientes.

## vari2
## Female   Male 
##   3483   3549

Ahora continuemos con el total de clientes jubilados dentro de la base de datos, se tienen un total de 1142 jubilados, esto es un 16.2% del total de la base, es una cantidad de miembros importante para la compañía.

## vari2
##   no  yes 
## 5890 1142

La tercera variable es el estado civil de los clientes, en este caso se tiene una proporción similar entre clientes con pareja y clientes sin ella. La primera categoría representa un 51.7% mientras que aquellas personas que no cuentan con pareja es del 48.3%

## vari2
##   No  Yes 
## 3639 3393

Continuando con el análisis, se puede observar que predominan dentro de la base de datos aquellos clientes con dependientes, estos pueden incluir a la pareja, hijos, padres, entre otros, los cuales representan un 70.2%.

## vari2
##   No  Yes 
## 4933 2099

Ahora bien, dentro de nuestra base predominan tanto los clientes que cuentan con servicio de línea telefónica con un 90%, de los cuales el 46.7% cuenta con múltiples líneas telefónicas.

## vari2
##   No  Yes 
##  680 6352

## vari2
##               No No phone service              Yes 
##             3385              680             2967

Mientras que, de los 7032 clientes, el 34.3% cuenta con un servicio de internet por medio de DSL, el 44% cuenta con un servicio de internet por medio de fibra óptica y el resto no cuenta con servicio de internet.

## vari2
##         DSL Fiber optic          No 
##        2416        3096        1520

Podemos notar un comportamiento muy parecido entre los clientes que cuentan con servicio de Copia de seguridad con aquellos cuentan protección para su dispositivo y con los que tienen servicio de seguridad en línea

## vari2
##                  No No internet service                 Yes 
##                3497                1520                2015

## vari2
##                  No No internet service                 Yes 
##                3087                1520                2425

De igual forma se observa un comportamiento parecido en la proporción de clientes que cuentan con servicio de internet y reciben asistencia técnica.

## vari2
##                  No No internet service                 Yes 
##                3094                1520                2418

## vari2
##                  No No internet service                 Yes 
##                3472                1520                2040

Otro servicio que se otorga es el de Streaming, tanto de televisión como de películas con un porcentaje que ronda el 39.5% del total de la cartera.

## vari2
##                  No No internet service                 Yes 
##                2809                1520                2703

## vari2
##                  No No internet service                 Yes 
##                2781                1520                2731

En cuanto a la modalidad de contratación se observa una predominante tendencia de los clientes por contratar Mes por mes, contando con un 55.1% mientras que la modalidad de contratación por año cuenta con 20.9% y finalmente aquellos que contratan por periodo de dos años es de 29%.

## vari2
## Month-to-month       One year       Two year 
##           3875           1472           1685

En cuanto al método de pago se tiene en primer lugar de popularidad el método electrónico con el 33% de la cartera mientras que los demás métodos de pago rondan el 22% de la cartera. Además de esto se puede observar que se cuenta con una gran parte de personas que requieren de facturación pues representa el 60%.

## vari2
## Bank transfer (automatic)   Credit card (automatic) 
##                      1542                      1521 
##          Electronic check              Mailed check 
##                      2365                      1604

## vari2
##   No  Yes 
## 2864 4168

Ahora veamos qué pasa con la duración de las personas dentro de la empresa. Podemos observar una gran cantidad de personas que duran sólo un mes con los servicios que ofrece la compañía, notemos también que el 25 % de las personas que realizan un contrato con la compañía no dura más de un año dentro de la cartera, algo alarmante, ya que si pensamos en los costos que representan para la empresa el brindar los servicios además de los recursos involucrados, estamos hablando de que existe una pérdida importante de ingresos, ya que se está gastando más de lo que se recibe en este tipo de clientes. En promedio observamos una duración de 32 meses, teniendo clientes con una duración máxima de 72 meses.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00    9.00   29.00   32.42   55.00   72.00

En cuanto al tema de cobro, se tiene un importe mensual así como un importe total por cliente. En el primero se observa que el importe mínimo a cobrar fue de 18.8 USD, dicho cobro lo podemos asociar con los servicios mínimos que ofrece la empresa, sin embargo se puede observar que una gran cantidad de clientes paga alrededor de 23 USD por mes, y en promedio el importe mensual es de 64.8 USD teniendo un importe mensual máximo de 118.75 USD que se puede tomar como el importe mensual contemplando todos los servicios posibles.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   18.25   35.59   70.35   64.80   89.86  118.75

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    18.8   401.4  1397.5  2283.3  3794.7  8684.8

Con lo anterior y teniendo en cuenta el comportamiento de los tiempos de duración dentro de la compañía se obtiene un importe total cargado con un comportamiento descendiente, es decir cuan más bajo sea el costo total mayor frecuencia de personas.

Análisis de tiempos de permanencia e interacción con otras variables.

A continuación se analiza el comportamiento de los tiempos de supervivencia utilizando las otras variables como explicativas. Recordemos que haasta este punto sólo se están tomando en cuenta los tiempos sin considerar censuras.

Comencemos primero con las características de los clientes. Observamos que los tiempos de permanencia dentro de la cartera de clientes no sé ve afectado por el género de la persona, o por el estatus de jubilación, ya que no hay una diferencia significativa en las gráficas de distribución de tiempos entre hombres y mujeres, o entre jubilados o no. Sin embargo esto no sucede con los tiempos de permanencia considerando la situación conyugal o de dependientes, ya que se observa una mayor permanencia en aquellos clientes que tienen pareja contra los que no, al igual que con aquellos que tienen dependientes versus los que no cuentan con uno.

En segundo lugar analicemos los tiempos de permanencia considerando los servicios que se pueden ofrecer al cliente.

Notamos que los tiempos de permanencia considerando el servicio telefónico o el servicio de Internet no sé ven afectados pues, gráficamente no hay una diferencia significativa en la distribución de tiempos de permanencia. Por otro lado, si tomamos en cuenta el servicio de líneas múltiples, la seguridad o bien asistencia en línea, se observa una diferencia entre dicho tiempos, pues permanece más aquellos que cuentan con alguno de estos servicios.

En cuanto al tipo de método de pago, aquellos que pagan por medio de transferencia electrónica o por medio de email permanece menos tiempo dentro de la cartera que aquellos cuyo método de pago es el tradicional, es decir por medio de transferencia bancaria o tarjeta de crédito. Otro aspecto a considerar es el tipo de contrato a elegir, en este caso es curioso notar que permanecen menos tiempo los que contratan de forma mensual a aquellos que contratan de forma anual o bianual.

#Correlación entre variables y análisis de factores.

Un inconventiene para realizar un buen análisis de supervivencia es el tener un gran número de variables explicativas, pues se deben de elegir aquellas que son las que aportan información que haga las más significativa la diferencia entre las supervivencias, sin embargo muchas veces algunas de las variables pueden aportar la misma información. Lo anterior afecta de manera importante a nuestro análisis debido que realizar una selección de las mejores variables puede resultar muy tardado y tedioso, es por ello que se realizará primero la búsqueda de variables fuertemente relacionadas, para continuar con un análisis de factores, ambos con el fin de reducir el número de variables.

Recordemos que un Análisis factorial es una técnica estadísticade reducción de datos usada para explicar las correlaciones entre las variables observadas en términos de un número menor de variables no observadas llamadas factores. Las variables observadas se modelan como combinaciones lineales de factores más expresiones de error. Las variables a considerar dentro del análisis son todas aquellas relacionadas a los servicios que la empresa ofrece, ya que contamos con un gran número de ellas. El resultado fue la obtención de 3 variables nuevas formadas a través de 12 variables iniciales.

## Parallel analysis suggests that the number of factors =  3  and the number of components =  3
## 
## Loadings:
##                  MR1    MR2    MR3   
## PhoneService             0.931       
## MultipleLines           -0.149  0.452
## InternetService          1.014       
## OnlineSecurity    0.679        -0.119
## OnlineBackup      0.375         0.206
## DeviceProtection  0.413         0.399
## TechSupport       0.660              
## StreamingTV                     0.709
## StreamingMovies                 0.701
## Contract          0.758         0.151
## PaperlessBilling -0.471 -0.108  0.429
## PaymentMethod                  -0.249
## 
##                  MR1   MR2   MR3
## SS loadings    2.045 1.948 1.696
## Proportion Var 0.170 0.162 0.141
## Cumulative Var 0.170 0.333 0.474
##     PhoneService    MultipleLines  InternetService   OnlineSecurity 
##       0.87711229       0.20174451       1.03058380       0.42771216 
##     OnlineBackup DeviceProtection      TechSupport      StreamingTV 
##       0.22858172       0.42414145       0.46933341       0.55300576 
##  StreamingMovies         Contract PaperlessBilling    PaymentMethod 
##       0.54600827       0.66408225       0.29929409       0.08737638

La primera de ellas llamada MR1 considera mayormente el tipo de contrato, asistencia técnica y seguridad en línea, además de considerar también el servicio de copia de seguridad, protección de dispositivos y facturación. Considerando lo anterior se decidió renombrar a la variable MR1 como “SecurityService” ya que las variables más representativas son aquellas extra ,sobre todo en temas de seguridad y asistencia técnica, a los servicios básicos y que no todos los clientes contratan.

El segundo factor considera sólo el servicio telefónico, el servicio de Internet, múltiples líneas y método de facturación, es por ello que se ha decidido renombrar a la variable MR2 como “DigitalService”.

Finalmente, el factor MR3 está compuesto principalmente por los servicios de Streaming, tanto de TV como de pelícluas, además de método de pago, múltiples líneas, seguridad en línea, servicio de copia de seguridad, protección de dispositivos y facturación. Aunque en menor proporción que las primeras dos, por lo que se decidió llamar a dicho factor “StreamService”.

Teniendo en cuenta las nuevas variables que describen el índice de uno o contratación de los servicios ofrecidos por la compañía se procede ahora a realizar el análisis de supervivencia.

##  [1] "customerID"      "gender"          "SeniorCitizen"  
##  [4] "Partner"         "Dependents"      "tenure"         
##  [7] "MonthlyCharges"  "TotalCharges"    "Churn"          
## [10] "SecurityService" "DigitalService"  "StreamService"
##       customerID      gender     SeniorCitizen Partner    Dependents
##  0002-ORFBO:   1   Female:3483   no :5890      No :3639   No :4933  
##  0003-MKNFE:   1   Male  :3549   yes:1142      Yes:3393   Yes:2099  
##  0004-TLHLJ:   1                                                    
##  0011-IGKFF:   1                                                    
##  0013-EXCHZ:   1                                                    
##  0013-MHZWF:   1                                                    
##  (Other)   :7026                                                    
##      tenure      MonthlyCharges    TotalCharges    Churn     
##  Min.   : 1.00   Min.   : 18.25   Min.   :  18.8   No :5163  
##  1st Qu.: 9.00   1st Qu.: 35.59   1st Qu.: 401.4   Yes:1869  
##  Median :29.00   Median : 70.35   Median :1397.5             
##  Mean   :32.42   Mean   : 64.80   Mean   :2283.3             
##  3rd Qu.:55.00   3rd Qu.: 89.86   3rd Qu.:3794.7             
##  Max.   :72.00   Max.   :118.75   Max.   :8684.8             
##                                                              
##  SecurityService DigitalService  StreamService  
##  Min.   :1.370   Min.   :1.454   Min.   :1.828  
##  1st Qu.:2.776   1st Qu.:2.860   1st Qu.:3.996  
##  Median :4.339   Median :3.677   Median :4.924  
##  Mean   :4.301   Mean   :3.584   Mean   :5.113  
##  3rd Qu.:5.644   3rd Qu.:4.063   3rd Qu.:6.362  
##  Max.   :8.442   Max.   :5.158   Max.   :8.677  
## 
##       customerID      gender     SeniorCitizen Partner    Dependents
##  0002-ORFBO:   1   Female:3483   no :5890      No :3639   No :4933  
##  0003-MKNFE:   1   Male  :3549   yes:1142      Yes:3393   Yes:2099  
##  0004-TLHLJ:   1                                                    
##  0011-IGKFF:   1                                                    
##  0013-EXCHZ:   1                                                    
##  0013-MHZWF:   1                                                    
##  (Other)   :7026                                                    
##      tenure      MonthlyCharges    TotalCharges    Churn     
##  Min.   : 1.00   Min.   : 18.25   Min.   :  18.8   No :5163  
##  1st Qu.: 9.00   1st Qu.: 35.59   1st Qu.: 401.4   Yes:1869  
##  Median :29.00   Median : 70.35   Median :1397.5             
##  Mean   :32.42   Mean   : 64.80   Mean   :2283.3             
##  3rd Qu.:55.00   3rd Qu.: 89.86   3rd Qu.:3794.7             
##  Max.   :72.00   Max.   :118.75   Max.   :8684.8             
##                                                              
##  SecurityService DigitalService StreamService
##  1: 835          1: 580         1: 712       
##  2:2287          2:4516         2:4244       
##  3:2619          3:1936         3:2076       
##  4:1177                                      
##  5: 114                                      
##                                              
## 

Análisis Kaplan-Meier

Ya vimos por medio del análisis descriptivo que extisten variables que afectan los tiempos de permamencia de los clientes dentro de la cartera. Sin embargo no habíamos considerado las censuras y la información que pueden aportar dichas censuras. Así que el primer paso es estmar la curva de supervivencia de los clientes sin considerar alguna covariable que afecte al modelo.

Observemos que la probabilidad de que nuestros clientes se mantengan dentro de la cartera, sin contemplar algún tipo de variable que afecte al modelo es bastante alta, pues la curva estimada de supervivencia en ningún momento está por debajo del 50%. Un buen inicio para dicho análisis, sin embargo debemos analizar que variables hacen que dicha curva tenga variaciones tanto positivas como negativas para la permanencia.

Ahora haremos el ajuste paramétrico de la la función de supervivencia.

##     gengamma     genf    lnorm   llogis  weibull    gamma gompertz
## AIC 20989.20 20991.33 21041.13 21139.91 21156.57 21175.02 21355.08
## BIC 21009.77 21018.76 21054.85 21153.63 21170.29 21188.74 21368.80
##          exp
## AIC 21696.97
## BIC 21703.83

De lo anterior podemos decir que la curva estimada de nuestros datos se puede concluir que el modelo que mejor ajusta a nuestros datos es el gengamma.

El siguiente paso es analizar la supervivencia por medio de las variables de forma individual.

Tomemos en cuenta la variable género, como podemos observar en la gráfica de la parte inferior, intuitivamente el género no afecta de manera significativa a la supervivencia, sin embargo procedamos a realizar una prueba de hipótesis para corroborar dicha información.

## Call:
## survdiff(formula = Surv(datos2$tenure, datos2$Churn) ~ datos2$gender, 
##     data = datos2)
## 
##                         N Observed Expected (O-E)^2/E (O-E)^2/V
## datos2$gender=Female 3483      939      923     0.261     0.526
## datos2$gender=Male   3549      930      946     0.255     0.526
## 
##  Chisq= 0.5  on 1 degrees of freedom, p= 0.5

Observemos que con un nivel de confianza al 95%, el p-value resultante de dicha prueba es de .5 por lo que no ha pruebas suficientes para rechazar H0. Recordemos que en este caso la hipótesis nula es que NO existen diferencias entre las funciones de supervivencia, por lo que podemos concluir que la variable género no provoca diferencias significativas dentro del modelo.

Ahora veamos qué pasa con jubilación. En este caso, intuitivamente el estatus de jubilación sí afecta de manera significativa a la supervivencia. Procedamos a realizar la prueba de diferencias entre las curvas de supervivencia.

## Call:
## survdiff(formula = Surv(datos2$tenure, datos2$Churn) ~ datos2$SeniorCitizen, 
##     data = datos2)
## 
##                             N Observed Expected (O-E)^2/E (O-E)^2/V
## datos2$SeniorCitizen=no  5890     1393     1560      17.8       109
## datos2$SeniorCitizen=yes 1142      476      309      89.8       109
## 
##  Chisq= 110  on 1 degrees of freedom, p= <2e-16

Con un nivel de confianza al 95%, el p-value resultante de dicha prueba es de .<2e-16 por lo que se procede a rechazar H0. entonces podemos concluir que la variable asociada a la jubilación provoca diferencias significativas dentro del modelo. Observamos que las personas que son jubiladas se van más rápido que aquellas laboralmente activas.

Continuemos con la Situación conyugal De igual forma que la anterior, intuitivamente la Situación conyugal sí afecta de manera significativa a la supervivencia.

## Call:
## survdiff(formula = Surv(datos2$tenure, datos2$Churn) ~ datos2$Partner, 
##     data = datos2)
## 
##                       N Observed Expected (O-E)^2/E (O-E)^2/V
## datos2$Partner=No  3639     1200      773       236       424
## datos2$Partner=Yes 3393      669     1096       166       424
## 
##  Chisq= 424  on 1 degrees of freedom, p= <2e-16

Al realizar la prueba con un nivel de confianza al 95%, el p-value resultante de dicha prueba es de .<2e-16 por lo que se procede a rechazar H0. entonces podemos concluir que la variable asociada a la Situación conyugal provoca diferencias significativas dentro del modelo. En este caso, podemos ver que aquellos clientes con una pareja se mantienen más tiempo dentro de la cartera a comparación de los que no cuentan con pareja.

Finalmente revisemos la variable asociada a los dependientes, que intuitivamente sí afecta de manera significativa a la supervivencia.

## Call:
## survdiff(formula = Surv(datos2$tenure, datos2$Churn) ~ datos2$Dependents, 
##     data = datos2)
## 
##                          N Observed Expected (O-E)^2/E (O-E)^2/V
## datos2$Dependents=No  4933     1543     1234      77.3       233
## datos2$Dependents=Yes 2099      326      635     150.3       233
## 
##  Chisq= 233  on 1 degrees of freedom, p= <2e-16

Nuevamente, al realizar la prueba con un nivel de confianza al 95%, el p-value resultante de dicha prueba es de .<2e-16 por lo que se procede a rechazar H0. entonces podemos concluir que la variable asociada a la Situación de dependientes Sí provoca diferencias significativas dentro del modelo. De igual forma que con la situación conyugal, aquellos clientes que tienen dependientes se mantienen mayor tiempo dentro de la compañía que los que no.

Ahora realicemos el mismo análisis para las variables asociadas a los servicios que ofrece la compañía. Observemos que, intuitivamente, la probabilidad de que nuestros clientes se mantengan dentro de la cartera, contemplando la variable ExtraService sí provoca diferencias entre aquellos con un índice bajo de uso de los servicios extra, es decir que aquellos clientes que no ceuntan con servicios de asistencia técnica y seguridad se dan de baja del sistema más rápido que aquellos que cuentan con todos los servicios, sin embargo procedamos a comprobar la existencia de diferencias.

## Call:
## survdiff(formula = Surv(datos2$tenure, datos2$Churn) ~ datos2$SecurityService, 
##     data = datos2)
## 
##                             N Observed Expected (O-E)^2/E (O-E)^2/V
## datos2$SecurityService=1  835      515    117.8    1339.4      1508
## datos2$SecurityService=2 2287      961    472.4     505.5       713
## datos2$SecurityService=3 2619      329    742.5     230.3       390
## datos2$SecurityService=4 1177       61    483.1     368.8       534
## datos2$SecurityService=5  114        3     53.2      47.4        50
## 
##  Chisq= 2751  on 4 degrees of freedom, p= <2e-16

al realizar la prueba con un nivel de confianza al 95%, el p-value resultante de dicha prueba es de .<2e-16 por lo que se procede a rechazar H0. Entonces podemos concluir que en efecto, la variable asociada a los servicios extra de seguridad y atención técnica Sí provoca diferencias significativas dentro del modelo.

Ahora veamos qué pasa con la variable de servicios digitales. Gráficamente se observan diferencias entre los estratos, sin embargo no se ven tan significativas o tan grandes como en las variables anteriores. Para quitarnos de dudas hagamos la prueba de hipótesis.

## Call:
## survdiff(formula = Surv(datos2$tenure, datos2$Churn) ~ datos2$DigitalService, 
##     data = datos2)
## 
##                            N Observed Expected (O-E)^2/E (O-E)^2/V
## datos2$DigitalService=1  580      132      154      3.04      3.37
## datos2$DigitalService=2 4516     1408     1246     21.10     64.57
## datos2$DigitalService=3 1936      329      470     42.06     57.34
## 
##  Chisq= 67.6  on 2 degrees of freedom, p= 2e-15

El resultado arroja que dicha estratificación sí provoca diferencias importantes en la supervivencia, pues al realizar la prueba con un nivel de confianza al 95%, el p-value resultante de dicha prueba es de 2e-15 por lo que se procede a rechazar H0. Es decir que aquellas personas que cuentan sólo con uno de los servicios básicos es más propensa a salir de la cartera.

Por último tenemos a la variable qued escribe el servicio de Streaming, con la cuál también se observan diferencias importantes en cuanto a la duración de los clientes. Notemos que aqueelas personas que cuentan con un mayor número de servicios de Streaming permanecen más tiempo dentro de la compañía que las personas que no cuentan con alguno de estos servicios. Aunque para quitarnos de dudas hagamos la prueba de hipótesis.

## Call:
## survdiff(formula = Surv(datos2$tenure, datos2$Churn) ~ datos2$StreamService, 
##     data = datos2)
## 
##                           N Observed Expected (O-E)^2/E (O-E)^2/V
## datos2$StreamService=1  712      288     94.9    392.85    435.14
## datos2$StreamService=2 4244     1065   1027.7      1.35      3.12
## datos2$StreamService=3 2076      516    746.4     71.11    125.34
## 
##  Chisq= 497  on 2 degrees of freedom, p= <2e-16

El resultado indica que efectivamente existen diferencias significativas entre las personas que cuentan con servicios de streaming y las que no. Vaya, al parecer puede ser adictivo el servicio de streaming ;)

Ahora hagamos un análisis gráfico para comparar a los clientes utilizando las tres variables que presentaron diferencias importantes entres su estratificación. Ésto con el fin de conocer un poco más sobre los posibles clientes potenciales de la empresa.

## Call:
## survdiff(formula = Surv(datos2$tenure, datos2$Churn) ~ datos2$SeniorCitizen + 
##     datos2$Partner + datos2$Dependents, data = datos2)
## 
##                                                                        N
## datos2$SeniorCitizen=no, datos2$Partner=No , datos2$Dependents=No   2719
## datos2$SeniorCitizen=no, datos2$Partner=No , datos2$Dependents=Yes   351
## datos2$SeniorCitizen=no, datos2$Partner=Yes, datos2$Dependents=No   1163
## datos2$SeniorCitizen=no, datos2$Partner=Yes, datos2$Dependents=Yes  1657
## datos2$SeniorCitizen=yes, datos2$Partner=No , datos2$Dependents=No   561
## datos2$SeniorCitizen=yes, datos2$Partner=No , datos2$Dependents=Yes    8
## datos2$SeniorCitizen=yes, datos2$Partner=Yes, datos2$Dependents=No   490
## datos2$SeniorCitizen=yes, datos2$Partner=Yes, datos2$Dependents=Yes   83
##                                                                     Observed
## datos2$SeniorCitizen=no, datos2$Partner=No , datos2$Dependents=No        847
## datos2$SeniorCitizen=no, datos2$Partner=No , datos2$Dependents=Yes        75
## datos2$SeniorCitizen=no, datos2$Partner=Yes, datos2$Dependents=No        242
## datos2$SeniorCitizen=no, datos2$Partner=Yes, datos2$Dependents=Yes       229
## datos2$SeniorCitizen=yes, datos2$Partner=No , datos2$Dependents=No       276
## datos2$SeniorCitizen=yes, datos2$Partner=No , datos2$Dependents=Yes        2
## datos2$SeniorCitizen=yes, datos2$Partner=Yes, datos2$Dependents=No       178
## datos2$SeniorCitizen=yes, datos2$Partner=Yes, datos2$Dependents=Yes       20
##                                                                     Expected
## datos2$SeniorCitizen=no, datos2$Partner=No , datos2$Dependents=No     570.07
## datos2$SeniorCitizen=no, datos2$Partner=No , datos2$Dependents=Yes     76.27
## datos2$SeniorCitizen=no, datos2$Partner=Yes, datos2$Dependents=No     385.25
## datos2$SeniorCitizen=no, datos2$Partner=Yes, datos2$Dependents=Yes    528.05
## datos2$SeniorCitizen=yes, datos2$Partner=No , datos2$Dependents=No    125.19
## datos2$SeniorCitizen=yes, datos2$Partner=No , datos2$Dependents=Yes     1.62
## datos2$SeniorCitizen=yes, datos2$Partner=Yes, datos2$Dependents=No    153.56
## datos2$SeniorCitizen=yes, datos2$Partner=Yes, datos2$Dependents=Yes    28.99
##                                                                     (O-E)^2/E
## datos2$SeniorCitizen=no, datos2$Partner=No , datos2$Dependents=No    134.5310
## datos2$SeniorCitizen=no, datos2$Partner=No , datos2$Dependents=Yes     0.0212
## datos2$SeniorCitizen=no, datos2$Partner=Yes, datos2$Dependents=No     53.2676
## datos2$SeniorCitizen=no, datos2$Partner=Yes, datos2$Dependents=Yes   169.3607
## datos2$SeniorCitizen=yes, datos2$Partner=No , datos2$Dependents=No   181.6622
## datos2$SeniorCitizen=yes, datos2$Partner=No , datos2$Dependents=Yes    0.0912
## datos2$SeniorCitizen=yes, datos2$Partner=Yes, datos2$Dependents=No     3.8907
## datos2$SeniorCitizen=yes, datos2$Partner=Yes, datos2$Dependents=Yes    2.7882
##                                                                     (O-E)^2/V
## datos2$SeniorCitizen=no, datos2$Partner=No , datos2$Dependents=No    201.7777
## datos2$SeniorCitizen=no, datos2$Partner=No , datos2$Dependents=Yes     0.0226
## datos2$SeniorCitizen=no, datos2$Partner=Yes, datos2$Dependents=No     68.7927
## datos2$SeniorCitizen=no, datos2$Partner=Yes, datos2$Dependents=Yes   241.8479
## datos2$SeniorCitizen=yes, datos2$Partner=No , datos2$Dependents=No   199.0725
## datos2$SeniorCitizen=yes, datos2$Partner=No , datos2$Dependents=Yes    0.0933
## datos2$SeniorCitizen=yes, datos2$Partner=Yes, datos2$Dependents=No     4.3139
## datos2$SeniorCitizen=yes, datos2$Partner=Yes, datos2$Dependents=Yes    2.8772
## 
##  Chisq= 569  on 7 degrees of freedom, p= <2e-16

De acuerdo con el resultado de la prueba de hipotesis podemos observar que sí existen diferencias significativas tomando en cuenta las tres variables para estratificar, como es de esperarse, las personas que están más propensas de salir son aquellas jubiladas, que no cuentan con dependientes ni pareja, (jeje viejitos medio amargados que no conocen de esas cosas del demonio… el interne’). Mientras que, por otro lado, aquellas personas que cuentan con una pareja y dependientes son las que más se mantienen dentro de la cartera, (Pues como no, deben de estar comunicados con el peor es nada para mantenerse al pendiente de la bendición,o bien, del ganado jajaja )

Ahora procedamos a contruir un modelo que incluya las variables que mejor describan a nuestra población por medio de los riesgos proporcionales de Cox. Primero realicemos dicho modelo para conocer las características de los clientes. Para realizar dicho modelo tomaremos en cuenta a als variables de Género, Jubilación, Pareja y Dependientes.

## Call:
## coxph(formula = Surv(datos2$tenure, datos2$Churn) ~ datos2$gender + 
##     datos2$SeniorCitizen + datos2$Partner + datos2$Dependents, 
##     data = datos2)
## 
##                            coef exp(coef) se(coef)      z       p
## datos2$genderMale       -0.0206    0.9796   0.0463  -0.45    0.66
## datos2$SeniorCitizenyes  0.4659    1.5935   0.0545   8.54 < 2e-16
## datos2$PartnerYes       -0.8312    0.4355   0.0537 -15.48 < 2e-16
## datos2$DependentsYes    -0.4217    0.6560   0.0681  -6.19 5.8e-10
## 
## Likelihood ratio test=556.5  on 4 df, p=<2e-16
## n= 7032, number of events= 1869

Aplicando el modelo de cox, obtenemos que la variable de género no es significativa para el modelo, por lo que procedemos a retirarla pues no aporta información importante para describir la supervivencia. Ahora probemos con las 3 variables restantes.

## Call:
## coxph(formula = Surv(datos2$tenure, datos2$Churn) ~ datos2$SeniorCitizen + 
##     datos2$Partner + datos2$Dependents, data = datos2)
## 
##   n= 7032, number of events= 1869 
## 
##                             coef exp(coef) se(coef)       z Pr(>|z|)    
## datos2$SeniorCitizenyes  0.46628   1.59405  0.05452   8.552  < 2e-16 ***
## datos2$PartnerYes       -0.83133   0.43547  0.05367 -15.488  < 2e-16 ***
## datos2$DependentsYes    -0.42215   0.65563  0.06804  -6.204  5.5e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
##                         exp(coef) exp(-coef) lower .95 upper .95
## datos2$SeniorCitizenyes    1.5940     0.6273    1.4325    1.7738
## datos2$PartnerYes          0.4355     2.2964    0.3920    0.4838
## datos2$DependentsYes       0.6556     1.5252    0.5738    0.7492
## 
## Concordance= 0.658  (se = 0.007 )
## Rsquare= 0.076   (max possible= 0.988 )
## Likelihood ratio test= 556.3  on 3 df,   p=<2e-16
## Wald test            = 517.3  on 3 df,   p=<2e-16
## Score (logrank) test = 558.5  on 3 df,   p=<2e-16

En estre caso podemos ver que las tres variables son significativas para el modelo ya que los p-values obtenidos son cercanos a cero, lo que significa que se rechaza H0, que en este caso, nuestra hipótesis nula es que la betha asociada al modelo no es significativa, por ende podemos decir que las variables son importantes para el modelo. Por lo tanto las variables que mejor describen a nuestra población son las relacionadas a la jubilación, Pareja y Dependientes.

Mientras tanto, procedamos a contruir un modelo que incluya las variables que mejor describan los servicios que ofrezaca la compañía por medio de los riesgos proporcionales de Cox.

## Call:
## coxph(formula = Surv(datos2$tenure, datos2$Churn) ~ datos2$SecurityService + 
##     datos2$StreamService + datos2$DigitalService, data = datos2)
## 
##   n= 7032, number of events= 1869 
## 
##                              coef exp(coef)  se(coef)       z Pr(>|z|)    
## datos2$SecurityService2 -0.921915  0.397756  0.057247 -16.104  < 2e-16 ***
## datos2$SecurityService3 -2.690004  0.067881  0.082041 -32.789  < 2e-16 ***
## datos2$SecurityService4 -4.106821  0.016460  0.144208 -28.478  < 2e-16 ***
## datos2$SecurityService5 -4.966625  0.006967  0.582605  -8.525  < 2e-16 ***
## datos2$StreamService2   -0.587891  0.555498  0.069062  -8.512  < 2e-16 ***
## datos2$StreamService3   -0.638559  0.528053  0.078593  -8.125 4.48e-16 ***
## datos2$DigitalService2   0.007994  1.008026  0.091809   0.087   0.9306    
## datos2$DigitalService3   0.312051  1.366224  0.105864   2.948   0.0032 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
##                         exp(coef) exp(-coef) lower .95 upper .95
## datos2$SecurityService2  0.397756     2.5141  0.355540   0.44499
## datos2$SecurityService3  0.067881    14.7317  0.057798   0.07972
## datos2$SecurityService4  0.016460    60.7533  0.012407   0.02184
## datos2$SecurityService5  0.006967   143.5416  0.002224   0.02182
## datos2$StreamService2    0.555498     1.8002  0.485173   0.63602
## datos2$StreamService3    0.528053     1.8937  0.452668   0.61599
## datos2$DigitalService2   1.008026     0.9920  0.842023   1.20676
## datos2$DigitalService3   1.366224     0.7319  1.110222   1.68126
## 
## Concordance= 0.814  (se = 0.007 )
## Rsquare= 0.298   (max possible= 0.988 )
## Likelihood ratio test= 2485  on 8 df,   p=<2e-16
## Wald test            = 1849  on 8 df,   p=<2e-16
## Score (logrank) test = 2918  on 8 df,   p=<2e-16
## Call:
## coxph(formula = Surv(datos2$tenure, datos2$Churn) ~ datos2$SecurityService + 
##     datos2$StreamService, data = datos2)
## 
##   n= 7032, number of events= 1869 
## 
##                              coef exp(coef)  se(coef)       z Pr(>|z|)    
## datos2$SecurityService2 -0.888205  0.411393  0.056485 -15.724  < 2e-16 ***
## datos2$SecurityService3 -2.558265  0.077439  0.075629 -33.826  < 2e-16 ***
## datos2$SecurityService4 -4.035882  0.017670  0.143106 -28.202  < 2e-16 ***
## datos2$SecurityService5 -4.939371  0.007159  0.582521  -8.479  < 2e-16 ***
## datos2$StreamService2   -0.546720  0.578845  0.068202  -8.016 1.09e-15 ***
## datos2$StreamService3   -0.646568  0.523841  0.078560  -8.230  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
##                         exp(coef) exp(-coef) lower .95 upper .95
## datos2$SecurityService2  0.411393      2.431  0.368279   0.45956
## datos2$SecurityService3  0.077439     12.913  0.066770   0.08981
## datos2$SecurityService4  0.017670     56.593  0.013348   0.02339
## datos2$SecurityService5  0.007159    139.682  0.002286   0.02242
## datos2$StreamService2    0.578845      1.728  0.506418   0.66163
## datos2$StreamService3    0.523841      1.909  0.449085   0.61104
## 
## Concordance= 0.81  (se = 0.007 )
## Rsquare= 0.296   (max possible= 0.988 )
## Likelihood ratio test= 2465  on 6 df,   p=<2e-16
## Wald test            = 1837  on 6 df,   p=<2e-16
## Score (logrank) test = 2902  on 6 df,   p=<2e-16
## Call:
## coxph(formula = Surv(tenure, Churn) ~ SeniorCitizen + Partner + 
##     Dependents + SecurityService + StreamService + DigitalService, 
##     data = datos2)
## 
##   n= 7032, number of events= 1869 
## 
##                       coef exp(coef)  se(coef)       z Pr(>|z|)    
## SeniorCitizenyes  0.052030  1.053407  0.055886   0.931  0.35186    
## PartnerYes       -0.571708  0.564560  0.054523 -10.486  < 2e-16 ***
## DependentsYes    -0.195016  0.822821  0.068307  -2.855  0.00430 ** 
## SecurityService2 -0.877752  0.415716  0.057522 -15.259  < 2e-16 ***
## SecurityService3 -2.570919  0.076465  0.083429 -30.816  < 2e-16 ***
## SecurityService4 -3.951979  0.019217  0.145913 -27.084  < 2e-16 ***
## SecurityService5 -4.772033  0.008463  0.583513  -8.178 2.88e-16 ***
## StreamService2   -0.545456  0.579578  0.069356  -7.865 3.70e-15 ***
## StreamService3   -0.567283  0.567064  0.079914  -7.099 1.26e-12 ***
## DigitalService2   0.031621  1.032127  0.091907   0.344  0.73080    
## DigitalService3   0.330988  1.392344  0.105823   3.128  0.00176 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
##                  exp(coef) exp(-coef) lower .95 upper .95
## SeniorCitizenyes  1.053407     0.9493  0.944117   1.17535
## PartnerYes        0.564560     1.7713  0.507341   0.62823
## DependentsYes     0.822821     1.2153  0.719719   0.94069
## SecurityService2  0.415716     2.4055  0.371393   0.46533
## SecurityService3  0.076465    13.0778  0.064931   0.09005
## SecurityService4  0.019217    52.0382  0.014437   0.02558
## SecurityService5  0.008463   118.1592  0.002697   0.02656
## StreamService2    0.579578     1.7254  0.505913   0.66397
## StreamService3    0.567064     1.7635  0.484853   0.66322
## DigitalService2   1.032127     0.9689  0.861989   1.23585
## DigitalService3   1.392344     0.7182  1.131539   1.71326
## 
## Concordance= 0.826  (se = 0.007 )
## Rsquare= 0.315   (max possible= 0.988 )
## Likelihood ratio test= 2659  on 11 df,   p=<2e-16
## Wald test            = 1984  on 11 df,   p=<2e-16
## Score (logrank) test = 3068  on 11 df,   p=<2e-16
## Call:
## coxph(formula = Surv(tenure, Churn) ~ Partner + Dependents + 
##     SecurityService + StreamService + DigitalService, data = datos2)
## 
##   n= 7032, number of events= 1869 
## 
##                       coef exp(coef)  se(coef)       z Pr(>|z|)    
## PartnerYes       -0.566327  0.567606  0.054241 -10.441  < 2e-16 ***
## DependentsYes    -0.207133  0.812912  0.067026  -3.090  0.00200 ** 
## SecurityService2 -0.881051  0.414347  0.057418 -15.345  < 2e-16 ***
## SecurityService3 -2.580471  0.075738  0.082782 -31.172  < 2e-16 ***
## SecurityService4 -3.964560  0.018976  0.145278 -27.289  < 2e-16 ***
## SecurityService5 -4.789989  0.008313  0.583187  -8.213  < 2e-16 ***
## StreamService2   -0.540738  0.582318  0.069155  -7.819 5.32e-15 ***
## StreamService3   -0.557782  0.572477  0.079253  -7.038 1.95e-12 ***
## DigitalService2   0.032637  1.033176  0.091896   0.355  0.72247    
## DigitalService3   0.328096  1.388323  0.105771   3.102  0.00192 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
##                  exp(coef) exp(-coef) lower .95 upper .95
## PartnerYes        0.567606     1.7618   0.51036   0.63127
## DependentsYes     0.812912     1.2301   0.71284   0.92703
## SecurityService2  0.414347     2.4134   0.37025   0.46370
## SecurityService3  0.075738    13.2034   0.06439   0.08908
## SecurityService4  0.018976    52.6971   0.01427   0.02523
## SecurityService5  0.008313   120.3000   0.00265   0.02607
## StreamService2    0.582318     1.7173   0.50851   0.66685
## StreamService3    0.572477     1.7468   0.49012   0.66868
## DigitalService2   1.033176     0.9679   0.86288   1.23707
## DigitalService3   1.388323     0.7203   1.12839   1.70814
## 
## Concordance= 0.826  (se = 0.007 )
## Rsquare= 0.315   (max possible= 0.988 )
## Likelihood ratio test= 2659  on 10 df,   p=<2e-16
## Wald test            = 1983  on 10 df,   p=<2e-16
## Score (logrank) test = 3066  on 10 df,   p=<2e-16

En la gráfica anterior, cada HR representa un riesgo relativo de salida que compara una instancia de una característica binaria con la otra instancia. Usando este modelo, puede ver que la variable relacionada al uso de Servicio de Seguridad, la situación conyugal y la contratación de streaming influyen significativamente en la reducción de salidas del clientes en este estudio.

Específicamente Aquellos clientes que contratan un paquete completo de Servicio de Seguridad tienen un riesgo reducido de salir de la cartera en comparación con con aquellos que no tienen dicho servicio cotratado.

De igual forma aquellos clientes que tienen pareja tienen un riesgo reducido de salir de la cartera en comparación con con aquellos que nocuentan con una.

Mientras que aquellos clientes cuyo servicio digital es mayor, es decir que cuentan con servicio telefónico, el servicio de Internet, múltiples líneas y método de facturación, tienen mayor riesgo de salir de la cartera.

Con lo anterior se proponen 3 cosas para mantener y aumentar el número de clientes así como el tiempo de permanencia de los mismos dentro de la cartera:

  1. En cuestión de marketing y selección de clientes se debe de realizar una estrategia que gire en torno a clientes cuya situación familiar sea estable, es decir que cuenten con pareja y/o dependientes, es decir con hijos o padres que dependan de ellos.

  2. Para mejorar los servicios que ofrece la compañía se debe de poner especial énfasis en el servicio telefónico y el servicio de Internet, ya que se podría estar brindando un mal servicio a aquellos clientes que sólo cuentan con estos servicios.

3.En cuanto a la modalidad de contratación se pueden crear paquetes que incluyan tanto los servicios de streaming y seguridad con temporalidad de contratación mayor o igual a un año, pues así se retiene la cartera por un tiempo mayor. Ya que si lo pensamos, si se tiene la oportunidad de cancelar los servicios en un lapso menor a un año, los clientes piensan en hacerlo a la menor provocación, es decir con algún pequeño inconveniente piensan en salirse, sin embargo si se define un tope mínimo y se ofrecen además los servicios de seguridad, asistencia técnica y servicios de streaming los clientes podrán probar los servicios de manera completa y así mantenerse más tiempo dentro de la compañía.