Trabajo de Análisis Descriptivo

Telco Customer Churn

Fernando G. Loayza Pizarro

August 24, 2024

Descripción del Problema

Una alta tasa de abandono de clientes indica que un gran porcentaje de tus clientes ya no desea comprar tus productos o servicios por varias razones, lo que puede ser un signo que el negocio es insatisfactorio.

Este estudio pretende analizar las características de clientes que abandonan para dar recomendaciones o implementar estrategias de retención.

Especificación de Objetivos

Generales

Explorar población de clientes de TELCO para encontrar patrones comunes entre las fugas.

Especificos
  • Analizar relación de las variables propias del servicio (tipo contrato, servicio de internet, consumo, tarifa) con la fuga.

  • Describir variables asociados al cliente (edad, referidos, dependientes, antiguedad).

Descripción de Datos

Método recopilación de Datos

El dataset contiene datos demográficos, de servicio, estado de clientes que solicitaron servicios de empresa de Telecomunicaciones en California - USA. Se usó los datos registrados en la plataforma Kaggle (vease link).

Tamaño de Muestra

El dataset contiene 7043 registros.

Calidad de Datos

library(dplyr)
dato1 %>% is.na() %>% sum()
[1] 17402
dato1 %>% is.na() %>% colSums()
                   City                  Gender          Senior_Citizen 
                      0                       0                       0 
                Partner              Dependents           Tenure_Months 
                      0                       0                       0 
          Phone_Service          Multiple_Lines        Internet_Service 
                      0                       0                       0 
               Contract       Paperless_Billing          Payment_Method 
                      0                       0                       0 
        Monthly_Charges           Total_Charges             Churn_Label 
                      0                      11                       0 
            Churn_Value             Churn_Score            Churn_Reason 
                      0                       0                    5174 
                    Age                 Married    Number_of_Dependents 
                      0                       0                       0 
                  ...22         Customer_Status          Churn_Category 
                   7043                       0                    5174 
    Number_of_Referrals Avg_Monthly_GB_Download 
                      0                       0 

Variables a tratar

Variable Tipo Jerarquía
Churn_Label Categórica nominal Boolean
Total_Charges Cuantitativa continua Numérica
Gender Categórica nominal -
Tenure_Months Cuantitativa discreta Numérica
Number_of_Dependents Cuantitativa discreta Numérica
Customer_Status Categórica ordinal

Stayed

Joined

Churned

Avg_Monthly_GB_Download Cuantitativa continua Numérica
Churn_Category Categórica nominal Competitor Dissatisfaction Other Price Attitude
Age Cuantitativa discreta Numérica

Formulación de preguntas de Investigación

  • ¿Cuál es la distribución del estado de los clientes y que género es más propenso a fuga?

  • ¿Qúe intervalo de edad tiene mayor probabilidad de fuga?

  • ¿Cuál variable nro de dependientes o gb de descarga influye más en la fuga?

  • ¿Con qué tipo de contrato el cliente abandona más rápido?

Hipótesis

[Fuente](https://www.kaggle.com/datasets/datacertlaboratoria/proyecto-5-prdida-de-clientes-en-telco)

[Fuente](https://www.kaggle.com/datasets/datacertlaboratoria/proyecto-5-prdida-de-clientes-en-telco)

P1:¿Cuál es la distribución del estado de los clientes y que género es más propenso a fuga?

addmargins(table(gender,custst))
        custst
gender   Churned Joined Stayed  Sum
  Female     939    211   2338 3488
  Male       930    243   2382 3555
  Sum       1869    454   4720 7043

En nuestro dataset la mayoría de personas permanecen como clientes. El género ligeramente con mayor probabilidad de fuga son las mujeres.

P2: ¿Qúe intervalo de edad tiene mayor probabilidad de fuga?

Nos quedamos con la base de clientes que abandonaron.

[1] 1869
R=(max(age)+4)-(min(age))
n=length(age)
k=1+3.32*log10(n)
k<-ceiling(k)
A=R/k
A=signif(A,1)
A*k>R
[1] TRUE

 [1] "[19,28)"   "[28,37)"   "[37,46)"   "[46,55)"   "[55,64)"   "[64,73)"  
 [7] "[73,82)"   "[82,91)"   "[91,100)"  "[100,109)" "[109,118)" "[118,127)"

Las personas con edad entre 46 y 55 tienen mayor probabilidad de fuga.

P4: ¿Con qué tipo de contrato el cliente abandona más rápido?

# A tibble: 1,869 × 3
   Tenure_Months Monthly_Charges Avg_Monthly_GB_Download
           <dbl>           <dbl>                   <dbl>
 1             4            73.9                      30
 2            13            98                         4
 3             3            83.9                      11
 4            45            62.7                      17
 5             1            25.1                       9
 6            13            94.1                      52
 7             4            20.4                       0
 8             1            30.5                      19
 9             2            49.2                      27
10            40           104.                       15
# ℹ 1,859 more rows

Del gráfico de dispersión se observar hay un gran número de personas con tarifa mensual entre 70 a 120 dolares y con promedio de uso de GB bajo (hasta 20GB). que abandonan el servicio.

El contrato mensual tiene mayor probabilidad de fuga.

Diagrama de Cajas y bigotes

Conclusiones

  • En nuestra población la mayoria de cientes permanecen con el servicio contratado. El género con mayor probabilidad de fuga son las mujeres.

  • Personas con edad en el intervalo [46, 55> tienen mayor probabilidad de fuga.

  • Hay un gran número de personas con tarifa mensual entre 70 a 120 dolares y con promedio de uso de GB bajo (hasta 20GB). que abandonan el servicio.

  • Clientes con contrato mensual tienden más a abandonar el servicio.