Por: Juan Martin Soto, Nicolas Ruiz y Juan Jose Giraldo.

Introducción

El presente laboratorio se centra en el análisis de datos del conjunto “Telco Customer Churn”, el cual recopila información de 7.043 clientes de una compañía de telecomunicaciones, con el propósito de estudiar los factores asociados a la fuga de clientes (churn). Esta problemática es de gran relevancia en el sector, pues la retención de clientes suele ser más rentable que la adquisición de nuevos, y entender las variables que influyen en la decisión de abandonar el servicio permite diseñar estrategias comerciales y de fidelización más efectivas.

El conjunto de datos contiene 21 variables que abarcan información demográfica (género, edad, dependientes), contractual (tipo de contrato, método de pago, facturación), de consumo de servicios (internet, telefonía, televisión, películas, soporte técnico, entre otros) y variables financieras (cargos mensuales y cargos totales). La variable de interés es Churn, que identifica si el cliente abandonó o no la empresa.

A través de este laboratorio, se aplicarán diferentes técnicas de estadística descriptiva y análisis gráfico con R, incluyendo el uso de diagramas de cajas, diagramas de dispersión, gráficos de barras y una matriz de correlación. El objetivo es explorar relaciones entre variables clave como la antigüedad en la compañía, los cargos mensuales y los cargos totales, así como identificar patrones asociados a la rotación de clientes.

En particular, se espera responder preguntas como: ¿qué diferencias existen entre clientes que abandonan y los que permanecen?, ¿cuál es el perfil de quienes presentan mayor riesgo de fuga?, y ¿qué variables contractuales o de consumo se relacionan con esta decisión? Las conclusiones derivadas de este análisis permitirán comprender mejor el comportamiento de los clientes y sentar las bases para futuros modelos predictivos de churn.

Punto 2:

##     gender     SeniorCitizen    Partner    Dependents     tenure     
##  Female:3488   Min.   :0.0000   No :3641   No :4933   Min.   : 0.00  
##  Male  :3555   1st Qu.:0.0000   Yes:3402   Yes:2110   1st Qu.: 9.00  
##                Median :0.0000                         Median :29.00  
##                Mean   :0.1621                         Mean   :32.37  
##                3rd Qu.:0.0000                         3rd Qu.:55.00  
##                Max.   :1.0000                         Max.   :72.00  
##                                                                      
##  PhoneService          MultipleLines     InternetService
##  No : 682     No              :3390   DSL        :2421  
##  Yes:6361     No phone service: 682   Fiber optic:3096  
##               Yes             :2971   No         :1526  
##                                                         
##                                                         
##                                                         
##                                                         
##              OnlineSecurity              OnlineBackup 
##  No                 :3498   No                 :3088  
##  No internet service:1526   No internet service:1526  
##  Yes                :2019   Yes                :2429  
##                                                       
##                                                       
##                                                       
##                                                       
##             DeviceProtection              TechSupport  
##  No                 :3095    No                 :3473  
##  No internet service:1526    No internet service:1526  
##  Yes                :2422    Yes                :2044  
##                                                        
##                                                        
##                                                        
##                                                        
##               StreamingTV              StreamingMovies           Contract   
##  No                 :2810   No                 :2785   Month-to-month:3875  
##  No internet service:1526   No internet service:1526   One year      :1473  
##  Yes                :2707   Yes                :2732   Two year      :1695  
##                                                                             
##                                                                             
##                                                                             
##                                                                             
##  PaperlessBilling                   PaymentMethod  MonthlyCharges  
##  No :2872         Bank transfer (automatic):1544   Min.   : 18.25  
##  Yes:4171         Credit card (automatic)  :1522   1st Qu.: 35.50  
##                   Electronic check         :2365   Median : 70.35  
##                   Mailed check             :1612   Mean   : 64.76  
##                                                    3rd Qu.: 89.85  
##                                                    Max.   :118.75  
##                                                                    
##   TotalCharges    Churn     
##  Min.   :  18.8   No :5174  
##  1st Qu.: 401.4   Yes:1869  
##  Median :1397.5             
##  Mean   :2283.3             
##  3rd Qu.:3794.7             
##  Max.   :8684.8             
##  NA's   :11

Interpretación:

El conjunto de datos contiene 7.043 clientes (filas) y 21 variables. Al revisar las estadísticas descriptivas se destacan los siguientes hallazgos:

Datos demográficos:

La distribución por género es muy equilibrada: 3.488 mujeres (49.5%) y 3.555 hombres (50.5%).

El porcentaje de ciudadanos mayores (SeniorCitizen) es relativamente bajo: solo 16.2% de los clientes tiene esta condición.

En cuanto al estado civil/convivencia, 48% tienen pareja (Partner = Yes) y 30% declaran tener dependientes. Esto sugiere que la mayoría de clientes no depende directamente de terceros.

Antigüedad en la compañía (tenure):

El rango de permanencia va de 0 a 72 meses, con una media de 32.4 meses (~2,7 años).

La mediana de 29 meses y el cuartil superior en 55 meses sugieren que, aunque algunos clientes llevan muchos años, la mayoría permanece menos de 3 años en la empresa.

Servicios contratados:

Teléfono fijo (PhoneService): el 90% de los clientes lo tiene (6.361), mientras que un 10% no.

Internet: la mayoría cuenta con servicio, principalmente Fibra óptica (3.096, ~44%) y DSL (2.421, ~34%), mientras que 1.526 clientes (~22%) no tienen internet.

Servicios adicionales como Seguridad en línea, Backup, Protección de dispositivos y Soporte técnico muestran mayor número de clientes que responden “No” que “Sí”, lo cual indica que muchos usuarios solo contratan el servicio básico de internet.

Consumo de entretenimiento:

Los servicios de StreamingTV y StreamingMovies presentan distribuciones bastante equilibradas entre quienes los tienen y quienes no, lo que sugiere que no todos los clientes aprovechan los paquetes completos de entretenimiento.

Tipo de contrato y facturación:

La mayoría de clientes (55%) tiene contrato mensual (Month-to-month = 3.875), mientras que solo un 21% tiene contrato de dos años y 24% de un año. Esto refleja baja fidelización, pues más de la mitad pueden cancelar fácilmente mes a mes.

Un 59% utiliza facturación sin papel (PaperlessBilling = Sí).

En cuanto al método de pago, el más usado es el cheque electrónico (33.6%), seguido por transferencia bancaria (22%), tarjeta de crédito (22%) y cheque enviado por correo (23%).

Cargos y facturación:

Cargos mensuales (MonthlyCharges): van de 18.25 a 118.75, con una media de 64.8 y mediana de 70.3. Esto indica una concentración de clientes en planes medios-altos, con algunos en planes básicos y otros con cargos elevados.

Cargos totales (TotalCharges): el promedio es de 2.283, con un máximo de 8.684. La diferencia entre la media y la mediana (2.283 vs 1.398) indica una distribución sesgada a la derecha, con algunos clientes de larga duración acumulando cargos muy altos.

Hay 11 valores faltantes en TotalCharges, posiblemente asociados a clientes muy nuevos (tenure cercano a 0).

Variable de interés: Fuga de clientes (Churn):

1.869 clientes (26.5%) han abandonado el servicio, mientras que 5.174 (73.5%) permanecen. Esto indica que aproximadamente 1 de cada 4 clientes presenta churn, un valor importante para analizar con mayor detalle en relación a los cargos, antigüedad y tipo de contrato.

Punto 3:

## corrplot 0.95 loaded

Interpretación:

tenure – MonthlyCharges (0.25): Existe una correlación positiva baja, lo que indica que el tiempo de permanencia no está fuertemente relacionado con el valor de los cargos mensuales. Los planes de facturación parecen depender más de los servicios contratados que de la antigüedad del cliente.

tenure – TotalCharges (0.83): Se presenta una correlación positiva fuerte. Esto es lógico, ya que a mayor permanencia, mayor acumulación de cargos totales.

MonthlyCharges – TotalCharges (0.65): Se observa una correlación positiva moderada-alta. Los clientes con cargos mensuales elevados tienden a tener cargos totales más altos, aunque esta relación también depende del tiempo de permanencia.

Conclusión: La variable TotalCharges está altamente influenciada tanto por tenure como por MonthlyCharges. Mientras que la antigüedad explica en gran medida el acumulado total, los cargos mensuales influyen de manera significativa pero no determinante.

Punto 4:

Interpretación:

Clientes que NO se fueron (No)

La mediana de los Cargos Mensuales está alrededor de $65.

La distribución es más amplia y presenta bastante dispersión (hay clientes con cargos muy bajos y otros con cargos cercanos a 120).

El rango intercuartílico es más grande, lo que indica mayor heterogeneidad en los cargos pagados por los clientes que permanecen.

Clientes que SÍ se fueron (Yes)

La mediana de los Cargos Mensuales está más alta, alrededor de $80.

El rango intercuartílico es más estrecho en comparación con los que no se fueron, lo que muestra que la mayoría de clientes que abandonaron tenían cargos relativamente más altos y más homogéneos.

La dispersión total es similar, con algunos clientes en rangos bajos y otros llegando al máximo (~120).

Conclusión:

Los clientes que se fueron tienden a tener cargos mensuales más altos, lo que sugiere que los planes más costosos pueden estar asociados a una mayor probabilidad de rotación.

En contraste, los clientes que permanecieron presentan una mayor variabilidad en sus cargos, con un grupo importante pagando valores más bajos.

Esto refuerza la hipótesis de que los costos elevados son un factor de riesgo en la retención de clientes.

Punto 5:

Interpretación:

Clientes que NO se fueron (No)

La mediana de los Cargos Totales está alrededor de $2000.

El rango intercuartílico es bastante amplio (aprox. entre $800 y $4200), lo que indica gran variabilidad en el gasto acumulado de estos clientes.

Se observan valores muy altos (hasta cerca de $9000), lo que sugiere que los clientes más antiguos o de mayor permanencia acumulan cargos totales significativamente mayores.

Clientes que SÍ se fueron (Yes)

La mediana de los Cargos Totales es mucho más baja, aproximadamente $800.

La mayoría de los clientes que se fueron acumularon cargos más reducidos, lo cual se puede relacionar con una antigüedad más corta en la empresa.

Se observan varios clientes que abandonaron a pesar de haber acumulado altos cargos, por encima de $5000. Esto indica que, aunque menos frecuente, algunos clientes con larga permanencia también decidieron abandonar la compañía.

Conclusión:

Los clientes que permanecen en la compañía presentan cargos totales más altos, lo que se asocia directamente a su mayor antigüedad y lealtad.

En contraste, la mayoría de los clientes que abandonaron acumularon cargos totales bajos, lo cual refuerza la idea de que la fuga ocurre principalmente en los primeros meses o años de servicio.

Los outliers muestran que también existe un grupo pequeño de clientes con altos cargos totales que igualmente deciden abandonar, lo que puede deberse a factores como insatisfacción con el servicio o altos costos acumulados.

Punto 6:

Interpretación:

Clientes que NO se fueron (No)

Este grupo es el más numeroso, con más de 5000 clientes.

La proporción entre mujeres (Female) y hombres (Male) es bastante equilibrada, sin una diferencia marcada. Esto indica que el género no parece ser un factor determinante para que los clientes permanezcan.

Clientes que SÍ se fueron (Yes)

Este grupo es menor, alrededor de 1800 clientes.

Al igual que en los que permanecieron, la distribución entre hombres y mujeres es muy pareja. Ninguno de los dos géneros se ve desproporcionadamente más afectado por la rotación.

Comparación general

Tanto en el grupo de clientes que permanecieron como en el de los que abandonaron, la distribución por género es similar.

Esto sugiere que la rotación de clientes no está relacionada directamente con el género, sino con otros factores (como cargos mensuales, tipo de contrato, servicios adicionales, etc.).

Punto 7:

## `geom_smooth()` using formula = 'y ~ x'

## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -57.498 -27.251   6.245  24.943  54.376 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 54.92978    0.57476   95.57   <2e-16 ***
## x            0.30372    0.01415   21.47   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 29.15 on 7041 degrees of freedom
## Multiple R-squared:  0.06145,    Adjusted R-squared:  0.06132 
## F-statistic:   461 on 1 and 7041 DF,  p-value: < 2.2e-16

Interpretación:

El gráfico muestra los cargos mensuales (MonthlyCharges) en el eje Y y la antigüedad del cliente (tenure) en el eje X.

Se observa una tendencia ligeramente creciente, lo que sugiere que, en general, a mayor antigüedad, los cargos mensuales tienden a ser más altos.

Sin embargo, la dispersión es muy grande, lo que indica que la relación no es fuerte.

Correlación

El R-cuadrado ajustado = 0.0613, lo que significa que la antigüedad solo explica un 6.13% de la variabilidad en los cargos mensuales.

Esto confirma que la relación existe, pero es muy débil.

En términos de correlación, esto equivale aproximadamente a un r ≈ √0.061 ≈ 0.25, es decir, una correlación positiva baja.

Modelo lineal simple:

La ecuación del modelo es:

𝑌^=54.93+0.30𝑋

donde:

Intercepto (54.93): Representa el cargo mensual promedio para un cliente con 0 meses de antigüedad. Es decir, cuando un cliente apenas entra, su gasto inicial esperado es de unos 55 dólares.

Pendiente (0.30): Indica que, en promedio, por cada mes adicional de antigüedad, el cargo mensual aumenta en 0.30 dólares. Esto significa que un cliente con 60 meses de permanencia tendría, en promedio, 18 dólares más de cargos que uno recién ingresado (0.30 × 60).

Significancia: Tanto el intercepto como la pendiente tienen un p-value < 2e-16, lo que significa que son estadísticamente significativos.

Conclusión

Existe una relación positiva entre la antigüedad del cliente y los cargos mensuales.

La relación es estadísticamente significativa, pero muy débil (R² ≈ 6%).

Esto implica que otros factores distintos a la antigüedad explican la mayoría de la variación en los cargos mensuales.

Punto 8:

## `geom_smooth()` using formula = 'y ~ x'

Conclusiones Generales:

A lo largo de la actividad se aplicaron diferentes técnicas de análisis estadístico y visualización que permitieron comprender mejor la relación entre las variables del conjunto de datos.

El análisis de correlación mostró que, si bien existen relaciones significativas entre algunas variables, en general la fuerza de las asociaciones es débil, lo que indica que el comportamiento de la variable dependiente no puede explicarse únicamente por una sola variable independiente.

En el caso específico de la relación entre antigüedad del cliente (tenure) y cargos mensuales (MonthlyCharges), se evidenció una correlación positiva pero baja. El modelo lineal simple confirmó que, aunque la antigüedad influye de manera significativa en los cargos mensuales, solo explica un pequeño porcentaje de su variabilidad.

El intercepto y la pendiente del modelo resultaron estadísticamente significativos, lo que refuerza la existencia de la relación. Sin embargo, el bajo valor de R² refleja que la mayoría de la variación en los cargos mensuales se debe a otros factores no contemplados en este modelo simple.

Se destaca la importancia de complementar el análisis con modelos más complejos o multivariados que integren distintas variables explicativas, de manera que se pueda obtener una visión más precisa del comportamiento de los clientes y sus patrones de consumo.

En conclusión, la actividad permitió no solo comprobar la utilidad de herramientas como correlaciones, diagramas de dispersión y regresiones lineales simples, sino también reconocer sus limitaciones y la necesidad de un enfoque más integral en estudios de datos reales.