Por: Juan Martin Soto, Nicolas Ruiz y Juan Jose Giraldo.
Introducción
El presente laboratorio se centra en el análisis de datos del conjunto “Telco Customer Churn”, el cual recopila información de 7.043 clientes de una compañía de telecomunicaciones, con el propósito de estudiar los factores asociados a la fuga de clientes (churn). Esta problemática es de gran relevancia en el sector, pues la retención de clientes suele ser más rentable que la adquisición de nuevos, y entender las variables que influyen en la decisión de abandonar el servicio permite diseñar estrategias comerciales y de fidelización más efectivas.
El conjunto de datos contiene 21 variables que abarcan información demográfica (género, edad, dependientes), contractual (tipo de contrato, método de pago, facturación), de consumo de servicios (internet, telefonía, televisión, películas, soporte técnico, entre otros) y variables financieras (cargos mensuales y cargos totales). La variable de interés es Churn, que identifica si el cliente abandonó o no la empresa.
A través de este laboratorio, se aplicarán diferentes técnicas de estadística descriptiva y análisis gráfico con R, incluyendo el uso de diagramas de cajas, diagramas de dispersión, gráficos de barras y una matriz de correlación. El objetivo es explorar relaciones entre variables clave como la antigüedad en la compañía, los cargos mensuales y los cargos totales, así como identificar patrones asociados a la rotación de clientes.
En particular, se espera responder preguntas como: ¿qué diferencias existen entre clientes que abandonan y los que permanecen?, ¿cuál es el perfil de quienes presentan mayor riesgo de fuga?, y ¿qué variables contractuales o de consumo se relacionan con esta decisión? Las conclusiones derivadas de este análisis permitirán comprender mejor el comportamiento de los clientes y sentar las bases para futuros modelos predictivos de churn.
## gender SeniorCitizen Partner Dependents tenure
## Female:3488 Min. :0.0000 No :3641 No :4933 Min. : 0.00
## Male :3555 1st Qu.:0.0000 Yes:3402 Yes:2110 1st Qu.: 9.00
## Median :0.0000 Median :29.00
## Mean :0.1621 Mean :32.37
## 3rd Qu.:0.0000 3rd Qu.:55.00
## Max. :1.0000 Max. :72.00
##
## PhoneService MultipleLines InternetService
## No : 682 No :3390 DSL :2421
## Yes:6361 No phone service: 682 Fiber optic:3096
## Yes :2971 No :1526
##
##
##
##
## OnlineSecurity OnlineBackup
## No :3498 No :3088
## No internet service:1526 No internet service:1526
## Yes :2019 Yes :2429
##
##
##
##
## DeviceProtection TechSupport
## No :3095 No :3473
## No internet service:1526 No internet service:1526
## Yes :2422 Yes :2044
##
##
##
##
## StreamingTV StreamingMovies Contract
## No :2810 No :2785 Month-to-month:3875
## No internet service:1526 No internet service:1526 One year :1473
## Yes :2707 Yes :2732 Two year :1695
##
##
##
##
## PaperlessBilling PaymentMethod MonthlyCharges
## No :2872 Bank transfer (automatic):1544 Min. : 18.25
## Yes:4171 Credit card (automatic) :1522 1st Qu.: 35.50
## Electronic check :2365 Median : 70.35
## Mailed check :1612 Mean : 64.76
## 3rd Qu.: 89.85
## Max. :118.75
##
## TotalCharges Churn
## Min. : 18.8 No :5174
## 1st Qu.: 401.4 Yes:1869
## Median :1397.5
## Mean :2283.3
## 3rd Qu.:3794.7
## Max. :8684.8
## NA's :11
El conjunto de datos contiene 7.043 clientes (filas) y 21 variables. Al revisar las estadísticas descriptivas se destacan los siguientes hallazgos:
Datos demográficos:
La distribución por género es muy equilibrada: 3.488 mujeres (49.5%) y 3.555 hombres (50.5%).
El porcentaje de ciudadanos mayores (SeniorCitizen) es relativamente bajo: solo 16.2% de los clientes tiene esta condición.
En cuanto al estado civil/convivencia, 48% tienen pareja (Partner = Yes) y 30% declaran tener dependientes. Esto sugiere que la mayoría de clientes no depende directamente de terceros.
Antigüedad en la compañía (tenure):
El rango de permanencia va de 0 a 72 meses, con una media de 32.4 meses (~2,7 años).
La mediana de 29 meses y el cuartil superior en 55 meses sugieren que, aunque algunos clientes llevan muchos años, la mayoría permanece menos de 3 años en la empresa.
Servicios contratados:
Teléfono fijo (PhoneService): el 90% de los clientes lo tiene (6.361), mientras que un 10% no.
Internet: la mayoría cuenta con servicio, principalmente Fibra óptica (3.096, ~44%) y DSL (2.421, ~34%), mientras que 1.526 clientes (~22%) no tienen internet.
Servicios adicionales como Seguridad en línea, Backup, Protección de dispositivos y Soporte técnico muestran mayor número de clientes que responden “No” que “Sí”, lo cual indica que muchos usuarios solo contratan el servicio básico de internet.
Consumo de entretenimiento:
Los servicios de StreamingTV y StreamingMovies presentan distribuciones bastante equilibradas entre quienes los tienen y quienes no, lo que sugiere que no todos los clientes aprovechan los paquetes completos de entretenimiento.
Tipo de contrato y facturación:
La mayoría de clientes (55%) tiene contrato mensual (Month-to-month = 3.875), mientras que solo un 21% tiene contrato de dos años y 24% de un año. Esto refleja baja fidelización, pues más de la mitad pueden cancelar fácilmente mes a mes.
Un 59% utiliza facturación sin papel (PaperlessBilling = Sí).
En cuanto al método de pago, el más usado es el cheque electrónico (33.6%), seguido por transferencia bancaria (22%), tarjeta de crédito (22%) y cheque enviado por correo (23%).
Cargos y facturación:
Cargos mensuales (MonthlyCharges): van de 18.25 a 118.75, con una media de 64.8 y mediana de 70.3. Esto indica una concentración de clientes en planes medios-altos, con algunos en planes básicos y otros con cargos elevados.
Cargos totales (TotalCharges): el promedio es de 2.283, con un máximo de 8.684. La diferencia entre la media y la mediana (2.283 vs 1.398) indica una distribución sesgada a la derecha, con algunos clientes de larga duración acumulando cargos muy altos.
Hay 11 valores faltantes en TotalCharges, posiblemente asociados a clientes muy nuevos (tenure cercano a 0).
Variable de interés: Fuga de clientes (Churn):
1.869 clientes (26.5%) han abandonado el servicio, mientras que 5.174 (73.5%) permanecen. Esto indica que aproximadamente 1 de cada 4 clientes presenta churn, un valor importante para analizar con mayor detalle en relación a los cargos, antigüedad y tipo de contrato.
## corrplot 0.95 loaded
tenure – MonthlyCharges (0.25): Existe una correlación positiva baja, lo que indica que el tiempo de permanencia no está fuertemente relacionado con el valor de los cargos mensuales. Los planes de facturación parecen depender más de los servicios contratados que de la antigüedad del cliente.
tenure – TotalCharges (0.83): Se presenta una correlación positiva fuerte. Esto es lógico, ya que a mayor permanencia, mayor acumulación de cargos totales.
MonthlyCharges – TotalCharges (0.65): Se observa una correlación positiva moderada-alta. Los clientes con cargos mensuales elevados tienden a tener cargos totales más altos, aunque esta relación también depende del tiempo de permanencia.
Conclusión: La variable TotalCharges está altamente influenciada tanto por tenure como por MonthlyCharges. Mientras que la antigüedad explica en gran medida el acumulado total, los cargos mensuales influyen de manera significativa pero no determinante.
Clientes que NO se fueron (No)
La mediana de los Cargos Mensuales está alrededor de $65.
La distribución es más amplia y presenta bastante dispersión (hay clientes con cargos muy bajos y otros con cargos cercanos a 120).
El rango intercuartílico es más grande, lo que indica mayor heterogeneidad en los cargos pagados por los clientes que permanecen.
Clientes que SÍ se fueron (Yes)
La mediana de los Cargos Mensuales está más alta, alrededor de $80.
El rango intercuartílico es más estrecho en comparación con los que no se fueron, lo que muestra que la mayoría de clientes que abandonaron tenían cargos relativamente más altos y más homogéneos.
La dispersión total es similar, con algunos clientes en rangos bajos y otros llegando al máximo (~120).
Conclusión:
Los clientes que se fueron tienden a tener cargos mensuales más altos, lo que sugiere que los planes más costosos pueden estar asociados a una mayor probabilidad de rotación.
En contraste, los clientes que permanecieron presentan una mayor variabilidad en sus cargos, con un grupo importante pagando valores más bajos.
Esto refuerza la hipótesis de que los costos elevados son un factor de riesgo en la retención de clientes.
Clientes que NO se fueron (No)
La mediana de los Cargos Totales está alrededor de $2000.
El rango intercuartílico es bastante amplio (aprox. entre $800 y $4200), lo que indica gran variabilidad en el gasto acumulado de estos clientes.
Se observan valores muy altos (hasta cerca de $9000), lo que sugiere que los clientes más antiguos o de mayor permanencia acumulan cargos totales significativamente mayores.
Clientes que SÍ se fueron (Yes)
La mediana de los Cargos Totales es mucho más baja, aproximadamente $800.
La mayoría de los clientes que se fueron acumularon cargos más reducidos, lo cual se puede relacionar con una antigüedad más corta en la empresa.
Se observan varios clientes que abandonaron a pesar de haber acumulado altos cargos, por encima de $5000. Esto indica que, aunque menos frecuente, algunos clientes con larga permanencia también decidieron abandonar la compañía.
Conclusión:
Los clientes que permanecen en la compañía presentan cargos totales más altos, lo que se asocia directamente a su mayor antigüedad y lealtad.
En contraste, la mayoría de los clientes que abandonaron acumularon cargos totales bajos, lo cual refuerza la idea de que la fuga ocurre principalmente en los primeros meses o años de servicio.
Los outliers muestran que también existe un grupo pequeño de clientes con altos cargos totales que igualmente deciden abandonar, lo que puede deberse a factores como insatisfacción con el servicio o altos costos acumulados.
Clientes que NO se fueron (No)
Este grupo es el más numeroso, con más de 5000 clientes.
La proporción entre mujeres (Female) y hombres (Male) es bastante equilibrada, sin una diferencia marcada. Esto indica que el género no parece ser un factor determinante para que los clientes permanezcan.
Clientes que SÍ se fueron (Yes)
Este grupo es menor, alrededor de 1800 clientes.
Al igual que en los que permanecieron, la distribución entre hombres y mujeres es muy pareja. Ninguno de los dos géneros se ve desproporcionadamente más afectado por la rotación.
Comparación general
Tanto en el grupo de clientes que permanecieron como en el de los que abandonaron, la distribución por género es similar.
Esto sugiere que la rotación de clientes no está relacionada directamente con el género, sino con otros factores (como cargos mensuales, tipo de contrato, servicios adicionales, etc.).
## `geom_smooth()` using formula = 'y ~ x'
##
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -57.498 -27.251 6.245 24.943 54.376
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 54.92978 0.57476 95.57 <2e-16 ***
## x 0.30372 0.01415 21.47 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 29.15 on 7041 degrees of freedom
## Multiple R-squared: 0.06145, Adjusted R-squared: 0.06132
## F-statistic: 461 on 1 and 7041 DF, p-value: < 2.2e-16
El gráfico muestra los cargos mensuales (MonthlyCharges) en el eje Y y la antigüedad del cliente (tenure) en el eje X.
Se observa una tendencia ligeramente creciente, lo que sugiere que, en general, a mayor antigüedad, los cargos mensuales tienden a ser más altos.
Sin embargo, la dispersión es muy grande, lo que indica que la relación no es fuerte.
Correlación
El R-cuadrado ajustado = 0.0613, lo que significa que la antigüedad solo explica un 6.13% de la variabilidad en los cargos mensuales.
Esto confirma que la relación existe, pero es muy débil.
En términos de correlación, esto equivale aproximadamente a un r ≈ √0.061 ≈ 0.25, es decir, una correlación positiva baja.
Modelo lineal simple:
La ecuación del modelo es:
𝑌^=54.93+0.30𝑋
donde:
Intercepto (54.93): Representa el cargo mensual promedio para un cliente con 0 meses de antigüedad. Es decir, cuando un cliente apenas entra, su gasto inicial esperado es de unos 55 dólares.
Pendiente (0.30): Indica que, en promedio, por cada mes adicional de antigüedad, el cargo mensual aumenta en 0.30 dólares. Esto significa que un cliente con 60 meses de permanencia tendría, en promedio, 18 dólares más de cargos que uno recién ingresado (0.30 × 60).
Significancia: Tanto el intercepto como la pendiente tienen un p-value < 2e-16, lo que significa que son estadísticamente significativos.
Conclusión
Existe una relación positiva entre la antigüedad del cliente y los cargos mensuales.
La relación es estadísticamente significativa, pero muy débil (R² ≈ 6%).
Esto implica que otros factores distintos a la antigüedad explican la mayoría de la variación en los cargos mensuales.
## `geom_smooth()` using formula = 'y ~ x'
A lo largo de la actividad se aplicaron diferentes técnicas de análisis estadístico y visualización que permitieron comprender mejor la relación entre las variables del conjunto de datos.
El análisis de correlación mostró que, si bien existen relaciones significativas entre algunas variables, en general la fuerza de las asociaciones es débil, lo que indica que el comportamiento de la variable dependiente no puede explicarse únicamente por una sola variable independiente.
En el caso específico de la relación entre antigüedad del cliente (tenure) y cargos mensuales (MonthlyCharges), se evidenció una correlación positiva pero baja. El modelo lineal simple confirmó que, aunque la antigüedad influye de manera significativa en los cargos mensuales, solo explica un pequeño porcentaje de su variabilidad.
El intercepto y la pendiente del modelo resultaron estadísticamente significativos, lo que refuerza la existencia de la relación. Sin embargo, el bajo valor de R² refleja que la mayoría de la variación en los cargos mensuales se debe a otros factores no contemplados en este modelo simple.
Se destaca la importancia de complementar el análisis con modelos más complejos o multivariados que integren distintas variables explicativas, de manera que se pueda obtener una visión más precisa del comportamiento de los clientes y sus patrones de consumo.
En conclusión, la actividad permitió no solo comprobar la utilidad de herramientas como correlaciones, diagramas de dispersión y regresiones lineales simples, sino también reconocer sus limitaciones y la necesidad de un enfoque más integral en estudios de datos reales.