## customerID gender SeniorCitizen Partner Dependents
## 0002-ORFBO: 1 Female:3488 Min. :0.0000 No :3641 No :4933
## 0003-MKNFE: 1 Male :3555 1st Qu.:0.0000 Yes:3402 Yes:2110
## 0004-TLHLJ: 1 Median :0.0000
## 0011-IGKFF: 1 Mean :0.1621
## 0013-EXCHZ: 1 3rd Qu.:0.0000
## 0013-MHZWF: 1 Max. :1.0000
## (Other) :7037
## tenure PhoneService MultipleLines InternetService
## Min. : 0.00 No : 682 No :3390 DSL :2421
## 1st Qu.: 9.00 Yes:6361 No phone service: 682 Fiber optic:3096
## Median :29.00 Yes :2971 No :1526
## Mean :32.37
## 3rd Qu.:55.00
## Max. :72.00
##
## OnlineSecurity OnlineBackup
## No :3498 No :3088
## No internet service:1526 No internet service:1526
## Yes :2019 Yes :2429
##
##
##
##
## DeviceProtection TechSupport
## No :3095 No :3473
## No internet service:1526 No internet service:1526
## Yes :2422 Yes :2044
##
##
##
##
## StreamingTV StreamingMovies Contract
## No :2810 No :2785 Month-to-month:3875
## No internet service:1526 No internet service:1526 One year :1473
## Yes :2707 Yes :2732 Two year :1695
##
##
##
##
## PaperlessBilling PaymentMethod MonthlyCharges
## No :2872 Bank transfer (automatic):1544 Min. : 18.25
## Yes:4171 Credit card (automatic) :1522 1st Qu.: 35.50
## Electronic check :2365 Median : 70.35
## Mailed check :1612 Mean : 64.76
## 3rd Qu.: 89.85
## Max. :118.75
##
## TotalCharges Churn
## Min. : 18.8 No :5174
## 1st Qu.: 401.4 Yes:1869
## Median :1397.5
## Mean :2283.3
## 3rd Qu.:3794.7
## Max. :8684.8
## NA's :11
El conjunto de datos Telco Customer Churn cuenta con 7043 clientes. Al revisar las estadísticas, se observa que solo el 16% de los clientes corresponden a adultos mayores, lo que indica que la mayoría de la base está compuesta por personas más jóvenes.
En cuanto a la antigüedad en la empresa, los clientes tienen entre 0 y 72 meses de permanencia, es decir, hasta seis años. El promedio de permanencia es de 32 meses, mientras que la mediana es de 29 meses, lo que sugiere una ligera concentración en los clientes más nuevos. La varianza es alta, lo que confirma que existe un rango muy amplio que va desde clientes recién ingresados hasta otros con varios años en la compañía.
Respecto a los cargos mensuales, los valores van desde 18,25 hasta 118,75 dólares. El promedio es de 64,76 dólares y la mediana de 70,35, lo que indica que muchos clientes pagan montos más cercanos a la parte alta del rango.
Los cargos totales acumulados a lo largo de la relación con la empresa oscilan entre 18,80 y 8684,80 dólares. El promedio de 2283,3 dólares es bastante mayor que la mediana de 1397,5, lo que significa que existen clientes con consumos muy altos que elevan la media. La varianza es muy grande y confirma la desigualdad en este aspecto: algunos clientes apenas han facturado mientras otros tienen registros de consumo elevados. Además, se identificaron once valores faltantes en esta variable, lo que probablemente corresponda a clientes muy recientes que aún no acumulan cargos.
## SeniorCitizen tenure MonthlyCharges TotalCharges
## SeniorCitizen 1.00000000 0.01568348 0.2198742 0.1024106
## tenure 0.01568348 1.00000000 0.2468618 0.8258805
## MonthlyCharges 0.21987423 0.24686177 1.0000000 0.6510648
## TotalCharges 0.10241061 0.82588046 0.6510648 1.0000000
Al analizar la matriz de correlación entre las variables numéricas del
conjunto de datos de churn (fuga de clientes), se observa que la
relación más fuerte corresponde a la variable antigüedad del cliente
(tenure) y los cargos totales (TotalCharges), con un coeficiente de
correlación de 0.83. Este resultado era esperado, pues mientras más
tiempo permanezca un cliente en la compañía, mayor será el valor total
facturado a lo largo de su permanencia.
De forma similar, se aprecia una correlación positiva de 0.65 entre los cargos mensuales (MonthlyCharges) y los cargos totales (TotalCharges). Esto indica que los clientes que tienen planes más costosos tienden también a acumular cargos totales más altos, aunque esta relación es menos determinante que la antigüedad.
Por otro lado, la relación entre antigüedad (tenure) y cargos mensuales (MonthlyCharges) es débil (0.25). Esto sugiere que el valor de la mensualidad de un cliente no está estrechamente asociado con el tiempo que lleva en la empresa; es decir, hay clientes nuevos con cargos altos y clientes antiguos con cargos bajos, o viceversa.
Finalmente, en el caso de la variable adulto mayor (SeniorCitizen), las correlaciones con las demás variables son bajas: con MonthlyCharges (0.22) y con TotalCharges (0.10). Esto permite concluir que el hecho de ser adulto mayor no influye significativamente en el monto de facturación mensual o acumulada, ni tampoco guarda relación con la antigüedad en la compañía.
En general, la matriz de correlación muestra que las variables financieras (tenure, MonthlyCharges, TotalCharges) están relacionadas de manera coherente con la lógica del negocio, mientras que variables demográficas como SeniorCitizen no presentan una asociación lineal importante. Este hallazgo sugiere que, para explicar la fuga de clientes, las variables ligadas al comportamiento económico (antigüedad y cargos) pueden aportar mayor información que factores demográficos.
El diagrama de cajas muestra que los clientes que permanecen en la compañía (No) presentan cargos mensuales con una mediana más baja y una mayor dispersión, mientras que los clientes que se retiran (Yes) tienen una mediana más alta y sus valores se concentran en rangos elevados. Esto indica que los clientes con cargos mensuales más altos tienden a abandonar con mayor frecuencia, lo que sugiere que el costo mensual es un factor asociado a la rotación de clientes.
## Warning: Removed 11 rows containing non-finite outside the scale range
## (`stat_boxplot()`).
El diagrama de cajas muestra que los clientes que no abandonaron la compañía (Churn = No) presentan cargos totales considerablemente más altos en comparación con los clientes que sí se fueron. Esto se debe a que los clientes que permanecieron acumularon más tiempo en la empresa y, por lo tanto, pagaron más a lo largo de su relación. En contraste, los clientes que desertaron tienen en promedio cargos totales mucho más bajos, lo que refleja que su permanencia fue corta. Además, se observa mayor dispersión en el grupo que no se fue, con valores que van desde montos bajos hasta facturaciones muy altas, mientras que en el grupo que abandonó, aunque hay algunos casos atípicos con cargos elevados, la mayoría de los clientes se concentra en valores bajos.
El diagrama de barras apiladas permite observar la relación entre la
rotación de clientes (churn: Sí/No) y el género. En el eje X se
representa la condición de rotación (clientes que permanecen
vs. clientes que se dan de baja), mientras que en el eje Y se muestra la
cantidad de clientes, diferenciando dentro de cada barra a hombres y
mujeres.
Se aprecia que en la categoría “No” (clientes que permanecen en la compañía) la mayoría son mujeres, con un número cercano a 2500, mientras que los hombres se ubican alrededor de 2500 clientes adicionales, sumando aproximadamente 5000 clientes que no presentan fuga. Esto indica que tanto hombres como mujeres se concentran principalmente en el grupo de clientes que permanecen en la empresa, siendo las mujeres ligeramente más numerosas.
Por otro lado, en la categoría “Sí” (clientes que presentan rotación o fuga) también se observa una mayor participación de mujeres. De los aproximadamente 2000 clientes que se retiran, alrededor de 1200 son mujeres, mientras que cerca de 800 son hombres. Esto muestra que, aunque la fuga afecta a ambos géneros, el número de mujeres que se da de baja es superior al de hombres.
En términos generales, el diagrama evidencia que la rotación de clientes ocurre en ambos géneros, pero la cantidad de mujeres que se da de baja es más alta. Sin embargo, la diferencia no es tan marcada como en la permanencia, donde la mayor proporción de mujeres se mantiene más visible. Estos resultados sugieren que el género podría tener cierta influencia en el comportamiento de rotación, pero no parece ser el único factor explicativo.
## [1] 0
## [1] 0
## [1] 0.2478999
##
## Call:
## lm(formula = MonthlyCharges ~ tenure, data = df)
##
## Residuals:
## Min 1Q Median 3Q Max
## -57.498 -27.251 6.245 24.943 54.376
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 54.92978 0.57476 95.57 <2e-16 ***
## tenure 0.30372 0.01415 21.47 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 29.15 on 7041 degrees of freedom
## Multiple R-squared: 0.06145, Adjusted R-squared: 0.06132
## F-statistic: 461 on 1 and 7041 DF, p-value: < 2.2e-16
## `geom_smooth()` using formula = 'y ~ x'
La correlación entre la antigüedad del cliente y los cargos mensuales es
positiva pero débil (r = 0.2478999). Esto significa que a mayor tiempo
con la compañía, tienden a aumentar ligeramente los cargos mensuales,
aunque la relación no es fuerte, por lo que otros factores influyen más
en el valor de la factura.
Ajuste un modelo lineal simple donde x = antigüedad, y = cargos mensuales.
En tanto que: X = 0.30 y Intercepto = 54.93
Con base a esa información, podemos generar el siguiente modelo: Y = 0.30X + 54.93
Este resultado indica que el cargo mensual promedio de un cliente comienza en aproximadamente 54.93 cuando la antigüedad es cero meses (un cliente nuevo) y que, por cada mes adicional de permanencia, el cargo mensual aumenta en promedio 0.30 unidades monetarias. En otras palabras, existe una relación positiva entre la antigüedad y el valor del pago mensual: a mayor tiempo con la compañía, los clientes tienden a pagar un poco más. Sin embargo, dado que el incremento mensual es bajo y la correlación entre las variables es débil, la antigüedad por sí sola no es un buen predictor de los cargos mensuales.
## Warning: Removed 11 rows containing non-finite outside the scale range
## (`stat_boxplot()`).
## `geom_smooth()` using formula = 'y ~ x'