Punto 2: Estadísticas descriptivas

##       customerID      gender     SeniorCitizen    Partner    Dependents
##  0002-ORFBO:   1   Female:3488   Min.   :0.0000   No :3641   No :4933  
##  0003-MKNFE:   1   Male  :3555   1st Qu.:0.0000   Yes:3402   Yes:2110  
##  0004-TLHLJ:   1                 Median :0.0000                        
##  0011-IGKFF:   1                 Mean   :0.1621                        
##  0013-EXCHZ:   1                 3rd Qu.:0.0000                        
##  0013-MHZWF:   1                 Max.   :1.0000                        
##  (Other)   :7037                                                       
##      tenure      PhoneService          MultipleLines     InternetService
##  Min.   : 0.00   No : 682     No              :3390   DSL        :2421  
##  1st Qu.: 9.00   Yes:6361     No phone service: 682   Fiber optic:3096  
##  Median :29.00                Yes             :2971   No         :1526  
##  Mean   :32.37                                                          
##  3rd Qu.:55.00                                                          
##  Max.   :72.00                                                          
##                                                                         
##              OnlineSecurity              OnlineBackup 
##  No                 :3498   No                 :3088  
##  No internet service:1526   No internet service:1526  
##  Yes                :2019   Yes                :2429  
##                                                       
##                                                       
##                                                       
##                                                       
##             DeviceProtection              TechSupport  
##  No                 :3095    No                 :3473  
##  No internet service:1526    No internet service:1526  
##  Yes                :2422    Yes                :2044  
##                                                        
##                                                        
##                                                        
##                                                        
##               StreamingTV              StreamingMovies           Contract   
##  No                 :2810   No                 :2785   Month-to-month:3875  
##  No internet service:1526   No internet service:1526   One year      :1473  
##  Yes                :2707   Yes                :2732   Two year      :1695  
##                                                                             
##                                                                             
##                                                                             
##                                                                             
##  PaperlessBilling                   PaymentMethod  MonthlyCharges  
##  No :2872         Bank transfer (automatic):1544   Min.   : 18.25  
##  Yes:4171         Credit card (automatic)  :1522   1st Qu.: 35.50  
##                   Electronic check         :2365   Median : 70.35  
##                   Mailed check             :1612   Mean   : 64.76  
##                                                    3rd Qu.: 89.85  
##                                                    Max.   :118.75  
##                                                                    
##   TotalCharges    Churn     
##  Min.   :  18.8   No :5174  
##  1st Qu.: 401.4   Yes:1869  
##  Median :1397.5             
##  Mean   :2283.3             
##  3rd Qu.:3794.7             
##  Max.   :8684.8             
##  NA's   :11

El conjunto de datos Telco Customer Churn cuenta con 7043 clientes. Al revisar las estadísticas, se observa que solo el 16% de los clientes corresponden a adultos mayores, lo que indica que la mayoría de la base está compuesta por personas más jóvenes.

En cuanto a la antigüedad en la empresa, los clientes tienen entre 0 y 72 meses de permanencia, es decir, hasta seis años. El promedio de permanencia es de 32 meses, mientras que la mediana es de 29 meses, lo que sugiere una ligera concentración en los clientes más nuevos. La varianza es alta, lo que confirma que existe un rango muy amplio que va desde clientes recién ingresados hasta otros con varios años en la compañía.

Respecto a los cargos mensuales, los valores van desde 18,25 hasta 118,75 dólares. El promedio es de 64,76 dólares y la mediana de 70,35, lo que indica que muchos clientes pagan montos más cercanos a la parte alta del rango.

Los cargos totales acumulados a lo largo de la relación con la empresa oscilan entre 18,80 y 8684,80 dólares. El promedio de 2283,3 dólares es bastante mayor que la mediana de 1397,5, lo que significa que existen clientes con consumos muy altos que elevan la media. La varianza es muy grande y confirma la desigualdad en este aspecto: algunos clientes apenas han facturado mientras otros tienen registros de consumo elevados. Además, se identificaron once valores faltantes en esta variable, lo que probablemente corresponda a clientes muy recientes que aún no acumulan cargos.

Punto 3: Matriz de correlación

##                SeniorCitizen     tenure MonthlyCharges TotalCharges
## SeniorCitizen     1.00000000 0.01568348      0.2198742    0.1024106
## tenure            0.01568348 1.00000000      0.2468618    0.8258805
## MonthlyCharges    0.21987423 0.24686177      1.0000000    0.6510648
## TotalCharges      0.10241061 0.82588046      0.6510648    1.0000000

Al analizar la matriz de correlación entre las variables numéricas del conjunto de datos de churn (fuga de clientes), se observa que la relación más fuerte corresponde a la variable antigüedad del cliente (tenure) y los cargos totales (TotalCharges), con un coeficiente de correlación de 0.83. Este resultado era esperado, pues mientras más tiempo permanezca un cliente en la compañía, mayor será el valor total facturado a lo largo de su permanencia.

De forma similar, se aprecia una correlación positiva de 0.65 entre los cargos mensuales (MonthlyCharges) y los cargos totales (TotalCharges). Esto indica que los clientes que tienen planes más costosos tienden también a acumular cargos totales más altos, aunque esta relación es menos determinante que la antigüedad.

Por otro lado, la relación entre antigüedad (tenure) y cargos mensuales (MonthlyCharges) es débil (0.25). Esto sugiere que el valor de la mensualidad de un cliente no está estrechamente asociado con el tiempo que lleva en la empresa; es decir, hay clientes nuevos con cargos altos y clientes antiguos con cargos bajos, o viceversa.

Finalmente, en el caso de la variable adulto mayor (SeniorCitizen), las correlaciones con las demás variables son bajas: con MonthlyCharges (0.22) y con TotalCharges (0.10). Esto permite concluir que el hecho de ser adulto mayor no influye significativamente en el monto de facturación mensual o acumulada, ni tampoco guarda relación con la antigüedad en la compañía.

En general, la matriz de correlación muestra que las variables financieras (tenure, MonthlyCharges, TotalCharges) están relacionadas de manera coherente con la lógica del negocio, mientras que variables demográficas como SeniorCitizen no presentan una asociación lineal importante. Este hallazgo sugiere que, para explicar la fuga de clientes, las variables ligadas al comportamiento económico (antigüedad y cargos) pueden aportar mayor información que factores demográficos.

Punto 4: Diagrama de Cajas

El diagrama de cajas muestra que los clientes que permanecen en la compañía (No) presentan cargos mensuales con una mediana más baja y una mayor dispersión, mientras que los clientes que se retiran (Yes) tienen una mediana más alta y sus valores se concentran en rangos elevados. Esto indica que los clientes con cargos mensuales más altos tienden a abandonar con mayor frecuencia, lo que sugiere que el costo mensual es un factor asociado a la rotación de clientes.

Punto 5: Diagrama de Cajas 2

## Warning: Removed 11 rows containing non-finite outside the scale range
## (`stat_boxplot()`).

El diagrama de cajas muestra que los clientes que no abandonaron la compañía (Churn = No) presentan cargos totales considerablemente más altos en comparación con los clientes que sí se fueron. Esto se debe a que los clientes que permanecieron acumularon más tiempo en la empresa y, por lo tanto, pagaron más a lo largo de su relación. En contraste, los clientes que desertaron tienen en promedio cargos totales mucho más bajos, lo que refleja que su permanencia fue corta. Además, se observa mayor dispersión en el grupo que no se fue, con valores que van desde montos bajos hasta facturaciones muy altas, mientras que en el grupo que abandonó, aunque hay algunos casos atípicos con cargos elevados, la mayoría de los clientes se concentra en valores bajos.

Punto 6: Diagrama de Cajas apiladas

El diagrama de barras apiladas permite observar la relación entre la rotación de clientes (churn: Sí/No) y el género. En el eje X se representa la condición de rotación (clientes que permanecen vs. clientes que se dan de baja), mientras que en el eje Y se muestra la cantidad de clientes, diferenciando dentro de cada barra a hombres y mujeres.

Se aprecia que en la categoría “No” (clientes que permanecen en la compañía) la mayoría son mujeres, con un número cercano a 2500, mientras que los hombres se ubican alrededor de 2500 clientes adicionales, sumando aproximadamente 5000 clientes que no presentan fuga. Esto indica que tanto hombres como mujeres se concentran principalmente en el grupo de clientes que permanecen en la empresa, siendo las mujeres ligeramente más numerosas.

Por otro lado, en la categoría “Sí” (clientes que presentan rotación o fuga) también se observa una mayor participación de mujeres. De los aproximadamente 2000 clientes que se retiran, alrededor de 1200 son mujeres, mientras que cerca de 800 son hombres. Esto muestra que, aunque la fuga afecta a ambos géneros, el número de mujeres que se da de baja es superior al de hombres.

En términos generales, el diagrama evidencia que la rotación de clientes ocurre en ambos géneros, pero la cantidad de mujeres que se da de baja es más alta. Sin embargo, la diferencia no es tan marcada como en la permanencia, donde la mayor proporción de mujeres se mantiene más visible. Estos resultados sugieren que el género podría tener cierta influencia en el comportamiento de rotación, pero no parece ser el único factor explicativo.

Punto 7: Diagrama de Dispersión

## [1] 0
## [1] 0
## [1] 0.2478999
## 
## Call:
## lm(formula = MonthlyCharges ~ tenure, data = df)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -57.498 -27.251   6.245  24.943  54.376 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 54.92978    0.57476   95.57   <2e-16 ***
## tenure       0.30372    0.01415   21.47   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 29.15 on 7041 degrees of freedom
## Multiple R-squared:  0.06145,    Adjusted R-squared:  0.06132 
## F-statistic:   461 on 1 and 7041 DF,  p-value: < 2.2e-16
## `geom_smooth()` using formula = 'y ~ x'

La correlación entre la antigüedad del cliente y los cargos mensuales es positiva pero débil (r = 0.2478999). Esto significa que a mayor tiempo con la compañía, tienden a aumentar ligeramente los cargos mensuales, aunque la relación no es fuerte, por lo que otros factores influyen más en el valor de la factura.

Ajuste un modelo lineal simple donde x = antigüedad, y = cargos mensuales.

En tanto que: X = 0.30 y Intercepto = 54.93

Con base a esa información, podemos generar el siguiente modelo: Y = 0.30X + 54.93

Este resultado indica que el cargo mensual promedio de un cliente comienza en aproximadamente 54.93 cuando la antigüedad es cero meses (un cliente nuevo) y que, por cada mes adicional de permanencia, el cargo mensual aumenta en promedio 0.30 unidades monetarias. En otras palabras, existe una relación positiva entre la antigüedad y el valor del pago mensual: a mayor tiempo con la compañía, los clientes tienden a pagar un poco más. Sin embargo, dado que el incremento mensual es bajo y la correlación entre las variables es débil, la antigüedad por sí sola no es un buen predictor de los cargos mensuales.

Punto 8: Panel gráfico

## Warning: Removed 11 rows containing non-finite outside the scale range
## (`stat_boxplot()`).
## `geom_smooth()` using formula = 'y ~ x'