Para llevar a cabo este ejercicio práctico se va a utilizar un dataset público de Orange Telecom disponible en la página Kaggle. Este dataset contiene una muestra representativa de clientes de esta compañía y un conjunto de características que describen su actividad dentro de ella. El objetivo para el que fue creado este conjunto de datos es encontrar patrones que describan si un cliente va a darse de baja o no para intentar prevenir y reducir el churn. Para los que no estéis familiarizados con el churn, el churn se define como el porcentaje de clientes que dejan de utilizar los servicios que ofrece una empresa. Es un ejercicio de análisis muy repetido, no sólo en el sector de las Telecomunicaciones sino en otros muchos sectores.
El dataset está formado por las siguientes variables:
En cuanto a los ejercicios y su evaluación, el caso práctico está formado por 4 ejercicios cada uno relacionado con uno de los 4 temas vistos en esta asignatura.
En todos ellos se valorará no sólo el código sino también su explicación y la justificación de los resultados.
Se entregará una memoria que contenga tanto los códigos, como su salida y explicación. Esta memoria se puede hacer con la herramienta que se desee: Word, RMarkdown, etc. Se entregará en formato pdf o, en el caso que se desee utilizar RMarkdown, también se puede entregar como html. El nombre del archivo seguirá el siguiente patrón: apellidos_nombre_casopractico
Carga el fichero datos_telco.csv (cuidado con los tipos de datos) y calcula los estadísticos de centralidad y posición más importantes
PISTA: Existe una función en R que calcula todos a la vez
¿Qué variable cuantitativa tiene mayor coeficiente de asimetría? ¿Qué significa? Represéntala con un histograma
¿Qué variable cuantitativa tiene mayor curtosis? ¿Qué significa?
Calcula la matriz de correlaciones (de las variables cuantitativas). ¿Existe algún par de variables con alta correlación?
Observación: No tendría sentido calcular la correlación de variables cualitativas pues la correlación mide la dependencia lineal entre dos variables, es decir, si cuando una crece la otra crece o si cuando una crece la otra decrece. No tiene sentido decir que una variable cualitativa crece o decrece.
¿Existe relación entre tener o no plan internacional y darse de baja? ¿Y en tener o no voic.mail.plan? Estudia si los que tienen contratados estos servicios se dan más o menos de baja que los que no lo tienen. Explícalo tanto numérica como gráficamente
¿Existe alguna relación entre las llamadas al servicio de atención al cliente y la tasa de bajas? Explícalo tanto numérica como gráficamente
Uno de los resultados más importantes que hemos visto en el tema sobre Teoría de la Probabilidad ha sido el Teorema Central del Límite. Este teorema es fundamental para la Estadística Inferencial y, por ello, es fundamental que comprendáis a la perfección en qué consiste.
El objetivo de este ejercicio es realizar una simulación que demuestre el Teorema Central del Límite. Para ello, se propone seguir los siguientes pasos y completar el código:
PASO 1: Generar 1000 muestras no normales de tamaño \(n=30\) y calcular sus correspondientes medias muestrales. Se propone generar muestras que sigan una distribución beta con parámetros \(\small \alpha=2\) y \(\small \beta=6\)
# Parametros enunciado
n <- 30
alpha <- 2
beta <- 6
#Creamos 1000 muestras que siguen una distribucion beta y vamos guardando su media muestral en el vector medias_muestrales
medias_muestrales <- c()
for (i in 1:1000) {
muestra <- #TODO: generar muestra distribucion beta tamano n y parametroa alpha y beta
media_muestral <- #TODO: calcula la media de la muestra
medias_muestrales <- c(medias_muestrales, media_muestral)
}
PISTA: Si ejecutáis ?Distributions R os mostrará todas las distribuciones que tiene disponibles y podréis encontrar con qué función generar la muestra con distribución beta.
PASO 2: Calcular su media poblacional \(\small \mu\) y desviación típica poblacional \(\small \sigma\). En una distribución beta la media y desviación típica poblacional se calcula con las siguientes ecuaciones:
\[\small \mu = \frac{\alpha}{\alpha+\beta}\] \[\small \sigma = \sqrt{\frac{\alpha·\beta}{(\alpha+\beta)^2·(\alpha+\beta+1)}}\]
media_poblacional <- #TODO: Calcula mu
sd_poblacional <- #TODO: Calcula sigma
cat('La media poblacional es igual a ', media_poblacional, 'y la desviación típica poblacional es igual a ', sd_poblacional)
PASO 3: Comprobar gráficamente que la distribución de las medias muestrales, es decir que la variable media_muestrales, sigue una normal de media \(\mu\) y desviación típica \(\frac{\sigma}{\sqrt(n)}\). Utiliza un histograma y/o las funciones qqnorm y qqline para demostrarlo
#TODO hacer histograma
PASO 4: Calcular la media y desviación de la variable medias_muestrales
media <- #TODO: Calcular media de medias_muestrales
std <- #TODO: Calcular desviacion medias_muestrales
cat('La media de esta distribución normal es ', media)
cat('La desviación típica es igual a ', std)
PASO 5 ¿Se cumple que la distribución de las medias_muestrales es una \(\small N(\mu, \frac{\sigma}{\sqrt{n}})\)?
#TODO: Comprobar que la media de medias muestrales coincide con la media poblacional
#TODO: Comprobar que la desviacion de las medias muestrales coincide con la desviacion poblacional entre raiz de n
Calcula el intervalo de confianza para la media de la variable Total.day.minutes a nivel \(\small \alpha=0.05\). Es muy importante justificar la elección del intervalo, comprobar las hipótesis y/o mencionar los teoremas que utilizas si fuese necesario.
En la prensa ha salido el titular “La empresa Orange Telecom tiene un 13% de bajas este mes”. Ya que nosotros tenemos una muestra representativa de más de 3K clientes podemos testear si esta afirmación es cierta o no. ¿Podemos decir a nivel \(\small \alpha=0.01\) que la tasa de bajas ha sido mayor? ¿Y a nivel \(\small \alpha=0.001\)?