Instrucciones Caso Práctico

Descripción Dataset Caso Práctico

Para llevar a cabo este ejercicio práctico se va a utilizar un dataset público de Orange Telecom disponible en la página Kaggle. Este dataset contiene una muestra representativa de clientes de esta compañía y un conjunto de características que describen su actividad dentro de ella. El objetivo para el que fue creado este conjunto de datos es encontrar patrones que describan si un cliente va a darse de baja o no para intentar prevenir y reducir el churn. Para los que no estéis familiarizados con el churn, el churn se define como el porcentaje de clientes que dejan de utilizar los servicios que ofrece una empresa. Es un ejercicio de análisis muy repetido, no sólo en el sector de las Telecomunicaciones sino en otros muchos sectores.

El dataset está formado por las siguientes variables:

  • State: Estado en el que vive el cliente
  • Account.length: Longitud de la cuenta
  • Area.code: Código postal
  • International.plan: Indicador de si tiene o no contratado el servicio “Plan Internacional”
  • Voice.mail.plan: Indicador de si tiene o no contratado el servicio “Voice Mail”
  • Number.vmail.messages: Número de mensajes vmail
  • Total.day.minutes: Minutos consumidos por la mañana
  • Total.day.calls: Número de llamadas realizadas por la mañana
  • Total.day.charge: Número de recargas por la mañana
  • Total.eve.minutes: Minutos consumidos por la tarde
  • Total.eve.calls: Número de llamadas realizadas por la tarde
  • Total.eve.charge: Número de recargas por la tarde
  • Total.night.minutes: Minutos consumidos por la noche
  • Total.night.calls: Número de llamadas realizadas por la noche
  • Total.night.charge: Número de recargas por la noche
  • Total.intl.minutess: Minutos internacionales consumidos
  • Total.intl.calls: Número de llamadas internacionales
  • Total.intl.charge: Número de recargas internacionales
  • Customer.service.calls: Número de llamadas al Call Center
  • Churn: Indicador de si el cliente se ha dado de baja o no

Ejercicios y Evaluación

En cuanto a los ejercicios y su evaluación, el caso práctico está formado por 4 ejercicios cada uno relacionado con uno de los 4 temas vistos en esta asignatura.

  • Ejercicio 1 (3ptos): Este es un ejercicio sobre Estadística Descriptiva y está formado por 6 subapartados, cada uno de ellos de 0.5ptos.
  • Ejercicio 2 (2ptos): Ejercicio relacionado con el tema 2 “Conceptos Básicos de Teoría de la Probabilidad” y, en concreto, con uno de sus teoremas más importantes: El Teorema Central del Límite. Observación: Es el único ejercicio que no utiliza el dataset de Orange.
  • Ejercicio 3 (2.5ptos): Su objetivo es la puesta en práctica del cálculo de intervalos de confianza.
  • Ejercicio 4 (2.5ptos): Su objetivo es la puesta en práctica del cálculo de test de contraste de hipótesis

En todos ellos se valorará no sólo el código sino también su explicación y la justificación de los resultados.

Formato Entrega

Se entregará una memoria que contenga tanto los códigos, como su salida y explicación. Esta memoria se puede hacer con la herramienta que se desee: Word, RMarkdown, etc. Se entregará en formato pdf o, en el caso que se desee utilizar RMarkdown, también se puede entregar como html. El nombre del archivo seguirá el siguiente patrón: apellidos_nombre_casopractico

Ejercicio 1 - Estadística Descriptiva

Apartado a

Carga el fichero datos_telco.csv (cuidado con los tipos de datos) y calcula los estadísticos de centralidad y posición más importantes

PISTA: Existe una función en R que calcula todos a la vez

Apartado b

¿Qué variable cuantitativa tiene mayor coeficiente de asimetría? ¿Qué significa? Represéntala con un histograma

Apartado c

¿Qué variable cuantitativa tiene mayor curtosis? ¿Qué significa?

Apartado d

Calcula la matriz de correlaciones (de las variables cuantitativas). ¿Existe algún par de variables con alta correlación?

Observación: No tendría sentido calcular la correlación de variables cualitativas pues la correlación mide la dependencia lineal entre dos variables, es decir, si cuando una crece la otra crece o si cuando una crece la otra decrece. No tiene sentido decir que una variable cualitativa crece o decrece.

Apartado e

¿Existe relación entre tener o no plan internacional y darse de baja? ¿Y en tener o no voic.mail.plan? Estudia si los que tienen contratados estos servicios se dan más o menos de baja que los que no lo tienen. Explícalo tanto numérica como gráficamente

Apartado f

¿Existe alguna relación entre las llamadas al servicio de atención al cliente y la tasa de bajas? Explícalo tanto numérica como gráficamente

Ejercicio 2 - Teoría de la Probabilidad

Uno de los resultados más importantes que hemos visto en el tema sobre Teoría de la Probabilidad ha sido el Teorema Central del Límite. Este teorema es fundamental para la Estadística Inferencial y, por ello, es fundamental que comprendáis a la perfección en qué consiste.

El objetivo de este ejercicio es realizar una simulación que demuestre el Teorema Central del Límite. Para ello, se propone seguir los siguientes pasos y completar el código:

PASO 1: Generar 1000 muestras no normales de tamaño \(n=30\) y calcular sus correspondientes medias muestrales. Se propone generar muestras que sigan una distribución beta con parámetros \(\small \alpha=2\) y \(\small \beta=6\)

# Parametros enunciado
n <- 30
alpha <- 2
beta <- 6

#Creamos 1000 muestras que siguen una distribucion beta  y vamos guardando su media muestral en el vector medias_muestrales
medias_muestrales <- c() 
for (i in 1:1000) {
  muestra <- #TODO: generar muestra distribucion beta tamano n y parametroa alpha y beta
  media_muestral <- #TODO: calcula la media de la muestra
  medias_muestrales <- c(medias_muestrales, media_muestral) 
}

PISTA: Si ejecutáis ?Distributions R os mostrará todas las distribuciones que tiene disponibles y podréis encontrar con qué función generar la muestra con distribución beta.

PASO 2: Calcular su media poblacional \(\small \mu\) y desviación típica poblacional \(\small \sigma\). En una distribución beta la media y desviación típica poblacional se calcula con las siguientes ecuaciones:

\[\small \mu = \frac{\alpha}{\alpha+\beta}\] \[\small \sigma = \sqrt{\frac{\alpha·\beta}{(\alpha+\beta)^2·(\alpha+\beta+1)}}\]

media_poblacional <- #TODO: Calcula mu
sd_poblacional <-  #TODO: Calcula sigma
cat('La media poblacional es igual a ', media_poblacional, 'y la desviación típica poblacional es igual a ', sd_poblacional)

PASO 3: Comprobar gráficamente que la distribución de las medias muestrales, es decir que la variable media_muestrales, sigue una normal de media \(\mu\) y desviación típica \(\frac{\sigma}{\sqrt(n)}\). Utiliza un histograma y/o las funciones qqnorm y qqline para demostrarlo

#TODO hacer histograma

PASO 4: Calcular la media y desviación de la variable medias_muestrales

media <- #TODO: Calcular media de medias_muestrales
std <- #TODO: Calcular desviacion medias_muestrales
cat('La media de esta distribución normal es ', media)
cat('La desviación típica es igual a ',  std)

PASO 5 ¿Se cumple que la distribución de las medias_muestrales es una \(\small N(\mu, \frac{\sigma}{\sqrt{n}})\)?

#TODO: Comprobar que la media de medias muestrales coincide con la media poblacional 
#TODO: Comprobar que la desviacion de las medias muestrales coincide con la desviacion poblacional entre raiz de n

Ejercicio 3 - Intervalos de Confianza

Calcula el intervalo de confianza para la media de la variable Total.day.minutes a nivel \(\small \alpha=0.05\). Es muy importante justificar la elección del intervalo, comprobar las hipótesis y/o mencionar los teoremas que utilizas si fuese necesario.

Ejercicio 4 - Test de Contraste de Hipótesis

En la prensa ha salido el titular “La empresa Orange Telecom tiene un 13% de bajas este mes”. Ya que nosotros tenemos una muestra representativa de más de 3K clientes podemos testear si esta afirmación es cierta o no. ¿Podemos decir a nivel \(\small \alpha=0.01\) que la tasa de bajas ha sido mayor? ¿Y a nivel \(\small \alpha=0.001\)?