TAREA 1

QUESTION 1

Utilizando herramientas de Análisis Exploratorio de Datos (resúmenes, tablas, gráﬁcos, etc.), investigue si existen diferencias en el comportamiento de las variables presentadas, para clientes que permanecen en el banco versus los que se fugaron.

Antiguedad y montos promedio de cargo por horario
status	antiguedad	cargo_dia	cargo_tarde	primera_facturacion
Fugado	102.3	35.3	18.0	2.9
Retenido	99.9	29.9	16.9	2.8

Como se observa en la tabla, los clientes fugados tienden a presentar ligeramente mayor antiguedad, además de registrar mayor cargos promedio por transacciones a lo largo del día, incluida la primera facturación.

Por otro lado, como se ve en la gráfica, los clientes fugados presentan en general mayor cantidad de llamadas a Servicio al Cliente.

Para el periodo estudiado, el 25% superior (Q3) de los clientes retenidos presentaba 2 llamadas o más, los clientes fugados alcazaban hasta 4 llamadas o más, lo que podría sugerir cierto nivel de descontento con los servicios ofrecidos hasta entonces.

QUESTION 2

10.000 datos con distribución chi-cuadrado de 7 y 22 gl. Definir bajo algún criterio, como definición de chi-cuadrado se obtiene de la suma de 7 y 22 variables aleatorias que distribuyen normalmente

Primero generaremos los vectores con números aleatorios

# Datos de distribución chi-cuadrado
set.seed(1234)
chi7 <- rchisq(10000, df = 7)

set.seed(1234)
chi22 <- rchisq(10000, df = 22)

# Datos de distribución normal
set.seed(1234)
norm7 <- replicate(7, {rnorm(10000)^2}) %>% rowSums()

set.seed(1234)
norm22 <- replicate(22, {rnorm(10000)^2}) %>% rowSums()

Para efecto de reproducir las distribuciones chi-cuadrado, se simularon 7 y 22 vectores respectivos a los grados de libertad de las distribuciones generadas por chi-cuadrado. Cada vector consta de 10.000 datos extraídos de una distribución típica de media = 0 y sd = 1, elevados al cuadrado. Para generar el vector final, se sumaron las filas de la matriz resultado de la simulación.

Hecho esto, compararemos gráficamente, la distribución de los vectores generados directamente desde una distribución de chi-cuadrado, contra aquellos obtenidos desde la distribución normal.

Las gráficas quedan así.

En la gráfica se observa la función de densidad de los 10.000 datos simulados desde una distribución chi-cuadrado (rojo), y su reconstrucción desde una distribución típica (calipso).

Al superponer ambas, se puede apreciar que salvo pequeñas variaciones producto del algoritmo aleatorio, es posible reconstruir una distribución chi-cuadrado, por medio de la suma de variables aleatorias al cuadrado, extraídas desde una distribución normal estandarizada.

Se dice que una distribución t-Student tiene “colas más pesadas” que la distribución Normal Estándar ¿A qué se reﬁere esto? Construir 3 simulaciones de distibución t de student con distintos grados de libertad

Esto se refiere a que la tendencia de los extremos de la distribución, o colas, son más empinadas o menos cócavas que las de una distribución típica

Esto lo podemos visualizar superponiendo una distribución típica contra varis distribuciones de t de student, lo que se observa en la siguiente gráfica.

Si consideramos los bordes externos al \(z= \left | 1.96\right |\) indicados por las líneas verticales, se puede apreciar que la distribución típica, marcada por la línea sólida, está más “achatada” respecto de las distribuciones t de student para 3, 6 o 9 grados de libertad. Es posible advertir si, que a medida que se aumentan los grados de libertad, la distribución t presenta una buena aproximación de la normal.

QUESTION 3

Máquina empaqueta \(\mu= 976\) gramos de harina, presentando distribución normal con \(\sigma = 19\) gramos. Se extraen muestras de \(n= 57\)

¿Cuál es la probabilidad de que el promedio muestral difiera hasta 3 gramos de la media?

Si consideramos que \[\bar{Y}={\frac {1}{57}}\sum _{i=1}^{57}paquetes_{i}\]

Y queremos \(P(\left | \bar{Y} - 976 \right | \leq 3)\), esto lo podemos resolver de 2 formas, una matemáticamente y otra por simulaciones.

En la forma matemática hacemos la siguiente normalización:

\[z_i= \sqrt{n}\frac{(\mu\pm 3)-\mu}{\sigma} \] Que si reemplazamos, nos queda así

\[z_i = \sqrt{n}\frac{(976\pm 3)-976}{19}\] Lo que traducido al código, nos da lo siguiente:

z1 <- sqrt(57) * (((976-3) - 976)/19) 
z2 <- sqrt(57) * (((976+3) - 976)/19) 

p1 <- pnorm(z1, 0, 1, lower.tail = T)
p2 <- pnorm(z2, 0, 1, lower.tail = T)
p2 - p1

## [1] 0.7667698

De esta forma, podemos concluir que si extrajéramos infinitas muestras de tamaño 57, en torno a un 77% de las veces tendríamos una media muestra que se desvía hasta 3 gramos respecto de la media.

La segunda forma de resolver esto, o de llegar a un resultado relativamente similar, es por medio de simulaciones. Por ejemplo, extrayendo efectivamente múltiples muestras de 57 paquetes, promediar sus pesos, y ver qué proporción de veces tales promedios se desvían hasta 3 gramos respecto de la media poblacional.

Esto en el código se ve de la siguiente manera, simulando 10.000 muestreos de 57 paquetes.

replicate(10000, {
  rnorm(57, 976, 19) %>%
    mean()
}) -> samp.means

sum(abs(samp.means-976) <= 3 )/10000

## [1] 0.7644

Pese a que puede variar ligeramente dado el componente aleatorio del algoritmo de simulación, el resultado es virtualmente el mismo.

TAREA 1

Esteban Carreño

20/3/2021

QUESTION 1

QUESTION 2

QUESTION 3