Propósito de la Actividad

El propósito es generar dos conjuntos de datos, uno con distribución Normal y otro con distribución Exponencial, para posteriormente estimar y contrastar los intervalos de confianza al 95% de la media poblacional empleando R.

1. Generación de los Conjuntos de Datos en R

Se crean dos grupos de datos. Cada grupo tiene 30 promedios, y cada promedio sale de una muestra con 20 datos.

# Fijar una semilla para que los resultados sean reproducibles
set.seed(243)

# ---- Parámetros generales de la simulación ----
n_clientes <- 20      
n_replicas <- 30    

# ---- Simulación 1: Distribución Normal ----
media_normal <- 15
sd_normal <- 5

# Generamos 30 promedios. Cada uno es la media de 20 observaciones normales.
promedios_normal <- replicate(n_replicas, {
  mean(rnorm(n = n_clientes, mean = media_normal, sd = sd_normal))
})

# ---- Simulación 2: Distribución Exponencial ----
media_exponencial <- 3.5
# La función rexp() usa el parámetro 'rate', que es el inverso de la media (1/media)
rate_exponencial <- 1 / media_exponencial

# Generamos 30 promedios. Cada uno es la media de 20 observaciones exponenciales.
promedios_exponencial <- replicate(n_replicas, {
  mean(rexp(n = n_clientes, rate = rate_exponencial))
})

# Creamos un dataframe con los promedios generados para mostrarlo en una tabla
datos_generados <- data.frame(
  Replica = 1:n_replicas,
  Promedio_Normal = promedios_normal,
  Promedio_Exponencial = promedios_exponencial
)

2. Tabla de Resultados: Estadísticos e Intervalo de Confianza

Primero, se presentan los 30 promedios generados para cada distribución.

# Usamos knitr::kable para una mejor visualización de la tabla
knitr::kable(
  datos_generados,
  digits = 4, # Redondear a 4 decimales
  caption = "Promedios generados en cada una de las 30 réplicas."
)
Promedios generados en cada una de las 30 réplicas.
Replica Promedio_Normal Promedio_Exponencial
1 14.9661 3.7114
2 16.7795 2.1113
3 15.9167 3.5285
4 13.7874 3.0679
5 15.0177 4.5462
6 12.3825 3.6777
7 15.5479 3.0302
8 16.2686 3.4592
9 15.9136 4.5100
10 13.5447 4.2154
11 15.3066 4.2967
12 15.2787 4.0986
13 14.0840 3.6575
14 15.1568 2.7460
15 15.4892 5.1110
16 15.0611 2.3889
17 15.7646 3.4348
18 15.6849 4.3076
19 14.2937 4.8022
20 14.4266 2.3177
21 14.5673 3.4635
22 14.9250 3.3230
23 14.2673 4.5514
24 14.9462 3.6691
25 16.9670 3.5085
26 14.8891 3.6743
27 14.4788 3.8362
28 15.3136 3.3934
29 18.1060 2.9930
30 15.4156 4.3233

A continuación, calculamos la media muestral, la desviación estándar y el intervalo de confianza del 95% para cada uno de los dos conjuntos de 30 promedios.

# ---- Cálculos para los promedios de la Normal ----
media_muestral_normal <- mean(promedios_normal)
sd_muestral_normal <- sd(promedios_normal)
# Usamos t.test(), que calcula directamente el intervalo de confianza
ic_test_normal <- t.test(promedios_normal, conf.level = 0.95)

# ---- Cálculos para los promedios de la Exponencial ----
media_muestral_exponencial <- mean(promedios_exponencial)
sd_muestral_exponencial <- sd(promedios_exponencial)
ic_test_exponencial <- t.test(promedios_exponencial, conf.level = 0.95)
# ---- Creación de la tabla de resumen ----
# Extraemos los límites del IC para ponerlos en columnas separadas

tabla_resumen <- data.frame(
  Distribucion_Origen = c("Normal", "Exponencial"),
  Media_Muestral = c(media_muestral_normal, media_muestral_exponencial),
  Desviacion_Estandar = c(sd_muestral_normal, sd_muestral_exponencial),
   lim_inf =c(ic_test_normal$conf.int[1],ic_test_exponencial$conf.int[1]),lim_sup =c(ic_test_normal$conf.int[2],ic_test_exponencial$conf.int[2])) 

Resultado de Stat::fit para los promedios de la simulación Normal. Resultado de Stat::fit para los promedios de la simulación Normal.

Tabla Resumen de Resultados

Resultados estadísticos y Intervalo de Confianza del 95%.
Distribucion_Origen Media_Muestral Desviacion_Estandar lim_inf lim_sup
Normal 15.1516 1.0902 14.7445 15.5586
Exponencial 3.6585 0.7360 3.3837 3.9333

Aquí tienes una versión parafraseada y explicada en un tono más informal y claro, manteniendo el sentido técnico:


3. Comentario sobre los Resultados y Diferencias

Interpretación de los resultados:

Al revisar la tabla resumen, se pueden destacar dos cosas importantes:

  1. La media estimada es bastante precisa: En ambos casos, el promedio calculado con las 30 réplicas resultó muy cercano al valor real de la media teórica.

    • En la distribución Normal, la media obtenida fue de 15.1516, casi igual a la teórica de 15.
    • En la distribución Exponencial, el promedio fue de 3.6585, también muy parecido a 3.5.
  2. Los intervalos de confianza funcionan bien: El intervalo de confianza del 95% busca dar un rango dentro del cual, con alta probabilidad, está la media real de la población.

    • En la simulación Normal, el intervalo [r round(ic_test_normal$conf.int[1], 4), r round(ic_test_normal$conf.int[2], 4)] sí incluye el valor real de 15.
    • En la Exponencial, el intervalo [r round(ic_test_exponencial$conf.int[1], 4), r round(ic_test_exponencial$conf.int[2], 4)] también cubre la media real 3.5. Esto muestra que el método de estimación funcionó bien en los dos casos.

Análisis de las diferencias y conclusión general:

La diferencia principal entre ambas simulaciones está en la forma de las distribuciones:

  • La Normal es simétrica.
  • La Exponencial es muy asimétrica.

Aun así, usamos el mismo método (t.test) para calcular los intervalos de confianza y los resultados salieron correctos. Esto se debe al Teorema del Límite Central (TLC), que dice que cuando se tienen suficientes datos (por lo general más de 30 observaciones), la distribución de los promedios tiende a comportarse como una Normal, sin importar cómo era la distribución original.

En este ejercicio no trabajamos con los datos originales, sino con los 30 promedios obtenidos de las simulaciones. Como este número es suficiente, el TLC entra en juego y hace que ambos conjuntos —los promedios normales y los exponenciales— se comporten de manera aproximadamente normal.


Conclusión final:

Este experimento demuestra, de forma práctica, cómo funciona el Teorema del Límite Central. Gracias a él, podemos aplicar pruebas basadas en la normalidad, como el t.test, incluso cuando los datos originales no siguen una distribución normal. En pocas palabras, el TLC es lo que nos permite confiar en los resultados de inferencia estadística en la mayoría de los casos reales.