Simulación de variables aleatorias y estimación

1. Generación de los Conjuntos de Datos en R

Se generan dos conjuntos de datos. Cada conjunto consta de 30 promedios, donde cada promedio se calcula a partir de una muestra de 20 observaciones.

Conjunto 1 (Normal): Simula el tiempo de atención. La población sigue una distribución Normal con media 15 y desviación estándar 5.
Conjunto 2 (Exponencial): Simula el tiempo entre llegadas. La población sigue una distribución Exponencial con media 3.5.

# Fijar una semilla para que los resultados sean reproducibles
set.seed(228)

# ---- Parámetros generales de la simulación ----
n_clientes <- 20       # Tamaño de la muestra para cada réplica
n_replicas <- 30       # Número de réplicas (y de promedios a generar)

# ---- Simulación 1: Distribución Normal ----
media_normal <- 15
sd_normal <- 5

# Generamos 30 promedios. Cada uno es la media de 20 observaciones normales.
promedios_normal <- replicate(n_replicas, {
  mean(rnorm(n = n_clientes, mean = media_normal, sd = sd_normal))
})

# ---- Simulación 2: Distribución Exponencial ----
media_exponencial <- 3.5
# La función rexp() usa el parámetro 'rate', que es el inverso de la media (1/media)
rate_exponencial <- 1 / media_exponencial

# Generamos 30 promedios. Cada uno es la media de 20 observaciones exponenciales.
promedios_exponencial <- replicate(n_replicas, {
  mean(rexp(n = n_clientes, rate = rate_exponencial))
})

# Creamos un dataframe con los promedios generados para mostrarlo en una tabla
datos_generados <- data.frame(
  Replica = 1:n_replicas,
  Promedio_Normal = promedios_normal,
  Promedio_Exponencial = promedios_exponencial
)

2. Tabla de Resultados: Estadísticos e Intervalo de Confianza

Primero, se presentan los 30 promedios generados para cada distribución.

# Usamos knitr::kable para una mejor visualización de la tabla
knitr::kable(
  datos_generados,
  digits = 4, # Redondear a 4 decimales
  caption = "Promedios generados en cada una de las 30 réplicas."
)

Promedios generados en cada una de las 30 réplicas.
Replica	Promedio_Normal	Promedio_Exponencial
1	14.8324	2.4482
2	14.9876	3.2137
3	14.5027	3.8285
4	15.0218	3.5774
5	15.8218	4.2583
6	14.8126	4.8849
7	13.7498	2.9546
8	16.0738	5.4490
9	15.1019	2.7414
10	15.4790	2.4097
11	15.5866	2.2341
12	14.7922	5.2192
13	17.1848	3.4829
14	15.8658	4.9204
15	15.0517	4.4734
16	16.4332	3.0923
17	14.5372	3.6144
18	15.3166	2.4316
19	15.1570	4.2403
20	14.1367	2.0073
21	15.7696	2.7519
22	14.2564	4.0671
23	15.6078	4.0546
24	13.0077	3.3034
25	16.6966	4.0490
26	17.0002	2.6800
27	16.8762	2.8724
28	13.9431	3.4837
29	14.0323	4.0043
30	13.3309	2.7370

A continuación, calculamos la media muestral, la desviación estándar y el intervalo de confianza del 95% para cada uno de los dos conjuntos de 30 promedios.

# ---- Cálculos para los promedios de la Normal ----
media_muestral_normal <- mean(promedios_normal)
sd_muestral_normal <- sd(promedios_normal)
# Usamos t.test(), que calcula directamente el intervalo de confianza
ic_test_normal <- t.test(promedios_normal, conf.level = 0.95)

# ---- Cálculos para los promedios de la Exponencial ----
media_muestral_exponencial <- mean(promedios_exponencial)
sd_muestral_exponencial <- sd(promedios_exponencial)
ic_test_exponencial <- t.test(promedios_exponencial, conf.level = 0.95)
# ---- Creación de la tabla de resumen ----
# Extraemos los límites del IC para ponerlos en columnas separadas

tabla_resumen <- data.frame(
  Distribucion_Origen = c("Normal", "Exponencial"),
  Media_Muestral = c(media_muestral_normal, media_muestral_exponencial),
  Desviacion_Estandar = c(sd_muestral_normal, sd_muestral_exponencial),
   lim_inf =c(ic_test_normal$conf.int[1],ic_test_exponencial$conf.int[1]),lim_sup =c(ic_test_normal$conf.int[2],ic_test_exponencial$conf.int[2]))

Tabla Resumen de Resultados

Resultados estadísticos y Intervalo de Confianza del 95%.
Distribucion_Origen	Media_Muestral	Desviacion_Estandar	lim_inf	lim_sup
Normal	15.1655	1.0650	14.7678	15.5632
Exponencial	3.5162	0.9229	3.1716	3.8608

Distribucion normal

Resultado de Stat::fit para los promedios de la simulación Normal.

Distribucion exponencial

Resultado de Stat::fit para los promedios de la simulación exponencial.

3. Comentario sobre los Resultados y Diferencias

Interpretación de los Resultados:

Al analizar la tabla resumen, se pueden extraer dos conclusiones principales:

Estimación Precisa de la Media: En ambos casos, la media muestral calculada a partir de las 30 réplicas es un estimador muy preciso de la media poblacional teórica.
- Para la distribución Normal, la media muestral obtenida fue de 15.1655, un valor muy cercano a la media teórica de 15.
- Para la distribución Exponencial, la media muestral fue de 3.5162, que es prácticamente idéntica a la media teórica de 3.5.
Validez de los Intervalos de Confianza: El propósito de un intervalo de confianza del 95% es construir un rango que, con un 95% de confianza, contenga el verdadero valor de la media poblacional.
- El intervalo para la simulación Normal, [r round(ic_test_normal$conf.int[1], 4), r round(ic_test_normal$conf.int[2], 4)], efectivamente contiene el valor real de 15.
- El intervalo para la simulación Exponencial, [r round(ic_test_exponencial$conf.int[1], 4), r round(ic_test_exponencial$conf.int[2], 4)], también contiene el valor real de 3.5. Por lo tanto, el procedimiento de estimación ha sido exitoso en ambos escenarios.

Análisis de las Diferencias y Conclusión Principal:

La diferencia más importante entre los dos experimentos es la distribución de la que provienen los datos originales: una es simétrica (Normal) y la otra es fuertemente asimétrica (Exponencial). A pesar de esto, el método para calcular el intervalo de confianza (t.test) fue el mismo y funcionó correctamente en ambos casos. La razón de esto se explica por el Teorema del Límite Central (TLC).

El TLC establece que, si el tamaño de la muestra es suficientemente grande (generalmente n ≥ 30), la distribución de las medias muestrales se aproximará a una distribución normal, sin importar cuál era la distribución de la población original.

En esta actividad, no estamos analizando los datos crudos (los 20 clientes de cada réplica), sino el conjunto de los 30 promedios. Como el tamaño de esta muestra de promedios es 30, el TLC aplica. Esto significa que tanto el conjunto promedios_normal como el conjunto promedios_exponencial se comportarán de forma aproximadamente normal.

Conclusión:

La principal enseñanza de esta comparación es la validación práctica del Teorema del Límite Central. Este teorema es el que nos permite utilizar métodos basados en la normalidad, como el t.test, para realizar inferencias sobre la media de una población, incluso cuando no conocemos su distribución o sabemos que no es normal.

Simulación de variables aleatorias y estimación

Jesus Madariaga

2025-10-22

Propósito de la Actividad

1. Generación de los Conjuntos de Datos en R

2. Tabla de Resultados: Estadísticos e Intervalo de Confianza

Tabla Resumen de Resultados

3. Comentario sobre los Resultados y Diferencias