Simulación de variables aleatorias y estimación

#Propósito de la Actividad#

El objetivo de esta práctica es generar y analizar dos conjuntos de datos simulados: uno proveniente de una distribución Normal y otro de una distribución Exponencial. Posteriormente, se calcularán los intervalos de confianza del 95% para la media poblacional de cada caso, con el fin de comparar sus resultados e interpretar las diferencias estadísticas entre ambas distribuciones.

##1. Simulación de los conjuntos de datos en R

En este experimento se generan dos colecciones de datos, cada una compuesta por 30 promedios. Cada promedio representa una muestra de 20 observaciones tomadas de las distribuciones correspondientes:

Distribución Normal: Representa el tiempo de atención de los clientes. Tiene una media de 15 minutos y una desviación estándar de 5 minutos.

Distribución Exponencial: Representa el tiempo entre llegadas de los clientes. Su media es de 3.5 minutos.

# Semilla para obtener resultados reproducibles

set.seed(123)

# ---- Parámetros generales ----

n_clientes <- 20        # Tamaño de muestra por réplica
n_replicas <- 30        # Número de réplicas (promedios)

# ---- Simulación 1: Distribución Normal ----

media_normal <- 15
sd_normal <- 5
promedios_normal <- replicate(n_replicas, {
mean(rnorm(n = n_clientes, mean = media_normal, sd = sd_normal))
})

# ---- Simulación 2: Distribución Exponencial ----

media_exponencial <- 3.5
rate_exponencial <- 1 / media_exponencial
promedios_exponencial <- replicate(n_replicas, {
mean(rexp(n = n_clientes, rate = rate_exponencial))
})

# ---- Tabla de los promedios generados ----

datos_generados <- data.frame(
Replica = 1:n_replicas,
Promedio_Normal = promedios_normal,
Promedio_Exponencial = promedios_exponencial
)

#2. Resultados numéricos y cálculo del intervalo de confianza

A continuación, se presentan los 30 promedios generados para cada distribución.

knitr::kable(
datos_generados,
digits = 4,
caption = "Promedios obtenidos en cada una de las 30 réplicas para ambas distribuciones."
)

Promedios obtenidos en cada una de las 30 réplicas para ambas distribuciones.
Replica	Promedio_Normal	Promedio_Exponencial
1	15.7081	4.1290
2	14.7437	4.5856
3	15.5324	2.8831
4	14.4004	4.1455
5	16.8755	2.4331
6	13.2031	5.0557
7	14.8083	2.4201
8	14.1333	3.6808
9	15.8344	3.6661
10	14.3322	5.7848
11	15.2974	3.8142
12	14.8083	3.5360
13	14.8838	3.2735
14	16.0474	3.0775
15	16.9747	3.4846
16	14.8049	3.5141
17	15.2511	3.0019
18	14.6287	3.3308
19	15.1429	2.9393
20	14.2668	3.1320
21	13.9402	3.0820
22	16.0329	4.3815
23	14.8180	3.4741
24	16.5062	4.2336
25	16.3491	3.3914
26	13.6230	3.2137
27	16.2609	4.1326
28	15.5051	4.0645
29	14.7965	3.3569
30	13.7570	3.2087

Ahora se calculan los principales estadísticos: media muestral, desviación estándar y límites del intervalo de confianza del 95% para cada distribución.

# ---- Estadísticos para la distribución Normal ----

media_muestral_normal <- mean(promedios_normal)
sd_muestral_normal <- sd(promedios_normal)
ic_test_normal <- t.test(promedios_normal, conf.level = 0.95)

# ---- Estadísticos para la distribución Exponencial ----

media_muestral_exponencial <- mean(promedios_exponencial)
sd_muestral_exponencial <- sd(promedios_exponencial)
ic_test_exponencial <- t.test(promedios_exponencial, conf.level = 0.95)

# ---- Tabla resumen de resultados ----

tabla_resumen <- data.frame(
Distribucion = c("Normal", "Exponencial"),
Media_Muestral = c(media_muestral_normal, media_muestral_exponencial),
Desviacion_Estandar = c(sd_muestral_normal, sd_muestral_exponencial),
IC_Inferior = c(ic_test_normal$conf.int[1], ic_test_exponencial$conf.int[1]),
IC_Superior = c(ic_test_normal$conf.int[2], ic_test_exponencial$conf.int[2])
)

knitr::kable(
tabla_resumen,
digits = 4,
caption = "Medias, desviaciones estándar e intervalos de confianza del 95% para cada distribución."
)

Medias, desviaciones estándar e intervalos de confianza del 95% para cada distribución.
Distribucion	Media_Muestral	Desviacion_Estandar	IC_Inferior	IC_Superior
Normal	15.1089	0.9667	14.7479	15.4699
Exponencial	3.6142	0.7299	3.3417	3.8868

Análisis e interpretación de los resultados

Distribución Normal

La media muestral (15.1089) es prácticamente igual a la media teórica (15), lo que indica que la simulación fue precisa.

El intervalo de confianza del 95% ([14.7479, 15.4699]) contiene la media poblacional real, lo que confirma que la estimación es confiable.

La desviación estándar pequeña (0.9667) sugiere poca variabilidad entre las 30 réplicas: los promedios son consistentes.

Distribución Exponencial

La media muestral (3.6142) también se acerca mucho al valor teórico (3.5).

Su intervalo de confianza ([3.3417, 3.8868]) incluye la media poblacional, mostrando una buena estimación.

Sin embargo, la desviación estándar es algo mayor (0.7299), lo que refleja que las réplicas son más variables, como es típico en distribuciones asimétricas.

Conclusión general

Ambas simulaciones cumplen con el Teorema del Límite Central (TLC): las medias de las muestras (aunque provengan de poblaciones diferentes) se aproximan a una distribución normal.

Esto explica por qué el método de estimación basado en t.test() funciona en ambos casos.

En términos de estabilidad, la distribución normal ofrece promedios más consistentes (menor variabilidad), mientras que la exponencial presenta más dispersión por su naturaleza aleatoria.

Resultado de Stat::fit para los promedios de la simulación Normal.

Simulación de variables aleatorias y estimación

Samuel David Duran Ossio

2025-10-22