Realice la simulación de una población exponencial de parámetro 20. Genere 100 muestras aleatorias de tamaño 10, 50,100, para cada muestra obtenga un intervalo de confianza para la varianza usando un nivel de confianza del 95%. Realice un gráfico pertinente pare representar los resultados ¿Qué conclusiones puede dar sobre los resultados? ¿Se cumple las condiciones teóricas vistas en clase? Si no explique ¿Cuál podría ser la razón? Discuta los resultados.
En la primera parte del ejercicio se realiza la simulación de una población grande basada en una distribución exponencial con parámetro λ = 20. Para garantizar reproducibilidad, se fija una semilla inicial y posteriormente se generan 100.000 observaciones que permiten aproximar de manera suficientemente precisa el comportamiento real de la distribución teórica. Además, se calcula la varianza teórica correspondiente a esta distribución, que es igual a \(1/λ^2\). Esta varianza sirve como referencia fundamental para evaluar el desempeño de los intervalos de confianza construidos más adelante.
En el segundo punto se define una función encargada de calcular el intervalo de confianza del 95% para la varianza a partir de una muestra dada. Esta función aplica la fórmula basada en el estadístico, \(X^2\) el cual establece que \((n-1)s^2/𝜎^2\) ~ \(X^2(n-1)\) bajo el supuesto de normalidad. A partir de esta relación teórica, la función obtiene los cuantiles de la distribución chi-cuadrado y calcula los límites inferior y superior del intervalo de confianza. Aunque este procedimiento es válido únicamente para datos que provienen de una distribución normal, aquí se utiliza deliberadamente sobre una distribución exponencial para analizar su comportamiento en un contexto no ideal.
Generación de muestras y cobertura de cada tamaño
En el tercer apartado se generan muestras aleatorias de tamaños 10, 50 y 100, extrayendo cada una de la población previamente simulada. Para cada tamaño muestral se obtienen 100 réplicas distintas, a las cuales se les calcula el intervalo de confianza de la varianza mediante la función definida anteriormente. Posteriormente, se evalúa si cada intervalo contiene o no la varianza teórica de la distribución exponencial, lo que permite estimar empíricamente la “cobertura” del método. Este análisis resulta crucial porque muestra cómo cambia la precisión del intervalo a medida que aumenta el tamaño de la muestra.
Finalmente, se construye un gráfico que representa los 100 intervalos de confianza obtenidos para cada tamaño muestral. En el gráfico se diferencian visualmente los intervalos que sí cubren la varianza teórica (en color azul) de aquellos que no la cubren (en rojo), e incluye una línea horizontal que marca la varianza teórica como referencia. Esta visualización permite observar que, para tamaños de muestra pequeños, los intervalos son mucho más amplios y presentan menor cobertura, mientras que para tamaños más grandes los intervalos se estrechan y con mayor frecuencia contienen el valor verdadero. De esta manera, el gráfico facilita interpretar el efecto del tamaño muestral y la falta de normalidad sobre el desempeño del intervalo de confianza.
Al observar los intervalos de confianza obtenidos para cada tamaño de muestra, se aprecia que cuando n es pequeño (n = 10), los intervalos son muy amplios y existe una mayor dispersión de las estimaciones de la varianza. Muchos intervalos ni siquiera contienen la varianza teórica, lo que indica poca precisión y un alto grado de variabilidad en la inferencia.
Cuando el tamaño de muestra aumenta (n = 50 y n = 100), los intervalos se vuelven considerablemente más estrechos, y en la mayoría de las réplicas contienen la varianza teórica de la distribución exponencial. Esto coincide con lo esperado por el teorema del límite central y por las propiedades de consistencia de los estimadores: con más datos, la varianza muestral converge hacia la varianza poblacional.
Sin embargo, no se cumplen completamente las condiciones teóricas vistas en clase, porque la fórmula del intervalo de confianza para la varianza asume que los datos provienen de una distribución normal, y en este caso la población es exponencial, una distribución altamente asimétrica. Esto explica por qué los IC fallan especialmente cuando n es pequeño. La razón principal es que la distribución de \(((n - 1) * s^2)/ 𝜎^2\) deja de seguir \(X^2\) cuando la población no es normal, lo que distorsiona la inferencia. Aun así, para tamaños grandes, la varianza muestral mejora y se observa una convergencia empírica hacia el valor real.