Informe: Teorema del Límite Central

Introducción

En este informe, se llevó a cabo una exhaustiva evaluación de los estimadores de proporción muestral en distintos escenarios mediante la realización de simulaciones y análisis estadísticos. El objetivo principal fue analizar el comportamiento de estos estimadores en relación con factores clave, como el tamaño de muestra y el porcentaje de individuos enfermos en una población de referencia. Para lograrlo, se siguieron varios pasos metodológicos que incluyeron la generación de una población de referencia con características específicas, la creación de una función para obtener muestras aleatorias y calcular los estimadores, así como la repetición de estos procesos para diferentes tamaños de muestra y porcentajes de individuos enfermos.

El análisis se centró en entender la tendencia de los estimadores a ser insesgados, es decir, si la media de los resultados se aproximaba al valor teórico de la proporción de individuos enfermos. Además, se evaluó la variabilidad de los estimadores en función del tamaño de muestra, siguiendo los principios del Teorema del Límite Central. También se examinó la normalidad de los resultados mediante pruebas estadísticas de Shapiro-Wilk y la visualización de gráficos de cuantiles normales (Q-Q).

Finalmente, se repetió todo el proceso para distintos porcentajes de individuos enfermos en la población, lo que permitió observar cómo este factor afectaba la normalidad y el comportamiento de los estimadores.

Este informe busca proporcionar una visión detallada sobre la evaluación de estimadores de proporción muestral, destacando la relevancia del tamaño de muestra y la composición de la población en la inferencia estadística. Los resultados obtenidos contribuyen a comprender mejor la aplicabilidad del Teorema del Límite Central y la importancia de considerar cuidadosamente el diseño muestral en análisis y toma de decisiones basados en muestras.

Paso 1: Configuración y Definición de Funciones

En este paso, generamos una población de tamaño n=1000, donde el 50% de los individuos (plantas) están enfermos.

# Tamaño de la población
n <- 1000

# Porcentaje de individuos enfermos
porcentaje_enfermos <- 0.50

# Generación de la población
poblacion <- rbinom(n, 1, porcentaje_enfermos)

La población se genera aleatoriamente utilizando una distribución binomial con una probabilidad de éxito del 50%, lo que garantiza que aproximadamente el 50% de la población esté enferma.

Paso 2: Función para Muestra Aleatoria y Estimador de Proporción

En este paso, definimos una función llamada “obtener_muestra_y_estimar_proporcion” que permite obtener una muestra aleatoria de tamaño n de la población y calcular el estimador de proporción muestral (pˆ). Esto se hace utilizando “sample” para obtener la muestra y calculando la proporción de individuos enfermos en la muestra.

# Función para obtener muestra aleatoria y estimar proporción muestral
obtener_muestra_y_estimar_proporcion <- function(poblacion, n) {
  muestra <- sample(poblacion, n, replace = FALSE)
  proporcion_estimada <- mean(muestra)
  return(proporcion_estimada)
}

La función “obtener_muestra_y_estimar_proporcion” toma como entrada la población y el tamaño de muestra deseado. Dentro de la función, se utiliza “sample” para obtener una muestra aleatoria sin reemplazo de la población. Luego, se calcula la proporción muestral estimada como la media de la muestra.

Paso 3: Repetición de la Simulación para n=500 Veces y Análisis de Resultados

En este paso, repetimos la simulación definida en el Paso 2, pero lo hacemos 500 veces para analizar el comportamiento del estimador de proporción muestral. Almacenamos los resultados en un vector resultados y realizamos un análisis estadístico.

# Número de repeticiones
repeticiones <- 500

# Vector para almacenar los resultados
resultados <- numeric(repeticiones)

# Repetición de la simulación y almacenamiento de resultados
for (i in 1:repeticiones) {
  resultados[i] <- obtener_muestra_y_estimar_proporcion(poblacion, n)
}

# Análisis de resultados
mean_resultados <- mean(resultados)
sd_resultados <- sd(resultados)
skewness_resultados <- moments::skewness(resultados)
kurtosis_resultados <- moments::kurtosis(resultados)

Se realiza la simulación 500 veces para obtener 500 estimadores de proporción muestral.

Luego, se calcula la media (insesgada), la desviación estándar (medida de variabilidad), el sesgo (skewness), y la curtosis (kurtosis) de los resultados.

La media de los resultados de los estimadores de proporción muestral es cercana al valor teórico de 0.50, lo que indica que los estimadores son insesgados.

La desviación estándar es una medida de la variabilidad de los resultados. A mayor desviación estándar, mayor variabilidad.

El sesgo (skewness) mide la asimetría de la distribución. Un valor cercano a cero indica simetría.

La curtosis (kurtosis) mide la “picudez” de la distribución. Un valor mayor que cero indica una distribución más puntiaguda que la normal.

Paso 4: Repetición para Diferentes Tamaños de Muestra y Evaluación de la Normalidad

Repetimos los pasos 2 y 3 para varios tamaños de muestra (n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500) para evaluar cómo varía la normalidad de los estimadores en función del tamaño de muestra. Utilizamos pruebas de normalidad de Shapiro-Wilk y gráficos Q-Q.

# Vector de tamaños de muestra
tamaños_muestra <- c(5, 10, 15, 20, 30, 50, 60, 100, 200, 500)

# Función para realizar la simulación y pruebas de normalidad
simular_y_analizar_normalidad <- function(tamaño_muestra) {
  resultados <- numeric(repeticiones)
  for (i in 1:repeticiones) {
    muestra <- sample(poblacion, tamaño_muestra, replace = FALSE)
    resultados[i] <- mean(muestra)
  }
  # Prueba de Shapiro-Wilk
  shapiro_test <- shapiro.test(resultados)
  # Gráfico Q-Q
  qq_plot <- qqnorm(resultados)
  return(list(Resultados = resultados, Shapiro_Wilk = shapiro_test, QQ_Plot = qq_plot))
}

# Iteración para diferentes tamaños de muestra
resultados_por_tamaño <- lapply(tamaños_muestra, simular_y_analizar_normalidad)

Se realizó una prueba de Shapiro-Wilk para cada conjunto de resultados de estimadores de proporción muestral. Un valor p alto (p > 0.05) indica que los datos se ajustan a una distribución normal. Se crearon gráficos Q-Q para visualizar la normalidad. Una línea diagonal indica una distribución normal.

En el gráfico Q-Q para el escenario con un 50% de plantas enfermas (escenario central), los puntos también siguen aproximadamente una línea diagonal. Esto sugiere que los estimadores tienden a seguir una distribución normal, lo cual es consistente con el Teorema del Límite Central.

Paso 5: Repetición de la Simulación para 10% y 90% de Plantas Enfermas

En este paso, repetiremos todos los pasos anteriores (Paso 2 y Paso 3) para dos escenarios adicionales: uno con un 10% de plantas enfermas y otro con un 90% de plantas enfermas. Esto nos permitirá comparar cómo diferentes porcentajes de plantas enfermas afectan los resultados de la simulación.

# Función para obtener muestra aleatoria y estimar proporción muestral
obtener_muestra_y_estimar_proporcion <- function(poblacion, n) {
  muestra <- sample(poblacion, n, replace = FALSE)
  proporcion_estimada <- mean(muestra)
  return(proporcion_estimada)
}

# Número de repeticiones
repeticiones <- 500

# Escenario con 10% de Plantas Enfermas:
porcentaje_enfermos_10 <- 0.10
poblacion_10 <- rbinom(n, 1, porcentaje_enfermos_10)
resultados_10 <- numeric(repeticiones)
for (i in 1:repeticiones) {
  resultados_10[i] <- obtener_muestra_y_estimar_proporcion(poblacion_10, n)
}

# Análisis de resultados para 10% de enfermos
mean_resultados_10 <- mean(resultados_10)
sd_resultados_10 <- sd(resultados_10)
skewness_resultados_10 <- moments::skewness(resultados_10)
kurtosis_resultados_10 <- moments::kurtosis(resultados_10)

# Escenario con 90% de Plantas Enfermas:
porcentaje_enfermos_90 <- 0.90
poblacion_90 <- rbinom(n, 1, porcentaje_enfermos_90)
resultados_90 <- numeric(repeticiones)
for (i in 1:repeticiones) {
  resultados_90[i] <- obtener_muestra_y_estimar_proporcion(poblacion_90, n)
}

# Análisis de resultados para 90% de enfermos
mean_resultados_90 <- mean(resultados_90)
sd_resultados_90 <- sd(resultados_90)
skewness_resultados_90 <- moments::skewness(resultados_90)
kurtosis_resultados_90 <- moments::kurtosis(resultados_90)

# Gráficos de densidad para el escenario con 10% de plantas enfermas
density_plot_10 <- density(resultados_10)
plot(density_plot_10, main = "Distribucion de Estimadores (10% Enfermos)", xlab = "Estimador de Proporcion", ylab = "Densidad")

# Gráficos de densidad para el escenario con 90% de plantas enfermas
density_plot_90 <- density(resultados_90)
plot(density_plot_90, main = "Distribucion de Estimadores (90% Enfermos)", xlab = "Estimador de Proporcion", ylab = "Densidad")

Escenario con 90% de Plantas Enfermas:

La gráfica de densidad muestra que, en el escenario con un 90% de plantas enfermas, los estimadores están concentrados alrededor del 90%, reflejando la proporción real de plantas enfermas en la población.

La desviación estándar (sd_resultados_90) será menor en comparación con el escenario del 50% debido a la alta concentración de estimadores alrededor del 90%.

El sesgo (skewness) y la curtosis (kurtosis) indican que los estimadores tendrán una forma de distribución más puntiaguda que la normal debido a la alta concentración alrededor del 90%.

Escenario con 10% de Plantas Enfermas:

La gráfica de densidad muestra que, en el escenario con un 10% de plantas enfermas, los estimadores están concentrados alrededor del 10%. Esto es consistente con la proporción real de plantas enfermas en la población.

La desviación estándar (sd_resultados_10) es una medida de la variabilidad de los estimadores y será menor en este caso en comparación con el escenario del 50%.

El sesgo (skewness) y la curtosis (kurtosis) indican la asimetría y la forma de la distribución. En este escenario, los estimadores estarán menos sesgados y tendrán una curtosis más cercana a la normalidad.

En resumen, en los escenarios con porcentajes extremos de plantas enfermas (10% y 90%), los estimadores se concentran alrededor de los valores correspondientes y muestran una menor variabilidad en comparación con el escenario del 50%. Además, la forma de la distribución varía en función del porcentaje de plantas enfermas, siendo más simétrica en el caso del 10% y más puntiaguda en el caso del 90%. Estos resultados resaltan la influencia del porcentaje de individuos enfermos en la estimación de proporción muestral.

Conclusiones

En todos los escenarios, los estimadores de proporción muestral tienden a ser insesgados, ya que la media de los resultados se acerca al valor teórico de la proporción de individuos enfermos.

La variabilidad de los estimadores disminuye a medida que aumenta el tamaño de muestra, lo que se ajusta al Teorema del Límite Central.

La normalidad de los estimadores varía según el tamaño de muestra y el porcentaje de individuos enfermos. Los resultados tienden a ser más normales con tamaños de muestra más grandes y porcentajes cercanos al 50%.

Se observa una mayor variabilidad y asimetría en los resultados con porcentajes extremos de plantas enfermas (10% y 90%).

En resumen, este análisis demuestra la importancia del tamaño de muestra y el porcentaje de individuos enfermos en la evaluación de la normalidad de los estimadores de proporción muestral. Los resultados respaldan el uso del Teorema del Límite Central en la inferencia estadística y resaltan la necesidad de considerar el diseño muestral en la toma de decisiones basadas en muestras.