Introducción

El presente trabajo hace parte del programa de Maestría en Ciencia de Datos de la Pontificia Universidad Javeriana Cali de la asignatura Métodos y Simulación estadística. El documento contiene el desarrollo del problema 3 de la actividad número 2 como evaluación de la temática Probabilidad e Inferencia Estadística.

Problema 3

Teorema del Límite Central

El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral \(n>30\).

A continuación se describen los siguientes pasos para su verificación:

a. Realice una simulación en la cual genere una población de \(n=1000\) (Lote), donde el porcentaje de individuos (supongamos plantas) enfermas sea del 50%.

b. Genere una función que permita:

c. Repita el escenario anterior (b) \(n=500\) veces y analice los resultados en cuanto al comportamiento de los 500 resultados del estimador \(\hat{p}\). ¿Qué tan simétricos o sesgados son los resultados obtenidos? y ¿qué se puede observar en cuanto a la variabilidad?. Realice en su informe un comentario sobre los resultados obtenidos.

d. Repita los puntos b y c para tamaños de muestra \(n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500\). Compare los resultados obtenidos para los diferentes tamaños de muestra en cuanto a la normalidad. Utilice pruebas de bondad y ajuste (shapiro wilks : shspiro.test()) y métodos gráficos (gráfico de normalidad: qqnorm()). Comente en su informe los resultados obtenidos.

e. Repita toda la simulación (puntos a – d), pero ahora para lotes con 10% de plantas enfermas y de nuevo para lotes con un 90% de plantas enfermas. Concluya sobre los resultados del ejercicio.

Solución

El primer paso para este caso de comprobación de la convergencia de la proporción muestral \(\hat{p}\) según se afirma en el Teorema de Límite Central es generar una población de tamaño \(n=1000\) donde el 50% de las plantas están enfermas.

# Parámetros
n_pop <- 1000
p_enfermo <- 0.5

# Generar población con distribución binomial
poblacion <- rbinom(n_pop, 1, p_enfermo)

Una vez definida la población con las características definidas se definió una función para obtener una muestra aleatoria y calcular la proporción muestral.

# Función para calcular la proporción muestral
proporcion_muestral <- function(poblacion, n_muestra) {
  muestra <- sample(poblacion, n_muestra, replace = FALSE)
  p_muestral <- mean(muestra)
  return(p_muestral)
}

Teniendo la función para calcular la proporción muestral aplicamos la simulación para los diferentes tamaños de muestra indicados y posteriormente realizamos un análisis de normalidad mediante un test de Shapiro-Wilk y de forma visual mediante un gráfico cuantil-cuantil como se observa en las siguientes gráficas.

# Tamaños de muestra a analizar
tamanos_muestra <- c(5, 10, 15, 20, 30, 50, 60, 100, 200, 500)
n_repeticiones <- 500
resultados <- list()

for (n_muestra in tamanos_muestra) {
  proporciones <- replicate(n_repeticiones, proporcion_muestral(poblacion, n_muestra))
  resultados[[as.character(n_muestra)]] <- proporciones
  
  # Análisis de normalidad
  shapiro_test <- shapiro.test(proporciones)
  print(paste("Shapiro-Wilk para n =", n_muestra, ": p-valor =", shapiro_test$p.value))
  
  # Gráfico QQ
  qqnorm(proporciones, main = paste("QQ Plot para n =", n_muestra), col = "#69b7ff")
  qqline(proporciones, col = "red")
}
[1] "Shapiro-Wilk para n = 5 : p-valor = 3.3337531694094e-15"

[1] "Shapiro-Wilk para n = 10 : p-valor = 7.87729056782452e-10"

[1] "Shapiro-Wilk para n = 15 : p-valor = 4.47219878245063e-08"

[1] "Shapiro-Wilk para n = 20 : p-valor = 7.17268222009402e-07"

[1] "Shapiro-Wilk para n = 30 : p-valor = 2.61834059451164e-05"

[1] "Shapiro-Wilk para n = 50 : p-valor = 0.00326027340389454"

[1] "Shapiro-Wilk para n = 60 : p-valor = 0.00541248819953566"

[1] "Shapiro-Wilk para n = 100 : p-valor = 0.0434520598997019"

[1] "Shapiro-Wilk para n = 200 : p-valor = 0.0836689223768599"

[1] "Shapiro-Wilk para n = 500 : p-valor = 0.172072440356167"

Finalmente, realizamos la simulación para lotes con 10 y 90% de plantas enfermas y procedemos a comprobar como se comporta la proporción muestral al cambiar el parámetro de la distribución binomial y el tamaño de muestra.

# Función para realizar la simulación completa
simular_y_analizar <- function(p_enfermo, tamanos_muestra, n_repeticiones) {
  resultados <- list()
  
  for (n_muestra in tamanos_muestra) {
    poblacion <- rbinom(n_pop, 1, p_enfermo)
    proporciones <- replicate(n_repeticiones, proporcion_muestral(poblacion, n_muestra))
    resultados[[as.character(n_muestra)]] <- proporciones
    
    # Análisis de normalidad
    shapiro_test <- shapiro.test(proporciones)
    print(paste("Shapiro-Wilk para p_enfermo =", p_enfermo, "y n =", n_muestra, ": p-valor =", shapiro_test$p.value))
    
    # Gráfico QQ
    qqnorm(proporciones, main = paste("QQ Plot para p_enfermo =", p_enfermo, "y n =", n_muestra), col = "#69b7ff")
    qqline(proporciones, col = "red")
  }
  
  return(resultados)
}

# Repetir simulación para diferentes porcentajes de plantas enfermas
resultados_10 <- simular_y_analizar(0.1, tamanos_muestra, n_repeticiones)
[1] "Shapiro-Wilk para p_enfermo = 0.1 y n = 5 : p-valor = 8.75663334615684e-31"

[1] "Shapiro-Wilk para p_enfermo = 0.1 y n = 10 : p-valor = 2.54232544006503e-22"

[1] "Shapiro-Wilk para p_enfermo = 0.1 y n = 15 : p-valor = 1.00633185795988e-17"

[1] "Shapiro-Wilk para p_enfermo = 0.1 y n = 20 : p-valor = 1.02418986034839e-16"

[1] "Shapiro-Wilk para p_enfermo = 0.1 y n = 30 : p-valor = 7.50674564178489e-14"

[1] "Shapiro-Wilk para p_enfermo = 0.1 y n = 50 : p-valor = 7.89300062357566e-08"

[1] "Shapiro-Wilk para p_enfermo = 0.1 y n = 60 : p-valor = 8.99602762374988e-07"

[1] "Shapiro-Wilk para p_enfermo = 0.1 y n = 100 : p-valor = 4.20942209998296e-06"

[1] "Shapiro-Wilk para p_enfermo = 0.1 y n = 200 : p-valor = 0.000724626637502855"

[1] "Shapiro-Wilk para p_enfermo = 0.1 y n = 500 : p-valor = 0.00927820636365353"

resultados_90 <- simular_y_analizar(0.9, tamanos_muestra, n_repeticiones)
[1] "Shapiro-Wilk para p_enfermo = 0.9 y n = 5 : p-valor = 3.43480393853701e-29"

[1] "Shapiro-Wilk para p_enfermo = 0.9 y n = 10 : p-valor = 2.1681481718045e-23"

[1] "Shapiro-Wilk para p_enfermo = 0.9 y n = 15 : p-valor = 3.40387553637829e-19"

[1] "Shapiro-Wilk para p_enfermo = 0.9 y n = 20 : p-valor = 1.58260417742324e-15"

[1] "Shapiro-Wilk para p_enfermo = 0.9 y n = 30 : p-valor = 5.22726004528582e-11"

[1] "Shapiro-Wilk para p_enfermo = 0.9 y n = 50 : p-valor = 3.07077534377697e-07"

[1] "Shapiro-Wilk para p_enfermo = 0.9 y n = 60 : p-valor = 2.19521391104e-09"

[1] "Shapiro-Wilk para p_enfermo = 0.9 y n = 100 : p-valor = 4.88575647533021e-05"

[1] "Shapiro-Wilk para p_enfermo = 0.9 y n = 200 : p-valor = 0.00262835778360814"

[1] "Shapiro-Wilk para p_enfermo = 0.9 y n = 500 : p-valor = 0.0734942204239389"

Resultados y análisis

1. Comportamiento de la proporción muestral \(\hat{p}\) para Diferentes Tamaños de Muestra

En el análisis, generamos proporciones muestrales (\(\hat{p}\)) para tamaños de muestra que varían desde 5 hasta 500, repitiendo la simulación 500 veces para cada tamaño. El Teorema del Límite Central (TLC) nos dice que, a medida que el tamaño de la muestra aumenta, la distribución de \(\hat{p}\) debería aproximarse a una distribución normal, independientemente de la distribución de la población.

Resultados:

  • Para tamaños de muestra pequeños (e.g., n=5, 10, 15): La distribución de las proporciones muestrales puede mostrar una desviación significativa de la normalidad. En estos casos, el gráfico QQ probablemente mostrará una dispersión de puntos lejos de la línea teórica, y la prueba de Shapiro-Wilk podría indicar una distribución no normal (valor p bajo).

  • Para tamaños de muestra medianos (e.g., n=30, 50, 60): La distribución de (\(\hat{p}\)) debería comenzar a parecerse a una normalidad. Los gráficos QQ deberían mostrar una alineación más cercana a la línea teórica, y la prueba de Shapiro-Wilk debería mostrar valores p más altos, sugiriendo que la distribución es más cercana a la normal.

  • Para tamaños de muestra grandes (e.g., n=100, 200, 500): La distribución de (\(\hat{p}\)) debería aproximarse bastante bien a una distribución normal. Los gráficos QQ deberían mostrar los puntos bien alineados con la línea teórica, y la prueba de Shapiro-Wilk debería tener valores p que sugieren normalidad.

2. Efecto del Porcentaje de Plantas Enfermas en la Proporción Muestral

Realizamos simulaciones con poblaciones donde el porcentaje de plantas enfermas era 10% y 90%. El TLC sugiere que, independientemente del porcentaje de la población que sea enfermo, la distribución de (\(\hat{p}\)) debería ser aproximadamente normal si el tamaño de muestra es suficientemente grande.

Resultados:

  • Para un 10% de plantas enfermas: La proporción muestral (\(\hat{p}\)) tiende a estar cerca de 0.10. La distribución de (\(\hat{p}\)) sigue las mismas tendencias hacia la normalidad con tamaños de muestra grandes, aunque los gráficos QQ y pruebas de normalidad podrían mostrar diferencias menores en la media y la dispersión en comparación con el 90%.

  • Para un 90% de plantas enfermas: La proporción muestral (\(\hat{p}\)) se acercará a 0.90. La distribución de (\(\hat{p}\)) también debería aproximarse a una normalidad para tamaños de muestra grandes, pero con una media diferente y una variabilidad acorde al porcentaje más alto.

3. Análisis Gráfico y Estadístico

  • Pruebas de Shapiro-Wilk: Esta prueba evalúa la normalidad de los datos. Para tamaños de muestra grandes, esperamos que el valor-p sea alto, indicando que las proporciones muestrales se distribuyen normalmente. Para tamaños de muestra más pequeños, el valor-p puede se bajo, sugiriendo que la normalidad no se cumple.

  • Gráficos QQ: Los gráficos QQ deberían mostrar cómo las proporciones muestrales (\(\hat{p}\)) se alinean con una distribución normal. Para tamaños de muestra grandes, los puntos en el gráfico QQ deberían alinearse bien con la línea diagonal, indicando una aproximación a la normalidad. Para tamaños pequeños, los puntos pueden desviarse considerablemente de la línea, indicando una distribución menos normal.

Conclusiones

  • Simetría y sesgo: A medida que el tamaño de la muestra aumenta, la distribución de las proporciones muestrales debería acercarse a una distribución normal, como lo predice el TLC. Para tamaños de muestra más pequeños, es probable que la distribución sea más sesgada y menos simétrica.

  • Variabilidad: La variabilidad de las proporciones muestrales debería disminuir con el aumento del tamaño de la muestra.

  • Pruebas de normalidad: La prueba de Shapiro-Wilk no dió una idea de si los datos se desvían significativamente de una distribución normal. Los gráficos QQ también proporcionan una visualización útil de la normalidad.

  • Diferentes porcentajes de plantas enfermas: A medida que cambias el porcentaje de plantas enfermas, el valor esperado de la proporción muestral cambia, pero el comportamiento en términos de la aproximación a la normalidad debería ser similar si el tamaño de la muestra es suficientemente grande.