Introducción
El presente trabajo hace parte del programa de Maestría en Ciencia de Datos de la Pontificia Universidad Javeriana Cali de la asignatura Métodos y Simulación estadística. El documento contiene el desarrollo del problema 3 de la actividad número 2 como evaluación de la temática Probabilidad e Inferencia Estadística.
Problema 3
Teorema del Límite Central
El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral \(n>30\).
A continuación se describen los siguientes pasos para su verificación:
a. Realice una simulación en la cual genere una población de \(n=1000\) (Lote), donde el porcentaje de individuos (supongamos plantas) enfermas sea del 50%.
b. Genere una función que permita:
- Obtener una muestra aleatoria de la población y
- Calcule el estimador de la proporción muestral \(\hat{p}\) para un tamaño de muestra dado \(n\).
c. Repita el escenario anterior (b) \(n=500\) veces y analice los resultados en cuanto al comportamiento de los 500 resultados del estimador \(\hat{p}\). ¿Qué tan simétricos o sesgados son los resultados obtenidos? y ¿qué se puede observar en cuanto a la variabilidad?. Realice en su informe un comentario sobre los resultados obtenidos.
d. Repita los puntos b y c para tamaños de muestra \(n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500\). Compare los resultados obtenidos para los diferentes tamaños de muestra en cuanto a la normalidad. Utilice pruebas de bondad y ajuste (shapiro wilks : shspiro.test()) y métodos gráficos (gráfico de normalidad: qqnorm()). Comente en su informe los resultados obtenidos.
e. Repita toda la simulación (puntos a – d), pero ahora para lotes con 10% de plantas enfermas y de nuevo para lotes con un 90% de plantas enfermas. Concluya sobre los resultados del ejercicio.
Solución
El primer paso para este caso de comprobación de la convergencia de la proporción muestral \(\hat{p}\) según se afirma en el Teorema de Límite Central es generar una población de tamaño \(n=1000\) donde el 50% de las plantas están enfermas.
# Parámetros
n_pop <- 1000
p_enfermo <- 0.5
# Generar población con distribución binomial
poblacion <- rbinom(n_pop, 1, p_enfermo)
Una vez definida la población con las características definidas se definió una función para obtener una muestra aleatoria y calcular la proporción muestral.
# Función para calcular la proporción muestral
proporcion_muestral <- function(poblacion, n_muestra) {
muestra <- sample(poblacion, n_muestra, replace = FALSE)
p_muestral <- mean(muestra)
return(p_muestral)
}
Teniendo la función para calcular la proporción muestral aplicamos la simulación para los diferentes tamaños de muestra indicados y posteriormente realizamos un análisis de normalidad mediante un test de Shapiro-Wilk y de forma visual mediante un gráfico cuantil-cuantil como se observa en las siguientes gráficas.
# Tamaños de muestra a analizar
tamanos_muestra <- c(5, 10, 15, 20, 30, 50, 60, 100, 200, 500)
n_repeticiones <- 500
resultados <- list()
for (n_muestra in tamanos_muestra) {
proporciones <- replicate(n_repeticiones, proporcion_muestral(poblacion, n_muestra))
resultados[[as.character(n_muestra)]] <- proporciones
# Análisis de normalidad
shapiro_test <- shapiro.test(proporciones)
print(paste("Shapiro-Wilk para n =", n_muestra, ": p-valor =", shapiro_test$p.value))
# Gráfico QQ
qqnorm(proporciones, main = paste("QQ Plot para n =", n_muestra), col = "#69b7ff")
qqline(proporciones, col = "red")
}
[1] "Shapiro-Wilk para n = 5 : p-valor = 3.3337531694094e-15"
[1] "Shapiro-Wilk para n = 10 : p-valor = 7.87729056782452e-10"
[1] "Shapiro-Wilk para n = 15 : p-valor = 4.47219878245063e-08"
[1] "Shapiro-Wilk para n = 20 : p-valor = 7.17268222009402e-07"
[1] "Shapiro-Wilk para n = 30 : p-valor = 2.61834059451164e-05"
[1] "Shapiro-Wilk para n = 50 : p-valor = 0.00326027340389454"
[1] "Shapiro-Wilk para n = 60 : p-valor = 0.00541248819953566"
[1] "Shapiro-Wilk para n = 100 : p-valor = 0.0434520598997019"
[1] "Shapiro-Wilk para n = 200 : p-valor = 0.0836689223768599"
[1] "Shapiro-Wilk para n = 500 : p-valor = 0.172072440356167"
Finalmente, realizamos la simulación para lotes con 10 y 90% de plantas enfermas y procedemos a comprobar como se comporta la proporción muestral al cambiar el parámetro de la distribución binomial y el tamaño de muestra.
# Función para realizar la simulación completa
simular_y_analizar <- function(p_enfermo, tamanos_muestra, n_repeticiones) {
resultados <- list()
for (n_muestra in tamanos_muestra) {
poblacion <- rbinom(n_pop, 1, p_enfermo)
proporciones <- replicate(n_repeticiones, proporcion_muestral(poblacion, n_muestra))
resultados[[as.character(n_muestra)]] <- proporciones
# Análisis de normalidad
shapiro_test <- shapiro.test(proporciones)
print(paste("Shapiro-Wilk para p_enfermo =", p_enfermo, "y n =", n_muestra, ": p-valor =", shapiro_test$p.value))
# Gráfico QQ
qqnorm(proporciones, main = paste("QQ Plot para p_enfermo =", p_enfermo, "y n =", n_muestra), col = "#69b7ff")
qqline(proporciones, col = "red")
}
return(resultados)
}
# Repetir simulación para diferentes porcentajes de plantas enfermas
resultados_10 <- simular_y_analizar(0.1, tamanos_muestra, n_repeticiones)
[1] "Shapiro-Wilk para p_enfermo = 0.1 y n = 5 : p-valor = 8.75663334615684e-31"
[1] "Shapiro-Wilk para p_enfermo = 0.1 y n = 10 : p-valor = 2.54232544006503e-22"
[1] "Shapiro-Wilk para p_enfermo = 0.1 y n = 15 : p-valor = 1.00633185795988e-17"
[1] "Shapiro-Wilk para p_enfermo = 0.1 y n = 20 : p-valor = 1.02418986034839e-16"
[1] "Shapiro-Wilk para p_enfermo = 0.1 y n = 30 : p-valor = 7.50674564178489e-14"
[1] "Shapiro-Wilk para p_enfermo = 0.1 y n = 50 : p-valor = 7.89300062357566e-08"
[1] "Shapiro-Wilk para p_enfermo = 0.1 y n = 60 : p-valor = 8.99602762374988e-07"
[1] "Shapiro-Wilk para p_enfermo = 0.1 y n = 100 : p-valor = 4.20942209998296e-06"
[1] "Shapiro-Wilk para p_enfermo = 0.1 y n = 200 : p-valor = 0.000724626637502855"
[1] "Shapiro-Wilk para p_enfermo = 0.1 y n = 500 : p-valor = 0.00927820636365353"
resultados_90 <- simular_y_analizar(0.9, tamanos_muestra, n_repeticiones)
[1] "Shapiro-Wilk para p_enfermo = 0.9 y n = 5 : p-valor = 3.43480393853701e-29"
[1] "Shapiro-Wilk para p_enfermo = 0.9 y n = 10 : p-valor = 2.1681481718045e-23"
[1] "Shapiro-Wilk para p_enfermo = 0.9 y n = 15 : p-valor = 3.40387553637829e-19"
[1] "Shapiro-Wilk para p_enfermo = 0.9 y n = 20 : p-valor = 1.58260417742324e-15"
[1] "Shapiro-Wilk para p_enfermo = 0.9 y n = 30 : p-valor = 5.22726004528582e-11"
[1] "Shapiro-Wilk para p_enfermo = 0.9 y n = 50 : p-valor = 3.07077534377697e-07"
[1] "Shapiro-Wilk para p_enfermo = 0.9 y n = 60 : p-valor = 2.19521391104e-09"
[1] "Shapiro-Wilk para p_enfermo = 0.9 y n = 100 : p-valor = 4.88575647533021e-05"
[1] "Shapiro-Wilk para p_enfermo = 0.9 y n = 200 : p-valor = 0.00262835778360814"
[1] "Shapiro-Wilk para p_enfermo = 0.9 y n = 500 : p-valor = 0.0734942204239389"
Resultados y análisis
1. Comportamiento de la proporción muestral \(\hat{p}\) para Diferentes Tamaños de Muestra
En el análisis, generamos proporciones muestrales (\(\hat{p}\)) para tamaños de muestra que varían desde 5 hasta 500, repitiendo la simulación 500 veces para cada tamaño. El Teorema del Límite Central (TLC) nos dice que, a medida que el tamaño de la muestra aumenta, la distribución de \(\hat{p}\) debería aproximarse a una distribución normal, independientemente de la distribución de la población.
Resultados:
Para tamaños de muestra pequeños (e.g., n=5, 10, 15): La distribución de las proporciones muestrales puede mostrar una desviación significativa de la normalidad. En estos casos, el gráfico QQ probablemente mostrará una dispersión de puntos lejos de la línea teórica, y la prueba de Shapiro-Wilk podría indicar una distribución no normal (valor p bajo).
Para tamaños de muestra medianos (e.g., n=30, 50, 60): La distribución de (\(\hat{p}\)) debería comenzar a parecerse a una normalidad. Los gráficos QQ deberían mostrar una alineación más cercana a la línea teórica, y la prueba de Shapiro-Wilk debería mostrar valores p más altos, sugiriendo que la distribución es más cercana a la normal.
Para tamaños de muestra grandes (e.g., n=100, 200, 500): La distribución de (\(\hat{p}\)) debería aproximarse bastante bien a una distribución normal. Los gráficos QQ deberían mostrar los puntos bien alineados con la línea teórica, y la prueba de Shapiro-Wilk debería tener valores p que sugieren normalidad.
2. Efecto del Porcentaje de Plantas Enfermas en la Proporción Muestral
Realizamos simulaciones con poblaciones donde el porcentaje de plantas enfermas era 10% y 90%. El TLC sugiere que, independientemente del porcentaje de la población que sea enfermo, la distribución de (\(\hat{p}\)) debería ser aproximadamente normal si el tamaño de muestra es suficientemente grande.
Resultados:
Para un 10% de plantas enfermas: La proporción muestral (\(\hat{p}\)) tiende a estar cerca de 0.10. La distribución de (\(\hat{p}\)) sigue las mismas tendencias hacia la normalidad con tamaños de muestra grandes, aunque los gráficos QQ y pruebas de normalidad podrían mostrar diferencias menores en la media y la dispersión en comparación con el 90%.
Para un 90% de plantas enfermas: La proporción muestral (\(\hat{p}\)) se acercará a 0.90. La distribución de (\(\hat{p}\)) también debería aproximarse a una normalidad para tamaños de muestra grandes, pero con una media diferente y una variabilidad acorde al porcentaje más alto.
3. Análisis Gráfico y Estadístico
Pruebas de Shapiro-Wilk: Esta prueba evalúa la normalidad de los datos. Para tamaños de muestra grandes, esperamos que el valor-p sea alto, indicando que las proporciones muestrales se distribuyen normalmente. Para tamaños de muestra más pequeños, el valor-p puede se bajo, sugiriendo que la normalidad no se cumple.
Gráficos QQ: Los gráficos QQ deberían mostrar cómo las proporciones muestrales (\(\hat{p}\)) se alinean con una distribución normal. Para tamaños de muestra grandes, los puntos en el gráfico QQ deberían alinearse bien con la línea diagonal, indicando una aproximación a la normalidad. Para tamaños pequeños, los puntos pueden desviarse considerablemente de la línea, indicando una distribución menos normal.
Conclusiones
Simetría y sesgo: A medida que el tamaño de la muestra aumenta, la distribución de las proporciones muestrales debería acercarse a una distribución normal, como lo predice el TLC. Para tamaños de muestra más pequeños, es probable que la distribución sea más sesgada y menos simétrica.
Variabilidad: La variabilidad de las proporciones muestrales debería disminuir con el aumento del tamaño de la muestra.
Pruebas de normalidad: La prueba de Shapiro-Wilk no dió una idea de si los datos se desvían significativamente de una distribución normal. Los gráficos QQ también proporcionan una visualización útil de la normalidad.
Diferentes porcentajes de plantas enfermas: A medida que cambias el porcentaje de plantas enfermas, el valor esperado de la proporción muestral cambia, pero el comportamiento en términos de la aproximación a la normalidad debería ser similar si el tamaño de la muestra es suficientemente grande.