El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.
A continuación se describen los siguientes pasos para su verificación:
Realice una simulación en la cual genere una población de n=1000 (Lote), donde el porcentaje de individuos (supongamos plantas) enfermas sea del 50%.
Genere una función que permita: Obtener una muestra aleatoria de la población y Calcule el estimador de la proporción muestral pˆ para un tamaño de muestra dado n.
repita el escenario anterior (b) n=500 veces y analice los resultados en cuanto al comportamiento de los 500 resultados del estimador pˆ. ¿Qué tan simétricos o sesgados son los resultados obtenidos? y ¿qué se puede observar en cuanto a la variabilidad?. Realice en su informe un comentario sobre los resultados obtenidos.
Repita los puntos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Compare los resultados obtenidos para los diferentes tamaños de muestra en cuanto a la normalidad. Utilice pruebas de bondad y ajuste (shapiro wilks :shspiro.test()) y métodos gráficos (gráfico de normalidad: qqnorm()). Comente en su informe los resultados obtenidos.
repita toda la simulación (puntos a – d), pero ahora para lotes con 10% de plantas enfermas y de nuevo para lotes con un 90% de plantas enfermas. Concluya sobre los resultados del ejercicio. :::
#semilla de reproducibilidad
set.seed(123)
# Población de 1000 individuos con 50% de enfermos
poblacion <- rep(c(0, 1), each = 500)
# Función para obtener una muestra aleatoria y calcular p
obtener_muestra_p <- function(n) {
muestra <- sample(poblacion, size = n, replace = T)
estimador_p <- sum(muestra) / n
return(estimador_p)
}
# repetimos lo anterior para una muestra n=500 veces
resultados <- replicate(500, obtener_muestra_p(1000))
# Sacamos las propiedades de los estimadores
simetria <- mean(resultados) - median(resultados)
sesgo <- mean(resultados) - 0.5
variabilidad <- var(resultados)
# resultados de simetría, sesgo y variabilidad.
cat("Simetría:", simetria, "\n")
## Simetría: 0.000544
cat("Sesgo:", sesgo, "\n")
## Sesgo: -0.000456
cat("Variabilidad:", variabilidad, "\n")
## Variabilidad: 0.0002291784
# Tamaños de muestra
tamanos_muestra <- c(5, 10, 15, 20, 30, 50, 60, 100, 200, 500)
# Función para realizar el análisis de normalidad
analisis_normalidad <- function(n) {
# Repetimos n=500 veces
resultados <- replicate(500, obtener_muestra_p(n))
# Prueba de Shapiro-Wilk
shapiro_result <- shapiro.test(resultados)
# Gráfico de los resultados
qqnorm(resultados)
qqline(resultados)
# Comentario sobre los resultados
cat("Tamaño de muestra:", n, "\n")
cat("Prueba de Shapiro-Wilk:", shapiro_result$p.value, "\n")
cat("\n")
}
# Realizamos el análisis de normalidad para cada tamaño de muestra
for (n in tamanos_muestra) {
analisis_normalidad(n)
}
## Tamaño de muestra: 5
## Prueba de Shapiro-Wilk: 3.945744e-15
## Tamaño de muestra: 10
## Prueba de Shapiro-Wilk: 5.275183e-10
## Tamaño de muestra: 15
## Prueba de Shapiro-Wilk: 1.391385e-07
## Tamaño de muestra: 20
## Prueba de Shapiro-Wilk: 1.940473e-06
## Tamaño de muestra: 30
## Prueba de Shapiro-Wilk: 7.097915e-05
## Tamaño de muestra: 50
## Prueba de Shapiro-Wilk: 0.001786541
## Tamaño de muestra: 60
## Prueba de Shapiro-Wilk: 0.001272574
## Tamaño de muestra: 100
## Prueba de Shapiro-Wilk: 0.02622095
## Tamaño de muestra: 200
## Prueba de Shapiro-Wilk: 0.1163573
## Tamaño de muestra: 500
## Prueba de Shapiro-Wilk: 0.754305
# Porcentaje de plantas enfermas 10% y 90%
porcentajes_enfermas <- c(10, 90)
# Realizamos la simulación para cada porcentaje de plantas enfermas
for (p in porcentajes_enfermas) {
# Generamos una población con el porcentaje de plantas enfermas dado
poblacion <- rep(c(0, 1), each = 500 * (p / 100))
cat("Porcentaje de plantas enfermas:", p, "%\n")
# Repettimos los puntos b y c
resultados <- replicate(500, obtener_muestra_p(1000))
simetria <- mean(resultados) - median(resultados)
sesgo <- mean(resultados) - (p / 100)
variabilidad <- var(resultados)
cat("Simetría:", simetria, "\n")
cat("Sesgo:", sesgo, "\n")
cat("Variabilidad:", variabilidad, "\n")
# Repetimos el punto d
for (n in tamanos_muestra) {
analisis_normalidad(n)
}
cat("\n")
}
## Porcentaje de plantas enfermas: 10 %
## Simetría: 0.000346
## Sesgo: 0.399346
## Variabilidad: 0.0002255454
## Tamaño de muestra: 5
## Prueba de Shapiro-Wilk: 4.61101e-15
## Tamaño de muestra: 10
## Prueba de Shapiro-Wilk: 1.441791e-09
## Tamaño de muestra: 15
## Prueba de Shapiro-Wilk: 2.163932e-07
## Tamaño de muestra: 20
## Prueba de Shapiro-Wilk: 3.423357e-06
## Tamaño de muestra: 30
## Prueba de Shapiro-Wilk: 5.389487e-05
## Tamaño de muestra: 50
## Prueba de Shapiro-Wilk: 0.01292213
## Tamaño de muestra: 60
## Prueba de Shapiro-Wilk: 0.001087931
## Tamaño de muestra: 100
## Prueba de Shapiro-Wilk: 0.01560404
## Tamaño de muestra: 200
## Prueba de Shapiro-Wilk: 0.1583855
## Tamaño de muestra: 500
## Prueba de Shapiro-Wilk: 0.3500382
##
##
## Porcentaje de plantas enfermas: 90 %
## Simetría: 0.00148
## Sesgo: -0.39952
## Variabilidad: 0.000258214
## Tamaño de muestra: 5
## Prueba de Shapiro-Wilk: 2.801733e-14
## Tamaño de muestra: 10
## Prueba de Shapiro-Wilk: 5.945476e-10
## Tamaño de muestra: 15
## Prueba de Shapiro-Wilk: 1.075777e-07
## Tamaño de muestra: 20
## Prueba de Shapiro-Wilk: 5.873511e-06
## Tamaño de muestra: 30
## Prueba de Shapiro-Wilk: 7.297211e-06
## Tamaño de muestra: 50
## Prueba de Shapiro-Wilk: 0.004564279
## Tamaño de muestra: 60
## Prueba de Shapiro-Wilk: 0.000513014
## Tamaño de muestra: 100
## Prueba de Shapiro-Wilk: 0.005817537
## Tamaño de muestra: 200
## Prueba de Shapiro-Wilk: 0.1008157
## Tamaño de muestra: 500
## Prueba de Shapiro-Wilk: 0.4206946
Con respecto al punto C). ¿Qué tan simétricos o sesgados son los resultados obtenidos? y ¿qué se puede observar en cuanto a la variabilidad?
Podemos decir que se realiza una simulación de 500 veces de la cual se observa que la simetría tiende ser cercana a cero, lo que nos dice que la diferencia entre la media y la mediana es muy poca. De acuerdo con lo anterior, se puede decir que los datos son simétricos.
Por otro lado, podemos observar que el sesgo también tiende a ser cercano a cero, lo cual indica que los datos no presentan sesgos, sino que están centrados. Y por el lado de la variabilidad, ésta es relativamente baja, también posee un valor cercano a cero, es decir, que los datos se dispersar alrededor de la media.
Con respuesta al punto D), podemos concluir que al realizar el test de Shapiro-Wilk y el método de normalidad en cada una de las muestras, los datos muestran que a medida que aumenta la muestra los estimadores tienden a tener una distribución normal. Eso se evidencia con el test de Shapiro-Wilk, pues los valores que este test arroja es que a medida que va a aumentando la muestra este tiende a ser más grande, mostrando que los estimadores se acercan a la distribución normal, como ya se había mencionado.
Y con respecto al punto D, en el cual se realiza todos los pasos anteriores, pero dividido en 2 porcentajes 10% y 90% en plantas enfermas, lo cual analizamos que a medida que aumenta el porcentaje de 10 a 90 los resultados de simetría, sesgo y variabilidad tienden acercarse más a cero indicando que los estimadores son más precisos, esto se debe ya que hay una mayor proporción de enfermos.