El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.
Realice una simulación en la cual genere una población de n=1000 (Lote), donde el porcentaje de individuos (supongamos plantas) enfermas sea del 50%.
.
set.seed(123) # Establezco la semilla aleatoria para reproducibilidad
Lote<- 1000 #El tamaño de la población definida
enfermos<- floor(Lote*0.5) # de plantas enfermas
sanos <- Lote - enfermos # de plantas sanas
Poblacion <- c(rep(1, enfermos), rep(0, sanos)) #Represento a la población en este vector
lote_total <- sample(Poblacion) #Mezcla la población de manera aleatoria
head(lote_total, 50) # Miro el resultado de los primeros 50 registros para verificar que estén mezclados
## [1] 1 1 1 0 1 0 0 1 1 1 1 1 1 0 0 0 0 0 1 0 1 0 1 0 1 0 1 0 0 1 0 0 0 0 0 1 0 1
## [39] 0 1 0 0 0 0 0 1 0 1 1 0
##Paso 2. Genere una función que permita:
Obtener una muestra aleatoria de la población y
Calcule el estimador de la proporción muestral pˆ para un tamaño de muestra dado n.
muestra_y_proporcion<- function(Poblacion, n){
muestra<- sample(Poblacion, size = n) # Obtengo una muestra aleatoria de la población
prop_muestral <-sum(muestra==1)/ n # Calculo el estimador de la proporción muestral
return(prop_muestral)
}
tamaño_muestra<- 1000
proporcion<- muestra_y_proporcion(lote_total, tamaño_muestra)
cat("Estimación de la proporción muestral (p^):", proporcion, "\n")
## Estimación de la proporción muestral (p^): 0.5
Ejecutando el mismo ejemplo con 100 muestras:
tamaño_muestra<- 100
proporcion<- muestra_y_proporcion(lote_total, tamaño_muestra)
cat("Estimación de la proporción muestral (p^) con n=100:", proporcion, "\n")
## Estimación de la proporción muestral (p^) con n=100: 0.49
De este modo es posible notar que la estimación de la proporción muestral tomando una muestra aleatoria de 100 es muy cercana al parámetro de la población.
##* Paso 3. *
Repita el escenario anterior (paso 2) n=500 veces y analice los resultados en cuanto al comportamiento de los 500 resultados del estimador pˆ. ¿Qué tan simétricos o sesgados son los resultados obtenidos? y ¿qué se puede observar en cuanto a la variabilidad?. Realice en su informe un comentario sobre los resultados obtenidos.
tamaño_muestra<- 100 #Defino tamaños de muestra de 100
repeticiones <- 500 # Número de repeticiones solicitadas
estimaciones_proporcion <- numeric(repeticiones) # Vector para almacenar las estimaciones de la proporción.
for (i in 1:repeticiones) {
estimaciones_proporcion[i] <-muestra_y_proporcion(lote_total, tamaño_muestra)
} # Realizo muestreo repetido y registro las estimaciones
De la anterior se conoce que:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3700 0.4700 0.5000 0.5017 0.5400 0.6800
coefasismetria500<-skewness(estimaciones_proporcion)
coefvariacion500<-(sd(estimaciones_proporcion)/mean(estimaciones_proporcion))*100
coefasismetria500
## [1] 0.05942229
coefvariacion500
## [1] 9.29881
La media y la mediana son muy similares y concuerdan con la proporción poblacional, el valor mínimo obtenido en las muestras es de 37% de enfermos y el máximo de 68%. El 50% de las proporciones muéstrales se encuentran entre 47% y 54%, están muy cerca a la media.
El coeficiente de asimetría está muy cercano a 0, indicando una distribución aproximadamente normal. El coeficiente de variación en 9,4 indica una pequeña variación de los datos con aproximadamente el 9% de la media.
Y observo mediante histograma:
El gráfico de normalidad para diferentes tamaños de muestra, representa una distribución muy cercana a lo que representa la normal.
Repita los puntos 2 y 3 para tamaños de muestra n==5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Compare los resultados obtenidos para los diferentes tamaños de muestra en cuanto a la normalidad. Utilice pruebas de bondad y ajuste (shapiro wilks :shspiro.test()) y métodos gráficos (gráfico de normalidad: qqnorm()). Comente en su informe los resultados obtenidos
## tamaño_muestra EstadisticoW ValorP CoefAsimetria CoefVariacion
## 1 5 2.366924e-15 0.00 -0.16220917 41.787247
## 2 10 1.208172e-09 0.00 0.07920915 31.139334
## 3 15 6.895541e-08 0.00 -0.00516896 25.000831
## 4 20 1.370652e-06 0.00 0.05759186 21.266741
## 5 30 5.893419e-05 0.00 0.18493314 18.706110
## 6 50 2.391929e-03 0.00 0.04593302 13.933419
## 7 60 2.677931e-03 0.00 0.14378235 12.721510
## 8 100 7.718247e-02 0.08 0.03307401 9.675876
## 9 200 1.738388e-02 0.02 0.13426017 6.726477
## 10 500 2.120636e-01 0.21 -0.03618083 3.155093
Tras analizar los resultados, mediante la prueba de Shapiro-Wilk, hemos evaluado la normalidad de los datos, considerando que los mismos se distribuyen de manera normal cuando el valor p supera el nivel de significancia de 0.05. En este contexto, se ha observado que únicamente en las simulaciones con 100 y 500 repeticiones, los datos exhiben una distribución normal. Por otro lado, en las muestras de 5, 10, 15, 20, 30, 50, 60 y 200, la distribución de las proporciones se aleja de la normalidad.
El coeficiente de asimetría, que determina la simetría de la distribución de datos, refleja que un coeficiente igual a cero indica una simetría perfecta alrededor de la media. Valores positivos señalan una asimetría hacia la derecha, es decir, una cola derecha más prolongada, mientras que valores negativos sugieren una asimetría hacia la izquierda, donde la cola izquierda es más extensa.
Estos resultados se respaldan al observar los histogramas que representan la distribución de los datos en las simulaciones. En particular, se identifican distribuciones con sesgo a la izquierda en muestras de tamaño 5, una cercanía al valor cero en tamaños de muestra de 10, 15, 20, 50, 100 y 500, y una ligera asimetría hacia la derecha en muestras de tamaño 30, 60 y 200.
Por último, el coeficiente de variación, utilizado principalmente para comparar la variabilidad entre distintos conjuntos de datos o muestras, revela que una baja variación implica que los datos presentan poca dispersión con respecto a su media y, en consecuencia, son relativamente consistentes. En el análisis de las simulaciones, es evidente que a medida que aumenta el tamaño de la muestra, la variabilidad disminuye, lo que sugiere una mayor consistencia en los resultados.
Repita toda la simulación (puntos 1 – 4), pero ahora para lotes con 10% de plantas enfermas y de nuevo para lotes con un 90% de plantas enfermas. Concluya sobre los resultados del ejercicio.
## Estimación de la proporción muestral (p^): 0.11
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0300 0.0800 0.1000 0.1002 0.1200 0.2000
## [1] 0.2915664
## [1] 27.74509
## tamaño_muestra10 EstadisticoW10 ValorP10 CoefAsimetria10 CoefVariacion10
## 1 5 2.691451e-27 0.00 0.95876391 117.611503
## 2 10 6.155449e-22 0.00 0.88027660 93.746023
## 3 15 1.782857e-17 0.00 0.50929493 73.089950
## 4 20 5.149692e-15 0.00 0.47916641 66.391496
## 5 30 8.740515e-12 0.00 0.34825430 51.612794
## 6 50 4.137340e-07 0.00 0.22004167 41.636956
## 7 60 2.367514e-08 0.00 0.42192289 36.600456
## 8 100 7.933574e-06 0.00 0.27409246 29.556764
## 9 200 2.994855e-03 0.00 0.06725312 18.802778
## 10 500 3.747628e-03 0.00 0.21813857 9.854783
En resumen, este ejercicio ha abordado la aplicación del teorema del límite central mediante el uso de simulaciones. A lo largo de diversas simulaciones, se ha observado que a medida que el tamaño de las muestras aumenta, la variabilidad de los datos tiende a disminuir. No obstante, es importante señalar que, aunque un mayor tamaño de muestra puede aumentar la probabilidad de que los datos sigan una distribución normal, este patrón no se ha manifestado de manera consistente en todos los casos, según lo evidenciado por los resultados de la prueba de Shapiro-Wilk.
Los gráficos QQ-Plot han desempeñado un papel crucial al proporcionar una representación visual para evaluar la normalidad de los datos. Estos gráficos han servido como una herramienta eficaz para identificar patrones de normalidad o no normalidad en los datos.
Los coeficientes de asimetría, por su parte, han respaldado de manera estadística las observaciones realizadas al examinar los histogramas en relación con el sesgo de los datos. Estos coeficientes han permitido identificar distribuciones que presentan poco sesgo, sesgo hacia la derecha o sesgo hacia la izquierda, lo que ha ayudado a comprender mejor la estructura de los datos en cada caso. Además, se ha observado una relación entre el sesgo direccional de los datos y la proporción en la población, donde una proporción del 10% resultó en sesgo hacia la derecha y una proporción del 90% generó sesgo hacia la izquierda, lo que refleja la concentración de datos alrededor de la proporción del parámetro.
En general, los estadísticos generados en este análisis han respaldado de manera coherente los patrones identificados en las representaciones gráficas de histogramas y gráficos QQ-Plot, fortaleciendo así la comprensión de la distribución de los datos en diferentes escenarios de muestra y proporción poblacional.