Realice una simulación en la cual genere una población de n=1000 (Lote), donde el porcentaje de individuos (supongamos plantas) enfermas sea del 50%.
Haciendo uso de la distibución binomial, se constuyo la población con un tamaño de N = 1000 individuos,donde el porcentaje de individuos enfermos es del 50%, y la población está caracterisada de la siguiente manera:
Xi = 1: Planta enferma
Xi = 0: Planta sana
# Configuración de la semilla para la reproducibilidad de los resultados
set.seed(123)
# Creación de la población inicial
N <- 1000;p <- 0.5;poblacion <- rbinom(N, 1, p)
summary(poblacion)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 0.000 0.000 0.493 1.000 1.000
Genere una función que permita: - Obtener una muestra aleatoria de la población - Calcule el estimador de la proporción muestral pˆ para un tamaño de muestra dado n.
A continuación se muestra la función obtener_muestra_y_estimar_proporcion, la cual extrae una muestra aleatoria de tamaño n de la población, y calcula el estimador de la proporcion muestral pˆ = X/n, donde:
X: Es el número de plantas enfermas en la muestra.
n: Es el tamaño de la muestra.
obtener_muestra_y_estimar_proporcion <- function(poblacion, n) {
# Obteniendo una muestra aleatoria de la población
muestra <- sample(poblacion, size = n)
# Calculando el número de éxitos en la muestra
X <- sum(muestra == 1)
# Calculando el estimador de la proporción muestral
proporcion_muestral <- X / n
# Output de la función
return(proporcion_muestral)
}
Repita el escenario anterior (b) n=500 veces y analice los resultados en cuanto al comportamiento de los 500 resultados del estimador pˆ. ¿Qué tan simétricos o sesgados son los resultados obtenidos? y ¿qué se puede observar en cuanto a la variabilidad?. Realice en su informe un comentario sobre los resultados obtenidos.
Haciendo uso de la función creada anteriormente, se repitio el escenario 500 veces, eligiendo un tamaño de muestra de n = 100 individuos, y los resultados obtenidos se almacenarón en una lista, cuyos elementos se muestran a continuación:
## Estimador_proporcion
## Min. :0.3600
## 1st Qu.:0.4600
## Median :0.4900
## Mean :0.4939
## 3rd Qu.:0.5300
## Max. :0.6200
En vista de que se desea analizar la simetria y la variabilidad de los resultados, para realizar el análisis de los mismos se construyó un histograma y un boxplot, los cuales se muestran a continuación:
Conclusión: Con base en los resultados obtenidos anteriormente y teniendo en cuenta los graficos realizados, se puede concluir que:
Simetria: Los resultados obtenidos muestran simetria, ya que en el histograma se puede visualizar que a ambos lados de la media se presenta el mismo patrón, adicionalmente en el boxplot, no se observa un patrón muy pronunciado que indique que la longitud de la caja sea desigual en ambos lados de la mediana, ni que los bigotes sean de longitudes diferentes, lo cual corrobora lo dicho anteriormente.
Sesgo: Los resultados obtenidos muestran poco sesgo, ya que en el histograma no se visualiza un patrón que indique sesgo hacia un lado u otro de la media, adicionalmente en el boxplot, no se observa un patrón muy pronunciado que indique que la longitud de la caja sea desigual en ambos lados de la mediana, ni que los bigotes sean de longitudes diferentes, lo cual corrobora lo dicho anteriormente.
Variabilidad: Los resultados muestran poca variabilidad, ya que en el boxplot se aprecia que hay una gran concentración de los datos en la caja, y que la amplitud de la caja es pequeña, lo cual claramente son indicios de poca variabilidad.
Repita los puntos b y c para tamaños de muestra n= 5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Compare los resultados obtenidos para los diferentes tamaños de muestra en cuanto a la normalidad. Utilice pruebas de bondad y ajuste (shapiro wilks :shspiro.test()) y métodos gráficos (gráfico de normalidad: qqnorm()). Comente en su informe los resultados obtenidos
Haciendo uso de la función creada anteriormente, se repitio el escenario 500 veces para cada uno de los tamaños de muestra, y los resultados obtenidos se almacenarón en una lista, cuyos elementos se muestran a continuación:
## List of 10
## $ 5 : num [1:500] 0.4 0.6 0.8 0.4 0.6 0.6 0.8 0.6 0.8 0.4 ...
## $ 10 : num [1:500] 0.5 0.6 0.4 0.4 0.4 0.7 0.8 0.6 0.5 0.4 ...
## $ 15 : num [1:500] 0.733 0.6 0.533 0.6 0.6 ...
## $ 20 : num [1:500] 0.5 0.55 0.65 0.5 0.4 0.6 0.6 0.4 0.55 0.45 ...
## $ 30 : num [1:500] 0.667 0.367 0.633 0.5 0.533 ...
## $ 50 : num [1:500] 0.42 0.54 0.54 0.6 0.54 0.46 0.36 0.52 0.52 0.48 ...
## $ 60 : num [1:500] 0.55 0.5 0.583 0.45 0.65 ...
## $ 100: num [1:500] 0.44 0.49 0.44 0.45 0.51 0.5 0.54 0.53 0.46 0.5 ...
## $ 200: num [1:500] 0.52 0.49 0.52 0.48 0.57 0.475 0.485 0.52 0.54 0.51 ...
## $ 500: num [1:500] 0.502 0.494 0.504 0.482 0.472 0.494 0.494 0.468 0.502 0.468 ...
Para realizar el análisis de simetría, sesgo y variabilidad, se creó un histograma y un boxplot para cada simulación realizada con cada tamaño de muestra, a continuación se muestran los resultados:
Con base en los resultados obtenidos anteriormente y teniendo en cuenta los graficos realizados, se puede concluir que:
Simetria: En los diferentes graficos, los resultados obtenidos muestran simetria, ya que en el histograma se puede visualizar que a ambos lados de la media se presenta el mismo patrón, adicionalmente en el boxplot, no se observa un patrón muy pronunciado que indique que la longitud de la caja sea desigual en ambos lados de la mediana, ni que los bigotes sean de longitudes diferentes, lo cual corrobora lo dicho anteriormente.
Sesgo: En los diferentes graficos, los resultados obtenidos muestran poco sesgo, ya que en el histograma no se visualiza un patrón que indique sesgo hacia un lado u otro de la media, adicionalmente en el boxplot, no se observa un patrón muy pronunciado que indique que la longitud de la caja sea desigual en ambos lados de la mediana, ni que los bigotes sean de longitudes diferentes, lo cual corrobora lo dicho anteriormente.
Variabilidad: En los diferentes graficos, los resultados muestran poca variabilidad, ya que en el boxplot se aprecia que hay una gran concentración de los datos en la caja, y que la amplitud de la caja es pequeña, lo cual claramente son indicios de poca variabilidad.
Lo dicho anteriormente sobre la simetria, el sesgo y la variabilidad, se hace más evidente a medida que el tamaño de muestra aumenta, lo cual confirma lo enunciado en el teorema del limite central.
Con el objetivo de analizar el comportamiento de los resultados en cuanto a normalidad, a cada una de las simulaciones creadas con los diferentes tamaños de muestra, se le realizo el test de Shapiro. Las hipostesis planteadas, y los resultados obtenidos se muestran a continuación:
\(H_0: \hat{p} \sim N\) Vs \(H_1: \hat{p} \not\sim \mathcal{N}\)
## Resultado test de Shapiro, para n = 5 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 1.457184e-14
## Resultado test de Shapiro, para n = 10 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 1.070333e-09
## Resultado test de Shapiro, para n = 15 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 2.342943e-08
## Resultado test de Shapiro, para n = 20 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 2.385332e-06
## Resultado test de Shapiro, para n = 30 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 0.0001247685
## Resultado test de Shapiro, para n = 50 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 0.002205123
## Resultado test de Shapiro, para n = 60 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 0.005730988
## Resultado test de Shapiro, para n = 100 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 0.02040883
## Resultado test de Shapiro, para n = 200 : Con un nivel de confianza del 95%, se acepta la hipótesis nula de normalidad para la distribución de p^ con p-valor: 0.2308174
## Resultado test de Shapiro, para n = 500 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 0.04917234
Los resultados del test muestran que al aumentar el tamaño de muestra, el valor-p es más cercano al valor de no rechazo (valor-p = 0.05), sugiriendo así que se acepte la hipótesis nula, es decir que la distribución de p^ es normal.
Con el objetivo de analizar el comportamiento de los resultados en cuanto a normalidad, a cada una de las simulaciones creadas con los diferentes tamaños de muestra, se le creo el grafico QQ-Plot, los resultados se muestran a continuación:
Los graficos muestran que al aumentar el tamaño de muestra, se hace evidente cada vez más un patrón en el que los puntos en el QQ-Plot se aproximan a una línea recta diagonal, sugiriendo así que se acepte la hipótesis nula, es decir que la distribución de p^ es normal.
Repita toda la simulación (puntos a – d), pero ahora para lotes con 10% de plantas enfermas y de nuevo para lotes con un 90% de plantas enfermas. Concluya sobre los resultados del ejercicio.
Haciendo uso de la función creada anteriormente, se repitio el escenario 500 veces para cada uno de los tamaños de muestra, y los resultados obtenidos se almacenarón en una lista de dos elementos (el primero para p = 10% y el segundo para p = 90%), cuyos elementos se muestran a continuación:
## List of 2
## $ 0.1:List of 10
## ..$ 5 : num [1:500] 0 0 0.2 0.2 0 0 0 0 0 0 ...
## ..$ 10 : num [1:500] 0 0.2 0.2 0.2 0.3 0.1 0.2 0 0.1 0.2 ...
## ..$ 15 : num [1:500] 0.0667 0.1333 0 0.0667 0.0667 ...
## ..$ 20 : num [1:500] 0.05 0.1 0 0.2 0.1 0.15 0.1 0.2 0.05 0.1 ...
## ..$ 30 : num [1:500] 0 0.1 0.1667 0.0333 0.0667 ...
## ..$ 50 : num [1:500] 0.1 0.06 0.18 0.16 0.06 0.1 0.1 0.12 0.16 0.08 ...
## ..$ 60 : num [1:500] 0.0833 0.1 0.1 0.15 0.1167 ...
## ..$ 100: num [1:500] 0.1 0.11 0.09 0.05 0.15 0.14 0.13 0.09 0.08 0.08 ...
## ..$ 200: num [1:500] 0.075 0.06 0.09 0.095 0.115 0.075 0.14 0.12 0.135 0.11 ...
## ..$ 500: num [1:500] 0.108 0.11 0.116 0.1 0.108 0.102 0.1 0.096 0.118 0.124 ...
## $ 0.9:List of 10
## ..$ 5 : num [1:500] 1 1 1 0.8 0.6 0.8 1 1 0.8 0.8 ...
## ..$ 10 : num [1:500] 0.8 0.9 1 1 1 0.8 0.9 1 1 0.8 ...
## ..$ 15 : num [1:500] 1 0.867 1 0.933 1 ...
## ..$ 20 : num [1:500] 0.95 0.9 1 0.85 0.95 0.9 0.75 0.95 1 0.95 ...
## ..$ 30 : num [1:500] 0.933 0.933 0.867 0.933 0.867 ...
## ..$ 50 : num [1:500] 0.9 0.92 0.9 0.92 0.98 0.86 0.96 0.94 0.88 0.94 ...
## ..$ 60 : num [1:500] 0.917 0.95 0.917 0.983 0.917 ...
## ..$ 100: num [1:500] 0.93 0.9 0.91 0.96 0.93 0.93 0.94 0.98 0.89 0.95 ...
## ..$ 200: num [1:500] 0.945 0.915 0.945 0.895 0.935 0.915 0.925 0.915 0.925 0.92 ...
## ..$ 500: num [1:500] 0.92 0.91 0.91 0.914 0.918 0.92 0.922 0.922 0.93 0.92 ...
Para realizar el análisis de simetría, sesgo y variabilidad, se creó un histograma y un boxplot para cada simulación realizada con cada tamaño de muestra, a continuación se muestran los resultados:
Con base en los resultados obtenidos anteriormente y teniendo en cuenta los graficos realizados, se puede concluir que:
Simetria: En los diferentes graficos, los resultados obtenidos muestran cierto grado de asimetria para tamaños de muestra pequeños, sin embargo dicha asimetria se va corrigiendo a medida que el tamaño de muestra aumenta, ya que a medida que el tamaño de muestra aumenta, en el histograma se hace cada vez más evidente que a ambos lados de la media se presenta el mismo patrón, adicionalmente en el boxplot, no se observa un patrón muy pronunciado que indique que la longitud de la caja sea desigual en ambos lados de la mediana, ni que los bigotes sean de longitudes diferentes, lo cual corrobora lo dicho anteriormente. Lo anterior tanto para p = 10% como para p = 90%.
Sesgo: Tanto para p = 10% como para p = 90%, los resultados obtenidos muestran cierto grado de sesgo para tamaños de muestra pequeños, sin embargo dichao sesgo se va corrigiendo a medida que el tamaño de muestra aumenta, ya que a medida que el tamaño de muestra aumenta, en el histograma se hace cada vez menos evidente un patrón que indique sesgo hacia un lado u otro de la media, adicionalmente en el boxplot, no se observa un patrón muy pronunciado que indique que la longitud de la caja sea desigual en ambos lados de la mediana, ni que los bigotes sean de longitudes diferentes, lo cual corrobora lo dicho anteriormente.
Variabilidad: En los diferentes graficos, los resultados obtenidos muestran cierto grado de variabilidad para tamaños de muestra pequeños, sin embargo dicha variabilidad se va corrigiendo a medida que el tamaño de muestra aumenta, ya que a medida que el tamaño de muestra aumenta, en el boxplot se hace cada vez más evidente que hay una gran concentración de los datos en la caja, y que la amplitud de la caja es pequeña, lo cual claramente son indicios de poca variabilidad. Lo anterior tanto para p = 10% como para p = 90%.
Lo dicho anteriormente sobre la simetria, el sesgo y la variabilidad, se hace más evidente a medida que el tamaño de muestra aumenta, lo cual confirma lo enunciado en el teorema del limite central.
Adicional a lo anterior, es importante mencionar que tanto en el histograma como en el boxplot, se puede evidenciar que en el caso de p = 10% la distribución de los datos se concentra en la cola izquierda, mientras que para p = 90%, lo hace en la cola derecha, lo cual es razonable teniendo en cuenta los valores de p que se están simulando.
Con el objetivo de analizar el comportamiento de los resultados en cuanto a normalidad, a cada una de las simulaciones creadas con los diferentes tamaños de muestra, se le realizo el test de Shapiro, esto tanto para p = 10%, como para p = 90%. Las hipostesis planteadas, y los resultados obtenidos se muestran a continuación:
\(H_0: \hat{p} \sim N\) Vs \(H_1: \hat{p} \not\sim \mathcal{N}\)
## Resultado test de Shapiro, para n = 5 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 1.561885e-27
## Resultado test de Shapiro, para n = 10 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 1.439951e-21
## Resultado test de Shapiro, para n = 15 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 1.327596e-16
## Resultado test de Shapiro, para n = 20 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 6.104758e-15
## Resultado test de Shapiro, para n = 30 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 2.910561e-12
## Resultado test de Shapiro, para n = 50 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 6.167509e-09
## Resultado test de Shapiro, para n = 60 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 8.824585e-07
## Resultado test de Shapiro, para n = 100 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 0.0002040333
## Resultado test de Shapiro, para n = 200 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 2.18101e-05
## Resultado test de Shapiro, para n = 500 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 0.002366805
## Resultado test de Shapiro, para n = 5 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 4.530201e-30
## Resultado test de Shapiro, para n = 10 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 2.974665e-24
## Resultado test de Shapiro, para n = 15 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 4.483126e-21
## Resultado test de Shapiro, para n = 20 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 3.166779e-17
## Resultado test de Shapiro, para n = 30 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 3.929297e-14
## Resultado test de Shapiro, para n = 50 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 3.69379e-09
## Resultado test de Shapiro, para n = 60 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 8.212183e-08
## Resultado test de Shapiro, para n = 100 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 2.815314e-06
## Resultado test de Shapiro, para n = 200 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 0.0008864634
## Resultado test de Shapiro, para n = 500 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 0.003402521
En los dos casos tanto para p = 10 % como para p = 90 %, los resultados del test muestran que al aumentar el tamaño de muestra, el valor-p es más cercano al valor de no rechazo (valor-p = 0.05), sugiriendo así que se acepte la hipótesis nula, es decir que la distribución de p^ es normal. Adicionalmente se observa que es mayor la convergencia al no rechazo con p = 90% que con p = 10% ya que el valor-p toma valores más cercanos a 0.05 con p = 90% que con p = 10%. Sin embargo al comparar dichos resultados con los resultados obtenidos para p = 50%, se observa que la distribución converge a la normalidad entre más cerca este al valor de p = 50%.
Con el objetivo de analizar el comportamiento de los resultados en cuanto a normalidad, a cada una de las simulaciones creadas con los diferentes tamaños de muestra, se le creo el grafico QQ-Plot, esto tanto para p = 10% como para p = 90%, los resultados se muestran a continuación:
En los dos casos tanto para p = 10 % como para p = 90 %, los graficos muestran que al aumentar el tamaño de muestra, se hace evidente cada vez más un patrón en el que los puntos en el QQ-Plot se aproximan a una línea recta diagonal, sugiriendo así que se acepte la hipótesis nula, es decir que la distribución de p^ es normal. Sin embargo al comparar dichos resultados con los resultados obtenidos para p = 50%, se observa que la distribución converge a la normalidad entre más cerca este al valor de p = 50%.
Con base en los resultados obtenidos en la simulación y análisis realizado, podemos concluir lo siguiente:
El fenómeno evidenciado en el Teorema del Límite Central, se pudo observar y corroborar en nuestra simulación, ya que los estimadores de la proporción poblacional, los cuales provienen de una distribución binomial, convergieron hacia una distribución normal a medida que aumentaba el tamaño de la muestra, lo que confirma la validez de dicho teorema.
Analizando los resultados para diferentes tamaños de muestra, se encontró que, para tamaños de muestra pequeños, los estimadores de la proporción muestral pueden mostrar cierto grado de asimetría y variabilidad. Sin embargo, a medida que el tamaño de la muestra aumenta, la distribución de los estimadores se aproxima más a una distribución normal y la variabilidad disminuye.
Comparando los resultados para diferentes porcentajes de plantas enfermas en la población, se encontró que la distribución de los estimadores se concentra alrededor del valor promedio de dicho porcentaje. Adicionalmente se pudo observar que la distribución de los estimadores varía un poco al tener diferentes porcentajes de plantas enfermas. En general, cuanto más cercano está el porcentaje de plantas enfermas al 50%, más simétrica y normal es la distribución de los estimadores.
En resumen, los resultados obtenidos respaldan la validez del Teorema del Límite Central y destacan la importancia del tamaño de la muestra en la precisión de las estimaciones muestrales. Además, muestran como a diferentes valores de un parámetro como la proporción poblacional, la distribución de los estimadores de dicho parámetro se concentra alrededor del valor promedio. Adicionalmente, los resultados muestran la existencia de cierto grado de sensibilidad de la distribución de la población a la variación de la proporción poblacional, y cómo esto puede afectar la normalidad de los estimadores muestrales.