1 Paso a: Simulación inicial de la población

1.1 Problema

Realice una simulación en la cual genere una población de n=1000 (Lote), donde el porcentaje de individuos (supongamos plantas) enfermas sea del 50%.

1.2 Solución

Haciendo uso de la distibución binomial, se constuyo la población con un tamaño de N = 1000 individuos,donde el porcentaje de individuos enfermos es del 50%, y la población está caracterisada de la siguiente manera:

  • Xi = 1: Planta enferma

  • Xi = 0: Planta sana

# Configuración de la semilla para la reproducibilidad de los resultados
set.seed(123)
# Creación de la población inicial
N <- 1000;p <- 0.5;poblacion <- rbinom(N, 1, p)
summary(poblacion)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.000   0.000   0.493   1.000   1.000

2 Paso b: Creación de la función para obtener la muestra aleatoria y calcular pˆ

2.1 Problema

Genere una función que permita: - Obtener una muestra aleatoria de la población - Calcule el estimador de la proporción muestral pˆ para un tamaño de muestra dado n.

2.2 Solución

A continuación se muestra la función obtener_muestra_y_estimar_proporcion, la cual extrae una muestra aleatoria de tamaño n de la población, y calcula el estimador de la proporcion muestral pˆ = X/n, donde:

  • X: Es el número de plantas enfermas en la muestra.

  • n: Es el tamaño de la muestra.

obtener_muestra_y_estimar_proporcion <- function(poblacion, n) {
  # Obteniendo una muestra aleatoria de la población
  muestra <- sample(poblacion, size = n)
  # Calculando el número de éxitos en la muestra
  X <- sum(muestra == 1)
  # Calculando el estimador de la proporción muestral 
  proporcion_muestral <- X / n
  # Output de la función
  return(proporcion_muestral)
}

3 Paso c: Repetición del escenario 500 veces y análisis de los resultados

3.1 Problema

Repita el escenario anterior (b) n=500 veces y analice los resultados en cuanto al comportamiento de los 500 resultados del estimador pˆ. ¿Qué tan simétricos o sesgados son los resultados obtenidos? y ¿qué se puede observar en cuanto a la variabilidad?. Realice en su informe un comentario sobre los resultados obtenidos.

3.2 Solución

3.2.1 Repetición del escenario 500 veces

Haciendo uso de la función creada anteriormente, se repitio el escenario 500 veces, eligiendo un tamaño de muestra de n = 100 individuos, y los resultados obtenidos se almacenarón en una lista, cuyos elementos se muestran a continuación:

##  Estimador_proporcion
##  Min.   :0.3600      
##  1st Qu.:0.4600      
##  Median :0.4900      
##  Mean   :0.4939      
##  3rd Qu.:0.5300      
##  Max.   :0.6200

3.2.2 Análisis de los resultados

En vista de que se desea analizar la simetria y la variabilidad de los resultados, para realizar el análisis de los mismos se construyó un histograma y un boxplot, los cuales se muestran a continuación:

Conclusión: Con base en los resultados obtenidos anteriormente y teniendo en cuenta los graficos realizados, se puede concluir que:

  • Simetria: Los resultados obtenidos muestran simetria, ya que en el histograma se puede visualizar que a ambos lados de la media se presenta el mismo patrón, adicionalmente en el boxplot, no se observa un patrón muy pronunciado que indique que la longitud de la caja sea desigual en ambos lados de la mediana, ni que los bigotes sean de longitudes diferentes, lo cual corrobora lo dicho anteriormente.

  • Sesgo: Los resultados obtenidos muestran poco sesgo, ya que en el histograma no se visualiza un patrón que indique sesgo hacia un lado u otro de la media, adicionalmente en el boxplot, no se observa un patrón muy pronunciado que indique que la longitud de la caja sea desigual en ambos lados de la mediana, ni que los bigotes sean de longitudes diferentes, lo cual corrobora lo dicho anteriormente.

  • Variabilidad: Los resultados muestran poca variabilidad, ya que en el boxplot se aprecia que hay una gran concentración de los datos en la caja, y que la amplitud de la caja es pequeña, lo cual claramente son indicios de poca variabilidad.

4 Paso d: Repetiendo b) y c) y comparando los diferentes resultados obtenidos con diferentes n

4.1 Problema

Repita los puntos b y c para tamaños de muestra n= 5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Compare los resultados obtenidos para los diferentes tamaños de muestra en cuanto a la normalidad. Utilice pruebas de bondad y ajuste (shapiro wilks :shspiro.test()) y métodos gráficos (gráfico de normalidad: qqnorm()). Comente en su informe los resultados obtenidos

4.2 Solución

4.2.1 Simulación para los diferentes tamaños de muestra

Haciendo uso de la función creada anteriormente, se repitio el escenario 500 veces para cada uno de los tamaños de muestra, y los resultados obtenidos se almacenarón en una lista, cuyos elementos se muestran a continuación:

## List of 10
##  $ 5  : num [1:500] 0.4 0.6 0.8 0.4 0.6 0.6 0.8 0.6 0.8 0.4 ...
##  $ 10 : num [1:500] 0.5 0.6 0.4 0.4 0.4 0.7 0.8 0.6 0.5 0.4 ...
##  $ 15 : num [1:500] 0.733 0.6 0.533 0.6 0.6 ...
##  $ 20 : num [1:500] 0.5 0.55 0.65 0.5 0.4 0.6 0.6 0.4 0.55 0.45 ...
##  $ 30 : num [1:500] 0.667 0.367 0.633 0.5 0.533 ...
##  $ 50 : num [1:500] 0.42 0.54 0.54 0.6 0.54 0.46 0.36 0.52 0.52 0.48 ...
##  $ 60 : num [1:500] 0.55 0.5 0.583 0.45 0.65 ...
##  $ 100: num [1:500] 0.44 0.49 0.44 0.45 0.51 0.5 0.54 0.53 0.46 0.5 ...
##  $ 200: num [1:500] 0.52 0.49 0.52 0.48 0.57 0.475 0.485 0.52 0.54 0.51 ...
##  $ 500: num [1:500] 0.502 0.494 0.504 0.482 0.472 0.494 0.494 0.468 0.502 0.468 ...

4.2.2 Análisis de simetria, sesgo y variabilidad

4.2.2.1 Gráficos

Para realizar el análisis de simetría, sesgo y variabilidad, se creó un histograma y un boxplot para cada simulación realizada con cada tamaño de muestra, a continuación se muestran los resultados:

4.2.2.2 Conclusión

Con base en los resultados obtenidos anteriormente y teniendo en cuenta los graficos realizados, se puede concluir que:

  • Simetria: En los diferentes graficos, los resultados obtenidos muestran simetria, ya que en el histograma se puede visualizar que a ambos lados de la media se presenta el mismo patrón, adicionalmente en el boxplot, no se observa un patrón muy pronunciado que indique que la longitud de la caja sea desigual en ambos lados de la mediana, ni que los bigotes sean de longitudes diferentes, lo cual corrobora lo dicho anteriormente.

  • Sesgo: En los diferentes graficos, los resultados obtenidos muestran poco sesgo, ya que en el histograma no se visualiza un patrón que indique sesgo hacia un lado u otro de la media, adicionalmente en el boxplot, no se observa un patrón muy pronunciado que indique que la longitud de la caja sea desigual en ambos lados de la mediana, ni que los bigotes sean de longitudes diferentes, lo cual corrobora lo dicho anteriormente.

  • Variabilidad: En los diferentes graficos, los resultados muestran poca variabilidad, ya que en el boxplot se aprecia que hay una gran concentración de los datos en la caja, y que la amplitud de la caja es pequeña, lo cual claramente son indicios de poca variabilidad.

Lo dicho anteriormente sobre la simetria, el sesgo y la variabilidad, se hace más evidente a medida que el tamaño de muestra aumenta, lo cual confirma lo enunciado en el teorema del limite central.

4.2.3 Prueba de bondad de ajuste

Con el objetivo de analizar el comportamiento de los resultados en cuanto a normalidad, a cada una de las simulaciones creadas con los diferentes tamaños de muestra, se le realizo el test de Shapiro. Las hipostesis planteadas, y los resultados obtenidos se muestran a continuación:

4.2.3.1 Hipótesis

\(H_0: \hat{p} \sim N\) Vs \(H_1: \hat{p} \not\sim \mathcal{N}\)

4.2.3.2 Resultados

## Resultado test de Shapiro, para n = 5 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 1.457184e-14 
## Resultado test de Shapiro, para n = 10 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 1.070333e-09 
## Resultado test de Shapiro, para n = 15 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 2.342943e-08 
## Resultado test de Shapiro, para n = 20 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 2.385332e-06 
## Resultado test de Shapiro, para n = 30 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 0.0001247685 
## Resultado test de Shapiro, para n = 50 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 0.002205123 
## Resultado test de Shapiro, para n = 60 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 0.005730988 
## Resultado test de Shapiro, para n = 100 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 0.02040883 
## Resultado test de Shapiro, para n = 200 : Con un nivel de confianza del 95%, se acepta la hipótesis nula de normalidad para la distribución de p^ con p-valor: 0.2308174 
## Resultado test de Shapiro, para n = 500 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 0.04917234

4.2.3.3 Conclusión

Los resultados del test muestran que al aumentar el tamaño de muestra, el valor-p es más cercano al valor de no rechazo (valor-p = 0.05), sugiriendo así que se acepte la hipótesis nula, es decir que la distribución de p^ es normal.

4.2.4 Uso del método gráfico

Con el objetivo de analizar el comportamiento de los resultados en cuanto a normalidad, a cada una de las simulaciones creadas con los diferentes tamaños de muestra, se le creo el grafico QQ-Plot, los resultados se muestran a continuación:

4.2.4.1 Graficos

4.2.4.2 Conclusión

Los graficos muestran que al aumentar el tamaño de muestra, se hace evidente cada vez más un patrón en el que los puntos en el QQ-Plot se aproximan a una línea recta diagonal, sugiriendo así que se acepte la hipótesis nula, es decir que la distribución de p^ es normal.

5 Paso e: Repetiendo b), c) y d) y comparando los diferentes resultados obtenidos con diferentes n

5.1 Problema

Repita toda la simulación (puntos a – d), pero ahora para lotes con 10% de plantas enfermas y de nuevo para lotes con un 90% de plantas enfermas. Concluya sobre los resultados del ejercicio.

5.2 Solución

5.2.1 Simulación para los diferentes tamaños de muestra con p = 10% y p = 90%

Haciendo uso de la función creada anteriormente, se repitio el escenario 500 veces para cada uno de los tamaños de muestra, y los resultados obtenidos se almacenarón en una lista de dos elementos (el primero para p = 10% y el segundo para p = 90%), cuyos elementos se muestran a continuación:

## List of 2
##  $ 0.1:List of 10
##   ..$ 5  : num [1:500] 0 0 0.2 0.2 0 0 0 0 0 0 ...
##   ..$ 10 : num [1:500] 0 0.2 0.2 0.2 0.3 0.1 0.2 0 0.1 0.2 ...
##   ..$ 15 : num [1:500] 0.0667 0.1333 0 0.0667 0.0667 ...
##   ..$ 20 : num [1:500] 0.05 0.1 0 0.2 0.1 0.15 0.1 0.2 0.05 0.1 ...
##   ..$ 30 : num [1:500] 0 0.1 0.1667 0.0333 0.0667 ...
##   ..$ 50 : num [1:500] 0.1 0.06 0.18 0.16 0.06 0.1 0.1 0.12 0.16 0.08 ...
##   ..$ 60 : num [1:500] 0.0833 0.1 0.1 0.15 0.1167 ...
##   ..$ 100: num [1:500] 0.1 0.11 0.09 0.05 0.15 0.14 0.13 0.09 0.08 0.08 ...
##   ..$ 200: num [1:500] 0.075 0.06 0.09 0.095 0.115 0.075 0.14 0.12 0.135 0.11 ...
##   ..$ 500: num [1:500] 0.108 0.11 0.116 0.1 0.108 0.102 0.1 0.096 0.118 0.124 ...
##  $ 0.9:List of 10
##   ..$ 5  : num [1:500] 1 1 1 0.8 0.6 0.8 1 1 0.8 0.8 ...
##   ..$ 10 : num [1:500] 0.8 0.9 1 1 1 0.8 0.9 1 1 0.8 ...
##   ..$ 15 : num [1:500] 1 0.867 1 0.933 1 ...
##   ..$ 20 : num [1:500] 0.95 0.9 1 0.85 0.95 0.9 0.75 0.95 1 0.95 ...
##   ..$ 30 : num [1:500] 0.933 0.933 0.867 0.933 0.867 ...
##   ..$ 50 : num [1:500] 0.9 0.92 0.9 0.92 0.98 0.86 0.96 0.94 0.88 0.94 ...
##   ..$ 60 : num [1:500] 0.917 0.95 0.917 0.983 0.917 ...
##   ..$ 100: num [1:500] 0.93 0.9 0.91 0.96 0.93 0.93 0.94 0.98 0.89 0.95 ...
##   ..$ 200: num [1:500] 0.945 0.915 0.945 0.895 0.935 0.915 0.925 0.915 0.925 0.92 ...
##   ..$ 500: num [1:500] 0.92 0.91 0.91 0.914 0.918 0.92 0.922 0.922 0.93 0.92 ...

5.2.2 Análisis de simetria, sesgo y variabilidad

5.2.2.1 Gráficos

Para realizar el análisis de simetría, sesgo y variabilidad, se creó un histograma y un boxplot para cada simulación realizada con cada tamaño de muestra, a continuación se muestran los resultados:

5.2.2.1.1 Resultados para p = 10%

5.2.2.1.2 Resultados para p = 90%

5.2.2.2 Conclusión

Con base en los resultados obtenidos anteriormente y teniendo en cuenta los graficos realizados, se puede concluir que:

  • Simetria: En los diferentes graficos, los resultados obtenidos muestran cierto grado de asimetria para tamaños de muestra pequeños, sin embargo dicha asimetria se va corrigiendo a medida que el tamaño de muestra aumenta, ya que a medida que el tamaño de muestra aumenta, en el histograma se hace cada vez más evidente que a ambos lados de la media se presenta el mismo patrón, adicionalmente en el boxplot, no se observa un patrón muy pronunciado que indique que la longitud de la caja sea desigual en ambos lados de la mediana, ni que los bigotes sean de longitudes diferentes, lo cual corrobora lo dicho anteriormente. Lo anterior tanto para p = 10% como para p = 90%.

  • Sesgo: Tanto para p = 10% como para p = 90%, los resultados obtenidos muestran cierto grado de sesgo para tamaños de muestra pequeños, sin embargo dichao sesgo se va corrigiendo a medida que el tamaño de muestra aumenta, ya que a medida que el tamaño de muestra aumenta, en el histograma se hace cada vez menos evidente un patrón que indique sesgo hacia un lado u otro de la media, adicionalmente en el boxplot, no se observa un patrón muy pronunciado que indique que la longitud de la caja sea desigual en ambos lados de la mediana, ni que los bigotes sean de longitudes diferentes, lo cual corrobora lo dicho anteriormente.

  • Variabilidad: En los diferentes graficos, los resultados obtenidos muestran cierto grado de variabilidad para tamaños de muestra pequeños, sin embargo dicha variabilidad se va corrigiendo a medida que el tamaño de muestra aumenta, ya que a medida que el tamaño de muestra aumenta, en el boxplot se hace cada vez más evidente que hay una gran concentración de los datos en la caja, y que la amplitud de la caja es pequeña, lo cual claramente son indicios de poca variabilidad. Lo anterior tanto para p = 10% como para p = 90%.

Lo dicho anteriormente sobre la simetria, el sesgo y la variabilidad, se hace más evidente a medida que el tamaño de muestra aumenta, lo cual confirma lo enunciado en el teorema del limite central.

Adicional a lo anterior, es importante mencionar que tanto en el histograma como en el boxplot, se puede evidenciar que en el caso de p = 10% la distribución de los datos se concentra en la cola izquierda, mientras que para p = 90%, lo hace en la cola derecha, lo cual es razonable teniendo en cuenta los valores de p que se están simulando.

5.2.3 Prueba de bondad de ajuste

Con el objetivo de analizar el comportamiento de los resultados en cuanto a normalidad, a cada una de las simulaciones creadas con los diferentes tamaños de muestra, se le realizo el test de Shapiro, esto tanto para p = 10%, como para p = 90%. Las hipostesis planteadas, y los resultados obtenidos se muestran a continuación:

5.2.3.1 Hipótesis

\(H_0: \hat{p} \sim N\) Vs \(H_1: \hat{p} \not\sim \mathcal{N}\)

5.2.3.2 Resultados

5.2.3.2.1 Resultados para p = 10%
## Resultado test de Shapiro, para n = 5 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 1.561885e-27 
## Resultado test de Shapiro, para n = 10 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 1.439951e-21 
## Resultado test de Shapiro, para n = 15 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 1.327596e-16 
## Resultado test de Shapiro, para n = 20 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 6.104758e-15 
## Resultado test de Shapiro, para n = 30 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 2.910561e-12 
## Resultado test de Shapiro, para n = 50 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 6.167509e-09 
## Resultado test de Shapiro, para n = 60 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 8.824585e-07 
## Resultado test de Shapiro, para n = 100 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 0.0002040333 
## Resultado test de Shapiro, para n = 200 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 2.18101e-05 
## Resultado test de Shapiro, para n = 500 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 0.002366805
5.2.3.2.2 Resultados para p = 90%
## Resultado test de Shapiro, para n = 5 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 4.530201e-30 
## Resultado test de Shapiro, para n = 10 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 2.974665e-24 
## Resultado test de Shapiro, para n = 15 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 4.483126e-21 
## Resultado test de Shapiro, para n = 20 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 3.166779e-17 
## Resultado test de Shapiro, para n = 30 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 3.929297e-14 
## Resultado test de Shapiro, para n = 50 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 3.69379e-09 
## Resultado test de Shapiro, para n = 60 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 8.212183e-08 
## Resultado test de Shapiro, para n = 100 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 2.815314e-06 
## Resultado test de Shapiro, para n = 200 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 0.0008864634 
## Resultado test de Shapiro, para n = 500 : Con un nivel de confianza del 95%, se rechaza la hipótesis nula de normalidad para la distribución de p^ con p-valor: 0.003402521

5.2.3.3 Conclusión

En los dos casos tanto para p = 10 % como para p = 90 %, los resultados del test muestran que al aumentar el tamaño de muestra, el valor-p es más cercano al valor de no rechazo (valor-p = 0.05), sugiriendo así que se acepte la hipótesis nula, es decir que la distribución de p^ es normal. Adicionalmente se observa que es mayor la convergencia al no rechazo con p = 90% que con p = 10% ya que el valor-p toma valores más cercanos a 0.05 con p = 90% que con p = 10%. Sin embargo al comparar dichos resultados con los resultados obtenidos para p = 50%, se observa que la distribución converge a la normalidad entre más cerca este al valor de p = 50%.

5.2.4 Uso del método gráfico

5.2.4.1 Graficos

Con el objetivo de analizar el comportamiento de los resultados en cuanto a normalidad, a cada una de las simulaciones creadas con los diferentes tamaños de muestra, se le creo el grafico QQ-Plot, esto tanto para p = 10% como para p = 90%, los resultados se muestran a continuación:

5.2.4.1.1 Resultados para p = 10%

5.2.4.1.2 Resultados para p = 90%

5.2.4.2 Conclusión

En los dos casos tanto para p = 10 % como para p = 90 %, los graficos muestran que al aumentar el tamaño de muestra, se hace evidente cada vez más un patrón en el que los puntos en el QQ-Plot se aproximan a una línea recta diagonal, sugiriendo así que se acepte la hipótesis nula, es decir que la distribución de p^ es normal. Sin embargo al comparar dichos resultados con los resultados obtenidos para p = 50%, se observa que la distribución converge a la normalidad entre más cerca este al valor de p = 50%.

6 Conclusiones

Con base en los resultados obtenidos en la simulación y análisis realizado, podemos concluir lo siguiente:

En resumen, los resultados obtenidos respaldan la validez del Teorema del Límite Central y destacan la importancia del tamaño de la muestra en la precisión de las estimaciones muestrales. Además, muestran como a diferentes valores de un parámetro como la proporción poblacional, la distribución de los estimadores de dicho parámetro se concentra alrededor del valor promedio. Adicionalmente, los resultados muestran la existencia de cierto grado de sensibilidad de la distribución de la población a la variación de la proporción poblacional, y cómo esto puede afectar la normalidad de los estimadores muestrales.