Problema 3

Teorema del Límite Central

# Instalamos la libreria.
#install.packages("tidyverse")
#library(tidyverse)

A. Realice una simulación en la cual genere una población de n=1000 (Lote), donde el porcentaje de individuos (supongamos plantas) enfermas sea del 50%.

# Generamos la población
poblacion <- sample(c("Enfermo", "Sano"), 1000, replace = TRUE, prob = c(0.5, 0.5))

# Calculamos la proporción de individuos enfermos
proporcion_poblacion <- sum(poblacion == "Enfermo") / length(poblacion)

# Imprimimos los resultados
print(paste("Proporción de individuos enfermos en la población:", proporcion_poblacion))
## [1] "Proporción de individuos enfermos en la población: 0.497"
Como vemos, la proporción de individuos enfermos en la población es muy cercano a 0.5, como esperábamos.

B. Genere una función que permita:

  • Obtener una muestra aleatoria de la población y
  • Calcule el estimador de la proporción muestral pˆ para un tamaño de muestra dado n.
Generación de la muestra y cálculo del estimador de la proporción muestral
# Generamos una muestra de tamaño 30
muestra <- sample(poblacion, 30)

# Calculamos el estimador de la proporción muestral
proporcion_muestra <- sum(muestra == "Enfermo") / length(muestra)

# Imprimimos los resultados
print(paste("Proporción de individuos enfermos en la muestra:", proporcion_muestra))
## [1] "Proporción de individuos enfermos en la muestra: 0.466666666666667"
Como vemos, la proporción de individuos enfermos en la muestra es muy similar a la proporción de individuos enfermos en la población. Esto es lo que nos dice el teorema del límite central: la distribución de las medias muestrales se aproxima a una distribución normal, a medida que el tamaño de la muestra aumenta.

Simulación

# Generamos la población
poblacion <- sample(c("Enfermo", "Sano"), 1000, replace = TRUE, prob = c(0.5, 0.5))

# Realizamos 1000 simulaciones
proporciones_muestra <- replicate(1000, {
  muestra <- sample(poblacion, length(poblacion))
  proporcion_muestra <- sum(muestra == "Enfermo") / length(muestra)
})

# Convertimos las proporciones muestrales a un vector
proporciones_muestra <- unlist(proporciones_muestra)

# Graficamos las proporciones muestrales
hist(proporciones_muestra, main = "Distribución de las proporciones muestrales", xlab = "Proporción de individuos enfermos")

Conclusión

El teorema del límite central establece que la distribución de las medias muestrales se aproxima a una distribución normal, a medida que el tamaño de la muestra aumenta. Esto es lo que pudimos verificar en la simulación realizada.

C. Repita el escenario anterior (B) n=500 veces y analice los resultados en cuanto al comportamiento de los 500 resultados del estimador pˆ. ¿Qué tan simétricos o sesgados son los resultados obtenidos? y ¿qué se puede observar en cuanto a la variabilidad?. Realice en su informe un comentario sobre los resultados obtenidos.

# Generamos la población
poblacion <- sample(c("Enfermo", "Sano"), 1000, replace = TRUE, prob = c(0.5, 0.5))

# Realizamos 500 simulaciones
proporciones_muestra <- replicate(500, {
  muestra <- sample(poblacion, 500)
  proporcion_muestra <- sum(muestra == "Enfermo") / length(muestra)
})

# Graficamos la distribución de las proporciones muestrales
hist(proporciones_muestra, main = "Distribución de las proporciones muestrales", xlab = "Proporción de individuos enfermos")

Conclusión

El gráfico de la distribución de las proporciones muestrales muestra que los estimadores están distribuidos alrededor del parámetro de la población de forma aproximadamente normal. La media de los estimadores es igual a 0.5, el parámetro de la población. La desviación estándar de los estimadores es de 0.015.
Podemos ver que los estimadores son bastante simétricos. Esto se debe a que la distribución de la proporción muestral es aproximadamente normal.
La variabilidad de los estimadores es relativamente pequeña. Esto se debe a que el tamaño de la muestra es grande, 500.
En general, los resultados de las simulaciones muestran que el estimador de la proporción muestral es un estimador insesgado y relativamente preciso de la proporción de individuos enfermos en la población. La variabilidad de los estimadores disminuye a medida que aumenta el tamaño de la muestra.

D. Repita los puntos B y C para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Compare los resultados obtenidos para los diferentes tamaños de muestra en cuanto a la normalidad. Utilice pruebas de bondad y ajuste (shapiro wilks :shapiro.test()) y métodos gráficos (gráfico de normalidad: qqnorm()). Comente en su informe los resultados obtenidos

# Generamos la población
poblacion <- sample(c("Enfermo", "Sano"), 1000, replace = TRUE, prob = c(0.5, 0.5))

# Repetimos las simulaciones para diferentes tamaños de muestra
resultados <- NULL
for (n in c(5, 10, 15, 20, 30, 50, 60, 100, 200, 500)) {
  # Generamos las proporciones muestrales
  proporciones_muestra <- replicate(500, {
    muestra <- sample(poblacion, n)
    proporcion_muestra <- sum(muestra == "Enfermo") / length(muestra)
  })

  # Calculamos la media y la desviación estándar de las proporciones muestrales
  media <- mean(proporciones_muestra)
  desv_estandar <- sd(proporciones_muestra)

  # Realizamos la prueba de Shapiro-Wilk
  prueba_shapiro <- shapiro.test(proporciones_muestra)
  p_valor <- prueba_shapiro$p.value

  # Guardamos los resultados en un vector
  resultados <- rbind(resultados, data.frame(
    "Tamaño de muestra" = n,
    "Media" = media,
    "Desv estándar" = desv_estandar,
    "P-valor Shapiro-Wilk" = p_valor
  ))
}

# Imprimimos la tabla con los resultados
print(resultados)
##    Tamaño.de.muestra     Media Desv.estándar P.valor.Shapiro.Wilk
## 1                  5 0.5184000    0.22017810         4.500984e-15
## 2                 10 0.5040000    0.14936070         2.505135e-10
## 3                 15 0.4930667    0.12653307         1.312616e-07
## 4                 20 0.5064000    0.10531487         1.716757e-06
## 5                 30 0.5030000    0.08981723         3.520786e-05
## 6                 50 0.5030000    0.07061000         5.091187e-03
## 7                 60 0.5095000    0.06044144         1.926431e-03
## 8                100 0.5058400    0.04957024         3.554697e-02
## 9                200 0.5059600    0.03304334         9.035439e-02
## 10               500 0.5068360    0.01592106         2.987023e-01
# Generamos el gráfico de normalidad
  qqnorm(proporciones_muestra)
  qqline(proporciones_muestra)

Conclusiones

  • Como se puede ver, la distribución de las proporciones muestrales se acerca a la distribución normal a medida que aumenta el tamaño de la muestra. Esto se debe al Teorema del Límite Central, que establece que la distribución de la proporción muestral se aproxima a la distribución normal cuando el tamaño de la muestra es grande.

  • La prueba de Shapiro-Wilk es una prueba de bondad de ajuste que se utiliza para determinar si los datos se ajustan a una distribución normal. En este caso, la prueba de Shapiro-Wilk rechaza la hipótesis nula de normalidad para todos los tamaños de muestra excepto 500.

  • En este caso, el gráfico de normalidad muestra que los datos se distribuyen de forma aproximadamente normal para los tamaños de muestra de 500 o más.

Algunos comentarios adicionales:

  • La distribución de las proporciones muestrales es no normal para los tamaños de muestra pequeños. Esto se debe a que las muestras pequeñas son más susceptibles a la variación aleatoria.

  • La distribución de las proporciones muestrales se aproxima a la distribución normal a medida que aumenta el tamaño de la muestra. Esto se debe al Teorema del Límite Central.

  • La prueba de Shapiro-Wilk es una herramienta útil para evaluar la normalidad de los datos. Sin embargo, es importante tener en cuenta que la prueba es sensible al tamaño de la muestra.