# Instalamos la libreria.
#install.packages("tidyverse")
#library(tidyverse)
# Generamos la población
poblacion <- sample(c("Enfermo", "Sano"), 1000, replace = TRUE, prob = c(0.5, 0.5))
# Calculamos la proporción de individuos enfermos
proporcion_poblacion <- sum(poblacion == "Enfermo") / length(poblacion)
# Imprimimos los resultados
print(paste("Proporción de individuos enfermos en la población:", proporcion_poblacion))
## [1] "Proporción de individuos enfermos en la población: 0.497"
# Generamos una muestra de tamaño 30
muestra <- sample(poblacion, 30)
# Calculamos el estimador de la proporción muestral
proporcion_muestra <- sum(muestra == "Enfermo") / length(muestra)
# Imprimimos los resultados
print(paste("Proporción de individuos enfermos en la muestra:", proporcion_muestra))
## [1] "Proporción de individuos enfermos en la muestra: 0.466666666666667"
# Generamos la población
poblacion <- sample(c("Enfermo", "Sano"), 1000, replace = TRUE, prob = c(0.5, 0.5))
# Realizamos 1000 simulaciones
proporciones_muestra <- replicate(1000, {
muestra <- sample(poblacion, length(poblacion))
proporcion_muestra <- sum(muestra == "Enfermo") / length(muestra)
})
# Convertimos las proporciones muestrales a un vector
proporciones_muestra <- unlist(proporciones_muestra)
# Graficamos las proporciones muestrales
hist(proporciones_muestra, main = "Distribución de las proporciones muestrales", xlab = "Proporción de individuos enfermos")
# Generamos la población
poblacion <- sample(c("Enfermo", "Sano"), 1000, replace = TRUE, prob = c(0.5, 0.5))
# Realizamos 500 simulaciones
proporciones_muestra <- replicate(500, {
muestra <- sample(poblacion, 500)
proporcion_muestra <- sum(muestra == "Enfermo") / length(muestra)
})
# Graficamos la distribución de las proporciones muestrales
hist(proporciones_muestra, main = "Distribución de las proporciones muestrales", xlab = "Proporción de individuos enfermos")
# Generamos la población
poblacion <- sample(c("Enfermo", "Sano"), 1000, replace = TRUE, prob = c(0.5, 0.5))
# Repetimos las simulaciones para diferentes tamaños de muestra
resultados <- NULL
for (n in c(5, 10, 15, 20, 30, 50, 60, 100, 200, 500)) {
# Generamos las proporciones muestrales
proporciones_muestra <- replicate(500, {
muestra <- sample(poblacion, n)
proporcion_muestra <- sum(muestra == "Enfermo") / length(muestra)
})
# Calculamos la media y la desviación estándar de las proporciones muestrales
media <- mean(proporciones_muestra)
desv_estandar <- sd(proporciones_muestra)
# Realizamos la prueba de Shapiro-Wilk
prueba_shapiro <- shapiro.test(proporciones_muestra)
p_valor <- prueba_shapiro$p.value
# Guardamos los resultados en un vector
resultados <- rbind(resultados, data.frame(
"Tamaño de muestra" = n,
"Media" = media,
"Desv estándar" = desv_estandar,
"P-valor Shapiro-Wilk" = p_valor
))
}
# Imprimimos la tabla con los resultados
print(resultados)
## Tamaño.de.muestra Media Desv.estándar P.valor.Shapiro.Wilk
## 1 5 0.5184000 0.22017810 4.500984e-15
## 2 10 0.5040000 0.14936070 2.505135e-10
## 3 15 0.4930667 0.12653307 1.312616e-07
## 4 20 0.5064000 0.10531487 1.716757e-06
## 5 30 0.5030000 0.08981723 3.520786e-05
## 6 50 0.5030000 0.07061000 5.091187e-03
## 7 60 0.5095000 0.06044144 1.926431e-03
## 8 100 0.5058400 0.04957024 3.554697e-02
## 9 200 0.5059600 0.03304334 9.035439e-02
## 10 500 0.5068360 0.01592106 2.987023e-01
# Generamos el gráfico de normalidad
qqnorm(proporciones_muestra)
qqline(proporciones_muestra)
Como se puede ver, la distribución de las proporciones muestrales se acerca a la distribución normal a medida que aumenta el tamaño de la muestra. Esto se debe al Teorema del Límite Central, que establece que la distribución de la proporción muestral se aproxima a la distribución normal cuando el tamaño de la muestra es grande.
La prueba de Shapiro-Wilk es una prueba de bondad de ajuste que se utiliza para determinar si los datos se ajustan a una distribución normal. En este caso, la prueba de Shapiro-Wilk rechaza la hipótesis nula de normalidad para todos los tamaños de muestra excepto 500.
En este caso, el gráfico de normalidad muestra que los datos se distribuyen de forma aproximadamente normal para los tamaños de muestra de 500 o más.
La distribución de las proporciones muestrales es no normal para los tamaños de muestra pequeños. Esto se debe a que las muestras pequeñas son más susceptibles a la variación aleatoria.
La distribución de las proporciones muestrales se aproxima a la distribución normal a medida que aumenta el tamaño de la muestra. Esto se debe al Teorema del Límite Central.
La prueba de Shapiro-Wilk es una herramienta útil para evaluar la normalidad de los datos. Sin embargo, es importante tener en cuenta que la prueba es sensible al tamaño de la muestra.