.
.
# A- muestra de 1000 con 50% enfermas
n <- 1000 # Se define el tamaño de la muestra (1000 plantas)
set.seed(256) # Se establece una semilla para asegurar reproducibilidad
prob_enfermas <- 0.5 #Se establece Probabilidad de que una planta esté enferma del 50%
simulacion_poblacion <- rbinom(n, size = 1, prob = prob_enfermas)# Segenerar la muestra de plantas enfermas usando una distribución binomial
Obtenemos 500 plantas enfermas corresponde al 50% de la muestra
# Contar cuántas plantas están enfermas
enfermas_count <- sum(simulacion_poblacion)
# Calcular el porcentaje de plantas enfermas
porcentaje_enfermas <- (enfermas_count / n) * 100
datos <- data.frame(Plantas_Enfermas = enfermas_count, Porcentaje_P_Enfermas = porcentaje_enfermas)
print(datos)
## Plantas_Enfermas Porcentaje_P_Enfermas
## 1 500 50
generate_random_sample <- function(simulacion_poblacion, sample_size) {
# usemos sample() para obtener la muestra
sample_data <- sample(simulacion_poblacion, size = sample_size)
p_estimado <- mean(sample_data) # Calcular el p_estimado dentro de la función
print(paste("pˆ:", p_estimado))
# return(sample_data, p_estimado = p_estimado)
return(list(muestra = sample_data, p_estimado = p_estimado))
}
Generamos una muestra aleatora de 100 y Calculamos el estimador de la proporción muestral pˆ
# generamos la muestra aleatoria para probar tomemos 100
set.seed(123)
sample_data <- generate_random_sample(simulacion_poblacion, sample_size = 100)
## [1] "pˆ: 0.47"
simulacion_n_500 <- muestreo(
poblacion_ = simulacion_poblacion,
n_muestra = 500,
n_simulaciones = 500
)
hist(
simulacion_n_500,
main = "Simulacion para n = 500",
xlab = "Proporcion plantas enfermas",
ylab = "Frecuencia"
)
line = mean(simulacion_n_500)
abline(v=line, col="red")
¿Qué tan simétricos o sesgados son los resultados obtenidos? ¿qué se puede observar en cuanto a la variabilidad?
Simetría o sesgo: El histograma muestra una similitud con la campana de Gauss, lo que sugiere una distribución aproximadamente normal de los estimadores. La alta simetría observada en el histograma indica que los datos están bien distribuidos alrededor de la media, lo que es consistente con una distribución normal. los resultados sugieren que no hay sesgo significativo.
Variabilidad: El cálculo de la varianza muestra un valor cercano a cero, lo que indica que los datos están agrupados alrededor de la media y tienen poca dispersión.
simulacion_diferente_n(
vector_n = c(5, 10, 15, 20, 30, 50, 60, 100, 200, 500),
poblacion__ = simulacion_poblacion
)
## [1] "Coeficiente de asimetria: 0.02"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 43.03%"
## [1] "Coeficiente de asimetria: 0.14"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 31.85%"
## [1] "Coeficiente de asimetria: -0.03"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 25.66%"
## [1] "Coeficiente de asimetria: -0.10"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 22.43%"
## [1] "Coeficiente de asimetria: -0.02"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 18.58%"
## [1] "Coeficiente de asimetria: 0.10"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 13.25%"
## [1] "Coeficiente de asimetria: -0.10"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 12.01%"
## [1] "Coeficiente de asimetria: 0.01"
## [1] "Prueba Shapiro Wilks: 0.03"
## [1] "Coeficiente de variacion: 9.63%"
## [1] "Coeficiente de asimetria: 0.06"
## [1] "Prueba Shapiro Wilks: 0.10"
## [1] "Coeficiente de variacion: 6.60%"
## [1] "Coeficiente de asimetria: -0.12"
## [1] "Prueba Shapiro Wilks: 0.21"
## [1] "Coeficiente de variacion: 3.17%"
Comentaros de los resultados obtenidos
# A- muestra de 1000 con 10% enfermas
n <- 1000 # Se define el tamaño de la muestra (1000 plantas)
set.seed(256) # Se establece una semilla para asegurar reproducibilidad
prob_enfermas <- 0.1 #Se establece Probabilidad de que una planta esté enferma del 10%
simulacion_poblacion <- rbinom(n, size = 1, prob = prob_enfermas)# Segenerar la muestra de plantas enfermas usando una distribución binomial
Obtenemos 500 plantas enfermas corresponde al 10% de la muestra
# Contar cuántas plantas están enfermas
enfermas_count <- sum(simulacion_poblacion)
# Calcular el porcentaje de plantas enfermas
porcentaje_enfermas <- (enfermas_count / n) * 100
datos <- data.frame(Plantas_Enfermas = enfermas_count, Porcentaje_P_Enfermas = porcentaje_enfermas)
print(datos)
## Plantas_Enfermas Porcentaje_P_Enfermas
## 1 95 9.5
generate_random_sample <- function(simulacion_poblacion, sample_size) {
# usemos sample() para obtener la muestra
sample_data <- sample(simulacion_poblacion, size = sample_size)
p_estimado <- mean(sample_data) # Calcular el p_estimado dentro de la función
print(paste("pˆ:", p_estimado))
# return(sample_data, p_estimado = p_estimado)
return(list(muestra = sample_data, p_estimado = p_estimado))
}
Generamos una muestra aleatora de 100 y Calculamos el estimador de la proporción muestral pˆ
# generamos la muestra aleatoria para probar tomemos 100
set.seed(123)
sample_data <- generate_random_sample(simulacion_poblacion, sample_size = 100)
## [1] "pˆ: 0.11"
simulacion_n_500 <- muestreo(
poblacion_ = simulacion_poblacion,
n_muestra = 500,
n_simulaciones = 500
)
hist(
simulacion_n_500,
main = "Simulacion para n = 500",
xlab = "Proporcion plantas enfermas",
ylab = "Frecuencia"
)
line = mean(simulacion_n_500)
abline(v=line, col="red")
simulacion_diferente_n(
vector_n = c(5, 10, 15, 20, 30, 50, 60, 100, 200, 500),
poblacion__ = simulacion_poblacion
)
## [1] "Coeficiente de asimetria: 1.06"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 132.08%"
## [1] "Coeficiente de asimetria: 0.93"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 96.34%"
## [1] "Coeficiente de asimetria: 0.45"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 75.28%"
## [1] "Coeficiente de asimetria: 0.46"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 68.90%"
## [1] "Coeficiente de asimetria: 0.57"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 57.76%"
## [1] "Coeficiente de asimetria: 0.25"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 41.59%"
## [1] "Coeficiente de asimetria: 0.24"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 37.03%"
## [1] "Coeficiente de asimetria: 0.12"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 28.24%"
## [1] "Coeficiente de asimetria: 0.04"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 18.68%"
## [1] "Coeficiente de asimetria: 0.08"
## [1] "Prueba Shapiro Wilks: 0.01"
## [1] "Coeficiente de variacion: 9.48%"
Comentaros de los resultados obtenidos
# A- muestra de 1000 con 90% enfermas
n <- 1000 # Se define el tamaño de la muestra (1000 plantas)
set.seed(256) # Se establece una semilla para asegurar reproducibilidad
prob_enfermas <- 0.9 #Se establece Probabilidad de que una planta esté enferma del 10%
simulacion_poblacion <- rbinom(n, size = 1, prob = prob_enfermas)# Segenerar la muestra de plantas enfermas usando una distribución binomial
Obtenemos 500 plantas enfermas corresponde al 90% de la muestra
# Contar cuántas plantas están enfermas
enfermas_count <- sum(simulacion_poblacion)
# Calcular el porcentaje de plantas enfermas
porcentaje_enfermas <- (enfermas_count / n) * 100
datos <- data.frame(Plantas_Enfermas = enfermas_count, Porcentaje_P_Enfermas = porcentaje_enfermas)
print(datos)
## Plantas_Enfermas Porcentaje_P_Enfermas
## 1 905 90.5
generate_random_sample <- function(simulacion_poblacion, sample_size) {
# usemos sample() para obtener la muestra
sample_data <- sample(simulacion_poblacion, size = sample_size)
p_estimado <- mean(sample_data) # Calcular el p_estimado dentro de la función
print(paste("pˆ:", p_estimado))
# return(sample_data, p_estimado = p_estimado)
return(list(muestra = sample_data, p_estimado = p_estimado))
}
Generamos una muestra aleatora de 100 y Calculamos el estimador de la proporción muestral pˆ
# generamos la muestra aleatoria para probar tomemos 100
set.seed(123)
sample_data <- generate_random_sample(simulacion_poblacion, sample_size = 100)
## [1] "pˆ: 0.89"
simulacion_n_500 <- muestreo(
poblacion_ = simulacion_poblacion,
n_muestra = 500,
n_simulaciones = 500
)
hist(
simulacion_n_500,
main = "Simulacion para n = 500",
xlab = "Proporcion plantas enfermas",
ylab = "Frecuencia"
)
line = mean(simulacion_n_500)
abline(v=line, col="red")
simulacion_diferente_n(
vector_n = c(5, 10, 15, 20, 30, 50, 60, 100, 200, 500),
poblacion__ = simulacion_poblacion
)
## [1] "Coeficiente de asimetria: -1.06"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 13.38%"
## [1] "Coeficiente de asimetria: -0.93"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 10.37%"
## [1] "Coeficiente de asimetria: -0.45"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 8.51%"
## [1] "Coeficiente de asimetria: -0.46"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 7.41%"
## [1] "Coeficiente de asimetria: -0.57"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 6.09%"
## [1] "Coeficiente de asimetria: -0.25"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 4.50%"
## [1] "Coeficiente de asimetria: -0.24"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 3.85%"
## [1] "Coeficiente de asimetria: -0.12"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 2.98%"
## [1] "Coeficiente de asimetria: -0.04"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 1.99%"
## [1] "Coeficiente de asimetria: -0.08"
## [1] "Prueba Shapiro Wilks: 0.01"
## [1] "Coeficiente de variacion: 1.00%"
Comentaros de los resultados obtenidos
A medida que aumenta el tamaño de la muestra, las estimaciones tienden a ser más precisas y estables. Esto se debe a la convergencia de la distribución muestral hacia una distribución normal, como lo establece el Teorema del Límite Central. Por lo tanto, muestras más grandes proporcionan una mejor aproximación del verdadero valor de la proporción en la población.
La variabilidad en el porcentaje de individuos enfermos en la población influye en la normalidad de la distribución del estimador. Porcentajes extremadamente altos o bajos pueden conducir a sesgos en las estimaciones, alejando la distribución de la normalidad. En contraste, una proporción más equilibrada (cerca del 50%) tiende a producir estimaciones más cercanas a una distribución normal.
A partir de un tamaño de muestra de al menos n = 50, las muestras son estadísticamente significativas para un nivel de confianza del 95%. Esto indica que para tamaños de muestra más grandes, hay mayor confianza en la representatividad de las muestras y en la validez de las inferencias estadísticas sobre la población.