Teorema del Límite Central

.

.

SOLUCION

A- Se genera una población de n=1000 donde el porcentaje de plantas enfermas es del 50%.

# A- muestra de 1000 con 50% enfermas
n <- 1000  # Se define el tamaño de la muestra (1000 plantas)
set.seed(256)  # Se establece una semilla para asegurar reproducibilidad
prob_enfermas <- 0.5  #Se establece Probabilidad de que una planta esté enferma del 50%
simulacion_poblacion <- rbinom(n, size = 1, prob = prob_enfermas)# Segenerar la muestra de plantas enfermas usando una distribución binomial

Obtenemos 500 plantas enfermas corresponde al 50% de la muestra

# Contar cuántas plantas están enfermas
enfermas_count <- sum(simulacion_poblacion)
# Calcular el porcentaje de plantas enfermas
porcentaje_enfermas <- (enfermas_count / n) * 100 
datos <- data.frame(Plantas_Enfermas = enfermas_count, Porcentaje_P_Enfermas   = porcentaje_enfermas)
print(datos)
##   Plantas_Enfermas Porcentaje_P_Enfermas
## 1              500                    50

B- Generamos una función que permite Obtener una muestra aleatoria de la población y Calcule el estimador de la proporción muestral pˆ para un tamaño de muestra dado n.

generate_random_sample <- function(simulacion_poblacion, sample_size) {
  # usemos sample() para obtener la muestra
  sample_data <- sample(simulacion_poblacion, size = sample_size)
  p_estimado <- mean(sample_data) # Calcular el p_estimado dentro de la función
  print(paste("pˆ:", p_estimado))
  # return(sample_data, p_estimado = p_estimado)
  return(list(muestra = sample_data, p_estimado = p_estimado))
}

Generamos una muestra aleatora de 100 y Calculamos el estimador de la proporción muestral pˆ

# generamos la muestra aleatoria para probar tomemos 100
set.seed(123)
sample_data <- generate_random_sample(simulacion_poblacion, sample_size = 100)
## [1] "pˆ: 0.47"

C- Se repite el escenario anterior (b) n = 500 veces y analice los resultados en cuanto al comportamiento de los 500 resultados del estimador pˆ

simulacion_n_500 <- muestreo(
  poblacion_ = simulacion_poblacion, 
  n_muestra = 500, 
  n_simulaciones = 500
)

hist(
  simulacion_n_500,
  main = "Simulacion para n = 500",
  xlab = "Proporcion plantas enfermas",
  ylab = "Frecuencia"
)
line = mean(simulacion_n_500)
abline(v=line, col="red")

¿Qué tan simétricos o sesgados son los resultados obtenidos? ¿qué se puede observar en cuanto a la variabilidad?

Simetría o sesgo: El histograma muestra una similitud con la campana de Gauss, lo que sugiere una distribución aproximadamente normal de los estimadores. La alta simetría observada en el histograma indica que los datos están bien distribuidos alrededor de la media, lo que es consistente con una distribución normal. los resultados sugieren que no hay sesgo significativo.

Variabilidad: El cálculo de la varianza muestra un valor cercano a cero, lo que indica que los datos están agrupados alrededor de la media y tienen poca dispersión.

D- Se repite los puntos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500.

simulacion_diferente_n(
  vector_n = c(5, 10, 15, 20, 30, 50, 60, 100, 200, 500),
  poblacion__ = simulacion_poblacion
)

## [1] "Coeficiente de asimetria: 0.02"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 43.03%"

## [1] "Coeficiente de asimetria: 0.14"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 31.85%"

## [1] "Coeficiente de asimetria: -0.03"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 25.66%"

## [1] "Coeficiente de asimetria: -0.10"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 22.43%"

## [1] "Coeficiente de asimetria: -0.02"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 18.58%"

## [1] "Coeficiente de asimetria: 0.10"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 13.25%"

## [1] "Coeficiente de asimetria: -0.10"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 12.01%"

## [1] "Coeficiente de asimetria: 0.01"
## [1] "Prueba Shapiro Wilks: 0.03"
## [1] "Coeficiente de variacion: 9.63%"

## [1] "Coeficiente de asimetria: 0.06"
## [1] "Prueba Shapiro Wilks: 0.10"
## [1] "Coeficiente de variacion: 6.60%"

## [1] "Coeficiente de asimetria: -0.12"
## [1] "Prueba Shapiro Wilks: 0.21"
## [1] "Coeficiente de variacion: 3.17%"

Comentaros de los resultados obtenidos

E1- Se repite toda la simulación (puntos a – d) ahora para lotes con 10% de plantas enfermas.

(a) Se genera una población de n=1000 donde el porcentaje de plantas enfermas es del 10%.

# A- muestra de 1000 con 10% enfermas
n <- 1000  # Se define el tamaño de la muestra (1000 plantas)
set.seed(256)  # Se establece una semilla para asegurar reproducibilidad
prob_enfermas <- 0.1  #Se establece Probabilidad de que una planta esté enferma del 10%
simulacion_poblacion <- rbinom(n, size = 1, prob = prob_enfermas)# Segenerar la muestra de plantas enfermas usando una distribución binomial

Obtenemos 500 plantas enfermas corresponde al 10% de la muestra

# Contar cuántas plantas están enfermas
enfermas_count <- sum(simulacion_poblacion)
# Calcular el porcentaje de plantas enfermas
porcentaje_enfermas <- (enfermas_count / n) * 100 
datos <- data.frame(Plantas_Enfermas = enfermas_count, Porcentaje_P_Enfermas   = porcentaje_enfermas)
print(datos)
##   Plantas_Enfermas Porcentaje_P_Enfermas
## 1               95                   9.5

(b) Calcule el estimador de la proporción muestral pˆ para un tamaño de muestra dado n, donde el porcentaje de plantas enfermas es del 10%.

generate_random_sample <- function(simulacion_poblacion, sample_size) {
  # usemos sample() para obtener la muestra
  sample_data <- sample(simulacion_poblacion, size = sample_size)
  p_estimado <- mean(sample_data) # Calcular el p_estimado dentro de la función
  print(paste("pˆ:", p_estimado))
  # return(sample_data, p_estimado = p_estimado)
  return(list(muestra = sample_data, p_estimado = p_estimado))
}

Generamos una muestra aleatora de 100 y Calculamos el estimador de la proporción muestral pˆ

# generamos la muestra aleatoria para probar tomemos 100
set.seed(123)
sample_data <- generate_random_sample(simulacion_poblacion, sample_size = 100)
## [1] "pˆ: 0.11"

(c) Se repite el escenario anterior (b) n = 500 veces, donde el porcentaje de plantas enfermas es del 10%.

simulacion_n_500 <- muestreo(
  poblacion_ = simulacion_poblacion, 
  n_muestra = 500, 
  n_simulaciones = 500
)

hist(
  simulacion_n_500,
  main = "Simulacion para n = 500",
  xlab = "Proporcion plantas enfermas",
  ylab = "Frecuencia"
)
line = mean(simulacion_n_500)
abline(v=line, col="red")

(d) Se repite los puntos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. donde el porcentaje de plantas enfermas es del 10%.

simulacion_diferente_n(
  vector_n = c(5, 10, 15, 20, 30, 50, 60, 100, 200, 500),
  poblacion__ = simulacion_poblacion
)

## [1] "Coeficiente de asimetria: 1.06"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 132.08%"

## [1] "Coeficiente de asimetria: 0.93"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 96.34%"

## [1] "Coeficiente de asimetria: 0.45"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 75.28%"

## [1] "Coeficiente de asimetria: 0.46"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 68.90%"

## [1] "Coeficiente de asimetria: 0.57"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 57.76%"

## [1] "Coeficiente de asimetria: 0.25"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 41.59%"

## [1] "Coeficiente de asimetria: 0.24"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 37.03%"

## [1] "Coeficiente de asimetria: 0.12"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 28.24%"

## [1] "Coeficiente de asimetria: 0.04"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 18.68%"

## [1] "Coeficiente de asimetria: 0.08"
## [1] "Prueba Shapiro Wilks: 0.01"
## [1] "Coeficiente de variacion: 9.48%"

Comentaros de los resultados obtenidos

E2- Se repite toda la simulación (puntos a – d) ahora para lotes con 90% de plantas enfermas.

(a) Se genera una población de n=1000 donde el porcentaje de plantas enfermas es del 90%.

# A- muestra de 1000 con 90% enfermas
n <- 1000  # Se define el tamaño de la muestra (1000 plantas)
set.seed(256)  # Se establece una semilla para asegurar reproducibilidad
prob_enfermas <- 0.9  #Se establece Probabilidad de que una planta esté enferma del 10%
simulacion_poblacion <- rbinom(n, size = 1, prob = prob_enfermas)# Segenerar la muestra de plantas enfermas usando una distribución binomial

Obtenemos 500 plantas enfermas corresponde al 90% de la muestra

# Contar cuántas plantas están enfermas
enfermas_count <- sum(simulacion_poblacion)
# Calcular el porcentaje de plantas enfermas
porcentaje_enfermas <- (enfermas_count / n) * 100 
datos <- data.frame(Plantas_Enfermas = enfermas_count, Porcentaje_P_Enfermas   = porcentaje_enfermas)
print(datos)
##   Plantas_Enfermas Porcentaje_P_Enfermas
## 1              905                  90.5

(b) Calcule el estimador de la proporción muestral pˆ para un tamaño de muestra dado n, donde el porcentaje de plantas enfermas es del 90%.

generate_random_sample <- function(simulacion_poblacion, sample_size) {
  # usemos sample() para obtener la muestra
  sample_data <- sample(simulacion_poblacion, size = sample_size)
  p_estimado <- mean(sample_data) # Calcular el p_estimado dentro de la función
  print(paste("pˆ:", p_estimado))
  # return(sample_data, p_estimado = p_estimado)
  return(list(muestra = sample_data, p_estimado = p_estimado))
}

Generamos una muestra aleatora de 100 y Calculamos el estimador de la proporción muestral pˆ

# generamos la muestra aleatoria para probar tomemos 100
set.seed(123)
sample_data <- generate_random_sample(simulacion_poblacion, sample_size = 100)
## [1] "pˆ: 0.89"

(c) Se repite el escenario anterior (b) n = 500 veces, donde el porcentaje de plantas enfermas es del 90%.

simulacion_n_500 <- muestreo(
  poblacion_ = simulacion_poblacion, 
  n_muestra = 500, 
  n_simulaciones = 500
)

hist(
  simulacion_n_500,
  main = "Simulacion para n = 500",
  xlab = "Proporcion plantas enfermas",
  ylab = "Frecuencia"
)
line = mean(simulacion_n_500)
abline(v=line, col="red")

(d) Se repite los puntos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. donde el porcentaje de plantas enfermas es del 90%.

simulacion_diferente_n(
  vector_n = c(5, 10, 15, 20, 30, 50, 60, 100, 200, 500),
  poblacion__ = simulacion_poblacion
)

## [1] "Coeficiente de asimetria: -1.06"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 13.38%"

## [1] "Coeficiente de asimetria: -0.93"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 10.37%"

## [1] "Coeficiente de asimetria: -0.45"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 8.51%"

## [1] "Coeficiente de asimetria: -0.46"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 7.41%"

## [1] "Coeficiente de asimetria: -0.57"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 6.09%"

## [1] "Coeficiente de asimetria: -0.25"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 4.50%"

## [1] "Coeficiente de asimetria: -0.24"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 3.85%"

## [1] "Coeficiente de asimetria: -0.12"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 2.98%"

## [1] "Coeficiente de asimetria: -0.04"
## [1] "Prueba Shapiro Wilks: 0.00"
## [1] "Coeficiente de variacion: 1.99%"

## [1] "Coeficiente de asimetria: -0.08"
## [1] "Prueba Shapiro Wilks: 0.01"
## [1] "Coeficiente de variacion: 1.00%"

Comentaros de los resultados obtenidos

CONCLUSIONES

A medida que aumenta el tamaño de la muestra, las estimaciones tienden a ser más precisas y estables. Esto se debe a la convergencia de la distribución muestral hacia una distribución normal, como lo establece el Teorema del Límite Central. Por lo tanto, muestras más grandes proporcionan una mejor aproximación del verdadero valor de la proporción en la población.

La variabilidad en el porcentaje de individuos enfermos en la población influye en la normalidad de la distribución del estimador. Porcentajes extremadamente altos o bajos pueden conducir a sesgos en las estimaciones, alejando la distribución de la normalidad. En contraste, una proporción más equilibrada (cerca del 50%) tiende a producir estimaciones más cercanas a una distribución normal.

A partir de un tamaño de muestra de al menos n = 50, las muestras son estadísticamente significativas para un nivel de confianza del 95%. Esto indica que para tamaños de muestra más grandes, hay mayor confianza en la representatividad de las muestras y en la validez de las inferencias estadísticas sobre la población.