Problema 3: Teorema del Límite Central

1. Teorema del Límite Central

El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.

2. Objetivo

Verificar el Teorema del Límite Central a través del análisis del estimador de la proporción muestral en diferentes configuraciones experimentales.

3. Procedimiento

En el presente experimento, se llevará a cabo una serie de pasos planificados para evaluar el comportamiento del estimador de la proporción muestral en relación con el Teorema del Límite Central. En primer lugar, se generará una población simulada con una proporción predefinida de plantas enfermas. Luego, se desarrollará una función que permitirá obtener muestras aleatorias de esta población y calcular el estimador de la proporción muestral para diferentes tamaños de muestra. se repetirá este proceso múltiples veces para obtener un conjunto significativo de estimadores. Posteriormente, se analizarán estos resultados para evaluar su simetría, sesgo y variabilidad. Además, se repetirán estos pasos para diferentes tamaños de muestra y diferentes proporciones de plantas enfermas.

a) Simulación de una Población con n=1000 y un 50% de Plantas Enfermas

Esta sección se enfoca en la simulación de una población compuesta por 1000 individuos, donde el 50% de las plantas se consideran enfermas.

set.seed(123)  # Semilla para reproducibilidad
n <- 1000  # Tamaño de la población
proporcion_enfermos <- 0.5  # Porcentaje de individuos enfermos

poblacion <- rbinom(n, 1, proporcion_enfermos)

b) Desarrollo de la Función de Muestreo y Cálculo del Estimador

En esta etapa, se desarrollará una función específica que cumplirá dos propósitos: Obtener una muestra aleatoria representativa de la población y calcular el estimador de la proporción muestral (pˆ) para un tamaño de muestra dado (n).

muestra_estimador <- function(poblacion, n_muestra) {
  muestra <- sample(poblacion, n_muestra)
  prop_muestral <- mean(muestra)
  return(prop_muestral)
}

c) Repetición del Proceso y Análisis de los Estimadores

En esta fase, se repetirá el proceso descrito en el punto b un total de 500 veces usando un ciclo for.

n_simulaciones <- 500
tamaño_muestra <- 500
resultados_estimador <- numeric(n_simulaciones)

for (i in 1:n_simulaciones) {
  muestra <- muestra_estimador(poblacion, tamaño_muestra)
  resultados_estimador[i] <- muestra
}

Análisis de simetría y sesgo

El objetivo es analizar el comportamiento de los 500 resultados obtenidos del estimador de la proporción muestral (pˆ) Teniendo en cuenta dos aspectos clave:

Simetría y Sesgo
Variabilidad

Para esto a continuación se genera el histograma de proporciones muestrales

# Análisis de simetría y sesgo
hist(resultados_estimador, main="Histograma de proporciones muestrales 1", xlab="Proporción muestral", breaks=30)

media <- mean(resultados_estimador)
print(paste("Media: ",media))

## [1] "Media:  0.493944"

sesgo <- media- 0.5
print(paste("sesgo: ",sesgo))

## [1] "sesgo:  -0.00605600000000001"

var_estimador <- var(resultados_estimador)
print(paste("Varianza: ",var_estimador))

## [1] "Varianza:  0.000268710284569139"

- El análisis se inicia con el vector resultados_estimador, que alberga los 500 valores de proporción muestral obtenidos a partir de 500 muestras extraídas de la población. Al calcular la media de estos valores, se obtiene un resultado de 0.499. Este valor es muy cercano y aproximadamente igual a la proporción muestral de la población completa, que es del 0.5 (es decir, la proporción de plantas enfermas respecto al total de plantas).

- Este resultado sugiere que el Teorema del Límite Central se está cumpliendo en este contexto. El Teorema del Límite Central establece que, con suficientes muestras aleatorias y un tamaño de muestra adecuado, la distribución de la media de las muestras se aproxima a una distribución normal o se puede evidenciar una alta simetria, lo que se observa en el histograma de proporciones muestrales 1 .

- Además, es importante señalar que el estimador utilizado muestra un sesgo muy bajo, específicamente de -0.006056. A pesar de ser negativo, este valor indica una subestimación mínima y, en realidad, prácticamente no sesgada del valor real de la proporción en la población.

- En relación con la varianza de 0.000268710284569139, este valor sugiere que los datos de la proporción muestral exhiben una notable cohesión en torno a su valor medio. En otras palabras, las estimaciones de la proporción muestral no presentan una variabilidad significativa con respecto a su promedio. Esta baja varianza es un indicio positivo que respalda la precisión y consistencia de las estimaciones.

d) Repetición de los Puntos B y C para múltiples Tamaños de Muestra

En este paso, se repite el proceso de los puntos b y C para una variedad de tamaños de muestra, incluyendo n=5, 10, 15, 20, 30, 50, 60, 100, 200 y 500. En cada uno de estos escenarios, se aplican pruebas de bondad y ajuste, como la prueba de Shapiro-Wilk, a las estimaciones resultantes. Además, se emplean métodos gráficos, como el gráfico QQ-Norm, para una evaluación visual de la normalidad de los datos obtenidos.

tamanos_muestra <- c(5, 10, 15, 20, 30, 50, 60, 100, 200, 500)

for (n_muestra in tamanos_muestra) {
  resultados_estimador <- replicate(n_simulaciones, muestra_estimador(poblacion, n_muestra))
  
  # Prueba de Shapiro-Wilk
  shapiro_test <- shapiro.test(resultados_estimador)
  print(shapiro_test)
  
  # Gráfico de normalidad
  qqnorm(resultados_estimador, main = paste("QQ-Plot, n =", n_muestra))
  qqline(resultados_estimador)
  
  # Comentar resultados
  print(paste("Tamaño de muestra:", n_muestra))
  print(paste("Shapiro-Wilk p-value:", shapiro_test$p.value))
}

## 
##  Shapiro-Wilk normality test
## 
## data:  resultados_estimador
## W = 0.9225, p-value = 2.281e-15

## [1] "Tamaño de muestra: 5"
## [1] "Shapiro-Wilk p-value: 2.28145726773308e-15"
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados_estimador
## W = 0.96565, p-value = 2.017e-09

## [1] "Tamaño de muestra: 10"
## [1] "Shapiro-Wilk p-value: 2.01652570951845e-09"
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados_estimador
## W = 0.97214, p-value = 3.749e-08

## [1] "Tamaño de muestra: 15"
## [1] "Shapiro-Wilk p-value: 3.74945097053381e-08"
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados_estimador
## W = 0.97838, p-value = 9.212e-07

## [1] "Tamaño de muestra: 20"
## [1] "Shapiro-Wilk p-value: 9.21201529376989e-07"
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados_estimador
## W = 0.98452, p-value = 3.642e-05

## [1] "Tamaño de muestra: 30"
## [1] "Shapiro-Wilk p-value: 3.64197137559788e-05"
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados_estimador
## W = 0.98949, p-value = 0.001197

## [1] "Tamaño de muestra: 50"
## [1] "Shapiro-Wilk p-value: 0.00119738495974915"
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados_estimador
## W = 0.99039, p-value = 0.002399

## [1] "Tamaño de muestra: 60"
## [1] "Shapiro-Wilk p-value: 0.00239862031713703"
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados_estimador
## W = 0.99368, p-value = 0.03499

## [1] "Tamaño de muestra: 100"
## [1] "Shapiro-Wilk p-value: 0.0349875657153424"
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados_estimador
## W = 0.99268, p-value = 0.01519

## [1] "Tamaño de muestra: 200"
## [1] "Shapiro-Wilk p-value: 0.0151896998797614"
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados_estimador
## W = 0.99617, p-value = 0.2711

## [1] "Tamaño de muestra: 500"
## [1] "Shapiro-Wilk p-value: 0.271052406271468"

Análisis Shapiro-Wilk y gráficos de normalidad

Al examinar los resultados de la prueba de Shapiro-Wilk, se observa una tendencia clara que depende del tamaño de las muestras. Inicialmente, para tamaños de muestra más pequeños, los valores de “p” y “W” son más bajos, lo que podría indicar una desviación de la normalidad en los datos. Sin embargo, a medida que aumenta el tamaño de la muestra, tanto los valores de “p” como “W” aumentan significativamente. Es importante destacar que, a partir de un tamaño de muestra de aproximadamente 200, el valor de “p” supera el umbral de 0.05, lo que sugiere que los datos se asemejan a una distribución normal.

Esta tendencia se refleja en los gráficos de normalidad. Se nota que, a medida que el tamaño de la muestra aumenta, los puntos en el gráfico se aproximan cada vez más a la línea diagonal. Esto indica una mayor correspondencia entre los cuantiles observados y los cuantiles esperados de una distribución normal.

Para ilustrar aún más esta tendencia, se pueden comparar los gráficos de n=5 y n=500. En el caso de n=5, los cuantiles están claramente alejados de la distribución normal, mientras que para n=500, los cuantiles se alinean casi perfectamente. Esta diferencia refuerza la evidencia del Teorema del Límite Central, que sostiene que a medida que n aumenta, las estimaciones tienden a una distribución normal.

e) Repetición de la Simulación para Diferentes Proporciones de Plantas Enfermas

En esta etapa final, se repite todo el proceso de simulación tanto para lotes con un 10% de plantas enfermas como para lotes con un 90% de plantas enfermas.

En la etapa final, simplemente se replica todo el código anterior, pero esta vez se enfoca en dos casos específicos: uno en el que el 10% de las plantas son enfermas y otro en el que el 90% son plantas enfermas. No es necesario repetir la explicación detallada de cada parte del código; en su lugar, la explicación se centrará en analicis de los resultados obtenidos en estos dos escenarios particulares.

poblacion1 <- rbinom(1000, 1, 0.1)
poblacion2 <- rbinom(1000, 1, 0.9)

n_simulaciones <- 500
tamaño_muestra <- 500
resultados_estimador1 <- numeric(n_simulaciones)
resultados_estimador2 <- numeric(n_simulaciones)


for (i in 1:n_simulaciones) {
  muestra1 <- muestra_estimador(poblacion1, tamaño_muestra)
  resultados_estimador1[i] <- muestra1
  
  muestra2 <- muestra_estimador(poblacion2, tamaño_muestra)
  resultados_estimador2[i] <- muestra2
}

# Análisis de simetría y sesgo
hist(resultados_estimador1, main="Histograma de proporciones muestrales1 para porcentaje de plantas enfermas=10%", xlab="Proporción muestral", breaks=30)

hist(resultados_estimador2, main="Histograma de proporciones muestrales2 para porcentaje de plantas enfermas=90%", xlab="Proporción muestral", breaks=30)

print(paste("Porcentaje de plantas enfermas: 10% \n"))

## [1] "Porcentaje de plantas enfermas: 10% \n"

media1 <- mean(resultados_estimador1)
print(paste("Media : ",media1))

## [1] "Media :  0.102496"

sesgo1 <- media1- 0.1
print(paste("sesgo: ",sesgo1))

## [1] "sesgo:  0.002496"

var_estimador1 <- var(resultados_estimador1)
print(paste("Varianza: ",var_estimador1))

## [1] "Varianza:  9.27394629258517e-05"

print(paste("Porcentaje de plantas enfermas: 90% \n"))

## [1] "Porcentaje de plantas enfermas: 90% \n"

media2 <- mean(resultados_estimador2)
print(paste("Media : ",media2))

## [1] "Media :  0.898744"

sesgo2 <- media2- 0.9
print(paste("sesgo: ",sesgo2))

## [1] "sesgo:  -0.00125600000000003"

var_estimador2 <- var(resultados_estimador2)
print(paste("Varianza: ",var_estimador2))

## [1] "Varianza:  8.80225090180362e-05"

Análisis simetria, sesgo y variación

Al observar los histogramas correspondientes a cada porcentaje de plantas enfermas, es notable la simetría en la distribución de las estimaciones de la proporción muestral. Esta simetría sugiere que las estimaciones tienden a agruparse alrededor de un valor central, lo que es un indicativo de un bajo sesgo. Este análisis se respalda aún más al observar los valores de sesgo calculados, los cuales son muy cercanos a cero. Para el caso del 10% de plantas enfermas, el sesgo es de 0.002496, mientras que para el 90% de plantas enfermas, el sesgo es de -0.001256. En ambos casos, los sesgos son prácticamente nulos, lo que indica que las estimaciones están centradas alrededor del valor real de la proporción.

Además, la baja varianza en ambos escenarios refuerza la idea de que las estimaciones de la proporción muestral son consistentes y tienden a estar cerca de su media. Esto se traduce en una varianza pequeña, lo que significa que los valores de las estimaciones no varían significativamente con respecto a su valor promedio.

Ademas es muy importanyte resaltar que, en todos los casos, los sesgos son relativamente pequeños en valor absoluto. Esto sugiere que las estimaciones tienden a estar bastante cerca de la proporción real, lo que es una indicación positiva de la validez del Teorema del Límite Central. Sin embargo, los sesgos varían en dirección según el porcentaje real de plantas enfermas en la población.

tamanos_muestra <- c(5, 10, 15, 20, 30, 50, 60, 100, 200, 500)
print(paste("Porcentaje de plantas enfermas: 10% \n"))

## [1] "Porcentaje de plantas enfermas: 10% \n"

for (n_muestra in tamanos_muestra) {
  resultados_estimador1 <- replicate(n_simulaciones, muestra_estimador(poblacion1, n_muestra))
  
  # Prueba de Shapiro-Wilk
  shapiro_test <- shapiro.test(resultados_estimador1)
  print(shapiro_test)
  
  # Gráfico de normalidad
  qqnorm(resultados_estimador1, main = paste("QQ-Plot, n =", n_muestra))
  qqline(resultados_estimador1)
  
  # Comentar resultados
  print(paste("Tamaño de muestra:", n_muestra))
  print(paste("Shapiro-Wilk p-value:", shapiro_test$p.value))
}

## 
##  Shapiro-Wilk normality test
## 
## data:  resultados_estimador1
## W = 0.67709, p-value < 2.2e-16

## [1] "Tamaño de muestra: 5"
## [1] "Shapiro-Wilk p-value: 9.33521571718581e-30"
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados_estimador1
## W = 0.84053, p-value < 2.2e-16

## [1] "Tamaño de muestra: 10"
## [1] "Shapiro-Wilk p-value: 5.19252371656721e-22"
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados_estimador1
## W = 0.89264, p-value < 2.2e-16

## [1] "Tamaño de muestra: 15"
## [1] "Shapiro-Wilk p-value: 3.29458069470375e-18"
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados_estimador1
## W = 0.91935, p-value = 1.06e-15

## [1] "Tamaño de muestra: 20"
## [1] "Shapiro-Wilk p-value: 1.05987147471932e-15"
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados_estimador1
## W = 0.94875, p-value = 3.845e-12

## [1] "Tamaño de muestra: 30"
## [1] "Shapiro-Wilk p-value: 3.84458935706495e-12"
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados_estimador1
## W = 0.96532, p-value = 1.757e-09

## [1] "Tamaño de muestra: 50"
## [1] "Shapiro-Wilk p-value: 1.7566701412616e-09"
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados_estimador1
## W = 0.97437, p-value = 1.12e-07

## [1] "Tamaño de muestra: 60"
## [1] "Shapiro-Wilk p-value: 1.11996897807292e-07"
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados_estimador1
## W = 0.98213, p-value = 8.088e-06

## [1] "Tamaño de muestra: 100"
## [1] "Shapiro-Wilk p-value: 8.08818320440799e-06"
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados_estimador1
## W = 0.99158, p-value = 0.006184

## [1] "Tamaño de muestra: 200"
## [1] "Shapiro-Wilk p-value: 0.00618393390659231"
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados_estimador1
## W = 0.99178, p-value = 0.007249

## [1] "Tamaño de muestra: 500"
## [1] "Shapiro-Wilk p-value: 0.00724919889773392"

print(paste("Porcentaje de plantas enfermas: 90% \n"))

## [1] "Porcentaje de plantas enfermas: 90% \n"

for (n_muestra in tamanos_muestra) {
  resultados_estimador2 <- replicate(n_simulaciones, muestra_estimador(poblacion2, n_muestra))
  
  # Prueba de Shapiro-Wilk
  shapiro_test <- shapiro.test(resultados_estimador2)
  print(shapiro_test)
  
  # Gráfico de normalidad
  qqnorm(resultados_estimador2, main = paste("QQ-Plot, n =", n_muestra))
  qqline(resultados_estimador2)
  
  # Comentar resultados
  print(paste("Tamaño de muestra:", n_muestra))
  print(paste("Shapiro-Wilk p-value:", shapiro_test$p.value))
}

## 
##  Shapiro-Wilk normality test
## 
## data:  resultados_estimador2
## W = 0.71518, p-value < 2.2e-16

## [1] "Tamaño de muestra: 5"
## [1] "Shapiro-Wilk p-value: 2.74710109939113e-28"
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados_estimador2
## W = 0.84354, p-value < 2.2e-16

## [1] "Tamaño de muestra: 10"
## [1] "Shapiro-Wilk p-value: 8.08398554433445e-22"
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados_estimador2
## W = 0.88333, p-value < 2.2e-16

## [1] "Tamaño de muestra: 15"
## [1] "Shapiro-Wilk p-value: 5.63563487015288e-19"
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados_estimador2
## W = 0.92573, p-value = 5.124e-15

## [1] "Tamaño de muestra: 20"
## [1] "Shapiro-Wilk p-value: 5.12426447231444e-15"
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados_estimador2
## W = 0.9576, p-value = 8.367e-11

## [1] "Tamaño de muestra: 30"
## [1] "Shapiro-Wilk p-value: 8.36707513619835e-11"
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados_estimador2
## W = 0.97377, p-value = 8.301e-08

## [1] "Tamaño de muestra: 50"
## [1] "Shapiro-Wilk p-value: 8.30131986767019e-08"
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados_estimador2
## W = 0.97971, p-value = 1.951e-06

## [1] "Tamaño de muestra: 60"
## [1] "Shapiro-Wilk p-value: 1.95076256948616e-06"
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados_estimador2
## W = 0.98543, p-value = 6.655e-05

## [1] "Tamaño de muestra: 100"
## [1] "Shapiro-Wilk p-value: 6.65540609182676e-05"
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados_estimador2
## W = 0.99005, p-value = 0.001846

## [1] "Tamaño de muestra: 200"
## [1] "Shapiro-Wilk p-value: 0.00184621253529977"
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados_estimador2
## W = 0.99435, p-value = 0.0611

## [1] "Tamaño de muestra: 500"
## [1] "Shapiro-Wilk p-value: 0.0611002537570506"

Análisis Shapiro-Wilk y gráficos de normalidad para 10% y 90% de las plantas enfermas

En el análisis de los resultados de la prueba de Shapiro-Wilk y los gráficos de normalidad para el caso en que el 10% de las plantas están enfermas, se observa una tendencia que varía según el tamaño de las muestras. Inicialmente, para tamaños de muestra más pequeños, los valores de “p” y “W” son más bajos, lo que podría indicar una posible desviación de la normalidad en los datos. Sin embargo, a medida que aumenta el tamaño de la muestra, el valor de “W” aumenta significativamente, lo que sugiere una mayor conformidad con una distribución normal, pero es importante destacar que, incluso cuando el tamaño de la muestra llega a 500, el valor de “p” nunca supera el umbral de 0.05, lo que implica que existe evidencia estadística para rechazar la hipótesis nula de que los datos siguen una distribución normal.

No obstante, es interesante notar que el valor de “W” se acerca mucho a 1 a medida que el tamaño de la muestra crece. Esto podría sugerir que, a pesar de la significación estadística en las pruebas de normalidad, la desviación de la normalidad es leve y que los datos podrían aproximarse a una distribución normal en la práctica.

En el caso en el que el 90% de las plantas están enfermas, se observa un comportamiento similar al caso del 10%, pero con una diferencia importante. A diferencia del 10%, en el caso del 90% se alcanza un valor de “p” que supera el umbral de 0.05 a partir de un tamaño de muestra de n=200. Esto indica una mayor adaptabilidad de los datos a una distribución normal en comparación con el caso del 10%. Además, es importante destacar que al comparar los valores de “p” de los casos del 90% y el 10% con respecto al caso del 50%, se observa que en los casos del 10% y el 90%, los valores de “p” al principio son del orden de -16, es decir, muy pequeños, mientras que en el caso del 50%, el orden de “p” más pequeño es -9.

Esta diferencia en los valores de “p” sugiere que, en los casos del 10% y el 90%, los datos muestran una desviación inicial de la normalidad más pronunciada en comparación con el caso del 50%. Sin embargo, a medida que aumenta el tamaño de la muestra, todos los casos muestran una mayor aproximación a una distribución normal, pero el caso del 90% muestra una adaptación más rápida en comparación con el caso del 10%.

Esta tendencia se hace evidente al observar los gráficos de normalidad. A medida que el tamaño de la muestra aumenta, los puntos en el gráfico muestran una progresiva aproximación a la linea diagonal. Esta aproximación indica una correspondencia cada vez mayor entre los cuantiles observados y los cuantiles esperados de una distribución normal. Sin embargo, es importante destacar que este proceso de acoplamiento es más lento en comparación con el caso en el que el 50% de las plantas están enfermas. Incluso cuando el tamaño de la muestra alcanza 500, no se logra una coincidencia exacta con una distribución normal, y el desacoplamiento es más evidente en el rango de tamaños de muestra desde 5 hasta 500. Este patrón también se replica en el caso en que el 90% de las plantas están enfermas, lo que sugiere que, en general, es más difícil alcanzar la normalidad en estas condiciones.

4. Conlusiones

a) Se evidencia de manera consistente la validez del Teorema del Límite Central en estadística. A través de variaciones en el tamaño de la muestra y el porcentaje de plantas enfermas en el experimento, se constata que, sin importar las condiciones específicas, este teorema sigue siendo aplicable. Esto sugiere que, en muchas situaciones del mundo real, donde las condiciones pueden variar, aún podemos confiar en que las estimaciones de la proporción muestral convergen a una distribución normal a medida que aumenta el tamaño de la muestra.

b) A medida que aumenta el tamaño de la muestra, las estimaciones tienden a ser más precisas y a seguir una distribución normal.Los valores de “p” en la prueba de Shapiro-Wilk y los valores de “W” indican que, a partir de ciertos tamaños de muestra (generalmente alrededor de n=200), los datos se asemejan significativamente a una distribución normal.

c) Los análisis de varianza y sesgo han demostrado que, en general, las estimaciones tienden a agruparse alrededor de la media poblacional a medida que aumenta el tamaño de la muestra. Los valores de varianza bajos indican que las estimaciones son precisas y consistentes. El sesgo tiende a ser bajo o cercano a cero, lo que sugiere que las estimaciones no presentan un sesgo sistemático.

c) A medida que el tamaño de la muestra crece, los sesgos tienden a disminuir, y los datos se acercan más a una distribución normal. Esto proporciona valiosas perspectivas para la toma de decisiones en la recopilación de datos y análisis estadísticos, ya que permiten ajustar las estrategias de muestreo y análisis para obtener estimaciones más precisas y confiables.

Problema 3: Teorema del Límite Central

Yamuna Devi Mena Ramirez

2023-09-08

1. Teorema del Límite Central

El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.

2. Objetivo

Verificar el Teorema del Límite Central a través del análisis del estimador de la proporción muestral en diferentes configuraciones experimentales.

3. Procedimiento

a) Simulación de una Población con n=1000 y un 50% de Plantas Enfermas

Esta sección se enfoca en la simulación de una población compuesta por 1000 individuos, donde el 50% de las plantas se consideran enfermas.

b) Desarrollo de la Función de Muestreo y Cálculo del Estimador

En esta etapa, se desarrollará una función específica que cumplirá dos propósitos: Obtener una muestra aleatoria representativa de la población y calcular el estimador de la proporción muestral (pˆ) para un tamaño de muestra dado (n).

c) Repetición del Proceso y Análisis de los Estimadores

En esta fase, se repetirá el proceso descrito en el punto b un total de 500 veces usando un ciclo for.

Análisis de simetría y sesgo

El objetivo es analizar el comportamiento de los 500 resultados obtenidos del estimador de la proporción muestral (pˆ) Teniendo en cuenta dos aspectos clave:

Para esto a continuación se genera el histograma de proporciones muestrales

- Además, es importante señalar que el estimador utilizado muestra un sesgo muy bajo, específicamente de -0.006056. A pesar de ser negativo, este valor indica una subestimación mínima y, en realidad, prácticamente no sesgada del valor real de la proporción en la población.

d) Repetición de los Puntos B y C para múltiples Tamaños de Muestra

Análisis Shapiro-Wilk y gráficos de normalidad

e) Repetición de la Simulación para Diferentes Proporciones de Plantas Enfermas

En esta etapa final, se repite todo el proceso de simulación tanto para lotes con un 10% de plantas enfermas como para lotes con un 90% de plantas enfermas.

Análisis simetria, sesgo y variación

Análisis Shapiro-Wilk y gráficos de normalidad para 10% y 90% de las plantas enfermas

4. Conlusiones