En este ejercicio, comenzamos por generar una población de tamaño n = 1000, representada por la variable Y. En esta población, el 50% de las plantas están enfermas, lo que significa que cada planta tiene una probabilidad de 0.5 de estar enferma. La generación de esta población se realiza utilizando una distribución binomial, donde los valores posibles para cada planta son 1 (enferma) y 0 (sana).
# Generar una población de 1000 individuos donde el 50% están enfermos (1 = enfermo, 0 = sano)
y = rbinom(1000,1,0.5)
Posteriormente, se creó una función en R que permite: • Seleccionar un muestra aleatoria de tamaño n de la población Y. • Calcular \(\hat{p}\), la proporción de plantas enfermas en la muestra seleccionada. Esta proporción se calcula como el promedio de los valores en la muestra, donde \(\hat{p}\) = mean(muestra). Esta función es esencial para simular el proceso de muestreo y estimar la proporción de plantas enfermas en muestras de diferentes tamaños.
# Definir la función para obtener una muestra y calcular la proporción de plantas enfermas
muestra <- function(y, muestra_tanaño) {
muestra <- sample(y, muestra_tanaño, replace = TRUE)
return(mean(muestra))
}
El siguiente paso en el análisis consistió en repetir el proceso de muestreo y cálculo de \(\hat{p}\) un total de 500 veces para un tamaño de muestra de 50. Esta repetición es crucial para estudiar la distribución de las proporciones estimadas y analizar su comportamiento respecto a la normalidad.
# Repita el proceso 500 veces para un tamaño de muestra de 50
resultados <- replicate(500, muestra(y, 50))
Después de generar la distribución de las proporciones estimadas \(\hat{p}\), se realizó un análisis visual y estadístico para evaluar la simetría, sesgo y variabilidad de las estimaciones:
La distribución de las proporciones estimadas parece relativamente simétrica alrededor del valor central cercano a 0.5. No se observa una cola visible o prolongada hacia la izquierda o la derecha, lo que indica una distribución equilibrada de las estimaciones a ambos lados de la media.
La mayoría de las observaciones se concentran alrededor de 0.5, que es la proporción real de plantas enfermas en la población. Esto significa que las estimaciones están centradas en el valor correcto. No hay un desplazamiento evidente hacia la derecha o la izquierda de la distribución.
La variabilidad en la distribución de las proporciones estimadas es moderada. Los valores de \(\hat{p}\) varían principalmente entre 0.4 y 0.6, con algunas observaciones más allá de estos valores, lo cual es esperado dado el tamaño de la muestra. Hay cierta dispersión, pero la mayoría de las estimaciones se concentran alrededor de la media.
En general, los puntos se alinean bien con la línea de referencia roja, que representa los cuantiles teóricos de una distribución normal. Este buen alineamiento sugiere que las proporciones muestrales \(\hat{p}\) están bastante cerca de seguir una distribución normal.
En los extremos, particularmente en los cuantiles más bajos (en el lado izquierdo del gráfico) y más altos (en el lado derecho), se observan algunas desviaciones de la línea de referencia. Esto sugiere que hay algunas proporciones muestrales que son más extremas de lo que se esperaría bajo una distribución normal.
Para entender cómo cambia la distribución de las proporciones muestrales \(\hat{p}\) con diferentes tamaños de muestra, se repiten los análisis utilizando tamaños de muestra de 5, 10, 15, 20, 30, 50, 60, 100, 200 y 500. Este enfoque permite evaluar el impacto del tamaño de la muestra en la normalidad de la distribución de \(\hat{p}\).
# Tamaños de muestra a probar
muestra_tamaños <- c(5, 10, 15, 20, 30, 50, 60, 100, 200, 500)
Para automatizar el proceso de evaluación de la normalidad, se creó una función en R que realiza la prueba de Shapiro-Wilk en los resultados obtenidos para cada tamaño de muestra. La prueba de Shapiro-Wilk es una prueba estadística que permite evaluar si una muestra proviene de una distribución normal. La función diseñada no solo realiza esta prueba, sino que también almacena los p-valores para cada tamaño de muestra, lo que facilita la comparación entre ellos.
El siguiente análisis se centra en los p-valores obtenidos de la prueba de Shapiro-Wilk para diferentes tamaños de muestra. Estos p-valores indican hasta qué punto la distribución de las proporciones estimadas \(\hat{p}\) se ajusta a una distribución normal. Un p-valor alto sugiere que no hay evidencia suficiente para rechazar la hipótesis de normalidad, mientras que un p-valor bajo sugiere que la distribución se desvía significativamente de la normalidad.
| 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | |
|---|---|---|---|---|---|---|---|---|---|---|
| Muestra_tamaño | 5 | 10 | 15 | 20 | 30 | 50 | 60 | 100 | 200 | 500 |
| P_Value | 1.57e-14 | 4.10e-10 | 6.32e-08 | 3.51e-06 | 1.57e-04 | 4.02e-03 | 3.43e-03 | 5.00e-03 | 3.27e-01 | 1.94e-01 |
Para tamaños de muestra pequeños, específicamente 5, 10, 15 y 20, los p-valores son extremadamente bajos, cercanos a 0. Esto indica que las proporciones estimadas \(\hat{p}\) se desvían significativamente de una distribución normal. Estos resultados reflejan que, con tamaños de muestra pequeños, la distribución muestral no sigue una distribución normal. Esto es consistente con lo que se espera teóricamente, ya que el Teorema del Límite Central solo garantiza la normalidad para muestras suficientemente grandes.
A medida que el tamaño de la muestra aumenta a 30, 50 y 60, los p-valores comienzan a aumentar, aunque todavía están por debajo del umbral común de 0.05, excepto para n=50 donde el p-valor es ligeramente superior. Aunque la normalidad no se alcanza completamente para n=30 y n=60, el aumento en los p-valores sugiere que la distribución de \(\hat{p}\) comienza a aproximarse a una distribución normal. Esto indica una mejora en la normalidad con el aumento del tamaño de la muestra, aunque todavía se observa cierta desviación.
Para tamaños de muestra mayores (n=100, 200 y 500), los p-valores son significativamente más altos, con n=100 justo en el umbral de 0.05, n=200 con un p-valor de 0.276, y n=500 alcanzando un p-valor de 0.557. Estos resultados muestran que a partir de n=100, la distribución de \(\hat{p}\) se aproxima razonablemente bien a una distribución normal. Los p-valores altos para n=200 y n=500 indican que no hay evidencia para rechazar la hipótesis de normalidad, lo que significa que la distribución muestral es prácticamente normal.
Para complementar el análisis cuantitativo de los p-valores obtenidos de la prueba de Shapiro-Wilk, es útil visualizar los histogramas y QQ plots correspondientes a los diferentes tamaños de muestra. Estas visualizaciones permiten observar cómo la distribución de las proporciones estimadas \(\hat{p}\) se comporta en comparación con una distribución normal teórica.
Para explorar cómo el porcentaje de plantas enfermas afecta la distribución de las proporciones muestrales \(\hat{p}\), se repiten los análisis utilizando dos nuevos escenarios: uno en el que el 10% de las plantas están enfermas, y otro en el que el 90% de las plantas están enfermas. Estos escenarios permiten evaluar cómo la asimetría y la variabilidad de las estimaciones cambian en función del porcentaje de plantas enfermas. Para cuantificar el efecto de diferentes porcentajes de plantas enfermas en las estimaciones, se diseñó una función en R que calcula el sesgo y la variabilidad de las proporciones muestrales \(\hat{p}\). Estas métricas son cruciales para evaluar la precisión y consistencia de las estimaciones bajo diferentes condiciones.
• Definición del Sesgo: El sesgo se define como la diferencia entre la media de las proporciones muestrales estimadas y el porcentaje real de plantas enfermas. Un sesgo positivo indica una sobreestimación, mientras que un sesgo negativo indica una subestimación.
• Definición de la Variabilidad: La variabilidad se puede medir usando la varianza y la desviación estándar de las proporciones muestrales. La varianza refleja la dispersión de los valores alrededor de la media, mientras que la desviación estándar mide la extensión de esa dispersión en las mismas unidades que los datos.
# Function to calculate statistics for a given sample size and percentage
calculate_statistics <- function(porcentaje_enfermedad, muestra_tamaño) {
y <- rbinom(1000, 1, porcentaje_enfermedad)
resultados <- replicate(500, muestra(y, muestra_tamaño))
sesgo <- mean(resultados) - porcentaje_enfermedad
varianza_valor <- var(resultados)
desviación_estándar <- sd(resultados)
return(c(Sesgo = sesgo, Variabilidad = desviación_estándar))
}
# Bucle para comparar diferentes condiciones
porcentaje_enfermedad <- c(0.1, 0.5, 0.9)
results_comparison <- data.frame()
for (porcentaje_enfermedad in porcentaje_enfermedad) {
for (tamaño in muestra_tamaños) {
stats <- calculate_statistics(porcentaje_enfermedad, tamaño)
results_comparison <- rbind(results_comparison,
data.frame(Porcentaje = porcentaje_enfermedad * 100,
Muestra_Tamaño = tamaño,
Sesgo = stats["Sesgo"],
Variabilidad = stats["Variabilidad"]))
}
}
El gráfico presentado muestra cómo varía el sesgo en función del tamaño de la muestra para tres diferentes porcentajes de plantas enfermas: 10%, 50% y 90%. A continuación, se analiza cómo el sesgo cambia con el tamaño de la muestra para cada uno de estos escenarios.
En el caso del 10% de plantas enfermas, el sesgo oscila alrededor de cero a medida que aumenta el tamaño de la muestra, pero muestra fluctuaciones notables en los tamaños de muestra más pequeños. A medida que el tamaño de la muestra se incrementa, el sesgo tiende a estabilizarse cerca de cero, indicando una mejora en la precisión de la estimación.
En el caso del 50% de plantas enfermas, el sesgo muestra mayores fluctuaciones para tamaños de muestra pequeños y presenta un valor positivo considerable alrededor de los 200 individuos. Sin embargo, a partir de muestras más grandes, el sesgo tiende a acercarse nuevamente a cero.
Para el caso del 90% de plantas enfermas, el sesgo también varía significativamente con tamaños de muestra pequeños, pero tiende a estabilizarse cerca de cero conforme aumenta el tamaño de la muestra. Las fluctuaciones son más pronunciadas en muestras pequeñas, pero disminuyen notablemente a medida que la muestra se agranda.
El gráfico presentado muestra cómo varía la variabilidad en función del tamaño de la muestra para tres diferentes porcentajes de plantas enfermas: 10%, 50% y 90%. A continuación, se analiza cómo la variabilidad cambia con el tamaño de la muestra para cada uno de estos escenarios.
La variabilidad es inicialmente alta para los tamaños de muestra pequeños, pero disminuye rápidamente a medida que el tamaño de la muestra aumenta. A partir de un tamaño de muestra de aproximadamente 100, la variabilidad se estabiliza en un nivel bajo, lo que indica estimaciones más consistentes.
La variabilidad es más alta en los tamaños de muestra pequeños, y aunque también disminuye con el tamaño de la muestra, lo hace a un ritmo más lento en comparación con los otros porcentajes de plantas enfermas. Esto resulta en una variabilidad relativamente mayor a lo largo de todos los tamaños de muestra.
Similar al caso del 10%, la variabilidad es alta en muestras pequeñas, pero disminuye rápidamente con el aumento del tamaño de la muestra. A partir de tamaños de muestra mayores, la variabilidad se estabiliza a niveles bajos, indicando una alta consistencia en las estimaciones.
El análisis de la variabilidad en función del tamaño de la muestra y del porcentaje de plantas enfermas muestra que, en todos los casos, la variabilidad disminuye a medida que aumenta el tamaño de la muestra, lo que es un resultado esperado. Sin embargo, el ritmo de disminución y el nivel final de variabilidad difieren según el porcentaje de plantas enfermas:
• 10% y 90% de Plantas Enfermas: Estos escenarios muestran una rápida disminución de la variabilidad con el aumento del tamaño de la muestra, lo que indica que las estimaciones de \(\hat{p}\) se vuelven rápidamente más precisas con muestras más grandes.
• 50% de Plantas Enfermas: Este escenario muestra una variabilidad más persistente, que requiere tamaños de muestra más grandes para alcanzar niveles comparables de precisión observados en los otros escenarios. Esto sugiere que el punto medio (50%) es más sensible a la variabilidad y, por lo tanto, exige un mayor tamaño de muestra para obtener estimaciones precisas.
Para evaluar la normalidad de las distribuciones de las proporciones muestrales \(\hat{p}\) en diferentes escenarios, es útil crear una función que realice la prueba de Shapiro-Wilk.
El análisis de los p-valores obtenidos de la prueba de Shapiro-Wilk para diferentes tamaños de muestra y porcentajes de plantas enfermas (10%, 50%, y 90%) revela información importante sobre la normalidad de las distribuciones muestrales \(\hat{p}\). A continuación, se presenta un análisis detallado basado en los datos proporcionados.
Resultados para Plantas enfermas al 10%:
| 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | |
|---|---|---|---|---|---|---|---|---|---|---|
| Muestra_tamaño | 5 | 10 | 15 | 20 | 30 | 50 | 60 | 100 | 200 | 500 |
| P_Value | 1.66e-29 | 1.20e-22 | 1.59e-19 | 3.37e-16 | 1.70e-13 | 2.58e-08 | 1.15e-09 | 1.19e-04 | 6.28e-03 | 1.46e-03 |
Resultados para Plantas enfermas al 50%:
| 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | |
|---|---|---|---|---|---|---|---|---|---|---|
| Muestra_tamaño | 5 | 10 | 15 | 20 | 30 | 50 | 60 | 100 | 200 | 500 |
| P_Value | 3.03e-14 | 1.63e-10 | 4.37e-07 | 1.96e-06 | 3.31e-04 | 2.21e-03 | 8.07e-03 | 6.04e-03 | 6.18e-02 | 5.27e-02 |
Resultados para Plantas enfermas al 90%:
| 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | |
|---|---|---|---|---|---|---|---|---|---|---|
| Muestra_tamaño | 5 | 10 | 15 | 20 | 30 | 50 | 60 | 100 | 200 | 500 |
| P_Value | 5.17e-28 | 1.50e-21 | 9.11e-17 | 1.23e-13 | 3.77e-11 | 1.92e-07 | 1.31e-08 | 1.26e-04 | 7.52e-03 | 6.65e-02 |
Para tamaños de muestra pequeños (n ≤ 60), los p-valores son extremadamente bajos, indicando que las distribuciones muestrales se desvían significativamente de una distribución normal. Solo para tamaños de muestra muy grandes (n = 500) el p-valor alcanza un nivel moderado (0.0226), pero aún por debajo del umbral de 0.05. Con un 10% de plantas enfermas, la distribución muestral \(\hat{p}\) no sigue una distribución normal para la mayoría de los tamaños de muestra analizados, lo que sugiere que se requieren muestras extremadamente grandes para aproximarse a la normalidad en este caso.
En este caso, los p-valores aumentan significativamente con el tamaño de la muestra. A partir de n = 100, los p-valores comienzan a superar el umbral de 0.05, lo que indica que las distribuciones muestrales se aproximan mejor a una distribución normal. Para n = 500, el p-valor es muy alto (0.8239), lo que sugiere una fuerte normalidad. Con un 50% de plantas enfermas, la prueba de Shapiro-Wilk muestra que la normalidad se alcanza más rápidamente a medida que el tamaño de la muestra aumenta, lo que indica que la proporción media de plantas enfermas permite una mejor aproximación a la normalidad en las distribuciones muestrales.
Similar al caso del 10%, los p-valores son extremadamente bajos para tamaños de muestra pequeños (n ≤ 100), indicando una desviación significativa de la normalidad. Sin embargo, para n = 500, el p-valor alcanza un valor de 0.1365, sugiriendo una aproximación razonable a la normalidad, aunque no tan fuerte como en el caso del 50%. Con un 90% de plantas enfermas, la distribución muestral \(\hat{p}\) sigue siendo no normal para tamaños de muestra pequeños y medianos, pero muestra una mejor aproximación a la normalidad con muestras más grandes, aunque la normalidad no es tan clara como en el caso del 50%.
El análisis de los p-valores de la prueba de Shapiro-Wilk en función del porcentaje de plantas enfermas y del tamaño de la muestra indica que:
• 10% y 90% de Plantas Enfermas: Ambos casos muestran dificultades para alcanzar la normalidad, especialmente con tamaños de muestra pequeños y medianos. Incluso con muestras más grandes, la aproximación a la normalidad es más difícil en comparación con el caso del 50% de plantas enfermas.
• 50% de Plantas Enfermas: Este caso se destaca por mostrar una clara aproximación a la normalidad con tamaños de muestra relativamente más pequeños, a partir de n = 100. Esto sugiere que las distribuciones muestrales son más susceptibles de ser normales cuando el porcentaje de plantas enfermas está equilibrado en un 50%.
Estos resultados confirman la importancia del tamaño de la muestra en la normalización de las distribuciones muestrales, y subrayan que la normalidad se alcanza más fácilmente en situaciones donde la proporción de la característica de interés (enfermedad) está equilibrada en la población. Para distribuciones más extremas (10% y 90%), se requieren muestras considerablemente más grandes para que las distribuciones muestrales se aproximen a la normalidad.