Problema 1

Estimación del valor de π

La siguiente figura sugiere como estimar el valor de π con una simulación. En la figura, un círcuito con un área igual a π/4, está inscrito en un cuadrado cuya área es igual a 1. Se elige de forma aleatoria n puntos dentro del cuadrado. La probabilidad de que un punto esté dentro del círculo es igual a la fracción del área del cuadrado que abarca a éste, la cual es π/4. Por tanto, se puede estimar el valor de π/4 al contar el número de puntos dentro del círculo, para obtener la estimación de π/4. De este último resultado se encontrar una aproximación para el valor de π.

plot(0,0, type = "n", xlim = c(0,1), ylim = c(0,1),
     xlab = "Eje X", ylab = "Eje Y", asp = 1,
     main = "Círculo Inscrito en un Cuadrado")
symbols(0.5,0.5, circles = 0.5, add = TRUE, inches = FALSE, lwd = 2, col = "blue")

Pasos sugeridos:

  1. Genere n coordenadas \(x: X_1, \ldots, X_n\). Utilice la distribución uniforme con valor mínimo de 0 y valor máximo de 1. La distribución uniforme genera variables aleatorias que tienen la misma probabilidad de venir de cualquier parte del intervalo \((0, 1)\).

  2. Genere 1000 coordenadas \(y: Y_1, \ldots, Y_n\), utilizando nuevamente la distribución uniforme con valor mínimo de 0 y valor máximo de 1.

  3. Cada punto \((X_i, Y_i)\) se encuentra dentro del círculo si su distancia desde el centro \((0.5, 0.5)\) es menor a 0.5. Para cada par \((X_i, Y_i)\) determine si la distancia desde el centro es menor que 0.5. Esto último se puede realizar al calcular el valor \((X_i - 0.5)^2 + (Y_i - 0.5)^2\), que es el cuadrado de la distancia, y al determinar si es menor que 0.25.

  4. ¿Cuántos de los puntos están dentro del círculo? ¿Cuál es su estimación de \(\pi\)?

Nota

  • Con sólo 1000 puntos, es probable que la estimación presente un error de 0.05 o más. Una simulación con 10000 y 100000 puntos tiene mayores probabilidades de dar como resultado una estimación muy cercana al valor verdadero.

  • Funciones recomendadas: runif(), function(){}.

  • Entregable: enlace en RPubs con informe 1.

Problema tomado de Navidi (2006).

Análisis

En este análisis, se utiliza el método de Monte Carlo para estimar el valor de \(\pi\) generando puntos aleatorios en un cuadrado de lado 1 y contando cuántos de esos puntos caen dentro de un círculo inscrito. Este enfoque permite aproximar el valor de \(\pi\) a medida que aumenta la cantidad de puntos generados.

A continuación, se muestran gráficos que representan las estimaciones de \(\pi\) para diferentes tamaños de muestra: 100, 1000, 10,000, 100,000 y 1,000,000 puntos. En cada gráfico, los puntos dentro del círculo se muestran en azul, mientras que los puntos fuera del círculo aparecen en rojo. Acompañando los gráficos, se presenta una tabla que muestra el número de puntos dentro del círculo, la estimación de \(\pi\), el error absoluto y el error relativo para cada simulación.

El objetivo es observar cómo la estimación de \(\pi\) mejora conforme aumenta el número de puntos generados, lo que permite una mayor precisión en la estimación y una reducción en los errores.

n <- 100

x <- runif(n, min = 0, max = 1)
y <- runif(n, min = 0, max = 1)

distancia_cuadrada <- (x - 0.5)^2 + (y - 0.5)^2

dentro_del_circulo <- distancia_cuadrada < 0.25
num_dentro_del_circulo <- sum(dentro_del_circulo)

pi_estimado <- 4 * num_dentro_del_circulo / n

plot(x, y, col = ifelse(dentro_del_circulo, "#164C51", "#701c00"), asp = 1, main = "Estimación de π usando Monte Carlo (100)")
symbols(0.5, 0.5, circles = 0.5, add = TRUE, inches = FALSE)

pi_real <- pi
error_absoluto <- abs(pi_estimado - pi_real)
error_relativo <- error_absoluto / pi_real

resultados_df <- data.frame(
  'Puntos Dentro Circulo' = num_dentro_del_circulo,
  'Estimacion de Pi' = round(pi_estimado, 6),
  'Error Absoluto' = round(error_absoluto, 6),
  'Error Relativo' = round(error_relativo, 6)
)

pander(resultados_df, caption = "Resultados de la Estimación de π con 100 datos", digits = 6, split.tables = Inf)
Resultados de la Estimación de π con 100 datos
Puntos.Dentro.Circulo Estimacion.de.Pi Error.Absoluto Error.Relativo
81 3.24 0.098407 0.031324
n <- 1000

x <- runif(n, min = 0, max = 1)
y <- runif(n, min = 0, max = 1)

distancia_cuadrada <- (x - 0.5)^2 + (y - 0.5)^2

dentro_del_circulo <- distancia_cuadrada < 0.25
num_dentro_del_circulo <- sum(dentro_del_circulo)

pi_estimado <- 4 * num_dentro_del_circulo / n

plot(x, y, col = ifelse(dentro_del_circulo, "#164C51", "#701c00"), asp = 1, main = "Estimación de π usando Monte Carlo (1000)")
symbols(0.5, 0.5, circles = 0.5, add = TRUE, inches = FALSE)

pi_real <- pi
error_absoluto <- abs(pi_estimado - pi_real)
error_relativo <- error_absoluto / pi_real

resultados_df <- data.frame(
  'Puntos Dentro Circulo' = num_dentro_del_circulo,
  'Estimacion de Pi' = round(pi_estimado, 6),
  'Error Absoluto' = round(error_absoluto, 6),
  'Error Relativo' = round(error_relativo, 6)
)

pander(resultados_df, caption = "Resultados de la Estimación de π con 1000 datos", digits = 6, split.tables = Inf)
Resultados de la Estimación de π con 1000 datos
Puntos.Dentro.Circulo Estimacion.de.Pi Error.Absoluto Error.Relativo
757 3.028 0.113593 0.036158
n <- 10000

x <- runif(n, min = 0, max = 1)
y <- runif(n, min = 0, max = 1)

distancia_cuadrada <- (x - 0.5)^2 + (y - 0.5)^2

dentro_del_circulo <- distancia_cuadrada < 0.25
num_dentro_del_circulo <- sum(dentro_del_circulo)

pi_estimado <- 4 * num_dentro_del_circulo / n

plot(x, y, col = ifelse(dentro_del_circulo, "#164C51", "#701c00"), asp = 1, main = "Estimación de π usando Monte Carlo (10000)")
symbols(0.5, 0.5, circles = 0.5, add = TRUE, inches = FALSE)

pi_real <- pi
error_absoluto <- abs(pi_estimado - pi_real)
error_relativo <- error_absoluto / pi_real

resultados_df <- data.frame(
  'Puntos Dentro Circulo' = num_dentro_del_circulo,
  'Estimacion de Pi' = round(pi_estimado, 6),
  'Error Absoluto' = round(error_absoluto, 6),
  'Error Relativo' = round(error_relativo, 6)
)

pander(resultados_df, caption = "Resultados de la Estimación de π con 10.000 datos", digits = 6, split.tables = Inf)
Resultados de la Estimación de π con 10.000 datos
Puntos.Dentro.Circulo Estimacion.de.Pi Error.Absoluto Error.Relativo
7898 3.1592 0.017607 0.005605
n <- 100000

x <- runif(n, min = 0, max = 1)
y <- runif(n, min = 0, max = 1)

distancia_cuadrada <- (x - 0.5)^2 + (y - 0.5)^2

dentro_del_circulo <- distancia_cuadrada < 0.25
num_dentro_del_circulo <- sum(dentro_del_circulo)

pi_estimado <- 4 * num_dentro_del_circulo / n

plot(x, y, col = ifelse(dentro_del_circulo, "#164C51", "#701c00"), asp = 1, main = "Estimación de π usando Monte Carlo (100000)")
symbols(0.5, 0.5, circles = 0.5, add = TRUE, inches = FALSE)

pi_real <- pi
error_absoluto <- abs(pi_estimado - pi_real)
error_relativo <- error_absoluto / pi_real

resultados_df <- data.frame(
  'Puntos Dentro Circulo' = num_dentro_del_circulo,
  'Estimacion de Pi' = round(pi_estimado, 6),
  'Error Absoluto' = round(error_absoluto, 6),
  'Error Relativo' = round(error_relativo, 6)
)

pander(resultados_df, caption = "Resultados de la Estimación de π con 100.000 datos", digits = 6, split.tables = Inf)
Resultados de la Estimación de π con 100.000 datos
Puntos.Dentro.Circulo Estimacion.de.Pi Error.Absoluto Error.Relativo
78473 3.13892 0.002673 0.000851
n <- 1000000

x <- runif(n, min = 0, max = 1)
y <- runif(n, min = 0, max = 1)

distancia_cuadrada <- (x - 0.5)^2 + (y - 0.5)^2

dentro_del_circulo <- distancia_cuadrada < 0.25
num_dentro_del_circulo <- sum(dentro_del_circulo)

pi_estimado <- 4 * num_dentro_del_circulo / n

plot(x, y, col = ifelse(dentro_del_circulo, "#164C51", "#701c00"), asp = 1, main = "Estimación de π usando Monte Carlo (1000000)")
symbols(0.5, 0.5, circles = 0.5, add = TRUE, inches = FALSE)

pi_real <- pi
error_absoluto <- abs(pi_estimado - pi_real)
error_relativo <- error_absoluto / pi_real

resultados_df <- data.frame(
  'Puntos Dentro Circulo' = num_dentro_del_circulo,
  'Estimacion de Pi' = round(pi_estimado, 6),
  'Error Absoluto' = round(error_absoluto, 6),
  'Error Relativo' = round(error_relativo, 6)
)

pander(resultados_df, caption = "Resultados de la Estimación de π con 1'000.000 datos", digits = 6, split.tables = Inf)
Resultados de la Estimación de π con 1’000.000 datos
Puntos.Dentro.Circulo Estimacion.de.Pi Error.Absoluto Error.Relativo
785398 3.14159 1e-06 0

Resultados

Se procede a analizar las tendencias de las muestras en una tabla, para observar cómo, a medida que se incrementa el tamaño de las muestras, la estimación se aproxima cada vez más a π.

options(scipen = 999)

estimacion_pi <- function(n) {
  x <- runif(n, min = 0, max = 1)
  y <- runif(n, min = 0, max = 1)
  distancia_cuadrada <- (x - 0.5)^2 + (y - 0.5)^2
  dentro_del_circulo <- distancia_cuadrada < 0.25
  num_dentro_del_circulo <- sum(dentro_del_circulo)
  pi_estimado <- 4 * num_dentro_del_circulo / n
  pi_real <- pi
  error_absoluto <- abs(pi_estimado - pi_real)
  return(c(pi_estimado, error_absoluto))
}

tamanos_muestra <- c(100, 1000, 10000, 100000, 1000000)

resultados <- sapply(tamanos_muestra, function(n) estimacion_pi(n))

resultados_df <- data.frame(
  'Tamaño muestra' = tamanos_muestra,
  'Estimacion pi' = round(resultados[1, ], 4),
  'Error absoluto' = round(resultados[2, ], 4)
)

kable(resultados_df, col.names = c("Tamaño de Muestra", "Estimación de π", "Error Absoluto"),
      digits = 6, align = "c", format = "pandoc")
Tamaño de Muestra Estimación de π Error Absoluto
100 3.2000 0.0584
1000 3.1440 0.0024
10000 3.1692 0.0276
100000 3.1434 0.0018
1000000 3.1412 0.0004

En la siguiente gráfica se puede observar una ligera desviación en la estimación en comparación con el tamaño de muestra anterior, está desviación varia entre las muestras, lo cual puede ser atribuido a la fluctuación inherente en la estimación con muestras grandes. A medida que el tamaño de la muestra aumenta, la estimación de π tiende a acercarse más al valor verdadero de π, reduciendo el error absoluto. Aunque la tendencia general muestra una mejora en la estimación con el aumento del tamaño de la muestra, se observa una ligera fluctuación en el error absoluto entre tamaños de muestra grandes (por ejemplo, entre 10,000 y 100,000), lo cual puede deberse a la variabilidad inherente en la simulación y no necesariamente a un problema en el método. Por lo tanto, se procede a revisar los datos para identificar el número de muestras requerido para minimizar el error absoluto a su mínima expresión.

n_sim <- seq(100000, 1000000, by = 10000)

pi_estimados <- numeric(length(n_sim))
errores_absolutos <- numeric(length(n_sim))

for (i in 1:length(n_sim)) {
  n <- n_sim[i]
  x <- runif(n, min = 0, max = 1)
  y <- runif(n, min = 0, max = 1)
  distancia_cuadrada <- (x - 0.5)^2 + (y - 0.5)^2
  dentro_del_circulo <- distancia_cuadrada < 0.25
  num_dentro_del_circulo <- sum(dentro_del_circulo)
  pi_estimado <- 4 * num_dentro_del_circulo / n
  pi_estimados[i] <- pi_estimado
  errores_absolutos[i] <- abs(pi_estimado - pi)
}

puntos_cercanos <- which(abs(errores_absolutos) < 1e-4)

plot(n_sim, pi_estimados, type = "l", col = "#1f77b4", lwd = 2,
     xlab = "Tamaño de la Muestra", ylab = "Estimación de π / Error",
     main = "Estimación de π y Error Absoluto")

abline(h = pi, col = "#ff7f0e", lty = 2)

lines(n_sim, errores_absolutos, col = "#2ca02c", lwd = 2)

points(n_sim[puntos_cercanos], pi_estimados[puntos_cercanos], col = "#d62728", pch = 19, cex = 1.5)
points(n_sim[puntos_cercanos], errores_absolutos[puntos_cercanos], col = "#d62728", pch = 19, cex = 1.5)

resultados_puntos_cercanos <- data.frame(
  Tamano_muestra = n_sim[puntos_cercanos],
  Estimacion_pi = pi_estimados[puntos_cercanos],
  Error_absoluto = errores_absolutos[puntos_cercanos]
)

kable(resultados_puntos_cercanos, col.names = c("Tamaño de Muestra", "Estimación de π", "Error Absoluto"),
      caption = "Puntos donde la Estimación de π Coincide con el Valor Real", digits = 6, align = "c")
Puntos donde la Estimación de π Coincide con el Valor Real
Tamaño de Muestra Estimación de π Error Absoluto
340000 3.141576 0.000016
380000 3.141495 0.000098
620000 3.141535 0.000057
890000 3.141640 0.000048
940000 3.141562 0.000031

Conclusión

epsilon <- 0.00001
confidence_level <- 0.99
z_value <- qnorm((1 + confidence_level) / 2)

pi_estimate <- 0.5
n <- (z_value^2 * (pi_estimate * (1 - pi_estimate))) / epsilon^2

n <- ceiling(n)

n_formatted <- formatC(n, format = "f", big.mark = ",", digits = 0)

cat("El número estimado de muestras necesarias es:", n_formatted, "\n")

El número estimado de muestras necesarias es: 16,587,241,503

Este número se tiene en cuenta con una nivel de confianza de 99%, y con un error deseado de 0.00001.

Problema 2

Propiedades de los estimadores:

La simulación ayuda a entender y validar las propiedades de los estimadores estadísticos como son, insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.

Sean X1, X2, X3 y X4, una muestra aleatoria de tamaño n=4 cuya población la conforma una distribución exponencial con parámetro θ desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:

\[ \hat{\theta}_1 = \frac{X_1 + X_2}{6} + \frac{X_3 + X_4}{3} \]

\[ \hat{\theta}_2 = \frac{X_1 + 2X_2 + 3X_3 + 4X_4}{5} \]

\[ \hat{\theta}_3 = \frac{X_1 + X_2 + X_3 + X_4}{4} \]

\[ \hat{\theta}_4 = \frac{\min\{X_1, X_2, X_3, X_4\} + \max\{X_1, X_2, X_3, X_4\}}{2} \]

Nota

  • Genere una muestra de \(n = 20\), 50, 100 y 1000 para cada uno de los estimadores planteados.

  • En cada caso evalúe las propiedades de insesgadez, eficiencia y consistencia.

  • Suponga un valor para el parámetro \(\theta\).

  • Funciones recomendadas: function(){}, rexp(), data.frame(), apply(), boxplot().

  • Entregable: enlace en RPubs con informe 2.

Análisis

En este análisis, se evaluarán las propiedades de los estimadores \(\Theta_1\), \(\Theta_2\), \(\Theta_3\) y \(\Theta_4\) a través de sus sesgos en muestras de distintos tamaños: \(n = 20\), \(n = 50\), \(n = 100\) y \(n = 1000\). A continuación, se presentan tablas y gráficos que ilustran cómo varía el sesgo de cada estimador en función del tamaño de la muestra, así como su eficiencia y consistencia. El análisis se enfoca en identificar patrones de sesgo y cómo el aumento del tamaño de la muestra influye en la precisión de cada estimador.

Se incluirán boxplots que permiten visualizar la dispersión de los resultados para cada uno de los tamaños de muestra, destacando la tendencia de cada estimador con respecto a la mediana y los valores atípicos. Los resultados obtenidos servirán de base para las conclusiones que se presentan posteriormente.

Tabla de Sesgos de los Estimadores para Diferentes Muestras

Tabla de Sesgos de los Estimadores para Diferentes Muestras
  Theta 1 Theta 2 Theta 3 Theta 4
n = 20 -0.01366 1.97 -0.01218 1.633
n = 50 0.001827 2.007 -0.003238 2.523
n = 100 -0.01253 1.977 -0.01454 3.193
n = 1000 -0.01436 1.97 -0.01126 5.46
for (n in sample_sizes) {
  title <- paste("Boxplot para las", n, "muestras")
  Encoding(title) <- "UTF-8"
  boxplot(results[[as.character(n)]],
          main = title,
          names = c("Theta 1", "Theta 2", "Theta 3", "Theta 4"))
  abline(h = 1/10, col = "red")
  grid()
}

Conclusiones

1. Insesgadez: Los estimadores Theta 1 y Theta 3 presentan sesgos cercanos a 0 en todos los tamaños de muestra, lo que sugiere que son insesgados o al menos aproximadamente insesgados. La insesgadez es una propiedad crucial, ya que asegura que, en promedio, el estimador no sobreestima ni subestima el valor verdadero de θ. Esto los convierte en opciones confiables para la estimación de θ.
Aunque el sesgo de Theta 2 es consistente en torno a 2, lo que significa que siempre subestima θ, sigue siendo un estimador sesgado. Esto implica que, en promedio, no proporciona una estimación precisa del valor verdadero de θ. Theta 4 por su parte, muestra un sesgo creciente a medida que el tamaño de la muestra aumenta, lo que indica que también es un estimador sesgado, y su desempeño empeora con tamaños de muestra mayores. Este comportamiento lo hace inadecuado para estimar θ.

2. Consistencia: Respecto a Theta 1 y Theta 3, ambos estimadores mantienen sesgos bajos y estables a medida que aumenta el tamaño de la muestra. Esto indica que son consistentes: a medida que crece el tamaño de la muestra, sus estimaciones se acercan al valor verdadero de θ. La consistencia es una propiedad fundamental, ya que asegura que con más datos, el estimador proporcionará una mejor aproximación al parámetro.
Aunque el sesgo de Theta 2 no cambia mucho con el tamaño de la muestra, la falta de reducción del sesgo sugiere que Theta 2 no es consistente. Incluso con grandes muestras, este estimador no proporciona estimaciones precisas de θ. Finalmente, dado que el sesgo de Theta 4 aumenta con el tamaño de la muestra, no es consistente, un estimador consistente debería mejorar con más datos, no empeorar.

3. Eficiencia: La eficiencia de un estimador se refiere a su varianza. Aunque no tenemos directamente la varianza en estos resultados, los sesgos bajos y consistentes de Theta 1 y Theta 3 sugieren que probablemente sean más eficientes que Theta 2 y Theta 4, cuyos sesgos más grandes indican ineficiencia. Theta 2 y Theta 4 no solo son sesgados, sino que su sesgo no mejora significativamente con muestras más grandes, lo que también implica que no son eficientes.

Problema 3

Teorema del Límite Central:

El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.

A continuación se describen los siguientes pasos para su verificación:

  1. Realice una simulación en la cual genere una población de n=1000 (Lote), donde el porcentaje de individuos (supongamos plantas) enfermas sea del 50%.

  2. Genere una función que permita:

    • Obtener una muestra aleatoria de la población
    • Calcule el estimador de la proporción muestral pˆ para un tamaño de muestra dado n.
  3. Repita el escenario anterior (b) n=500 veces y analice los resultados en cuanto al comportamiento de los 500 resultados del estimador pˆ. ¿Qué tan simétricos o sesgados son los resultados obtenidos? y ¿qué se puede observar en cuanto a la variabilidad?. Realice en su informe un comentario sobre los resultados obtenidos.

  4. Repita los puntos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Compare los resultados obtenidos para los diferentes tamaños de muestra en cuanto a la normalidad. Utilice pruebas de bondad y ajuste (shapiro wilks :shspiro.test()) y métodos gráficos (gráfico de normalidad: qqnorm()). Comente en su informe los resultados obtenidos

  5. Repita toda la simulación (puntos a – d), pero ahora para lotes con 10% de plantas enfermas y de nuevo para lotes con un 90% de plantas enfermas. Concluya sobre los resultados del ejercicio.

Análisis

Punto A - B

## La proporción muestral para una muestra 1000 es: 0.493

Proporción Muestral
La proporción muestral \(\hat{p}\) de 0.493 está muy cerca de la proporción poblacional p de 0.5. Esto es consistente con lo que esperaríamos según el TLC, ya que para muestras grandes, la proporción muestral debería aproximarse a la proporción poblacional.

Distribución Normal
Según el TLC, la distribución de las proporciones muestrales debería aproximarse a una distribución normal con media ( p ) y desviación estándar

Desviación estándar: \[ \sqrt{\frac{p(1-p)}{n}} \]

En este caso, la desviación estándar sería:

\[ \sigma_{\hat{p}} = \sqrt{\frac{0.5 \times (1 - 0.5)}{1000}} = \sqrt{\frac{0.25}{1000}} = \sqrt{0.00025} = 0.0158 \]

Intervalo de Confianza
Un intervalo de confianza del 95% para la proporción muestral se puede calcular como:

\[ \hat{p} \pm 1.96 \times \sigma_{\hat{p}} = 0.493 \pm 1.96 \times 0.0158 \]

Esto da un intervalo de aproximadamente [0.462, 0.524], lo cual incluye la proporción poblacional de 0.5.

Punto C

## Media de las proporciones muestrales: 0.493776
## Desviación estándar de las proporciones muestrales: 0.0165244


Distribución de las Proporciones Muestrales: El histograma muestra una distribución de las proporciones muestrales que está centrada alrededor de la proporción verdadera de 0.5, como se indica por la línea roja vertical. La forma de la distribución sugiere una aproximación a la normalidad, que es lo que se espera según el Teorema del Límite Central, especialmente cuando se trabaja con un tamaño de muestra mayor.

Media de las Proporciones Muestrales: La media de las proporciones muestrales es 0.493776, que está muy cercana a la proporción verdadera de 0.5. Esto indica que, en promedio, las muestras están representando bien la población.

Desviación Estándar de las Proporciones Muestrales: La desviación estándar de 0.0165244 muestra la variabilidad de las proporciones muestrales alrededor de la media. Un valor más bajo indica que las proporciones muestrales están más concentradas cerca de la media.

En conclusión, la media de las proporciones muestrales es cercana a la proporción verdadera y la distribución tiene una forma simétrica, lo que sugiere normalidad. La pequeña desviación estándar refuerza la precisión de las muestras al estimar la proporción verdadera.

Punto D

n_poblacion <- 1000
prob_enfermo <- 0.5
tamano_muestra <- 5
n_simulaciones <- 500

set.seed(123)

poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)

resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))

shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.92403, p-value = 0.000000000000003334
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
  stat_qq() +
  stat_qq_line(col = "red") +
  ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 5)") +
  theme(plot.title = element_text(size = 9))

histograma <- ggplot(data = NULL, aes(x = resultados)) +
  geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
  geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
  ggtitle("Distribución de Proporciones Muestrales (n = 5)") +
  theme(plot.title = element_text(size = 9)) +
  xlab("Proporción Muestral")

grid.arrange(qqplot, histograma, ncol = 2)

Normalidad de los Datos: El p-valor es extremadamente bajo (3.334e-15), mucho menor que cualquier nivel de significancia común (como 0.05 o 0.01). Esto significa que hay evidencia muy fuerte en contra de la hipótesis nula de que los datos provienen de una distribución normal, por lo tanto, podemos concluir que los datos no siguen una distribución normal.

Teorema del Límite Central (TLC): El TLC establece que para muestras suficientemente grandes, la distribución de la media muestral se aproximará a una distribución normal, independientemente de la distribución original de los datos. Sin embargo, el TLC se aplica principalmente a la distribución de las medias muestrales y no necesariamente a la distribución de los datos individuales. En este caso, aunque los datos individuales no sean normales, si se toman muchas muestras y calculan sus medias, esas medias deberían aproximarse a una distribución normal si el tamaño de la muestra es suficientemente grande.
El hecho de que la prueba de Shapiro-Wilk indique una desviación significativa de la normalidad podría ser esperado, dado el tamaño pequeño de la muestra, en estudios del Teorema del Límite Central, se esperaría que con muestras más grandes (generalmente n > 30), la distribución de las medias muestrales se acerque a la normalidad y la prueba de normalidad daría resultados más consistentes con este teorema; en otras palabras, con un tamaño de muestra de 5, la falta de normalidad observada es coherente con el hecho de que el TLC aún no tiene un efecto fuerte en esta situación específica.

n_poblacion <- 1000
prob_enfermo <- 0.5
tamano_muestra <- 10
n_simulaciones <- 500

set.seed(123)

poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)

resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))

shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.96545, p-value = 0.000000001858
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
  stat_qq() +
  stat_qq_line(col = "red") +
  ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 10)") +
  theme(plot.title = element_text(size = 9))

histograma <- ggplot(data = NULL, aes(x = resultados)) +
  geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
  geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
  ggtitle("Distribución de Proporciones Muestrales (n = 10)") +
  theme(plot.title = element_text(size = 9)) +
  xlab("Proporción Muestral")

grid.arrange(qqplot, histograma, ncol = 2)

Aunque ha incrementado el tamaño de la muestra a 𝑛=10, lo cual mejora la aproximación a la normalidad (como se observa en el anterior gráfico Q-Q y en el histograma), el valor de p sigue siendo extremadamente bajo, indicando que los datos aún no siguen una distribución normal. Esto es consistente con el Teorema del Límite Central, que sugiere que la normalidad se alcanza con tamaños de muestra mayores, con 𝑛=10, la aproximación es mejor que con 𝑛=5, pero aún insuficiente para que la distribución sea considerada normal según la prueba de Shapiro-Wilk.

El incremento en el tamaño de la muestra ha mejorado la normalidad, pero todavía no es suficiente para alcanzar una distribución completamente normal, lo que refleja la naturaleza progresiva del efecto del Teorema del Límite Central a medida que el tamaño de la muestra aumenta.

n_poblacion <- 1000
prob_enfermo <- 0.5
tamano_muestra <- 15
n_simulaciones <- 500

set.seed(123)

poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)

resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))

shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.97312, p-value = 0.00000006008
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
  stat_qq() +
  stat_qq_line(col = "red") +
  ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 15)") +
  theme(plot.title = element_text(size = 9))

histograma <- ggplot(data = NULL, aes(x = resultados)) +
  geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
  geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
  ggtitle("Distribución de Proporciones Muestrales (n = 15)") +
  theme(plot.title = element_text(size = 9)) +
  xlab("Proporción Muestral")

grid.arrange(qqplot, histograma, ncol = 2)

Con un tamaño de muestra de 𝑛=15, se observa una mejora en la aproximación de la distribución muestral a una distribución normal; sin embargo, el valor de p sigue siendo significativamente bajo, lo que indica que, aunque la distribución se aproxima más a la normalidad, todavía no se ajusta completamente a ella.

Gráfico Q-Q: El gráfico Q-Q muestra una alineación más estrecha de los puntos a lo largo de la línea roja, lo que indica que la distribución de las proporciones muestrales se aproxima aún más a una distribución normal en comparación con las muestras más pequeñas.

Histograma: El histograma sigue mostrando una distribución centrada alrededor de 0.5, con una forma más simétrica, lo que es característico de una distribución normal.

n_poblacion <- 1000
prob_enfermo <- 0.5
tamano_muestra <- 20
n_simulaciones <- 500

set.seed(123)

poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)

resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))

shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.98008, p-value = 0.000002411
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
  stat_qq() +
  stat_qq_line(col = "red") +
  ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 20)") +
  theme(plot.title = element_text(size = 9))

histograma <- ggplot(data = NULL, aes(x = resultados)) +
  geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
  geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
  ggtitle("Distribución de Proporciones Muestrales (n = 20)") +
  theme(plot.title = element_text(size = 9)) +
  xlab("Proporción Muestral")

grid.arrange(qqplot, histograma, ncol = 2)

Gráfico Q-Q: El gráfico Q-Q muestra una alineación aún más estrecha de los puntos a lo largo de la línea roja, lo que indica que la distribución de las proporciones muestrales se aproxima mucho más a una distribución normal en comparación con los tamaños de muestra más pequeños. Aunque hay alguna desviación en los extremos, la mayor parte de los puntos sigue la línea con bastante precisión.

Histograma: El histograma muestra una distribución de las proporciones muestrales que es bastante simétrica y centrada alrededor de 0.5, lo que nuevamente es un buen indicio de una distribución normal, que se hace más evidente con un tamaño de muestra mayor.

Prueba de Shapiro-Wilk:

W = 0.98008: Este valor está muy cercano a 1, lo que indica una fuerte alineación con la normalidad.
p-value = 2.411e-06: Aunque este valor de p sigue siendo bajo, es considerablemente más alto que en los casos anteriores, lo que sugiere una mejora continua en la aproximación de la distribución a la normalidad.

n_poblacion <- 1000
prob_enfermo <- 0.5
tamano_muestra <- 30
n_simulaciones <- 500

set.seed(123)

poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)

resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))

shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.98581, p-value = 0.00008562
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
  stat_qq() +
  stat_qq_line(col = "red") +
  ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 30)") +
  theme(plot.title = element_text(size = 9))

histograma <- ggplot(data = NULL, aes(x = resultados)) +
  geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
  geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
  ggtitle("Distribución de Proporciones Muestrales (n = 30)") +
  theme(plot.title = element_text(size = 9)) +
  xlab("Proporción Muestral")

grid.arrange(qqplot, histograma, ncol = 2)

Prueba de Shapiro-Wilk:

W = 0.98581: Este valor está muy cercano a 1, lo que indica una fuerte alineación con la normalidad. p-value = 8.562e-05: Aunque el valor de p es más alto que en los casos anteriores, sigue siendo relativamente bajo, lo que técnicamente permitiría rechazar la hipótesis nula de normalidad, aunque con menos certeza.

Con un tamaño de muestra de 𝑛=30, la distribución de las proporciones muestrales se aproxima mucho más a una distribución normal, como lo demuestran tanto el gráfico Q-Q como la prueba de Shapiro-Wilk. El valor de p, aunque todavía bajo, es más alto que en los análisis anteriores, lo que indica una mejora en la aproximación a la normalidad.

n_poblacion <- 1000
prob_enfermo <- 0.5
tamano_muestra <- 50
n_simulaciones <- 500

set.seed(123)

poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)

resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))

shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.9894, p-value = 0.001123
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
  stat_qq() +
  stat_qq_line(col = "red") +
  ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 50)") +
  theme(plot.title = element_text(size = 9))

histograma <- ggplot(data = NULL, aes(x = resultados)) +
  geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
  geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
  ggtitle("Distribución de Proporciones Muestrales (n = 50)") +
  theme(plot.title = element_text(size = 9)) +
  xlab("Proporción Muestral")

grid.arrange(qqplot, histograma, ncol = 2)

Prueba de Shapiro-Wilk:
W = 0.9894: Este valor es muy cercano a 1, lo que sugiere una fuerte normalidad en la distribución de los datos. p-value = 0.001123: Aunque este valor de p es mucho más alto que en los análisis anteriores, aún permite rechazar la hipótesis nula de normalidad en términos estrictos, pero la diferencia es mínima y puede no ser significativa en contextos prácticos.

Con un tamaño de muestra de 𝑛=50, la distribución de las proporciones muestrales se aproxima de manera muy clara a una distribución normal, como lo evidencia la alineación casi perfecta en el gráfico Q-Q y el valor de 𝑊 en la prueba de Shapiro-Wilk. Aunque el valor de p aún es bajo, lo cual sugiere la posibilidad de rechazar la normalidad, en la práctica la distribución parece ser prácticamente normal.

n_poblacion <- 1000
prob_enfermo <- 0.5
tamano_muestra <- 60
n_simulaciones <- 500

set.seed(123)

poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)

resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))

shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.99226, p-value = 0.01075
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
  stat_qq() +
  stat_qq_line(col = "red") +
  ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 60)") +
  theme(plot.title = element_text(size = 9))

histograma <- ggplot(data = NULL, aes(x = resultados)) +
  geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
  geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
  ggtitle("Distribución de Proporciones Muestrales (n = 60)") +
  theme(plot.title = element_text(size = 9)) +
  xlab("Proporción Muestral")

grid.arrange(qqplot, histograma, ncol = 2)

Con un tamaño de muestra de 𝑛=60, la distribución de las proporciones muestrales se ajusta de manera notablemente cercana a una distribución normal. La alineación en el gráfico Q-Q y el valor de 𝑊 de la prueba de Shapiro-Wilk apoyan fuertemente esta conclusión. Aunque el valor de p sugiere que todavía existe una ligera desviación de la normalidad, en la mayoría de los contextos prácticos esta distribución puede considerarse normal.

Gráfico Q-Q: El gráfico Q-Q muestra una alineación casi perfecta de los puntos a lo largo de la línea roja, lo que indica que la distribución de las proporciones muestrales se ajusta muy bien a una distribución normal. Esta es la mejor alineación observada hasta ahora en sus gráficos.

Histograma: El histograma muestra una distribución de las proporciones muestrales que es simétrica y centrada alrededor de 0.5, con una mayor concentración de valores cerca de la media. La distribución se ha vuelto más estrecha y alta, lo que indica una menor dispersión y una mayor precisión en las estimaciones de la proporción muestral.

n_poblacion <- 1000
prob_enfermo <- 0.5
tamano_muestra <- 100
n_simulaciones <- 500

set.seed(123)

poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)

resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))

shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.99288, p-value = 0.0179
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
  stat_qq() +
  stat_qq_line(col = "red") +
  ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 100)") +
  theme(plot.title = element_text(size = 9))

histograma <- ggplot(data = NULL, aes(x = resultados)) +
  geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
  geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
  ggtitle("Distribución de Proporciones Muestrales (n = 100)") +
  theme(plot.title = element_text(size = 9)) +
  xlab("Proporción Muestral")

grid.arrange(qqplot, histograma, ncol = 2)

Gráfico Q-Q: El gráfico Q-Q continúa mostrando una excelente alineación de los puntos a lo largo de la línea roja, lo que indica que la distribución de las proporciones muestrales se ajusta muy bien a una distribución normal. La alineación es bastante precisa, lo que refuerza la idea de que la distribución es prácticamente normal.

Histograma: El histograma muestra una distribución de las proporciones muestrales que, aunque sigue centrada alrededor de 0.5, parece tener una concentración muy alta en un rango estrecho cerca de la media. La distribución es extremadamente alta y estrecha, lo que indica una menor variabilidad en las proporciones muestrales.

Prueba de Shapiro-Wilk:

W = 0.99288: Este valor es muy cercano a 1, lo que sugiere que la distribución de los datos es casi normal. p-value = 0.0179: Este valor de p, aunque mayor que en los casos anteriores, todavía es relativamente bajo, lo que sugiere que, desde un punto de vista técnico, podría rechazarse la hipótesis nula de normalidad; sin embargo, esta baja significación puede no ser relevante en contextos prácticos, dado lo cercana que es la distribución a la normalidad.

n_poblacion <- 1000
prob_enfermo <- 0.5
tamano_muestra <- 200
n_simulaciones <- 500

set.seed(123)

poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)

resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))

shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.99502, p-value = 0.107
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
  stat_qq() +
  stat_qq_line(col = "red") +
  ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 200)") +
  theme(plot.title = element_text(size = 9))

histograma <- ggplot(data = NULL, aes(x = resultados)) +
  geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
  geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
  ggtitle("Distribución de Proporciones Muestrales (n = 200)") +
  theme(plot.title = element_text(size = 9)) +
  xlab("Proporción Muestral")

grid.arrange(qqplot, histograma, ncol = 2)

Gráfico Q-Q: El gráfico Q-Q muestra una alineación casi perfecta de los puntos a lo largo de la línea roja, lo que indica que la distribución de las proporciones muestrales es muy cercana a una distribución normal. La alineación es excelente en prácticamente todo el rango de los datos.

Histograma: El histograma muestra una distribución de las proporciones muestrales que está altamente concentrada alrededor de la proporción de 0.5. La distribución es muy estrecha y alta, reflejando una gran precisión en las estimaciones de la proporción muestral, con una variabilidad extremadamente baja.

Prueba de Shapiro-Wilk:

W = 0.99502: Este valor está muy cercano a 1, lo que indica una normalidad casi perfecta en la distribución de los datos. p-value = 0.107: Este valor de p es considerablemente mayor que en los análisis anteriores y sugiere que no hay evidencia suficiente para rechazar la hipótesis nula de que los datos siguen una distribución normal. Esto significa que, desde un punto de vista estadístico, se puede considerar que la distribución es normal.

n_poblacion <- 1000
prob_enfermo <- 0.5
tamano_muestra <- 500
n_simulaciones <- 500

set.seed(123)

poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)

resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))

shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.99671, p-value = 0.4031
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
  stat_qq() +
  stat_qq_line(col = "red") +
  ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 500)") +
  theme(plot.title = element_text(size = 9))

histograma <- ggplot(data = NULL, aes(x = resultados)) +
  geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
  geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
  ggtitle("Distribución de Proporciones Muestrales (n = 500)") +
  theme(plot.title = element_text(size = 9)) +
  xlab("Proporción Muestral")

grid.arrange(qqplot, histograma, ncol = 2)

Con un tamaño de muestra de 𝑛=500, la distribución de las proporciones muestrales se ajusta de manera excepcionalmente cercana a una distribución normal, como lo indican tanto el gráfico Q-Q como los resultados de la prueba de Shapiro-Wilk. El alto valor de p refuerza la conclusión de que la distribución es normal.

Informe

Simetría y sesgo
A través de las diferentes gráficas presentadas, se observa que a medida que el tamaño de la muestra aumenta, los resultados obtenidos tienden a ser cada vez más simétricos. En los primeros gráficos, correspondientes a tamaños de muestra más pequeños (por ejemplo, 𝑛=5,𝑛=10), se puede observar cierta asimetría y sesgo en las distribuciones muestrales, con desviaciones más marcadas en los gráficos Q-Q y distribuciones que no están perfectamente centradas alrededor de la media esperada.

Sin embargo, conforme el tamaño de la muestra incrementa (especialmente a partir de 𝑛=30 y más), las distribuciones comienzan a mostrar una mayor simetría. Los gráficos Q-Q revelan que los datos se alinean cada vez mejor con la línea de referencia, indicando que la distribución se aproxima a la normalidad. Esto es especialmente evidente en los gráficos correspondientes a 𝑛=200 y 𝑛=500, donde las distribuciones son casi perfectamente simétricas, y el sesgo es prácticamente inexistente.

Variabilidad
En cuanto a la variabilidad, los primeros gráficos muestran una mayor dispersión en las proporciones muestrales, lo que se refleja en distribuciones más anchas y menos concentradas alrededor de la media. Esta alta variabilidad es natural en tamaños de muestra pequeños, donde la influencia de valores extremos es más pronunciada.

A medida que el tamaño de la muestra aumenta, se observa una disminución significativa en la variabilidad. Esto se manifiesta en los histogramas, que se vuelven más estrechos y altos, indicando que las proporciones muestrales están más concentradas cerca de la media esperada. Esta tendencia es un reflejo directo del Teorema del Límite Central, que predice que con muestras grandes, la media de las distribuciones muestrales tiende a aproximarse a una distribución normal con menor variabilidad.

Conclusión

En resumen, los resultados obtenidos a través de las gráficas muestran que, con tamaños de muestra pequeños, las distribuciones muestrales presentan cierta asimetría y alta variabilidad. Sin embargo, a medida que el tamaño de la muestra aumenta, las distribuciones se vuelven cada vez más simétricas y con menor variabilidad, acercándose a una distribución normal. Estos hallazgos están alineados con el Teorema del Límite Central, que establece que con muestras suficientemente grandes, las medias o proporciones muestrales siguen una distribución normal, independientemente de la forma de la distribución original.

Este análisis confirma que para obtener resultados más confiables y menos sesgados, es recomendable trabajar con muestras de mayor tamaño, lo que reduce la variabilidad y mejora la precisión de las estimaciones estadísticas.

Punto E

n_poblacion <- 1000
prob_enfermo <- 0.1
tamano_muestra <- 5
n_simulaciones <- 500

set.seed(123)

poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)

resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))

shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.68095, p-value < 0.00000000000000022
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
  stat_qq() +
  stat_qq_line(col = "red") +
  ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 5)") +
  theme(plot.title = element_text(size = 9))

histograma <- ggplot(data = NULL, aes(x = resultados)) +
  geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
  geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
  ggtitle("Distribución de Proporciones Muestrales (n = 5)") +
  theme(plot.title = element_text(size = 9)) +
  xlab("Proporción Muestral")

grid.arrange(qqplot, histograma, ncol = 2)

n_poblacion <- 1000
prob_enfermo <- 0.9
tamano_muestra <- 5
n_simulaciones <- 500

set.seed(123)

poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)

resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))

shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.68095, p-value < 0.00000000000000022
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
  stat_qq() +
  stat_qq_line(col = "red") +
  ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 5)") +
  theme(plot.title = element_text(size = 9))

histograma <- ggplot(data = NULL, aes(x = resultados)) +
  geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
  geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
  ggtitle("Distribución de Proporciones Muestrales (n = 5)") +
  theme(plot.title = element_text(size = 9)) +
  xlab("Proporción Muestral")

grid.arrange(qqplot, histograma, ncol = 2)

Los resultados obtenidos con proporciones 𝑝=0.1 y 𝑝=0.9 muestran que, cuando se trabaja con un tamaño de muestra tan pequeño como 𝑛=5, las distribuciones de las proporciones muestrales están lejos de ser normales. En ambos casos, las distribuciones son altamente asimétricas y sesgadas hacia el extremo correspondiente de la proporción verdadera (izquierda para 𝑝=0.1 y derecha para 𝑝=0.9).

El gráfico Q-Q y la prueba de Shapiro-Wilk en ambos escenarios confirman que la distribución de las proporciones muestrales no sigue una distribución normal.

n_poblacion <- 1000
prob_enfermo <- 0.1
tamano_muestra <- 10
n_simulaciones <- 500

set.seed(123)

poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)

resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))

shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.81856, p-value < 0.00000000000000022
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
  stat_qq() +
  stat_qq_line(col = "red") +
  ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 10)") +
  theme(plot.title = element_text(size = 9))

histograma <- ggplot(data = NULL, aes(x = resultados)) +
  geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
  geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
  ggtitle("Distribución de Proporciones Muestrales (n = 10)") +
  theme(plot.title = element_text(size = 9)) +
  xlab("Proporción Muestral")

grid.arrange(qqplot, histograma, ncol = 2)

n_poblacion <- 1000
prob_enfermo <- 0.9
tamano_muestra <- 10
n_simulaciones <- 500

set.seed(123)

poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)

resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))

shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.81856, p-value < 0.00000000000000022
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
  stat_qq() +
  stat_qq_line(col = "red") +
  ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 10)") +
  theme(plot.title = element_text(size = 9))

histograma <- ggplot(data = NULL, aes(x = resultados)) +
  geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
  geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
  ggtitle("Distribución de Proporciones Muestrales (n = 10)") +
  theme(plot.title = element_text(size = 9)) +
  xlab("Proporción Muestral")

grid.arrange(qqplot, histograma, ncol = 2)

Los resultados obtenidos para proporciones 𝑝=0.1 y 𝑝=0.9 con un tamaño de muestra de 𝑛=10 muestran que, aunque el tamaño de muestra es mayor que en análisis anteriores (𝑛=5), las distribuciones de las proporciones muestrales siguen siendo asimétricas y sesgadas, dependiendo del valor de la proporción verdadera. En el caso de 𝑝=0.1, hay un sesgo hacia la izquierda, mientras que en 𝑝=0.9, el sesgo es hacia la derecha.

Los gráficos Q-Q y los resultados de la prueba de Shapiro-Wilk confirman que las distribuciones no son normales. El aumento en el tamaño de la muestra de 𝑛=5 a 𝑛=10 ha reducido un poco la variabilidad, pero no lo suficiente como para obtener una distribución normal.

n_poblacion <- 1000
prob_enfermo <- 0.1
tamano_muestra <- 15
n_simulaciones <- 500

set.seed(123)

poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)

resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))

shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.87489, p-value < 0.00000000000000022
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
  stat_qq() +
  stat_qq_line(col = "red") +
  ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 15)") +
  theme(plot.title = element_text(size = 9))

histograma <- ggplot(data = NULL, aes(x = resultados)) +
  geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
  geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
  ggtitle("Distribución de Proporciones Muestrales (n = 15)") +
  theme(plot.title = element_text(size = 9)) +
  xlab("Proporción Muestral")

grid.arrange(qqplot, histograma, ncol = 2)

n_poblacion <- 1000
prob_enfermo <- 0.9
tamano_muestra <- 15
n_simulaciones <- 500

set.seed(123)

poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)

resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))

shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.87489, p-value < 0.00000000000000022
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
  stat_qq() +
  stat_qq_line(col = "red") +
  ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 15)") +
  theme(plot.title = element_text(size = 9))

histograma <- ggplot(data = NULL, aes(x = resultados)) +
  geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
  geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
  ggtitle("Distribución de Proporciones Muestrales (n = 15)") +
  theme(plot.title = element_text(size = 9)) +
  xlab("Proporción Muestral")

grid.arrange(qqplot, histograma, ncol = 2)


Proporción 𝑝=0.1

Gráfico Q-Q: El gráfico Q-Q muestra una desviación notable de los puntos con respecto a la línea de referencia roja, lo que indica que las proporciones muestrales no siguen una distribución normal. Los puntos se distribuyen de manera desigual y están mayoritariamente por debajo de la línea, lo que sugiere un sesgo hacia valores más bajos.

Histograma: El histograma revela que la mayoría de las proporciones muestrales están concentradas cerca de 0, lo que es coherente con una proporción verdadera baja. La distribución es asimétrica y sesgada hacia la izquierda, lo cual es típico cuando se trabaja con 𝑝=0.1.

Prueba de Shapiro-Wilk: El valor de 𝑊=0.87489 es bajo, confirmando la desviación de la normalidad. El valor de p es extremadamente pequeño (menor que 2.2×10−16), lo que apoya el rechazo de la hipótesis nula de normalidad.
Proporción 𝑝=0.9

Gráfico Q-Q: En este caso, el gráfico Q-Q también muestra una desviación significativa de los puntos respecto a la línea de referencia roja. Los puntos están mayoritariamente por encima de la línea, indicando un sesgo hacia valores más altos.

Histograma: El histograma muestra que la mayoría de las proporciones muestrales están concentradas cerca de 0.9, con una asimetría notable y un sesgo hacia la derecha, lo que es esperado para una proporción verdadera alta.

Prueba de Shapiro-Wilk: El valor de 𝑊=0.87489, al igual que en el caso de 𝑝=0.1, sugiere una desviación significativa de la normalidad. El valor de p nuevamente es extremadamente bajo, respaldando el rechazo de la hipótesis nula de normalidad.

n_poblacion <- 1000
prob_enfermo <- 0.1
tamano_muestra <- 20
n_simulaciones <- 500

set.seed(123)

poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)

resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))

shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.91131, p-value < 0.00000000000000022
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
  stat_qq() +
  stat_qq_line(col = "red") +
  ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 20)") +
  theme(plot.title = element_text(size = 9))

histograma <- ggplot(data = NULL, aes(x = resultados)) +
  geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
  geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
  ggtitle("Distribución de Proporciones Muestrales (n = 20)") +
  theme(plot.title = element_text(size = 9)) +
  xlab("Proporción Muestral")

grid.arrange(qqplot, histograma, ncol = 2)

n_poblacion <- 1000
prob_enfermo <- 0.9
tamano_muestra <- 20
n_simulaciones <- 500

set.seed(123)

poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)

resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))

shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.91131, p-value < 0.00000000000000022
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
  stat_qq() +
  stat_qq_line(col = "red") +
  ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 20)") +
  theme(plot.title = element_text(size = 9))

histograma <- ggplot(data = NULL, aes(x = resultados)) +
  geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
  geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
  ggtitle("Distribución de Proporciones Muestrales (n = 20)") +
  theme(plot.title = element_text(size = 9)) +
  xlab("Proporción Muestral")

grid.arrange(qqplot, histograma, ncol = 2)

Los resultados para ambas proporciones 𝑝=0.1 y 𝑝=0.9 con un tamaño de muestra de 𝑛=20 muestran una mejora en la simetría y una ligera reducción del sesgo en comparación con tamaños de muestra menores, pero las distribuciones de las proporciones muestrales aún no son normales. El sesgo sigue presente, con 𝑝=0.1 mostrando un sesgo hacia la izquierda y 𝑝=0.9 un sesgo hacia la derecha.

El gráfico Q-Q y la prueba de Shapiro-Wilk confirman que las distribuciones no son normales, a pesar de la mejora en la alineación de los puntos en el gráfico Q-Q y el aumento en el valor de 𝑊. Esto sugiere que, aunque el aumento en el tamaño de la muestra a 𝑛=20 reduce la variabilidad y mejora la aproximación a la normalidad, es necesario un tamaño de muestra aún mayor para obtener una distribución muestral que se aproxime más a una distribución normal, especialmente cuando se trabajan con proporciones extremas.

n_poblacion <- 1000
prob_enfermo <- 0.1
tamano_muestra <- 30
n_simulaciones <- 500

set.seed(123)

poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)

resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))

shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.94509, p-value = 0.000000000001192
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
  stat_qq() +
  stat_qq_line(col = "red") +
  ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 30)") +
  theme(plot.title = element_text(size = 9))

histograma <- ggplot(data = NULL, aes(x = resultados)) +
  geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
  geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
  ggtitle("Distribución de Proporciones Muestrales (n = 30)") +
  theme(plot.title = element_text(size = 9)) +
  xlab("Proporción Muestral")

grid.arrange(qqplot, histograma, ncol = 2)

n_poblacion <- 1000
prob_enfermo <- 0.9
tamano_muestra <- 30
n_simulaciones <- 500

set.seed(123)

poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)

resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))

shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.94509, p-value = 0.000000000001192
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
  stat_qq() +
  stat_qq_line(col = "red") +
  ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 30)") +
  theme(plot.title = element_text(size = 9))

histograma <- ggplot(data = NULL, aes(x = resultados)) +
  geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
  geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
  ggtitle("Distribución de Proporciones Muestrales (n = 30)") +
  theme(plot.title = element_text(size = 9)) +
  xlab("Proporción Muestral")

grid.arrange(qqplot, histograma, ncol = 2)


Proporción 𝑝=0.1

Gráfico Q-Q: El gráfico Q-Q muestra una mejor alineación de los puntos respecto a la línea de referencia roja en comparación con los casos anteriores con tamaños de muestra menores. Sin embargo, todavía hay desviaciones visibles, especialmente en los extremos, lo que indica que las proporciones muestrales aún no siguen una distribución normal.

Histograma: El histograma muestra que la mayoría de las proporciones muestrales están concentradas cerca de 0.1, pero con algo de dispersión hacia valores mayores. La distribución es aún asimétrica, pero menos sesgada que con tamaños de muestra menores.

Prueba de Shapiro-Wilk: El valor de 𝑊=0.94509 es más alto que en los casos anteriores, lo que sugiere una mejor aproximación a la normalidad, aunque aún insuficiente. El valor de p es pequeño (1.192e-12), lo que indica que aún se rechaza la hipótesis nula de normalidad.

Proporción 𝑝=0.9

Gráfico Q-Q: En este caso, el gráfico Q-Q muestra que los puntos están alineados de manera más cercana a la línea de referencia roja, aunque todavía hay ligeras desviaciones en los extremos. Esto sugiere que la distribución de las proporciones muestrales se aproxima más a una distribución normal, pero aún no es perfecta.

Histograma: El histograma muestra una concentración de las proporciones muestrales cerca de 0.9, con menos dispersión que en el caso de 𝑝=0.1. La distribución es menos sesgada y más centrada alrededor de la media esperada.

Prueba de Shapiro-Wilk: El valor de 𝑊=0.94509 indica una mejor aproximación a la normalidad que en los casos anteriores, pero sigue siendo insuficiente para considerar la distribución como normal. El valor de p, aunque pequeño (1.192e-12), muestra una menor evidencia en contra de la normalidad en comparación con proporciones más extremas y tamaños de muestra menores.

n_poblacion <- 1000
prob_enfermo <- 0.1
tamano_muestra <- 50
n_simulaciones <- 500

set.seed(123)

poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)

resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))

shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.96965, p-value = 0.00000001169
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
  stat_qq() +
  stat_qq_line(col = "red") +
  ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 50)") +
  theme(plot.title = element_text(size = 9))

histograma <- ggplot(data = NULL, aes(x = resultados)) +
  geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
  geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
  ggtitle("Distribución de Proporciones Muestrales (n = 50)") +
  theme(plot.title = element_text(size = 9)) +
  xlab("Proporción Muestral")

grid.arrange(qqplot, histograma, ncol = 2)

n_poblacion <- 1000
prob_enfermo <- 0.9
tamano_muestra <- 50
n_simulaciones <- 500

set.seed(123)

poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)

resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))

shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.96965, p-value = 0.00000001169
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
  stat_qq() +
  stat_qq_line(col = "red") +
  ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 50)") +
  theme(plot.title = element_text(size = 9))

histograma <- ggplot(data = NULL, aes(x = resultados)) +
  geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
  geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
  ggtitle("Distribución de Proporciones Muestrales (n = 50)") +
  theme(plot.title = element_text(size = 9)) +
  xlab("Proporción Muestral")

grid.arrange(qqplot, histograma, ncol = 2)

Los resultados para ambas proporciones 𝑝=0.1 y 𝑝=0.9 con un tamaño de muestra de 𝑛=50 muestran una mejora significativa en la simetría y una reducción del sesgo en comparación con tamaños de muestra menores. Las distribuciones de las proporciones muestrales están mucho más cerca de ser normales, aunque aún no son perfectas. Los gráficos Q-Q muestran una alineación bastante buena con la línea de referencia, y los histogramas indican una distribución más concentrada y simétrica.

El valor elevado de 𝑊 en la prueba de Shapiro-Wilk sugiere una fuerte aproximación a la normalidad, pero el valor de p aún indica que la hipótesis nula de normalidad puede ser rechazada, aunque con menos certeza que en tamaños de muestra menores. Esto sugiere que, aunque 𝑛=50 es un tamaño de muestra suficientemente grande para muchas aplicaciones, aún podría haber ligeras desviaciones de la normalidad, especialmente en los extremos de la distribución. Sin embargo, estas desviaciones son pequeñas y probablemente insignificantes en la mayoría de los contextos prácticos.

n_poblacion <- 1000
prob_enfermo <- 0.1
tamano_muestra <- 60
n_simulaciones <- 500

set.seed(123)

poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)

resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))

shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.97276, p-value = 0.00000005047
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
  stat_qq() +
  stat_qq_line(col = "red") +
  ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 60)") +
  theme(plot.title = element_text(size = 9))

histograma <- ggplot(data = NULL, aes(x = resultados)) +
  geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
  geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
  ggtitle("Distribución de Proporciones Muestrales (n = 60)") +
  theme(plot.title = element_text(size = 9)) +
  xlab("Proporción Muestral")

grid.arrange(qqplot, histograma, ncol = 2)

n_poblacion <- 1000
prob_enfermo <- 0.9
tamano_muestra <- 60
n_simulaciones <- 500

set.seed(123)

poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)

resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))

shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.97276, p-value = 0.00000005047
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
  stat_qq() +
  stat_qq_line(col = "red") +
  ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 60)") +
  theme(plot.title = element_text(size = 9))

histograma <- ggplot(data = NULL, aes(x = resultados)) +
  geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
  geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
  ggtitle("Distribución de Proporciones Muestrales (n = 60)") +
  theme(plot.title = element_text(size = 9)) +
  xlab("Proporción Muestral")

grid.arrange(qqplot, histograma, ncol = 2)

Con un tamaño de muestra de 𝑛=60, las distribuciones de las proporciones muestrales para 𝑝=0.1 y 𝑝=0.9 muestran una clara mejora en la simetría y una reducción significativa del sesgo en comparación con tamaños de muestra más pequeños. Los gráficos Q-Q indican una alineación cercana con la normalidad, y los histogramas muestran distribuciones más estrechas y menos dispersas, con una asimetría mínima.

El valor de 𝑊 en la prueba de Shapiro-Wilk es alto, lo que sugiere una fuerte aproximación a la normalidad. Aunque el valor de p aún indica que podría rechazarse la hipótesis nula de normalidad, la magnitud del p-valor es menor que en tamaños de muestra menores, lo que sugiere que cualquier desviación de la normalidad es mínima y probablemente no significativa en la práctica.

Con 𝑛=60, las distribuciones muestrales para estas proporciones se aproximan bastante a una distribución normal, con solo ligeras desviaciones en los extremos. Estas distribuciones serían consideradas normales para la mayoría de las aplicaciones prácticas.

n_poblacion <- 1000
prob_enfermo <- 0.1
tamano_muestra <- 100
n_simulaciones <- 500

set.seed(123)

poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)

resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))

shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.97797, p-value = 0.0000007369
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
  stat_qq() +
  stat_qq_line(col = "red") +
  ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 100)") +
  theme(plot.title = element_text(size = 9))

histograma <- ggplot(data = NULL, aes(x = resultados)) +
  geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
  geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
  ggtitle("Distribución de Proporciones Muestrales (n = 100)") +
  theme(plot.title = element_text(size = 9)) +
  xlab("Proporción Muestral")

grid.arrange(qqplot, histograma, ncol = 2)

n_poblacion <- 1000
prob_enfermo <- 0.9
tamano_muestra <- 100
n_simulaciones <- 500

set.seed(123)

poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)

resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))

shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.97797, p-value = 0.0000007369
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
  stat_qq() +
  stat_qq_line(col = "red") +
  ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 100)") +
  theme(plot.title = element_text(size = 9))

histograma <- ggplot(data = NULL, aes(x = resultados)) +
  geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
  geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
  ggtitle("Distribución de Proporciones Muestrales (n = 100)") +
  theme(plot.title = element_text(size = 9)) +
  xlab("Proporción Muestral")

grid.arrange(qqplot, histograma, ncol = 2)


Proporción 𝑝=0.1

Gráfico Q-Q: El gráfico Q-Q muestra una alineación muy cercana de los puntos a la línea de referencia roja, lo que indica una excelente aproximación a la normalidad. Aunque aún hay algunas desviaciones menores en los extremos, la mayor parte de los puntos sigue la línea de referencia, sugiriendo que la distribución es casi normal.

Histograma: El histograma muestra una distribución de proporciones muestrales altamente concentrada cerca de 0.1. La distribución es bastante alta y estrecha, con una variabilidad muy reducida. La asimetría es mínima, indicando una distribución casi simétrica.

Prueba de Shapiro-Wilk: El valor de 𝑊=0.97797 es muy alto, lo que indica una fuerte aproximación a la normalidad. Sin embargo, el valor de p (7.369e-07) aún sugiere que podría haber ligeras desviaciones de la normalidad, aunque estas son mínimas y probablemente no significativas en la práctica.

Proporción 𝑝=0.9

Gráfico Q-Q: El gráfico Q-Q para 𝑝=0.9 muestra una alineación muy cercana de los puntos a la línea de referencia roja, similar al caso de 𝑝=0.1. Esto sugiere que la distribución de las proporciones muestrales es casi normal, con solo pequeñas desviaciones en los extremos.

Histograma: El histograma revela una concentración de las proporciones muestrales cerca de 0.9, con una distribución alta, estrecha y menos dispersa. La asimetría es mínima, lo que indica una distribución casi perfectamente simétrica.

Prueba de Shapiro-Wilk: El valor de 𝑊=0.97797 es elevado, lo que sugiere una buena aproximación a la normalidad. El valor de p (7.369e-07) indica que, aunque existen pequeñas desviaciones de la normalidad, estas son menores y probablemente insignificantes en la mayoría de los contextos prácticos.

n_poblacion <- 1000
prob_enfermo <- 0.1
tamano_muestra <- 200
n_simulaciones <- 500

set.seed(123)

poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)

resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))

shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.98933, p-value = 0.001067
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
  stat_qq() +
  stat_qq_line(col = "red") +
  ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 200)") +
  theme(plot.title = element_text(size = 9))

histograma <- ggplot(data = NULL, aes(x = resultados)) +
  geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
  geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
  ggtitle("Distribución de Proporciones Muestrales (n = 200)") +
  theme(plot.title = element_text(size = 9)) +
  xlab("Proporción Muestral")

grid.arrange(qqplot, histograma, ncol = 2)

n_poblacion <- 1000
prob_enfermo <- 0.9
tamano_muestra <- 200
n_simulaciones <- 500

set.seed(123)

poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)

resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))

shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.98933, p-value = 0.001067
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
  stat_qq() +
  stat_qq_line(col = "red") +
  ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 200)") +
  theme(plot.title = element_text(size = 9))

histograma <- ggplot(data = NULL, aes(x = resultados)) +
  geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
  geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
  ggtitle("Distribución de Proporciones Muestrales (n = 200)") +
  theme(plot.title = element_text(size = 9)) +
  xlab("Proporción Muestral")

grid.arrange(qqplot, histograma, ncol = 2)

Con un tamaño de muestra de 𝑛=200, las distribuciones de las proporciones muestrales para 𝑝=0.1 y 𝑝=0.9 se aproximan muy de cerca a una distribución normal. Los gráficos Q-Q muestran una alineación casi perfecta con la línea de referencia, y los histogramas indican distribuciones altamente concentradas, simétricas y con muy poca dispersión.

El valor elevado de 𝑊 en la prueba de Shapiro-Wilk confirma la casi normalidad de las distribuciones. Aunque el valor de p aún sugiere la posibilidad de ligeras desviaciones, estas son mínimas y probablemente no afectan de manera significativa los análisis o las conclusiones estadísticas. En resumen, con 𝑛=200, las distribuciones muestrales son prácticamente normales, lo que permite realizar inferencias estadísticas con un altísimo grado de confianza en la normalidad de los datos.

n_poblacion <- 1000
prob_enfermo <- 0.1
tamano_muestra <- 500
n_simulaciones <- 500

set.seed(123)

poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)

resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))

shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.99362, p-value = 0.03325
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
  stat_qq() +
  stat_qq_line(col = "red") +
  ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 500)") +
  theme(plot.title = element_text(size = 9))

histograma <- ggplot(data = NULL, aes(x = resultados)) +
  geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
  geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
  ggtitle("Distribución de Proporciones Muestrales (n = 500)") +
  theme(plot.title = element_text(size = 9)) +
  xlab("Proporción Muestral")

grid.arrange(qqplot, histograma, ncol = 2)

n_poblacion <- 1000
prob_enfermo <- 0.9
tamano_muestra <- 500
n_simulaciones <- 500

set.seed(123)

poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)

resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))

shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.99362, p-value = 0.03325
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
  stat_qq() +
  stat_qq_line(col = "red") +
  ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 500)") +
  theme(plot.title = element_text(size = 9))

histograma <- ggplot(data = NULL, aes(x = resultados)) +
  geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
  geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
  ggtitle("Distribución de Proporciones Muestrales (n = 500)") +
  theme(plot.title = element_text(size = 9)) +
  xlab("Proporción Muestral")

grid.arrange(qqplot, histograma, ncol = 2)

Con un tamaño de muestra de 𝑛=500, las distribuciones de las proporciones muestrales para 𝑝=0.1 y 𝑝=0.9 muestran una aproximación muy fuerte a la normalidad. Los gráficos Q-Q indican una alineación casi perfecta con la línea de referencia, y los histogramas muestran distribuciones altamente concentradas, simétricas y con muy poca dispersión.

El valor elevado de 𝑊 en la prueba de Shapiro-Wilk confirma la normalidad de las distribuciones. El valor de p, que ahora es considerablemente mayor en comparación con tamaños de muestra más pequeños, sugiere que cualquier desviación de la normalidad es insignificante y no debe afectar los resultados o conclusiones estadísticas. En resumen, con 𝑛=500, las distribuciones muestrales se pueden considerar normales para todos los efectos prácticos, lo que permite realizar inferencias estadísticas con un altísimo grado de confianza en la normalidad de los datos.

Informe

En este informe se analiza la normalidad de las distribuciones de proporciones muestrales para dos proporciones diferentes, 𝑝=0.1 y 𝑝=0.9, utilizando diversos tamaños de muestra que varían desde 𝑛=5 hasta 𝑛=500. Para cada tamaño de muestra, se realizaron pruebas de normalidad utilizando la prueba de Shapiro-Wilk, gráficos Q-Q y histogramas. El objetivo de este análisis es evaluar cómo el tamaño de la muestra afecta la normalidad de las proporciones muestrales, especialmente en escenarios donde las proporciones son extremas.

Tamaño de Muestra 𝑛=5
𝑝=0.1: Los resultados muestran una desviación significativa de la normalidad. El gráfico Q-Q muestra puntos alejados de la línea de referencia, y el histograma revela una distribución altamente asimétrica, con una gran concentración cerca de 0.1 y una fuerte cola hacia la derecha. El valor de 𝑊 en la prueba de Shapiro-Wilk es bajo, indicando una fuerte desviación de la normalidad.
𝑝=0.9: Similar al caso de 𝑝=0.1, se observa una desviación significativa de la normalidad. La mayoría de las proporciones muestrales están concentradas cerca de 0.9, pero con una fuerte asimetría y cola hacia la izquierda. El valor de 𝑊 es bajo, confirmando la no normalidad de la distribución.

Tamaño de Muestra 𝑛=10
𝑝=0.1: Aunque la alineación en el gráfico Q-Q mejora ligeramente, sigue habiendo una desviación notable de la normalidad. El histograma muestra una reducción en la dispersión, pero la distribución sigue siendo asimétrica y sesgada.
𝑝=0.9: La mejora en la simetría y la alineación en el gráfico Q-Q es evidente, pero la distribución aún no es normal. La concentración alrededor de 0.9 es más alta, y la asimetría se ha reducido en comparación con 𝑛=5.

Tamaño de Muestra 𝑛=20
𝑝=0.1: Con 𝑛=20, la distribución muestra una mejor aproximación a la normalidad. El gráfico Q-Q tiene una alineación más cercana a la línea de referencia, y la asimetría en el histograma se ha reducido. Sin embargo, el valor de 𝑊 sigue indicando una desviación significativa.
𝑝=0.9: La alineación en el gráfico Q-Q mejora notablemente, y la distribución es más simétrica y concentrada alrededor de 0.9. El valor de 𝑊 es más alto, lo que sugiere una mejor aproximación a la normalidad.

Tamaño de Muestra 𝑛=30
𝑝=0.1: El gráfico Q-Q muestra una alineación más cercana a la normalidad, y la distribución es menos asimétrica y más concentrada. Aunque la prueba de Shapiro-Wilk aún muestra una desviación de la normalidad, la mejora es clara.
𝑝=0.9: La distribución es casi normal, con solo ligeras desviaciones en los extremos. La simetría y concentración alrededor de 0.9 son notables, y el valor de 𝑊 indica una fuerte aproximación a la normalidad.

Tamaño de Muestra 𝑛=50
𝑝=0.1: La distribución se aproxima fuertemente a la normalidad, con un gráfico Q-Q que muestra una alineación muy cercana a la línea de referencia. El histograma es más alto y estrecho, con menos asimetría.
𝑝=0.9: La normalidad de la distribución es casi perfecta, con un valor de 𝑊 muy alto y un p-valor que sugiere que cualquier desviación de la normalidad es mínima.

Tamaño de Muestra 𝑛=60
𝑝=0.1: La distribución es casi normal, con un gráfico Q-Q que muestra una alineación muy precisa. El histograma indica una alta concentración cerca de 0.1 y una dispersión mínima.
𝑝=0.9: Similar a 𝑝=0.1, la distribución es altamente normal, con una fuerte simetría y una alineación casi perfecta en el gráfico Q-Q.

Tamaño de Muestra 𝑛=100
𝑝=0.1: Con 𝑛=100, la distribución se puede considerar prácticamente normal. El gráfico Q-Q muestra una alineación casi perfecta, y el histograma es muy estrecho y alto.
𝑝=0.9: La normalidad es evidente, con solo pequeñas desviaciones en los extremos. El valor de 𝑊 es muy alto, confirmando la normalidad de la distribución.

Tamaño de Muestra 𝑛=200
𝑝=0.1: La distribución es esencialmente normal. El gráfico Q-Q muestra una alineación perfecta, y el histograma es extremadamente estrecho y alto, con mínima dispersión.
𝑝=0.9: Al igual que en 𝑝=0.1, la distribución es prácticamente normal. Cualquier desviación de la normalidad es insignificante, permitiendo suponer la normalidad con alta confianza.

Tamaño de Muestra 𝑛=500
𝑝=0.1: La distribución es completamente normal, con una alineación perfecta en el gráfico Q-Q y un histograma que muestra una alta concentración cerca de 0.1.
𝑝=0.9: Similar a 𝑝=0.1, la normalidad es casi perfecta, con valores de 𝑊 y p-valor que confirman la distribución normal.

En conclusión, a medida que el tamaño de la muestra aumenta, las distribuciones de las proporciones muestrales para 𝑝=0.1 y 𝑝=0.9 se aproximan cada vez más a la normalidad. Para tamaños de muestra pequeños, las distribuciones muestran asimetría y sesgo, con valores de 𝑊 bajos y p-valores que indican desviaciones significativas de la normalidad. Sin embargo, al aumentar el tamaño de la muestra, la alineación en los gráficos Q-Q mejora notablemente, los histogramas se vuelven más altos y estrechos, y las distribuciones se acercan a una forma simétrica y concentrada.

Para 𝑛=100 y mayores, las distribuciones son prácticamente normales, con valores de 𝑊 elevados y p-valores que sugieren que cualquier desviación de la normalidad es mínima e insignificante para propósitos prácticos.

Este análisis confirma que el Teorema del Límite Central se cumple a medida que el tamaño de la muestra aumenta, las distribuciones muestrales tienden a la normalidad, incluso para proporciones extremas como𝑝=0.1 y 𝑝=0.9. Con tamaños de muestra de 𝑛=200 o mayores, las distribuciones se pueden considerar normales con alta confianza, lo que permite realizar inferencias estadísticas precisas y fiables.

Conclusiones


Impacto del Tamaño de la Muestra en la Estimación de Proporciones:
Las proporciones extremas (𝑝=0.1 y 𝑝=0.9) tienden a mostrar una mayor variabilidad y sesgo en tamaños de muestra pequeños. Las distribuciones muestrales son asimétricas y se desvían de la normalidad; sin embargo, a medida que el tamaño de la muestra aumenta, estas distribuciones se vuelven más normales, permitiendo estimaciones más precisas y confiables. Del mismo modo la proporción intermedia de 𝑝=0.5 tiende a ser más simétrica desde tamaños de muestra más pequeños, pero aún así requiere tamaños de muestra medianos a grandes para lograr normalidad.


Recomendaciones para Estudios en Plantas:
Para obtener estimaciones confiables de la proporción de plantas enfermas, especialmente cuando se trata de proporciones extremas, es crucial utilizar tamaños de muestra grandes. A partir de 𝑛=100 y superiores, las distribuciones muestrales tienden a la normalidad, lo que permite realizar inferencias estadísticas con alta precisión. En estudios donde la proporción de plantas enfermas es cercana al 50%, las distribuciones muestrales tienden a ser más estables y menos susceptibles a sesgos, incluso con tamaños de muestra relativamente pequeños.


Aplicabilidad de los Resultados:
Este análisis es particularmente relevante en estudios epidemiológicos de plantas, donde es necesario estimar la prevalencia de enfermedades. Utilizar tamaños de muestra adecuados garantiza que las conclusiones sobre la salud de la población de plantas sean precisas y basadas en datos distribuidos normalmente, lo que a su vez facilita la toma de decisiones informadas sobre manejo y control de enfermedades.
En resumen, el análisis confirma que el tamaño de la muestra juega un papel crucial en la precisión y confiabilidad de las estimaciones de proporciones muestrales. Para proporciones extremas, es necesario utilizar tamaños de muestra grandes para garantizar la normalidad de las distribuciones muestrales y obtener resultados precisos. Las proporciones intermedias, como 𝑝=0.5, tienden a ser más robustas frente a la variabilidad, pero aún se benefician de tamaños de muestra adecuados para asegurar la normalidad y la precisión de las inferencias estadísticas.

Problema 4

Estimación boostrap

Cuando se extrae una muestra de una población que no es normal y se requiere estimar un intervalo de confianza se pueden utilizar los métodos de estimación bootstrap. Esta metodología supone que se puede reconstruir la población objeto de estudio mediante un muestreo con reemplazo de la muestra que se tiene. Existen varias versiones del método. Una presentación básica del método se describe a continuación:

El artículo de In-use Emissions from Heavy Duty Diesel Vehicles (J. Yanowitz, 2001) presenta las mediciones de eficiencia de combustible en millas/galón de una muestra de siete camiones. Los datos obtenidos son los siguientes: 7.69, 4.97, 4.56, 6.49, 4.34, 6.24 y 4.45. Se supone que es una muestra aleatoria de camiones y que se desea construir un intervalo de confianza del 95 % para la media de la eficiencia de combustible de esta población. No se tiene información de la distribución de los datos. El método bootstrap permite construir intervalos de confianza del 95 %.

Para ilustrar el método suponga que coloca los valores de la muestra en una caja y extrae uno al azar. Este correspondería al primer valor de la muestra bootstrap \(X_1^*\). Después de anotar el valor se regresa \(X_1^*\) a la caja y se extrae el valor \(X_2^*\), regresándolo nuevamente. Este procedimiento se repite hasta completar una muestra de tamaño \(n\), \(X_1^*, X_2^*, X_n^*\), conformando la muestra bootstrap.

Es necesario extraer un gran número de muestras (suponga \(k = 1000\)). Para cada una de las muestras bootstrap obtenidas se calcula la media \(\overline{X_i^*}\), obteniéndose un valor para cada muestra. El intervalo de confianza queda conformado por los percentiles \(P_{2.5}\) y \(P_{97.5}\). Existen dos métodos para estimar:

Método 1

\[ (P_{2.5}; P_{97.5}) \]

Método 2

\[ (2\overline{X} - P_{97.5}; 2\overline{X} - P_{2.5}) \]

Construya el intervalo de confianza por los dos métodos y compare los resultados obtenidos. Comente los resultados. ¿Confiaría en estas estimaciones?

Análisis

Método Intervalo de Confianza
Método 1 (6.908184, 7.154604)
Método 2 (6.909907, 7.156327)
df <- data.frame(medias_bootstrap = medias_bootstrap)

ggplot(df, aes(medias_bootstrap)) +
  geom_histogram(binwidth = 0.01, color = "black", fill = "skyblue", alpha = 0.7) +
  geom_vline(aes(xintercept = media_original), color = "red", linetype = "dashed", linewidth = 1) +
  geom_vline(aes(xintercept = IC_metodo_1[1]), color = "blue", linetype = "solid", linewidth = 1) +
  geom_vline(aes(xintercept = IC_metodo_1[2]), color = "blue", linetype = "solid", linewidth = 1) +
  geom_vline(aes(xintercept = IC_metodo_2[1]), color = "green", linetype = "dotted", linewidth = 1) +
  geom_vline(aes(xintercept = IC_metodo_2[2]), color = "green", linetype = "dotted", linewidth = 1) +
  labs(title = "Distribución de las Medias Bootstrap con Intervalos de Confianza",
       x = "Medias Bootstrap",
       y = "Frecuencia") +
  theme_minimal()

Comparación de Resultados

Método 1: (6.908,7.155)

Este intervalo se calcula directamente a partir de los percentiles 2.5 y 97.5 de las medias obtenidas de las muestras bootstrap.

Método 2: (6.910,7.156)

Este intervalo utiliza una fórmula que ajusta los percentiles mediante la media original, lo que intenta corregir cualquier posible sesgo. Comentarios sobre los Resultados Similitud: Los intervalos de confianza obtenidos por ambos métodos son casi idénticos, con diferencias mínimas en los límites inferior y superior (alrededor de 0.002 unidades). Esto indica que, en este caso, la estimación de la media es muy estable, y ambos métodos están proporcionando intervalos de confianza muy similares.

Método 1: Dado que este método es directo y refleja los percentiles extremos de las medias bootstrap, su estrecha similitud con el Método 2 sugiere que la distribución de las medias bootstrap es simétrica y no presenta sesgo significativo.

Método 2: Aunque introduce un ajuste basado en la media original para corregir posibles sesgos, el hecho de que el intervalo obtenido sea casi idéntico al del Método 1 sugiere que este ajuste no era necesario en este caso, ya que la distribución de las medias bootstrap es simétrica.

Conclusión

¿Confiaría en estas estimaciones?
Sí, confiaría en estas estimaciones. La cercanía extrema entre los intervalos de confianza obtenidos por los dos métodos refuerza la fiabilidad de la estimación de la media de la población. Esta similitud indica que no hay un sesgo significativo en las muestras bootstrap y que la distribución es simétrica, lo que hace que ambos métodos sean igualmente válidos en este contexto. Estos resultados sugieren que las estimaciones proporcionadas por el bootstrap son estables y confiables, y que cualquiera de los dos métodos puede ser utilizado con confianza para interpretar la media de la población.

Problema 5

El “efecto del tamaño” (o tamaño del efecto, en inglés efect size) en el contexto de la prueba de hipótesis se refiere a la magnitud de la diferencia o la fuerza de la relación que se está investigando entre las variables. En otras palabras, mide la cantidad de cambio o la importancia práctica de los resultados, más allá de simplemente determinar si una diferencia es estadísticamente significativa.

Incluso si una prueba estadística muestra que un resultado es significativo (es decir, si se rechaza la hipótesis nula), el tamaño del efecto te indicará si esa diferencia es importante en un sentido práctico o clínico. Por ejemplo, un estudio podría encontrar que un nuevo medicamento reduce la presión arterial de manera significativa, pero el tamaño del efecto indicaría si la reducción es lo suficientemente grande como para tener relevancia clínica.

Caso 1

RELACIONES ENTRE LA POTENCIA, EL TAMAÑO DE LOS EFECTOS Y EL TAMAÑO DE LA MUESTRA

Para cada tamaño fijo de los efectos d, se modela la relación entre el tamaño muestral y la potencia (manteniendo constante el nivel de significancia α=0.05). En las siguientes figuras se visualizan los resultados para tamaño de efecto muy pequeño (d=0.1), pequeño (d=0.2), mediano (d=0.5) y grande (d=0.8). Repite el análisis usando 5 valores distintos del nivel de significancia. ¿Cambian los resultados? ¿Qué ocurre cuando el tamaño de muestra de los grupos que se comparan es de 20, 60, 100 y 140? Analiza y compara los resultados.

Análisis

effect_sizes <- c(0.1, 0.2, 0.5, 0.8)

n_values <- seq(10, 200, by = 10)

combined_results <- data.frame()

for (d in effect_sizes) {
  power_values <- sapply(n_values, function(n){
    pwr.t.test(n = n, d = d, sig.level = 0.05, type = "two.sample", alternative = "two.sided")$power
  })
  
  df <- data.frame(
    Tamaño_Muestral = n_values,
    Potencia = power_values,
    Tamaño_Efecto = paste("d =", d)
  ) 
  combined_results <- rbind(combined_results, df)
}

ggplot(combined_results, aes(x = Tamaño_Muestral, y = Potencia, color = Tamaño_Efecto, linetype = Tamaño_Efecto)) +
  geom_line(size = 1) +
  scale_color_manual(values = c("#1f77b4", "#ff7f0e", "#2ca02c", "#d62728")) +
  scale_linetype_manual(values = c("solid", "dashed", "dotted", "dotdash")) +
  labs(title = "Potencia de la Prueba T para Diferentes Tamaños de Efecto (n = 200)",
       x = "Tamaño Muestral",
       y = "Potencia",
       color = "Tamaño Efecto",
       linetype = "Tamaño Efecto") +
  geom_hline(yintercept = 0.8, color = "black", linetype = "dashed") +
  theme(
    legend.position = "right",
    legend.title = element_text(size = 12, face = "bold"),
    legend.text = element_text(size = 10),
    axis.title = element_text(size = 12, face = "bold"),
    axis.text = element_text(size = 10)
  )

Relación entre Tamaño Muestral y Potencia:

A medida que el tamaño muestral aumenta, la potencia de la prueba también aumenta para todos los tamaños de efecto, esto significa que con muestras más grandes, es más probable detectar un efecto si realmente existe.

Impacto del Tamaño del Efecto:

Para un tamaño de muestra dado, los efectos más grandes (d=0.8) son más fáciles de detectar (mayor potencia) en comparación con los efectos más pequeños (d=0.1). Esto se refleja en las líneas de la gráfica, donde la línea para d=0.8 alcanza una potencia alta más rápidamente que las líneas para d=0.1, d=0.2 y d=0.5.

Tamaño de Muestra Necesario:

Para alcanzar una potencia deseada (por ejemplo, 0.8), se necesita un tamaño de muestra mayor para detectar efectos más pequeños. Por ejemplo, para un efecto muy pequeño (d=0.1), se requiere un tamaño de muestra mucho mayor que para un efecto grande (d=0.8).

effect_sizes <- c(0.1, 0.2, 0.5, 0.8)

n_values <- seq(10, 20, by = 10)

combined_results <- data.frame()

for (d in effect_sizes) {
  power_values <- sapply(n_values, function(n){
    pwr.t.test(n = n, d = d, sig.level = 0.05, type = "two.sample", alternative = "two.sided")$power
  })
  
  df <- data.frame(
    Tamaño_Muestral = n_values,
    Potencia = power_values,
    Tamaño_Efecto = paste("d =", d)
  ) 
  combined_results <- rbind(combined_results, df)
}

ggplot(combined_results, aes(x = Tamaño_Muestral, y = Potencia, color = Tamaño_Efecto, linetype = Tamaño_Efecto)) +
  geom_line(size = 1) +
  scale_color_manual(values = c("#1f77b4", "#ff7f0e", "#2ca02c", "#d62728")) +
  scale_linetype_manual(values = c("solid", "dashed", "dotted", "dotdash")) +
  labs(title = "Potencia de la Prueba T para Diferentes Tamaños de Efecto (n = 20)",
       x = "Tamaño Muestral",
       y = "Potencia",
       color = "Tamaño Efecto",
       linetype = "Tamaño Efecto") +
  geom_hline(yintercept = 0.8, color = "black", linetype = "dashed") +
  theme(
    legend.position = "right",
    legend.title = element_text(size = 12, face = "bold"),
    legend.text = element_text(size = 10),
    axis.title = element_text(size = 12, face = "bold"),
    axis.text = element_text(size = 10)
  )

Relación entre Tamaño del Efecto y Potencia:
Efecto muy pequeño (d=0.1): La potencia es muy baja, incluso con un tamaño muestral de 20, lo que indica que es difícil detectar un efecto tan pequeño con esta muestra. Efecto pequeño (d=0.2): La potencia sigue siendo baja, aunque un poco mejor que para d=0.1. Efecto mediano (d=0.5): La potencia es considerablemente mayor, lo que sugiere que es más probable detectar un efecto de este tamaño con una muestra de 20. Efecto grande (d=0.8): La potencia es alta, lo que indica que es muy probable detectar un efecto grande con el tamaño muestral dado.

effect_sizes <- c(0.1, 0.2, 0.5, 0.8)

n_values <- seq(10, 60, by = 10)

combined_results <- data.frame()

for (d in effect_sizes) {
  power_values <- sapply(n_values, function(n){
    pwr.t.test(n = n, d = d, sig.level = 0.05, type = "two.sample", alternative = "two.sided")$power
  })
  
  df <- data.frame(
    Tamaño_Muestral = n_values,
    Potencia = power_values,
    Tamaño_Efecto = paste("d =", d)
  ) 
  combined_results <- rbind(combined_results, df)
}

ggplot(combined_results, aes(x = Tamaño_Muestral, y = Potencia, color = Tamaño_Efecto, linetype = Tamaño_Efecto)) +
  geom_line(size = 1) +
  scale_color_manual(values = c("#1f77b4", "#ff7f0e", "#2ca02c", "#d62728")) +
  scale_linetype_manual(values = c("solid", "dashed", "dotted", "dotdash")) +
  labs(title = "Potencia de la Prueba T para Diferentes Tamaños de Efecto (n = 60)",
       x = "Tamaño Muestral",
       y = "Potencia",
       color = "Tamaño Efecto",
       linetype = "Tamaño Efecto") +
  geom_hline(yintercept = 0.8, color = "black", linetype = "dashed") +
  theme(
    legend.position = "right",
    legend.title = element_text(size = 12, face = "bold"),
    legend.text = element_text(size = 10),
    axis.title = element_text(size = 12, face = "bold"),
    axis.text = element_text(size = 10)
  )

Relación entre Tamaño del Efecto y Potencia:
Efecto muy pequeño (d=0.1): La potencia es baja, pero mejora en comparación con tamaños muestrales más pequeños. Sin embargo, sigue siendo difícil detectar un efecto tan pequeño. Efecto pequeño (d=0.2): La potencia es mayor que para d=0.1, pero aún no es óptima. Efecto mediano (d=0.5): La potencia es considerablemente alta, lo que sugiere que es probable detectar un efecto de este tamaño con una muestra de 60. Efecto grande (d=0.8): La potencia es muy alta, lo que indica que es muy probable detectar un efecto grande con el tamaño muestral dado.

effect_sizes <- c(0.1, 0.2, 0.5, 0.8)

n_values <- seq(10, 100, by = 10)

combined_results <- data.frame()

for (d in effect_sizes) {
  power_values <- sapply(n_values, function(n){
    pwr.t.test(n = n, d = d, sig.level = 0.05, type = "two.sample", alternative = "two.sided")$power
  })
  
  df <- data.frame(
    Tamaño_Muestral = n_values,
    Potencia = power_values,
    Tamaño_Efecto = paste("d =", d)
  ) 
  combined_results <- rbind(combined_results, df)
}

ggplot(combined_results, aes(x = Tamaño_Muestral, y = Potencia, color = Tamaño_Efecto, linetype = Tamaño_Efecto)) +
  geom_line(size = 1) +
  scale_color_manual(values = c("#1f77b4", "#ff7f0e", "#2ca02c", "#d62728")) +
  scale_linetype_manual(values = c("solid", "dashed", "dotted", "dotdash")) +
  labs(title = "Potencia de la Prueba T para Diferentes Tamaños de Efecto (n = 100)",
       x = "Tamaño Muestral",
       y = "Potencia",
       color = "Tamaño Efecto",
       linetype = "Tamaño Efecto") +
  geom_hline(yintercept = 0.8, color = "black", linetype = "dashed") +
  theme(
    legend.position = "right",
    legend.title = element_text(size = 12, face = "bold"),
    legend.text = element_text(size = 10),
    axis.title = element_text(size = 12, face = "bold"),
    axis.text = element_text(size = 10)
  )

Relación entre Tamaño del Efecto y Potencia:
Efecto muy pequeño (d=0.1): La potencia sigue siendo baja, aunque mejora en comparación con tamaños muestrales más pequeños. Detectar un efecto tan pequeño sigue siendo difícil. Efecto pequeño (d=0.2): La potencia es mayor que para d=0.1, pero aún no es óptima. Efecto mediano (d=0.5): La potencia es considerablemente alta, lo que sugiere que es probable detectar un efecto de este tamaño con una muestra de 100. Efecto grande (d=0.8): La potencia es muy alta, lo que indica que es muy probable detectar un efecto grande con el tamaño muestral dado.

effect_sizes <- c(0.1, 0.2, 0.5, 0.8)

n_values <- seq(10, 140, by = 10)

combined_results <- data.frame()

for (d in effect_sizes) {
  power_values <- sapply(n_values, function(n){
    pwr.t.test(n = n, d = d, sig.level = 0.05, type = "two.sample", alternative = "two.sided")$power
  })
  
  df <- data.frame(
    Tamaño_Muestral = n_values,
    Potencia = power_values,
    Tamaño_Efecto = paste("d =", d)
  ) 
  combined_results <- rbind(combined_results, df)
}

ggplot(combined_results, aes(x = Tamaño_Muestral, y = Potencia, color = Tamaño_Efecto, linetype = Tamaño_Efecto)) +
  geom_line(size = 1) +
  scale_color_manual(values = c("#1f77b4", "#ff7f0e", "#2ca02c", "#d62728")) +
  scale_linetype_manual(values = c("solid", "dashed", "dotted", "dotdash")) +
  labs(title = "Potencia de la Prueba T para Diferentes Tamaños de Efecto (n = 140)",
       x = "Tamaño Muestral",
       y = "Potencia",
       color = "Tamaño Efecto",
       linetype = "Tamaño Efecto") +
  geom_hline(yintercept = 0.8, color = "black", linetype = "dashed") +
  theme(
    legend.position = "right",
    legend.title = element_text(size = 12, face = "bold"),
    legend.text = element_text(size = 10),
    axis.title = element_text(size = 12, face = "bold"),
    axis.text = element_text(size = 10)
  )

Relación entre Tamaño del Efecto y Potencia:
Efecto pequeño (d=0.2): La potencia es moderada, pero aún no óptima. Detectar un efecto pequeño sigue siendo un desafío, aunque mejora con el aumento del tamaño muestral. Efecto mediano (d=0.5): La potencia es considerablemente alta, lo que sugiere que es probable detectar un efecto de este tamaño con una muestra de 140. Efecto grande (d=0.8): La potencia es muy alta, lo que indica que es muy probable detectar un efecto grande con el tamaño muestral dado.

Conclusiones

  1. En todas las gráficas, se observa que la potencia de la prueba T aumenta a medida que el tamaño muestral incrementa. Esto significa que con muestras más grandes, es más probable detectar un efecto si realmente existe.
  2. Para un tamaño de muestra dado, los efectos más grandes (por ejemplo, d=0.8) son más fáciles de detectar (mayor potencia) en comparación con los efectos más pequeños (por ejemplo, d=0.1). Esto se refleja en las líneas de las gráficas, donde las líneas para tamaños de efecto más grandes alcanzan una potencia alta más rápidamente que las líneas para tamaños de efecto más pequeños.
  3. Para alcanzar una potencia deseada (por ejemplo, 0.8), se necesita un tamaño de muestra mayor para detectar efectos más pequeños. Por ejemplo, para un efecto muy pequeño (d=0.1), se requiere un tamaño de muestra mucho mayor que para un efecto grande (d=0.8).

En general, la capacidad de detectar un efecto (potencia) depende tanto del tamaño del efecto como del tamaño muestral. Detectar efectos pequeños requiere muestras más grandes, mientras que los efectos grandes pueden ser detectados con muestras más pequeñas. A medida que el tamaño muestral aumenta, la potencia de la prueba también aumenta, mejorando la probabilidad de detectar efectos de cualquier tamaño.

Caso 2

En este problema nos centraremos en la aplicación de la prueba t de Student para comparar las medias entre dos grupos. Evaluaremos cómo las diferencias en los tamaños muestrales de los grupos influyen en la potencia de la prueba.

La potencia se define como la probabilidad de rechazar la hipótesis nula cuando la hipótesis alternativa es verdadera. En términos más sencillos, la potencia es la capacidad de una prueba estadística para identificar un efecto si este realmente existe. En general, desequilibrios muy marcados en los tamaños de muestra tienden a reducir la potencia estadística, lo que incrementa la probabilidad de cometer un error de tipo II.

Datos para el análisis

Se evaluarán los siguientes tamaños muestrales, donde \(n_1\) es el número de sujetos en el grupo 1 y \(n_2\) es el número de sujetos en el grupo 2:

  • \(n_1 = 28\), \(n_2 = 1406\): \(n_1\) representa el 2% del tamaño total de la muestra.
  • \(n_1 = 144\), \(n_2 = 1290\): \(n_1\) representa el 10% del tamaño total de la muestra.
  • \(n_1 = 287\), \(n_2 = 1147\): \(n_1\) representa el 20% del tamaño total de la muestra.
  • \(n_1 = 430\), \(n_2 = 1004\): \(n_1\) representa el 30% del tamaño total de la muestra.
  • \(n_1 = 574\), \(n_2 = 860\): \(n_1\) representa el 40% del tamaño total de la muestra.
  • \(n_1 = 717\), \(n_2 = 717\): Grupos de igual tamaño, lo que conduce a la mayor potencia para un tamaño de efecto dado.
p <- ggplot(temp3, aes(x = `effect size`, y = power, color = samples)) +
  geom_line(size=1) + 
  theme_bw() + 
  theme(axis.text=element_text(size=10), 
        axis.title=element_text(size=10), 
        legend.text=element_text(size=10)) +
  geom_vline(xintercept = .54, linetype = 2) +
  geom_hline(yintercept = 0.80, linetype = 2)+
  labs(x="Tamaño del efecto", y="Potencia") +
  scale_color_discrete(name = "Sampling size") 

plotly::ggplotly(p)

Gráficos y observaciones

Se tazaron las curvas de potencia para la prueba t de Student, en función del tamaño del efecto, asumiendo un nivel de significancia \(\alpha = 0.05\). La comparación de diferentes curvas de potencia, basadas en el tamaño de muestra de cada grupo, nos permite visualizar cómo los tamaños de muestra afectan la capacidad de la prueba para detectar efectos.

Además, se trazó una línea discontinua en el nivel de potencia aceptable del 80% y una línea vertical en el tamaño de efecto mínimo necesario para alcanzar ese nivel de potencia. Se observa que el tamaño del efecto debe ser superior a 0.54 para alcanzar una potencia aceptable del 80% en el escenario más desequilibrado \(n_1 = 28\) y \(n_2 = 1406\), en comparación con otros escenarios que conducen al 100% de potencia con tamaños de efecto más pequeños.

Análisis de Potencia

Este informe analiza los resultados de un ejercicio donde se calcularon curvas de potencia para diferentes niveles de significancia (\(\alpha\)) utilizando el test t de Student con muestras desiguales: \(n1 = 28\) y \(n2 = 1406\).

¿Cambian los resultados al usar 55 valores distintos del nivel de significancia?

Sí, los resultados cambian significativamente cuando se utilizan diferentes valores de \(\alpha\). En el siguiente gráfico, se observa cómo las curvas de potencia varían en función de \(\alpha\), abarcando desde 0.01 hasta 0.10.

# Definir el rango de 55 valores distintos de alpha
alpha_values <- seq(0.01, 0.10, length.out = 55)

# Inicializar un data frame para almacenar los resultados
results <- data.frame()

# Definir los tamaños de muestra específicos
n1 <- 28
n2 <- 1406

# Iterar sobre los valores de alpha
for (alpha in alpha_values) {
  ptab <- cbind(NULL, NULL)
  
  # Calcular la potencia para diferentes tamaños de efecto
  for (i in seq(0, 1, length.out = 200)) {
    pwrt <- pwr.t2n.test(n1 = n1, n2 = n2, sig.level = alpha, power = NULL, d = i, alternative = "two.sided")
    ptab <- rbind(ptab, cbind(pwrt$d, pwrt$power, alpha))
  }
  
  # Convertir a data frame y agregar a los resultados totales
  ptab_df <- as.data.frame(ptab)
  colnames(ptab_df) <- c("effect_size", "power", "alpha")
  results <- rbind(results, ptab_df)
}

# Gráfica interactiva para observar los resultados
p <- ggplot(results, aes(x = effect_size, y = power, color = as.factor(alpha), group = alpha)) +
  geom_line(size = 1) +
  theme_bw() + 
  labs(x = "Efecto del tamaño", y = "Potencia", color = "Alfa") +
  ggtitle(paste("Curvas de potencia para n1 =", n1, "y n2 =", n2, "con 55 niveles de alfa"))

plotly::ggplotly(p)

Respecto a Potencia y \(\alpha\), a medida que aumenta el nivel de significancia (\(\alpha\)), la potencia de la prueba aumenta para cualquier tamaño del efecto dado. Para valores más bajos de \(\alpha\) (como 0.01), es necesario un tamaño de efecto mayor para alcanzar una potencia significativa, por ejemplo, 0.80. Para valores más altos de \(\alpha\) (como 0.10), la prueba puede alcanzar una potencia alta con tamaños de efecto más pequeños. Lo anterior ocurre porque con un nivel de significancia más alto, el criterio para rechazar la hipótesis nula se vuelve menos estricto, lo que facilita detectar efectos, incluso si son pequeños. Por lo tanto, el nivel de significancia tiene un impacto directo en la potencia de la prueba.

¿Qué ocurre cuando \(n1 = 28\) y \(n2 = 1406\)?

El desequilibrio en el tamaño de las muestras tiene un impacto notable en la potencia de la prueba ya que para tamaños de efecto cercanos a 0, la potencia es baja en todos los niveles de \(\alpha\), esto es esperado, ya que el desequilibrio en los tamaños de muestra afecta la capacidad de la prueba para detectar efectos pequeños.

Por el contrario, para tamaños de efecto superiores a 0.5, la potencia comienza a aumentar rápidamente, alcanzando niveles cercanos a 1 cuando el tamaño del efecto es lo suficientemente grande, lo que muestra que la prueba es capaz de detectar efectos significativos a medida que aumenta el tamaño del efecto, incluso con el desequilibrio en el tamaño de las muestras.

Conclusiones

  • El nivel de significancia tiene un efecto directo sobre la potencia: cuanto mayor es \(\alpha\), mayor es la potencia para cualquier tamaño de efecto dado.
  • El desequilibrio en el tamaño de las muestras afecta la capacidad de la prueba para detectar efectos pequeños, pero la prueba se vuelve potente para tamaños de efecto grandes, independientemente del nivel de significancia.