Caris Chia Amaya - Weimar Cortes Montiel
Métodos y Simulación estadística
Maestría en Ciencia de Datos
Pontificia Universidad Javeriana de Cali
La siguiente figura sugiere como estimar el valor de π con una simulación. En la figura, un círcuito con un área igual a π/4, está inscrito en un cuadrado cuya área es igual a 1. Se elige de forma aleatoria n puntos dentro del cuadrado. La probabilidad de que un punto esté dentro del círculo es igual a la fracción del área del cuadrado que abarca a éste, la cual es π/4. Por tanto, se puede estimar el valor de π/4 al contar el número de puntos dentro del círculo, para obtener la estimación de π/4. De este último resultado se encontrar una aproximación para el valor de π.
plot(0,0, type = "n", xlim = c(0,1), ylim = c(0,1),
xlab = "Eje X", ylab = "Eje Y", asp = 1,
main = "Círculo Inscrito en un Cuadrado")
symbols(0.5,0.5, circles = 0.5, add = TRUE, inches = FALSE, lwd = 2, col = "blue")
Genere n coordenadas \(x: X_1, \ldots, X_n\). Utilice la distribución uniforme con valor mínimo de 0 y valor máximo de 1. La distribución uniforme genera variables aleatorias que tienen la misma probabilidad de venir de cualquier parte del intervalo \((0, 1)\).
Genere 1000 coordenadas \(y: Y_1, \ldots, Y_n\), utilizando nuevamente la distribución uniforme con valor mínimo de 0 y valor máximo de 1.
Cada punto \((X_i, Y_i)\) se encuentra dentro del círculo si su distancia desde el centro \((0.5, 0.5)\) es menor a 0.5. Para cada par \((X_i, Y_i)\) determine si la distancia desde el centro es menor que 0.5. Esto último se puede realizar al calcular el valor \((X_i - 0.5)^2 + (Y_i - 0.5)^2\), que es el cuadrado de la distancia, y al determinar si es menor que 0.25.
¿Cuántos de los puntos están dentro del círculo? ¿Cuál es su estimación de \(\pi\)?
Nota
Con sólo 1000 puntos, es probable que la estimación presente un error de 0.05 o más. Una simulación con 10000 y 100000 puntos tiene mayores probabilidades de dar como resultado una estimación muy cercana al valor verdadero.
Funciones recomendadas:
runif(),function(){}.Entregable: enlace en RPubs con informe 1.
Problema tomado de Navidi (2006).
En este análisis, se utiliza el método de Monte Carlo para estimar el valor de \(\pi\) generando puntos aleatorios en un cuadrado de lado 1 y contando cuántos de esos puntos caen dentro de un círculo inscrito. Este enfoque permite aproximar el valor de \(\pi\) a medida que aumenta la cantidad de puntos generados.
A continuación, se muestran gráficos que representan las estimaciones de \(\pi\) para diferentes tamaños de muestra: 100, 1000, 10,000, 100,000 y 1,000,000 puntos. En cada gráfico, los puntos dentro del círculo se muestran en azul, mientras que los puntos fuera del círculo aparecen en rojo. Acompañando los gráficos, se presenta una tabla que muestra el número de puntos dentro del círculo, la estimación de \(\pi\), el error absoluto y el error relativo para cada simulación.
El objetivo es observar cómo la estimación de \(\pi\) mejora conforme aumenta el número de puntos generados, lo que permite una mayor precisión en la estimación y una reducción en los errores.
n <- 100
x <- runif(n, min = 0, max = 1)
y <- runif(n, min = 0, max = 1)
distancia_cuadrada <- (x - 0.5)^2 + (y - 0.5)^2
dentro_del_circulo <- distancia_cuadrada < 0.25
num_dentro_del_circulo <- sum(dentro_del_circulo)
pi_estimado <- 4 * num_dentro_del_circulo / n
plot(x, y, col = ifelse(dentro_del_circulo, "#164C51", "#701c00"), asp = 1, main = "Estimación de π usando Monte Carlo (100)")
symbols(0.5, 0.5, circles = 0.5, add = TRUE, inches = FALSE)
pi_real <- pi
error_absoluto <- abs(pi_estimado - pi_real)
error_relativo <- error_absoluto / pi_real
resultados_df <- data.frame(
'Puntos Dentro Circulo' = num_dentro_del_circulo,
'Estimacion de Pi' = round(pi_estimado, 6),
'Error Absoluto' = round(error_absoluto, 6),
'Error Relativo' = round(error_relativo, 6)
)
pander(resultados_df, caption = "Resultados de la Estimación de π con 100 datos", digits = 6, split.tables = Inf)
| Puntos.Dentro.Circulo | Estimacion.de.Pi | Error.Absoluto | Error.Relativo |
|---|---|---|---|
| 81 | 3.24 | 0.098407 | 0.031324 |
n <- 1000
x <- runif(n, min = 0, max = 1)
y <- runif(n, min = 0, max = 1)
distancia_cuadrada <- (x - 0.5)^2 + (y - 0.5)^2
dentro_del_circulo <- distancia_cuadrada < 0.25
num_dentro_del_circulo <- sum(dentro_del_circulo)
pi_estimado <- 4 * num_dentro_del_circulo / n
plot(x, y, col = ifelse(dentro_del_circulo, "#164C51", "#701c00"), asp = 1, main = "Estimación de π usando Monte Carlo (1000)")
symbols(0.5, 0.5, circles = 0.5, add = TRUE, inches = FALSE)
pi_real <- pi
error_absoluto <- abs(pi_estimado - pi_real)
error_relativo <- error_absoluto / pi_real
resultados_df <- data.frame(
'Puntos Dentro Circulo' = num_dentro_del_circulo,
'Estimacion de Pi' = round(pi_estimado, 6),
'Error Absoluto' = round(error_absoluto, 6),
'Error Relativo' = round(error_relativo, 6)
)
pander(resultados_df, caption = "Resultados de la Estimación de π con 1000 datos", digits = 6, split.tables = Inf)
| Puntos.Dentro.Circulo | Estimacion.de.Pi | Error.Absoluto | Error.Relativo |
|---|---|---|---|
| 757 | 3.028 | 0.113593 | 0.036158 |
n <- 10000
x <- runif(n, min = 0, max = 1)
y <- runif(n, min = 0, max = 1)
distancia_cuadrada <- (x - 0.5)^2 + (y - 0.5)^2
dentro_del_circulo <- distancia_cuadrada < 0.25
num_dentro_del_circulo <- sum(dentro_del_circulo)
pi_estimado <- 4 * num_dentro_del_circulo / n
plot(x, y, col = ifelse(dentro_del_circulo, "#164C51", "#701c00"), asp = 1, main = "Estimación de π usando Monte Carlo (10000)")
symbols(0.5, 0.5, circles = 0.5, add = TRUE, inches = FALSE)
pi_real <- pi
error_absoluto <- abs(pi_estimado - pi_real)
error_relativo <- error_absoluto / pi_real
resultados_df <- data.frame(
'Puntos Dentro Circulo' = num_dentro_del_circulo,
'Estimacion de Pi' = round(pi_estimado, 6),
'Error Absoluto' = round(error_absoluto, 6),
'Error Relativo' = round(error_relativo, 6)
)
pander(resultados_df, caption = "Resultados de la Estimación de π con 10.000 datos", digits = 6, split.tables = Inf)
| Puntos.Dentro.Circulo | Estimacion.de.Pi | Error.Absoluto | Error.Relativo |
|---|---|---|---|
| 7898 | 3.1592 | 0.017607 | 0.005605 |
n <- 100000
x <- runif(n, min = 0, max = 1)
y <- runif(n, min = 0, max = 1)
distancia_cuadrada <- (x - 0.5)^2 + (y - 0.5)^2
dentro_del_circulo <- distancia_cuadrada < 0.25
num_dentro_del_circulo <- sum(dentro_del_circulo)
pi_estimado <- 4 * num_dentro_del_circulo / n
plot(x, y, col = ifelse(dentro_del_circulo, "#164C51", "#701c00"), asp = 1, main = "Estimación de π usando Monte Carlo (100000)")
symbols(0.5, 0.5, circles = 0.5, add = TRUE, inches = FALSE)
pi_real <- pi
error_absoluto <- abs(pi_estimado - pi_real)
error_relativo <- error_absoluto / pi_real
resultados_df <- data.frame(
'Puntos Dentro Circulo' = num_dentro_del_circulo,
'Estimacion de Pi' = round(pi_estimado, 6),
'Error Absoluto' = round(error_absoluto, 6),
'Error Relativo' = round(error_relativo, 6)
)
pander(resultados_df, caption = "Resultados de la Estimación de π con 100.000 datos", digits = 6, split.tables = Inf)
| Puntos.Dentro.Circulo | Estimacion.de.Pi | Error.Absoluto | Error.Relativo |
|---|---|---|---|
| 78473 | 3.13892 | 0.002673 | 0.000851 |
n <- 1000000
x <- runif(n, min = 0, max = 1)
y <- runif(n, min = 0, max = 1)
distancia_cuadrada <- (x - 0.5)^2 + (y - 0.5)^2
dentro_del_circulo <- distancia_cuadrada < 0.25
num_dentro_del_circulo <- sum(dentro_del_circulo)
pi_estimado <- 4 * num_dentro_del_circulo / n
plot(x, y, col = ifelse(dentro_del_circulo, "#164C51", "#701c00"), asp = 1, main = "Estimación de π usando Monte Carlo (1000000)")
symbols(0.5, 0.5, circles = 0.5, add = TRUE, inches = FALSE)
pi_real <- pi
error_absoluto <- abs(pi_estimado - pi_real)
error_relativo <- error_absoluto / pi_real
resultados_df <- data.frame(
'Puntos Dentro Circulo' = num_dentro_del_circulo,
'Estimacion de Pi' = round(pi_estimado, 6),
'Error Absoluto' = round(error_absoluto, 6),
'Error Relativo' = round(error_relativo, 6)
)
pander(resultados_df, caption = "Resultados de la Estimación de π con 1'000.000 datos", digits = 6, split.tables = Inf)
| Puntos.Dentro.Circulo | Estimacion.de.Pi | Error.Absoluto | Error.Relativo |
|---|---|---|---|
| 785398 | 3.14159 | 1e-06 | 0 |
Se procede a analizar las tendencias de las muestras en una tabla, para observar cómo, a medida que se incrementa el tamaño de las muestras, la estimación se aproxima cada vez más a π.
options(scipen = 999)
estimacion_pi <- function(n) {
x <- runif(n, min = 0, max = 1)
y <- runif(n, min = 0, max = 1)
distancia_cuadrada <- (x - 0.5)^2 + (y - 0.5)^2
dentro_del_circulo <- distancia_cuadrada < 0.25
num_dentro_del_circulo <- sum(dentro_del_circulo)
pi_estimado <- 4 * num_dentro_del_circulo / n
pi_real <- pi
error_absoluto <- abs(pi_estimado - pi_real)
return(c(pi_estimado, error_absoluto))
}
tamanos_muestra <- c(100, 1000, 10000, 100000, 1000000)
resultados <- sapply(tamanos_muestra, function(n) estimacion_pi(n))
resultados_df <- data.frame(
'Tamaño muestra' = tamanos_muestra,
'Estimacion pi' = round(resultados[1, ], 4),
'Error absoluto' = round(resultados[2, ], 4)
)
kable(resultados_df, col.names = c("Tamaño de Muestra", "Estimación de π", "Error Absoluto"),
digits = 6, align = "c", format = "pandoc")
| Tamaño de Muestra | Estimación de π | Error Absoluto |
|---|---|---|
| 100 | 3.2000 | 0.0584 |
| 1000 | 3.1440 | 0.0024 |
| 10000 | 3.1692 | 0.0276 |
| 100000 | 3.1434 | 0.0018 |
| 1000000 | 3.1412 | 0.0004 |
En la siguiente gráfica se puede observar una ligera desviación en la estimación en comparación con el tamaño de muestra anterior, está desviación varia entre las muestras, lo cual puede ser atribuido a la fluctuación inherente en la estimación con muestras grandes. A medida que el tamaño de la muestra aumenta, la estimación de π tiende a acercarse más al valor verdadero de π, reduciendo el error absoluto. Aunque la tendencia general muestra una mejora en la estimación con el aumento del tamaño de la muestra, se observa una ligera fluctuación en el error absoluto entre tamaños de muestra grandes (por ejemplo, entre 10,000 y 100,000), lo cual puede deberse a la variabilidad inherente en la simulación y no necesariamente a un problema en el método. Por lo tanto, se procede a revisar los datos para identificar el número de muestras requerido para minimizar el error absoluto a su mínima expresión.
n_sim <- seq(100000, 1000000, by = 10000)
pi_estimados <- numeric(length(n_sim))
errores_absolutos <- numeric(length(n_sim))
for (i in 1:length(n_sim)) {
n <- n_sim[i]
x <- runif(n, min = 0, max = 1)
y <- runif(n, min = 0, max = 1)
distancia_cuadrada <- (x - 0.5)^2 + (y - 0.5)^2
dentro_del_circulo <- distancia_cuadrada < 0.25
num_dentro_del_circulo <- sum(dentro_del_circulo)
pi_estimado <- 4 * num_dentro_del_circulo / n
pi_estimados[i] <- pi_estimado
errores_absolutos[i] <- abs(pi_estimado - pi)
}
puntos_cercanos <- which(abs(errores_absolutos) < 1e-4)
plot(n_sim, pi_estimados, type = "l", col = "#1f77b4", lwd = 2,
xlab = "Tamaño de la Muestra", ylab = "Estimación de π / Error",
main = "Estimación de π y Error Absoluto")
abline(h = pi, col = "#ff7f0e", lty = 2)
lines(n_sim, errores_absolutos, col = "#2ca02c", lwd = 2)
points(n_sim[puntos_cercanos], pi_estimados[puntos_cercanos], col = "#d62728", pch = 19, cex = 1.5)
points(n_sim[puntos_cercanos], errores_absolutos[puntos_cercanos], col = "#d62728", pch = 19, cex = 1.5)
resultados_puntos_cercanos <- data.frame(
Tamano_muestra = n_sim[puntos_cercanos],
Estimacion_pi = pi_estimados[puntos_cercanos],
Error_absoluto = errores_absolutos[puntos_cercanos]
)
kable(resultados_puntos_cercanos, col.names = c("Tamaño de Muestra", "Estimación de π", "Error Absoluto"),
caption = "Puntos donde la Estimación de π Coincide con el Valor Real", digits = 6, align = "c")
| Tamaño de Muestra | Estimación de π | Error Absoluto |
|---|---|---|
| 340000 | 3.141576 | 0.000016 |
| 380000 | 3.141495 | 0.000098 |
| 620000 | 3.141535 | 0.000057 |
| 890000 | 3.141640 | 0.000048 |
| 940000 | 3.141562 | 0.000031 |
epsilon <- 0.00001
confidence_level <- 0.99
z_value <- qnorm((1 + confidence_level) / 2)
pi_estimate <- 0.5
n <- (z_value^2 * (pi_estimate * (1 - pi_estimate))) / epsilon^2
n <- ceiling(n)
n_formatted <- formatC(n, format = "f", big.mark = ",", digits = 0)
cat("El número estimado de muestras necesarias es:", n_formatted, "\n")
El número estimado de muestras necesarias es: 16,587,241,503
Este número se tiene en cuenta con una nivel de confianza de 99%, y con un error deseado de 0.00001.
La simulación ayuda a entender y validar las propiedades de los estimadores estadísticos como son, insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.
Sean X1, X2, X3 y X4, una muestra aleatoria de tamaño n=4 cuya población la conforma una distribución exponencial con parámetro θ desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:
\[ \hat{\theta}_1 = \frac{X_1 + X_2}{6} + \frac{X_3 + X_4}{3} \]
\[ \hat{\theta}_2 = \frac{X_1 + 2X_2 + 3X_3 + 4X_4}{5} \]
\[ \hat{\theta}_3 = \frac{X_1 + X_2 + X_3 + X_4}{4} \]
\[ \hat{\theta}_4 = \frac{\min\{X_1, X_2, X_3, X_4\} + \max\{X_1, X_2, X_3, X_4\}}{2} \]
Nota
Genere una muestra de \(n = 20\), 50, 100 y 1000 para cada uno de los estimadores planteados.
En cada caso evalúe las propiedades de insesgadez, eficiencia y consistencia.
Suponga un valor para el parámetro \(\theta\).
Funciones recomendadas:
function(){},rexp(),data.frame(),apply(),boxplot().Entregable: enlace en RPubs con informe 2.
En este análisis, se evaluarán las propiedades de los estimadores \(\Theta_1\), \(\Theta_2\), \(\Theta_3\) y \(\Theta_4\) a través de sus sesgos en muestras de distintos tamaños: \(n = 20\), \(n = 50\), \(n = 100\) y \(n = 1000\). A continuación, se presentan tablas y gráficos que ilustran cómo varía el sesgo de cada estimador en función del tamaño de la muestra, así como su eficiencia y consistencia. El análisis se enfoca en identificar patrones de sesgo y cómo el aumento del tamaño de la muestra influye en la precisión de cada estimador.
Se incluirán boxplots que permiten visualizar la dispersión de los resultados para cada uno de los tamaños de muestra, destacando la tendencia de cada estimador con respecto a la mediana y los valores atípicos. Los resultados obtenidos servirán de base para las conclusiones que se presentan posteriormente.
| Theta 1 | Theta 2 | Theta 3 | Theta 4 | |
|---|---|---|---|---|
| n = 20 | -0.01366 | 1.97 | -0.01218 | 1.633 |
| n = 50 | 0.001827 | 2.007 | -0.003238 | 2.523 |
| n = 100 | -0.01253 | 1.977 | -0.01454 | 3.193 |
| n = 1000 | -0.01436 | 1.97 | -0.01126 | 5.46 |
for (n in sample_sizes) {
title <- paste("Boxplot para las", n, "muestras")
Encoding(title) <- "UTF-8"
boxplot(results[[as.character(n)]],
main = title,
names = c("Theta 1", "Theta 2", "Theta 3", "Theta 4"))
abline(h = 1/10, col = "red")
grid()
}
1. Insesgadez: Los estimadores Theta 1 y Theta 3
presentan sesgos cercanos a 0 en todos los tamaños de muestra, lo que
sugiere que son insesgados o al menos aproximadamente insesgados. La
insesgadez es una propiedad crucial, ya que asegura que, en promedio, el
estimador no sobreestima ni subestima el valor verdadero de θ. Esto los
convierte en opciones confiables para la estimación de θ.
Aunque el
sesgo de Theta 2 es consistente en torno a 2, lo que significa que
siempre subestima θ, sigue siendo un estimador sesgado. Esto implica
que, en promedio, no proporciona una estimación precisa del valor
verdadero de θ. Theta 4 por su parte, muestra un sesgo creciente a
medida que el tamaño de la muestra aumenta, lo que indica que también es
un estimador sesgado, y su desempeño empeora con tamaños de muestra
mayores. Este comportamiento lo hace inadecuado para estimar θ.
2. Consistencia: Respecto a Theta 1 y Theta 3, ambos
estimadores mantienen sesgos bajos y estables a medida que aumenta el
tamaño de la muestra. Esto indica que son consistentes: a medida que
crece el tamaño de la muestra, sus estimaciones se acercan al valor
verdadero de θ. La consistencia es una propiedad fundamental, ya que
asegura que con más datos, el estimador proporcionará una mejor
aproximación al parámetro.
Aunque el sesgo de Theta 2 no cambia
mucho con el tamaño de la muestra, la falta de reducción del sesgo
sugiere que Theta 2 no es consistente. Incluso con grandes muestras,
este estimador no proporciona estimaciones precisas de θ. Finalmente,
dado que el sesgo de Theta 4 aumenta con el tamaño de la muestra, no es
consistente, un estimador consistente debería mejorar con más datos, no
empeorar.
3. Eficiencia: La eficiencia de un estimador se refiere a su varianza. Aunque no tenemos directamente la varianza en estos resultados, los sesgos bajos y consistentes de Theta 1 y Theta 3 sugieren que probablemente sean más eficientes que Theta 2 y Theta 4, cuyos sesgos más grandes indican ineficiencia. Theta 2 y Theta 4 no solo son sesgados, sino que su sesgo no mejora significativamente con muestras más grandes, lo que también implica que no son eficientes.
Teorema del Límite Central:
El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.
A continuación se describen los siguientes pasos para su verificación:
Realice una simulación en la cual genere una población de n=1000 (Lote), donde el porcentaje de individuos (supongamos plantas) enfermas sea del 50%.
Genere una función que permita:
Repita el escenario anterior (b) n=500 veces y analice los resultados en cuanto al comportamiento de los 500 resultados del estimador pˆ. ¿Qué tan simétricos o sesgados son los resultados obtenidos? y ¿qué se puede observar en cuanto a la variabilidad?. Realice en su informe un comentario sobre los resultados obtenidos.
Repita los puntos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Compare los resultados obtenidos para los diferentes tamaños de muestra en cuanto a la normalidad. Utilice pruebas de bondad y ajuste (shapiro wilks :shspiro.test()) y métodos gráficos (gráfico de normalidad: qqnorm()). Comente en su informe los resultados obtenidos
Repita toda la simulación (puntos a – d), pero ahora para lotes con 10% de plantas enfermas y de nuevo para lotes con un 90% de plantas enfermas. Concluya sobre los resultados del ejercicio.
## La proporción muestral para una muestra 1000 es: 0.493
Proporción Muestral
La proporción muestral
\(\hat{p}\) de 0.493 está muy cerca de
la proporción poblacional p de 0.5. Esto es consistente con lo que
esperaríamos según el TLC, ya que para muestras grandes, la proporción
muestral debería aproximarse a la proporción poblacional.
Distribución Normal
Según el TLC, la
distribución de las proporciones muestrales debería aproximarse a una
distribución normal con media ( p ) y desviación estándar
Desviación estándar: \[ \sqrt{\frac{p(1-p)}{n}} \]
En este caso, la desviación estándar sería:
\[ \sigma_{\hat{p}} = \sqrt{\frac{0.5 \times (1 - 0.5)}{1000}} = \sqrt{\frac{0.25}{1000}} = \sqrt{0.00025} = 0.0158 \]
Intervalo de Confianza
Un intervalo de
confianza del 95% para la proporción muestral se puede calcular
como:
\[ \hat{p} \pm 1.96 \times \sigma_{\hat{p}} = 0.493 \pm 1.96 \times 0.0158 \]
Esto da un intervalo de aproximadamente [0.462, 0.524], lo cual incluye la proporción poblacional de 0.5.
## Media de las proporciones muestrales: 0.493776
## Desviación estándar de las proporciones muestrales: 0.0165244
Distribución de las Proporciones Muestrales: El
histograma muestra una distribución de las proporciones muestrales que
está centrada alrededor de la proporción verdadera de 0.5, como se
indica por la línea roja vertical. La forma de la distribución sugiere
una aproximación a la normalidad, que es lo que se espera según el
Teorema del Límite Central, especialmente cuando se trabaja con un
tamaño de muestra mayor.
Media de las Proporciones Muestrales: La media de las proporciones muestrales es 0.493776, que está muy cercana a la proporción verdadera de 0.5. Esto indica que, en promedio, las muestras están representando bien la población.
Desviación Estándar de las Proporciones Muestrales: La desviación estándar de 0.0165244 muestra la variabilidad de las proporciones muestrales alrededor de la media. Un valor más bajo indica que las proporciones muestrales están más concentradas cerca de la media.
En conclusión, la media de las proporciones muestrales es cercana a la proporción verdadera y la distribución tiene una forma simétrica, lo que sugiere normalidad. La pequeña desviación estándar refuerza la precisión de las muestras al estimar la proporción verdadera.
n_poblacion <- 1000
prob_enfermo <- 0.5
tamano_muestra <- 5
n_simulaciones <- 500
set.seed(123)
poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)
resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))
shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.92403, p-value = 0.000000000000003334
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
stat_qq() +
stat_qq_line(col = "red") +
ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 5)") +
theme(plot.title = element_text(size = 9))
histograma <- ggplot(data = NULL, aes(x = resultados)) +
geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
ggtitle("Distribución de Proporciones Muestrales (n = 5)") +
theme(plot.title = element_text(size = 9)) +
xlab("Proporción Muestral")
grid.arrange(qqplot, histograma, ncol = 2)
Normalidad de los Datos: El p-valor es extremadamente
bajo (3.334e-15), mucho menor que cualquier nivel de significancia común
(como 0.05 o 0.01). Esto significa que hay evidencia muy fuerte en
contra de la hipótesis nula de que los datos provienen de una
distribución normal, por lo tanto, podemos concluir que los datos no
siguen una distribución normal.
Teorema del Límite Central (TLC): El TLC establece
que para muestras suficientemente grandes, la distribución de la media
muestral se aproximará a una distribución normal, independientemente de
la distribución original de los datos. Sin embargo, el TLC se aplica
principalmente a la distribución de las medias muestrales y no
necesariamente a la distribución de los datos individuales. En este
caso, aunque los datos individuales no sean normales, si se toman muchas
muestras y calculan sus medias, esas medias deberían aproximarse a una
distribución normal si el tamaño de la muestra es suficientemente
grande.
El hecho de que la prueba de Shapiro-Wilk indique una
desviación significativa de la normalidad podría ser esperado, dado el
tamaño pequeño de la muestra, en estudios del Teorema del Límite
Central, se esperaría que con muestras más grandes (generalmente n >
30), la distribución de las medias muestrales se acerque a la normalidad
y la prueba de normalidad daría resultados más consistentes con este
teorema; en otras palabras, con un tamaño de muestra de 5, la falta de
normalidad observada es coherente con el hecho de que el TLC aún no
tiene un efecto fuerte en esta situación específica.
n_poblacion <- 1000
prob_enfermo <- 0.5
tamano_muestra <- 10
n_simulaciones <- 500
set.seed(123)
poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)
resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))
shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.96545, p-value = 0.000000001858
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
stat_qq() +
stat_qq_line(col = "red") +
ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 10)") +
theme(plot.title = element_text(size = 9))
histograma <- ggplot(data = NULL, aes(x = resultados)) +
geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
ggtitle("Distribución de Proporciones Muestrales (n = 10)") +
theme(plot.title = element_text(size = 9)) +
xlab("Proporción Muestral")
grid.arrange(qqplot, histograma, ncol = 2)
Aunque ha incrementado el tamaño de la muestra a 𝑛=10, lo cual mejora
la aproximación a la normalidad (como se observa en el anterior gráfico
Q-Q y en el histograma), el valor de p sigue siendo extremadamente bajo,
indicando que los datos aún no siguen una distribución normal. Esto es
consistente con el Teorema del Límite Central, que sugiere que la
normalidad se alcanza con tamaños de muestra mayores, con 𝑛=10, la
aproximación es mejor que con 𝑛=5, pero aún insuficiente para que la
distribución sea considerada normal según la prueba de
Shapiro-Wilk.
El incremento en el tamaño de la muestra ha mejorado la normalidad, pero todavía no es suficiente para alcanzar una distribución completamente normal, lo que refleja la naturaleza progresiva del efecto del Teorema del Límite Central a medida que el tamaño de la muestra aumenta.
n_poblacion <- 1000
prob_enfermo <- 0.5
tamano_muestra <- 15
n_simulaciones <- 500
set.seed(123)
poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)
resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))
shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.97312, p-value = 0.00000006008
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
stat_qq() +
stat_qq_line(col = "red") +
ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 15)") +
theme(plot.title = element_text(size = 9))
histograma <- ggplot(data = NULL, aes(x = resultados)) +
geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
ggtitle("Distribución de Proporciones Muestrales (n = 15)") +
theme(plot.title = element_text(size = 9)) +
xlab("Proporción Muestral")
grid.arrange(qqplot, histograma, ncol = 2)
Con un tamaño de muestra de 𝑛=15, se observa una mejora en la aproximación de la distribución muestral a una distribución normal; sin embargo, el valor de p sigue siendo significativamente bajo, lo que indica que, aunque la distribución se aproxima más a la normalidad, todavía no se ajusta completamente a ella.
Gráfico Q-Q: El gráfico Q-Q muestra una alineación más estrecha de los puntos a lo largo de la línea roja, lo que indica que la distribución de las proporciones muestrales se aproxima aún más a una distribución normal en comparación con las muestras más pequeñas.
Histograma: El histograma sigue mostrando una distribución centrada alrededor de 0.5, con una forma más simétrica, lo que es característico de una distribución normal.
n_poblacion <- 1000
prob_enfermo <- 0.5
tamano_muestra <- 20
n_simulaciones <- 500
set.seed(123)
poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)
resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))
shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.98008, p-value = 0.000002411
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
stat_qq() +
stat_qq_line(col = "red") +
ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 20)") +
theme(plot.title = element_text(size = 9))
histograma <- ggplot(data = NULL, aes(x = resultados)) +
geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
ggtitle("Distribución de Proporciones Muestrales (n = 20)") +
theme(plot.title = element_text(size = 9)) +
xlab("Proporción Muestral")
grid.arrange(qqplot, histograma, ncol = 2)
Gráfico Q-Q: El gráfico Q-Q muestra una alineación aún más estrecha de los puntos a lo largo de la línea roja, lo que indica que la distribución de las proporciones muestrales se aproxima mucho más a una distribución normal en comparación con los tamaños de muestra más pequeños. Aunque hay alguna desviación en los extremos, la mayor parte de los puntos sigue la línea con bastante precisión.
Histograma: El histograma muestra una distribución de las proporciones muestrales que es bastante simétrica y centrada alrededor de 0.5, lo que nuevamente es un buen indicio de una distribución normal, que se hace más evidente con un tamaño de muestra mayor.
Prueba de Shapiro-Wilk:
W = 0.98008: Este valor está muy cercano a 1, lo que
indica una fuerte alineación con la normalidad.
p-value =
2.411e-06: Aunque este valor de p sigue siendo bajo, es
considerablemente más alto que en los casos anteriores, lo que sugiere
una mejora continua en la aproximación de la distribución a la
normalidad.
n_poblacion <- 1000
prob_enfermo <- 0.5
tamano_muestra <- 30
n_simulaciones <- 500
set.seed(123)
poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)
resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))
shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.98581, p-value = 0.00008562
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
stat_qq() +
stat_qq_line(col = "red") +
ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 30)") +
theme(plot.title = element_text(size = 9))
histograma <- ggplot(data = NULL, aes(x = resultados)) +
geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
ggtitle("Distribución de Proporciones Muestrales (n = 30)") +
theme(plot.title = element_text(size = 9)) +
xlab("Proporción Muestral")
grid.arrange(qqplot, histograma, ncol = 2)
Prueba de Shapiro-Wilk:
W = 0.98581: Este valor está muy cercano a 1, lo que indica una fuerte alineación con la normalidad. p-value = 8.562e-05: Aunque el valor de p es más alto que en los casos anteriores, sigue siendo relativamente bajo, lo que técnicamente permitiría rechazar la hipótesis nula de normalidad, aunque con menos certeza.
Con un tamaño de muestra de 𝑛=30, la distribución de las proporciones muestrales se aproxima mucho más a una distribución normal, como lo demuestran tanto el gráfico Q-Q como la prueba de Shapiro-Wilk. El valor de p, aunque todavía bajo, es más alto que en los análisis anteriores, lo que indica una mejora en la aproximación a la normalidad.
n_poblacion <- 1000
prob_enfermo <- 0.5
tamano_muestra <- 50
n_simulaciones <- 500
set.seed(123)
poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)
resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))
shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.9894, p-value = 0.001123
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
stat_qq() +
stat_qq_line(col = "red") +
ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 50)") +
theme(plot.title = element_text(size = 9))
histograma <- ggplot(data = NULL, aes(x = resultados)) +
geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
ggtitle("Distribución de Proporciones Muestrales (n = 50)") +
theme(plot.title = element_text(size = 9)) +
xlab("Proporción Muestral")
grid.arrange(qqplot, histograma, ncol = 2)
Prueba de Shapiro-Wilk:
W =
0.9894: Este valor es muy cercano a 1, lo que sugiere una
fuerte normalidad en la distribución de los datos. p-value =
0.001123: Aunque este valor de p es mucho más alto que en los
análisis anteriores, aún permite rechazar la hipótesis nula de
normalidad en términos estrictos, pero la diferencia es mínima y puede
no ser significativa en contextos prácticos.
Con un tamaño de muestra de 𝑛=50, la distribución de las proporciones muestrales se aproxima de manera muy clara a una distribución normal, como lo evidencia la alineación casi perfecta en el gráfico Q-Q y el valor de 𝑊 en la prueba de Shapiro-Wilk. Aunque el valor de p aún es bajo, lo cual sugiere la posibilidad de rechazar la normalidad, en la práctica la distribución parece ser prácticamente normal.
n_poblacion <- 1000
prob_enfermo <- 0.5
tamano_muestra <- 60
n_simulaciones <- 500
set.seed(123)
poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)
resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))
shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.99226, p-value = 0.01075
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
stat_qq() +
stat_qq_line(col = "red") +
ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 60)") +
theme(plot.title = element_text(size = 9))
histograma <- ggplot(data = NULL, aes(x = resultados)) +
geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
ggtitle("Distribución de Proporciones Muestrales (n = 60)") +
theme(plot.title = element_text(size = 9)) +
xlab("Proporción Muestral")
grid.arrange(qqplot, histograma, ncol = 2)
Con un tamaño de muestra de 𝑛=60, la distribución de las proporciones muestrales se ajusta de manera notablemente cercana a una distribución normal. La alineación en el gráfico Q-Q y el valor de 𝑊 de la prueba de Shapiro-Wilk apoyan fuertemente esta conclusión. Aunque el valor de p sugiere que todavía existe una ligera desviación de la normalidad, en la mayoría de los contextos prácticos esta distribución puede considerarse normal.
Gráfico Q-Q: El gráfico Q-Q muestra una alineación casi perfecta de los puntos a lo largo de la línea roja, lo que indica que la distribución de las proporciones muestrales se ajusta muy bien a una distribución normal. Esta es la mejor alineación observada hasta ahora en sus gráficos.
Histograma: El histograma muestra una distribución de las proporciones muestrales que es simétrica y centrada alrededor de 0.5, con una mayor concentración de valores cerca de la media. La distribución se ha vuelto más estrecha y alta, lo que indica una menor dispersión y una mayor precisión en las estimaciones de la proporción muestral.
n_poblacion <- 1000
prob_enfermo <- 0.5
tamano_muestra <- 100
n_simulaciones <- 500
set.seed(123)
poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)
resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))
shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.99288, p-value = 0.0179
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
stat_qq() +
stat_qq_line(col = "red") +
ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 100)") +
theme(plot.title = element_text(size = 9))
histograma <- ggplot(data = NULL, aes(x = resultados)) +
geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
ggtitle("Distribución de Proporciones Muestrales (n = 100)") +
theme(plot.title = element_text(size = 9)) +
xlab("Proporción Muestral")
grid.arrange(qqplot, histograma, ncol = 2)
Gráfico Q-Q: El gráfico Q-Q continúa mostrando una excelente alineación de los puntos a lo largo de la línea roja, lo que indica que la distribución de las proporciones muestrales se ajusta muy bien a una distribución normal. La alineación es bastante precisa, lo que refuerza la idea de que la distribución es prácticamente normal.
Histograma: El histograma muestra una distribución de las proporciones muestrales que, aunque sigue centrada alrededor de 0.5, parece tener una concentración muy alta en un rango estrecho cerca de la media. La distribución es extremadamente alta y estrecha, lo que indica una menor variabilidad en las proporciones muestrales.
Prueba de Shapiro-Wilk:
W = 0.99288: Este valor es muy cercano a 1, lo que sugiere que la distribución de los datos es casi normal. p-value = 0.0179: Este valor de p, aunque mayor que en los casos anteriores, todavía es relativamente bajo, lo que sugiere que, desde un punto de vista técnico, podría rechazarse la hipótesis nula de normalidad; sin embargo, esta baja significación puede no ser relevante en contextos prácticos, dado lo cercana que es la distribución a la normalidad.
n_poblacion <- 1000
prob_enfermo <- 0.5
tamano_muestra <- 200
n_simulaciones <- 500
set.seed(123)
poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)
resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))
shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.99502, p-value = 0.107
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
stat_qq() +
stat_qq_line(col = "red") +
ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 200)") +
theme(plot.title = element_text(size = 9))
histograma <- ggplot(data = NULL, aes(x = resultados)) +
geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
ggtitle("Distribución de Proporciones Muestrales (n = 200)") +
theme(plot.title = element_text(size = 9)) +
xlab("Proporción Muestral")
grid.arrange(qqplot, histograma, ncol = 2)
Gráfico Q-Q: El gráfico Q-Q muestra una alineación casi perfecta de los puntos a lo largo de la línea roja, lo que indica que la distribución de las proporciones muestrales es muy cercana a una distribución normal. La alineación es excelente en prácticamente todo el rango de los datos.
Histograma: El histograma muestra una distribución de las proporciones muestrales que está altamente concentrada alrededor de la proporción de 0.5. La distribución es muy estrecha y alta, reflejando una gran precisión en las estimaciones de la proporción muestral, con una variabilidad extremadamente baja.
Prueba de Shapiro-Wilk:
W = 0.99502: Este valor está muy cercano a 1, lo que indica una normalidad casi perfecta en la distribución de los datos. p-value = 0.107: Este valor de p es considerablemente mayor que en los análisis anteriores y sugiere que no hay evidencia suficiente para rechazar la hipótesis nula de que los datos siguen una distribución normal. Esto significa que, desde un punto de vista estadístico, se puede considerar que la distribución es normal.
n_poblacion <- 1000
prob_enfermo <- 0.5
tamano_muestra <- 500
n_simulaciones <- 500
set.seed(123)
poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)
resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))
shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.99671, p-value = 0.4031
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
stat_qq() +
stat_qq_line(col = "red") +
ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 500)") +
theme(plot.title = element_text(size = 9))
histograma <- ggplot(data = NULL, aes(x = resultados)) +
geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
ggtitle("Distribución de Proporciones Muestrales (n = 500)") +
theme(plot.title = element_text(size = 9)) +
xlab("Proporción Muestral")
grid.arrange(qqplot, histograma, ncol = 2)
Con un tamaño de muestra de 𝑛=500, la distribución de las proporciones
muestrales se ajusta de manera excepcionalmente cercana a una
distribución normal, como lo indican tanto el gráfico Q-Q como los
resultados de la prueba de Shapiro-Wilk. El alto valor de p refuerza la
conclusión de que la distribución es normal.
Simetría y sesgo
A través de las diferentes
gráficas presentadas, se observa que a medida que el tamaño de la
muestra aumenta, los resultados obtenidos tienden a ser cada vez más
simétricos. En los primeros gráficos, correspondientes a tamaños de
muestra más pequeños (por ejemplo, 𝑛=5,𝑛=10), se puede observar cierta
asimetría y sesgo en las distribuciones muestrales, con desviaciones más
marcadas en los gráficos Q-Q y distribuciones que no están perfectamente
centradas alrededor de la media esperada.
Sin embargo, conforme el tamaño de la muestra incrementa (especialmente a partir de 𝑛=30 y más), las distribuciones comienzan a mostrar una mayor simetría. Los gráficos Q-Q revelan que los datos se alinean cada vez mejor con la línea de referencia, indicando que la distribución se aproxima a la normalidad. Esto es especialmente evidente en los gráficos correspondientes a 𝑛=200 y 𝑛=500, donde las distribuciones son casi perfectamente simétricas, y el sesgo es prácticamente inexistente.
Variabilidad
En cuanto a la variabilidad, los
primeros gráficos muestran una mayor dispersión en las proporciones
muestrales, lo que se refleja en distribuciones más anchas y menos
concentradas alrededor de la media. Esta alta variabilidad es natural en
tamaños de muestra pequeños, donde la influencia de valores extremos es
más pronunciada.
A medida que el tamaño de la muestra aumenta, se observa una disminución significativa en la variabilidad. Esto se manifiesta en los histogramas, que se vuelven más estrechos y altos, indicando que las proporciones muestrales están más concentradas cerca de la media esperada. Esta tendencia es un reflejo directo del Teorema del Límite Central, que predice que con muestras grandes, la media de las distribuciones muestrales tiende a aproximarse a una distribución normal con menor variabilidad.
En resumen, los resultados obtenidos a través de las gráficas muestran que, con tamaños de muestra pequeños, las distribuciones muestrales presentan cierta asimetría y alta variabilidad. Sin embargo, a medida que el tamaño de la muestra aumenta, las distribuciones se vuelven cada vez más simétricas y con menor variabilidad, acercándose a una distribución normal. Estos hallazgos están alineados con el Teorema del Límite Central, que establece que con muestras suficientemente grandes, las medias o proporciones muestrales siguen una distribución normal, independientemente de la forma de la distribución original.
Este análisis confirma que para obtener resultados más confiables y menos sesgados, es recomendable trabajar con muestras de mayor tamaño, lo que reduce la variabilidad y mejora la precisión de las estimaciones estadísticas.
n_poblacion <- 1000
prob_enfermo <- 0.1
tamano_muestra <- 5
n_simulaciones <- 500
set.seed(123)
poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)
resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))
shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.68095, p-value < 0.00000000000000022
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
stat_qq() +
stat_qq_line(col = "red") +
ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 5)") +
theme(plot.title = element_text(size = 9))
histograma <- ggplot(data = NULL, aes(x = resultados)) +
geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
ggtitle("Distribución de Proporciones Muestrales (n = 5)") +
theme(plot.title = element_text(size = 9)) +
xlab("Proporción Muestral")
grid.arrange(qqplot, histograma, ncol = 2)
n_poblacion <- 1000
prob_enfermo <- 0.9
tamano_muestra <- 5
n_simulaciones <- 500
set.seed(123)
poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)
resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))
shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.68095, p-value < 0.00000000000000022
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
stat_qq() +
stat_qq_line(col = "red") +
ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 5)") +
theme(plot.title = element_text(size = 9))
histograma <- ggplot(data = NULL, aes(x = resultados)) +
geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
ggtitle("Distribución de Proporciones Muestrales (n = 5)") +
theme(plot.title = element_text(size = 9)) +
xlab("Proporción Muestral")
grid.arrange(qqplot, histograma, ncol = 2)
Los resultados obtenidos con proporciones 𝑝=0.1 y 𝑝=0.9 muestran que, cuando se trabaja con un tamaño de muestra tan pequeño como 𝑛=5, las distribuciones de las proporciones muestrales están lejos de ser normales. En ambos casos, las distribuciones son altamente asimétricas y sesgadas hacia el extremo correspondiente de la proporción verdadera (izquierda para 𝑝=0.1 y derecha para 𝑝=0.9).
El gráfico Q-Q y la prueba de Shapiro-Wilk en ambos escenarios confirman que la distribución de las proporciones muestrales no sigue una distribución normal.
n_poblacion <- 1000
prob_enfermo <- 0.1
tamano_muestra <- 10
n_simulaciones <- 500
set.seed(123)
poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)
resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))
shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.81856, p-value < 0.00000000000000022
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
stat_qq() +
stat_qq_line(col = "red") +
ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 10)") +
theme(plot.title = element_text(size = 9))
histograma <- ggplot(data = NULL, aes(x = resultados)) +
geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
ggtitle("Distribución de Proporciones Muestrales (n = 10)") +
theme(plot.title = element_text(size = 9)) +
xlab("Proporción Muestral")
grid.arrange(qqplot, histograma, ncol = 2)
n_poblacion <- 1000
prob_enfermo <- 0.9
tamano_muestra <- 10
n_simulaciones <- 500
set.seed(123)
poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)
resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))
shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.81856, p-value < 0.00000000000000022
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
stat_qq() +
stat_qq_line(col = "red") +
ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 10)") +
theme(plot.title = element_text(size = 9))
histograma <- ggplot(data = NULL, aes(x = resultados)) +
geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
ggtitle("Distribución de Proporciones Muestrales (n = 10)") +
theme(plot.title = element_text(size = 9)) +
xlab("Proporción Muestral")
grid.arrange(qqplot, histograma, ncol = 2)
Los resultados obtenidos para proporciones 𝑝=0.1 y 𝑝=0.9 con un tamaño de muestra de 𝑛=10 muestran que, aunque el tamaño de muestra es mayor que en análisis anteriores (𝑛=5), las distribuciones de las proporciones muestrales siguen siendo asimétricas y sesgadas, dependiendo del valor de la proporción verdadera. En el caso de 𝑝=0.1, hay un sesgo hacia la izquierda, mientras que en 𝑝=0.9, el sesgo es hacia la derecha.
Los gráficos Q-Q y los resultados de la prueba de Shapiro-Wilk confirman que las distribuciones no son normales. El aumento en el tamaño de la muestra de 𝑛=5 a 𝑛=10 ha reducido un poco la variabilidad, pero no lo suficiente como para obtener una distribución normal.
n_poblacion <- 1000
prob_enfermo <- 0.1
tamano_muestra <- 15
n_simulaciones <- 500
set.seed(123)
poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)
resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))
shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.87489, p-value < 0.00000000000000022
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
stat_qq() +
stat_qq_line(col = "red") +
ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 15)") +
theme(plot.title = element_text(size = 9))
histograma <- ggplot(data = NULL, aes(x = resultados)) +
geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
ggtitle("Distribución de Proporciones Muestrales (n = 15)") +
theme(plot.title = element_text(size = 9)) +
xlab("Proporción Muestral")
grid.arrange(qqplot, histograma, ncol = 2)
n_poblacion <- 1000
prob_enfermo <- 0.9
tamano_muestra <- 15
n_simulaciones <- 500
set.seed(123)
poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)
resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))
shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.87489, p-value < 0.00000000000000022
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
stat_qq() +
stat_qq_line(col = "red") +
ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 15)") +
theme(plot.title = element_text(size = 9))
histograma <- ggplot(data = NULL, aes(x = resultados)) +
geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
ggtitle("Distribución de Proporciones Muestrales (n = 15)") +
theme(plot.title = element_text(size = 9)) +
xlab("Proporción Muestral")
grid.arrange(qqplot, histograma, ncol = 2)
Proporción 𝑝=0.1
Gráfico
Q-Q: El gráfico Q-Q muestra una desviación notable de los
puntos con respecto a la línea de referencia roja, lo que indica que las
proporciones muestrales no siguen una distribución normal. Los puntos se
distribuyen de manera desigual y están mayoritariamente por debajo de la
línea, lo que sugiere un sesgo hacia valores más bajos.
Histograma: El histograma revela que la mayoría de las proporciones muestrales están concentradas cerca de 0, lo que es coherente con una proporción verdadera baja. La distribución es asimétrica y sesgada hacia la izquierda, lo cual es típico cuando se trabaja con 𝑝=0.1.
Prueba de Shapiro-Wilk: El valor de 𝑊=0.87489 es
bajo, confirmando la desviación de la normalidad. El valor de p es
extremadamente pequeño (menor que 2.2×10−16), lo que apoya el rechazo de
la hipótesis nula de normalidad.
Proporción 𝑝=0.9
Gráfico Q-Q: En este caso, el gráfico Q-Q
también muestra una desviación significativa de los puntos respecto a la
línea de referencia roja. Los puntos están mayoritariamente por encima
de la línea, indicando un sesgo hacia valores más altos.
Histograma: El histograma muestra que la mayoría de las proporciones muestrales están concentradas cerca de 0.9, con una asimetría notable y un sesgo hacia la derecha, lo que es esperado para una proporción verdadera alta.
Prueba de Shapiro-Wilk: El valor de 𝑊=0.87489, al igual que en el caso de 𝑝=0.1, sugiere una desviación significativa de la normalidad. El valor de p nuevamente es extremadamente bajo, respaldando el rechazo de la hipótesis nula de normalidad.
n_poblacion <- 1000
prob_enfermo <- 0.1
tamano_muestra <- 20
n_simulaciones <- 500
set.seed(123)
poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)
resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))
shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.91131, p-value < 0.00000000000000022
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
stat_qq() +
stat_qq_line(col = "red") +
ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 20)") +
theme(plot.title = element_text(size = 9))
histograma <- ggplot(data = NULL, aes(x = resultados)) +
geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
ggtitle("Distribución de Proporciones Muestrales (n = 20)") +
theme(plot.title = element_text(size = 9)) +
xlab("Proporción Muestral")
grid.arrange(qqplot, histograma, ncol = 2)
n_poblacion <- 1000
prob_enfermo <- 0.9
tamano_muestra <- 20
n_simulaciones <- 500
set.seed(123)
poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)
resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))
shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.91131, p-value < 0.00000000000000022
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
stat_qq() +
stat_qq_line(col = "red") +
ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 20)") +
theme(plot.title = element_text(size = 9))
histograma <- ggplot(data = NULL, aes(x = resultados)) +
geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
ggtitle("Distribución de Proporciones Muestrales (n = 20)") +
theme(plot.title = element_text(size = 9)) +
xlab("Proporción Muestral")
grid.arrange(qqplot, histograma, ncol = 2)
Los resultados para ambas proporciones 𝑝=0.1 y 𝑝=0.9 con un tamaño de muestra de 𝑛=20 muestran una mejora en la simetría y una ligera reducción del sesgo en comparación con tamaños de muestra menores, pero las distribuciones de las proporciones muestrales aún no son normales. El sesgo sigue presente, con 𝑝=0.1 mostrando un sesgo hacia la izquierda y 𝑝=0.9 un sesgo hacia la derecha.
El gráfico Q-Q y la prueba de Shapiro-Wilk confirman que las distribuciones no son normales, a pesar de la mejora en la alineación de los puntos en el gráfico Q-Q y el aumento en el valor de 𝑊. Esto sugiere que, aunque el aumento en el tamaño de la muestra a 𝑛=20 reduce la variabilidad y mejora la aproximación a la normalidad, es necesario un tamaño de muestra aún mayor para obtener una distribución muestral que se aproxime más a una distribución normal, especialmente cuando se trabajan con proporciones extremas.
n_poblacion <- 1000
prob_enfermo <- 0.1
tamano_muestra <- 30
n_simulaciones <- 500
set.seed(123)
poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)
resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))
shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.94509, p-value = 0.000000000001192
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
stat_qq() +
stat_qq_line(col = "red") +
ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 30)") +
theme(plot.title = element_text(size = 9))
histograma <- ggplot(data = NULL, aes(x = resultados)) +
geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
ggtitle("Distribución de Proporciones Muestrales (n = 30)") +
theme(plot.title = element_text(size = 9)) +
xlab("Proporción Muestral")
grid.arrange(qqplot, histograma, ncol = 2)
n_poblacion <- 1000
prob_enfermo <- 0.9
tamano_muestra <- 30
n_simulaciones <- 500
set.seed(123)
poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)
resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))
shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.94509, p-value = 0.000000000001192
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
stat_qq() +
stat_qq_line(col = "red") +
ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 30)") +
theme(plot.title = element_text(size = 9))
histograma <- ggplot(data = NULL, aes(x = resultados)) +
geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
ggtitle("Distribución de Proporciones Muestrales (n = 30)") +
theme(plot.title = element_text(size = 9)) +
xlab("Proporción Muestral")
grid.arrange(qqplot, histograma, ncol = 2)
Proporción 𝑝=0.1
Gráfico
Q-Q: El gráfico Q-Q muestra una mejor alineación de los puntos
respecto a la línea de referencia roja en comparación con los casos
anteriores con tamaños de muestra menores. Sin embargo, todavía hay
desviaciones visibles, especialmente en los extremos, lo que indica que
las proporciones muestrales aún no siguen una distribución normal.
Histograma: El histograma muestra que la mayoría de las proporciones muestrales están concentradas cerca de 0.1, pero con algo de dispersión hacia valores mayores. La distribución es aún asimétrica, pero menos sesgada que con tamaños de muestra menores.
Prueba de Shapiro-Wilk: El valor de 𝑊=0.94509 es más
alto que en los casos anteriores, lo que sugiere una mejor aproximación
a la normalidad, aunque aún insuficiente. El valor de p es pequeño
(1.192e-12), lo que indica que aún se rechaza la hipótesis nula de
normalidad.
Proporción 𝑝=0.9
Gráfico Q-Q: En este caso, el gráfico Q-Q muestra que los puntos están alineados de manera más cercana a la línea de referencia roja, aunque todavía hay ligeras desviaciones en los extremos. Esto sugiere que la distribución de las proporciones muestrales se aproxima más a una distribución normal, pero aún no es perfecta.
Histograma: El histograma muestra una concentración de las proporciones muestrales cerca de 0.9, con menos dispersión que en el caso de 𝑝=0.1. La distribución es menos sesgada y más centrada alrededor de la media esperada.
Prueba de Shapiro-Wilk: El valor de 𝑊=0.94509 indica una mejor aproximación a la normalidad que en los casos anteriores, pero sigue siendo insuficiente para considerar la distribución como normal. El valor de p, aunque pequeño (1.192e-12), muestra una menor evidencia en contra de la normalidad en comparación con proporciones más extremas y tamaños de muestra menores.
n_poblacion <- 1000
prob_enfermo <- 0.1
tamano_muestra <- 50
n_simulaciones <- 500
set.seed(123)
poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)
resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))
shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.96965, p-value = 0.00000001169
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
stat_qq() +
stat_qq_line(col = "red") +
ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 50)") +
theme(plot.title = element_text(size = 9))
histograma <- ggplot(data = NULL, aes(x = resultados)) +
geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
ggtitle("Distribución de Proporciones Muestrales (n = 50)") +
theme(plot.title = element_text(size = 9)) +
xlab("Proporción Muestral")
grid.arrange(qqplot, histograma, ncol = 2)
n_poblacion <- 1000
prob_enfermo <- 0.9
tamano_muestra <- 50
n_simulaciones <- 500
set.seed(123)
poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)
resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))
shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.96965, p-value = 0.00000001169
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
stat_qq() +
stat_qq_line(col = "red") +
ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 50)") +
theme(plot.title = element_text(size = 9))
histograma <- ggplot(data = NULL, aes(x = resultados)) +
geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
ggtitle("Distribución de Proporciones Muestrales (n = 50)") +
theme(plot.title = element_text(size = 9)) +
xlab("Proporción Muestral")
grid.arrange(qqplot, histograma, ncol = 2)
Los resultados para ambas proporciones 𝑝=0.1 y 𝑝=0.9 con un tamaño de muestra de 𝑛=50 muestran una mejora significativa en la simetría y una reducción del sesgo en comparación con tamaños de muestra menores. Las distribuciones de las proporciones muestrales están mucho más cerca de ser normales, aunque aún no son perfectas. Los gráficos Q-Q muestran una alineación bastante buena con la línea de referencia, y los histogramas indican una distribución más concentrada y simétrica.
El valor elevado de 𝑊 en la prueba de Shapiro-Wilk sugiere una fuerte aproximación a la normalidad, pero el valor de p aún indica que la hipótesis nula de normalidad puede ser rechazada, aunque con menos certeza que en tamaños de muestra menores. Esto sugiere que, aunque 𝑛=50 es un tamaño de muestra suficientemente grande para muchas aplicaciones, aún podría haber ligeras desviaciones de la normalidad, especialmente en los extremos de la distribución. Sin embargo, estas desviaciones son pequeñas y probablemente insignificantes en la mayoría de los contextos prácticos.
n_poblacion <- 1000
prob_enfermo <- 0.1
tamano_muestra <- 60
n_simulaciones <- 500
set.seed(123)
poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)
resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))
shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.97276, p-value = 0.00000005047
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
stat_qq() +
stat_qq_line(col = "red") +
ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 60)") +
theme(plot.title = element_text(size = 9))
histograma <- ggplot(data = NULL, aes(x = resultados)) +
geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
ggtitle("Distribución de Proporciones Muestrales (n = 60)") +
theme(plot.title = element_text(size = 9)) +
xlab("Proporción Muestral")
grid.arrange(qqplot, histograma, ncol = 2)
n_poblacion <- 1000
prob_enfermo <- 0.9
tamano_muestra <- 60
n_simulaciones <- 500
set.seed(123)
poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)
resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))
shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.97276, p-value = 0.00000005047
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
stat_qq() +
stat_qq_line(col = "red") +
ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 60)") +
theme(plot.title = element_text(size = 9))
histograma <- ggplot(data = NULL, aes(x = resultados)) +
geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
ggtitle("Distribución de Proporciones Muestrales (n = 60)") +
theme(plot.title = element_text(size = 9)) +
xlab("Proporción Muestral")
grid.arrange(qqplot, histograma, ncol = 2)
Con un tamaño de muestra de 𝑛=60, las distribuciones de las proporciones muestrales para 𝑝=0.1 y 𝑝=0.9 muestran una clara mejora en la simetría y una reducción significativa del sesgo en comparación con tamaños de muestra más pequeños. Los gráficos Q-Q indican una alineación cercana con la normalidad, y los histogramas muestran distribuciones más estrechas y menos dispersas, con una asimetría mínima.
El valor de 𝑊 en la prueba de Shapiro-Wilk es alto, lo que sugiere una fuerte aproximación a la normalidad. Aunque el valor de p aún indica que podría rechazarse la hipótesis nula de normalidad, la magnitud del p-valor es menor que en tamaños de muestra menores, lo que sugiere que cualquier desviación de la normalidad es mínima y probablemente no significativa en la práctica.
Con 𝑛=60, las distribuciones muestrales para estas proporciones se aproximan bastante a una distribución normal, con solo ligeras desviaciones en los extremos. Estas distribuciones serían consideradas normales para la mayoría de las aplicaciones prácticas.
n_poblacion <- 1000
prob_enfermo <- 0.1
tamano_muestra <- 100
n_simulaciones <- 500
set.seed(123)
poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)
resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))
shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.97797, p-value = 0.0000007369
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
stat_qq() +
stat_qq_line(col = "red") +
ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 100)") +
theme(plot.title = element_text(size = 9))
histograma <- ggplot(data = NULL, aes(x = resultados)) +
geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
ggtitle("Distribución de Proporciones Muestrales (n = 100)") +
theme(plot.title = element_text(size = 9)) +
xlab("Proporción Muestral")
grid.arrange(qqplot, histograma, ncol = 2)
n_poblacion <- 1000
prob_enfermo <- 0.9
tamano_muestra <- 100
n_simulaciones <- 500
set.seed(123)
poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)
resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))
shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.97797, p-value = 0.0000007369
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
stat_qq() +
stat_qq_line(col = "red") +
ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 100)") +
theme(plot.title = element_text(size = 9))
histograma <- ggplot(data = NULL, aes(x = resultados)) +
geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
ggtitle("Distribución de Proporciones Muestrales (n = 100)") +
theme(plot.title = element_text(size = 9)) +
xlab("Proporción Muestral")
grid.arrange(qqplot, histograma, ncol = 2)
Proporción 𝑝=0.1
Gráfico Q-Q: El gráfico Q-Q muestra una alineación muy cercana de los puntos a la línea de referencia roja, lo que indica una excelente aproximación a la normalidad. Aunque aún hay algunas desviaciones menores en los extremos, la mayor parte de los puntos sigue la línea de referencia, sugiriendo que la distribución es casi normal.
Histograma: El histograma muestra una distribución de proporciones muestrales altamente concentrada cerca de 0.1. La distribución es bastante alta y estrecha, con una variabilidad muy reducida. La asimetría es mínima, indicando una distribución casi simétrica.
Prueba de Shapiro-Wilk: El valor de 𝑊=0.97797 es muy
alto, lo que indica una fuerte aproximación a la normalidad. Sin
embargo, el valor de p (7.369e-07) aún sugiere que podría haber ligeras
desviaciones de la normalidad, aunque estas son mínimas y probablemente
no significativas en la práctica.
Proporción 𝑝=0.9
Gráfico Q-Q: El gráfico Q-Q para 𝑝=0.9 muestra una alineación muy cercana de los puntos a la línea de referencia roja, similar al caso de 𝑝=0.1. Esto sugiere que la distribución de las proporciones muestrales es casi normal, con solo pequeñas desviaciones en los extremos.
Histograma: El histograma revela una concentración de las proporciones muestrales cerca de 0.9, con una distribución alta, estrecha y menos dispersa. La asimetría es mínima, lo que indica una distribución casi perfectamente simétrica.
Prueba de Shapiro-Wilk: El valor de 𝑊=0.97797 es elevado, lo que sugiere una buena aproximación a la normalidad. El valor de p (7.369e-07) indica que, aunque existen pequeñas desviaciones de la normalidad, estas son menores y probablemente insignificantes en la mayoría de los contextos prácticos.
n_poblacion <- 1000
prob_enfermo <- 0.1
tamano_muestra <- 200
n_simulaciones <- 500
set.seed(123)
poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)
resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))
shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.98933, p-value = 0.001067
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
stat_qq() +
stat_qq_line(col = "red") +
ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 200)") +
theme(plot.title = element_text(size = 9))
histograma <- ggplot(data = NULL, aes(x = resultados)) +
geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
ggtitle("Distribución de Proporciones Muestrales (n = 200)") +
theme(plot.title = element_text(size = 9)) +
xlab("Proporción Muestral")
grid.arrange(qqplot, histograma, ncol = 2)
n_poblacion <- 1000
prob_enfermo <- 0.9
tamano_muestra <- 200
n_simulaciones <- 500
set.seed(123)
poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)
resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))
shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.98933, p-value = 0.001067
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
stat_qq() +
stat_qq_line(col = "red") +
ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 200)") +
theme(plot.title = element_text(size = 9))
histograma <- ggplot(data = NULL, aes(x = resultados)) +
geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
ggtitle("Distribución de Proporciones Muestrales (n = 200)") +
theme(plot.title = element_text(size = 9)) +
xlab("Proporción Muestral")
grid.arrange(qqplot, histograma, ncol = 2)
Con un tamaño de muestra de 𝑛=200, las distribuciones de las proporciones muestrales para 𝑝=0.1 y 𝑝=0.9 se aproximan muy de cerca a una distribución normal. Los gráficos Q-Q muestran una alineación casi perfecta con la línea de referencia, y los histogramas indican distribuciones altamente concentradas, simétricas y con muy poca dispersión.
El valor elevado de 𝑊 en la prueba de Shapiro-Wilk confirma la casi normalidad de las distribuciones. Aunque el valor de p aún sugiere la posibilidad de ligeras desviaciones, estas son mínimas y probablemente no afectan de manera significativa los análisis o las conclusiones estadísticas. En resumen, con 𝑛=200, las distribuciones muestrales son prácticamente normales, lo que permite realizar inferencias estadísticas con un altísimo grado de confianza en la normalidad de los datos.
n_poblacion <- 1000
prob_enfermo <- 0.1
tamano_muestra <- 500
n_simulaciones <- 500
set.seed(123)
poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)
resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))
shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.99362, p-value = 0.03325
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
stat_qq() +
stat_qq_line(col = "red") +
ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 500)") +
theme(plot.title = element_text(size = 9))
histograma <- ggplot(data = NULL, aes(x = resultados)) +
geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
ggtitle("Distribución de Proporciones Muestrales (n = 500)") +
theme(plot.title = element_text(size = 9)) +
xlab("Proporción Muestral")
grid.arrange(qqplot, histograma, ncol = 2)
n_poblacion <- 1000
prob_enfermo <- 0.9
tamano_muestra <- 500
n_simulaciones <- 500
set.seed(123)
poblacion <- rbinom(n_poblacion, size = 1, prob = prob_enfermo)
resultados <- sapply(1:n_simulaciones, function(x) calcular_proporcion_muestral(tamano_muestra))
shapiro_test <- shapiro.test(resultados)
cat("Resultado de la Prueba de Shapiro-Wilk:\n")
## Resultado de la Prueba de Shapiro-Wilk:
print(shapiro_test)
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.99362, p-value = 0.03325
qqplot <- ggplot(data = NULL, aes(sample = resultados)) +
stat_qq() +
stat_qq_line(col = "red") +
ggtitle("Gráfico Q-Q de Proporciones Muestrales (n = 500)") +
theme(plot.title = element_text(size = 9))
histograma <- ggplot(data = NULL, aes(x = resultados)) +
geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black") +
geom_vline(xintercept = prob_enfermo, color = "red", linetype = "dashed", size = 1) +
ggtitle("Distribución de Proporciones Muestrales (n = 500)") +
theme(plot.title = element_text(size = 9)) +
xlab("Proporción Muestral")
grid.arrange(qqplot, histograma, ncol = 2)
Con un tamaño de muestra de 𝑛=500, las distribuciones de las proporciones muestrales para 𝑝=0.1 y 𝑝=0.9 muestran una aproximación muy fuerte a la normalidad. Los gráficos Q-Q indican una alineación casi perfecta con la línea de referencia, y los histogramas muestran distribuciones altamente concentradas, simétricas y con muy poca dispersión.
El valor elevado de 𝑊 en la prueba de Shapiro-Wilk confirma la normalidad de las distribuciones. El valor de p, que ahora es considerablemente mayor en comparación con tamaños de muestra más pequeños, sugiere que cualquier desviación de la normalidad es insignificante y no debe afectar los resultados o conclusiones estadísticas. En resumen, con 𝑛=500, las distribuciones muestrales se pueden considerar normales para todos los efectos prácticos, lo que permite realizar inferencias estadísticas con un altísimo grado de confianza en la normalidad de los datos.
En este informe se analiza la normalidad de las distribuciones de proporciones muestrales para dos proporciones diferentes, 𝑝=0.1 y 𝑝=0.9, utilizando diversos tamaños de muestra que varían desde 𝑛=5 hasta 𝑛=500. Para cada tamaño de muestra, se realizaron pruebas de normalidad utilizando la prueba de Shapiro-Wilk, gráficos Q-Q y histogramas. El objetivo de este análisis es evaluar cómo el tamaño de la muestra afecta la normalidad de las proporciones muestrales, especialmente en escenarios donde las proporciones son extremas.
Tamaño de Muestra 𝑛=5
𝑝=0.1:
Los resultados muestran una desviación significativa de la normalidad.
El gráfico Q-Q muestra puntos alejados de la línea de referencia, y el
histograma revela una distribución altamente asimétrica, con una gran
concentración cerca de 0.1 y una fuerte cola hacia la derecha. El valor
de 𝑊 en la prueba de Shapiro-Wilk es bajo, indicando una fuerte
desviación de la normalidad.
𝑝=0.9: Similar al caso
de 𝑝=0.1, se observa una desviación significativa de la normalidad. La
mayoría de las proporciones muestrales están concentradas cerca de 0.9,
pero con una fuerte asimetría y cola hacia la izquierda. El valor de 𝑊
es bajo, confirmando la no normalidad de la distribución.
Tamaño de Muestra 𝑛=10
𝑝=0.1:
Aunque la alineación en el gráfico Q-Q mejora ligeramente, sigue
habiendo una desviación notable de la normalidad. El histograma muestra
una reducción en la dispersión, pero la distribución sigue siendo
asimétrica y sesgada.
𝑝=0.9: La mejora en la
simetría y la alineación en el gráfico Q-Q es evidente, pero la
distribución aún no es normal. La concentración alrededor de 0.9 es más
alta, y la asimetría se ha reducido en comparación con 𝑛=5.
Tamaño de Muestra 𝑛=20
𝑝=0.1:
Con 𝑛=20, la distribución muestra una mejor aproximación a la
normalidad. El gráfico Q-Q tiene una alineación más cercana a la línea
de referencia, y la asimetría en el histograma se ha reducido. Sin
embargo, el valor de 𝑊 sigue indicando una desviación significativa.
𝑝=0.9: La alineación en el gráfico Q-Q mejora
notablemente, y la distribución es más simétrica y concentrada alrededor
de 0.9. El valor de 𝑊 es más alto, lo que sugiere una mejor aproximación
a la normalidad.
Tamaño de Muestra 𝑛=30
𝑝=0.1:
El gráfico Q-Q muestra una alineación más cercana a la normalidad, y la
distribución es menos asimétrica y más concentrada. Aunque la prueba de
Shapiro-Wilk aún muestra una desviación de la normalidad, la mejora es
clara.
𝑝=0.9: La distribución es casi normal, con
solo ligeras desviaciones en los extremos. La simetría y concentración
alrededor de 0.9 son notables, y el valor de 𝑊 indica una fuerte
aproximación a la normalidad.
Tamaño de Muestra 𝑛=50
𝑝=0.1:
La distribución se aproxima fuertemente a la normalidad, con un gráfico
Q-Q que muestra una alineación muy cercana a la línea de referencia. El
histograma es más alto y estrecho, con menos asimetría.
𝑝=0.9: La normalidad de la distribución es casi
perfecta, con un valor de 𝑊 muy alto y un p-valor que sugiere que
cualquier desviación de la normalidad es mínima.
Tamaño de Muestra 𝑛=60
𝑝=0.1:
La distribución es casi normal, con un gráfico Q-Q que muestra una
alineación muy precisa. El histograma indica una alta concentración
cerca de 0.1 y una dispersión mínima.
𝑝=0.9:
Similar a 𝑝=0.1, la distribución es altamente normal, con una fuerte
simetría y una alineación casi perfecta en el gráfico Q-Q.
Tamaño de Muestra 𝑛=100
𝑝=0.1:
Con 𝑛=100, la distribución se puede considerar prácticamente normal. El
gráfico Q-Q muestra una alineación casi perfecta, y el histograma es muy
estrecho y alto.
𝑝=0.9: La normalidad es evidente,
con solo pequeñas desviaciones en los extremos. El valor de 𝑊 es muy
alto, confirmando la normalidad de la distribución.
Tamaño de Muestra 𝑛=200
𝑝=0.1:
La distribución es esencialmente normal. El gráfico Q-Q muestra una
alineación perfecta, y el histograma es extremadamente estrecho y alto,
con mínima dispersión.
𝑝=0.9: Al igual que en
𝑝=0.1, la distribución es prácticamente normal. Cualquier desviación de
la normalidad es insignificante, permitiendo suponer la normalidad con
alta confianza.
Tamaño de Muestra 𝑛=500
𝑝=0.1:
La distribución es completamente normal, con una alineación perfecta en
el gráfico Q-Q y un histograma que muestra una alta concentración cerca
de 0.1.
𝑝=0.9: Similar a 𝑝=0.1, la normalidad es
casi perfecta, con valores de 𝑊 y p-valor que confirman la distribución
normal.
En conclusión, a medida que el tamaño de la muestra aumenta, las distribuciones de las proporciones muestrales para 𝑝=0.1 y 𝑝=0.9 se aproximan cada vez más a la normalidad. Para tamaños de muestra pequeños, las distribuciones muestran asimetría y sesgo, con valores de 𝑊 bajos y p-valores que indican desviaciones significativas de la normalidad. Sin embargo, al aumentar el tamaño de la muestra, la alineación en los gráficos Q-Q mejora notablemente, los histogramas se vuelven más altos y estrechos, y las distribuciones se acercan a una forma simétrica y concentrada.
Para 𝑛=100 y mayores, las distribuciones son prácticamente normales, con valores de 𝑊 elevados y p-valores que sugieren que cualquier desviación de la normalidad es mínima e insignificante para propósitos prácticos.
Este análisis confirma que el Teorema del Límite Central se cumple a medida que el tamaño de la muestra aumenta, las distribuciones muestrales tienden a la normalidad, incluso para proporciones extremas como𝑝=0.1 y 𝑝=0.9. Con tamaños de muestra de 𝑛=200 o mayores, las distribuciones se pueden considerar normales con alta confianza, lo que permite realizar inferencias estadísticas precisas y fiables.
Impacto del Tamaño de la Muestra en la Estimación de
Proporciones:
Las proporciones extremas (𝑝=0.1 y 𝑝=0.9)
tienden a mostrar una mayor variabilidad y sesgo en tamaños de muestra
pequeños. Las distribuciones muestrales son asimétricas y se desvían de
la normalidad; sin embargo, a medida que el tamaño de la muestra
aumenta, estas distribuciones se vuelven más normales, permitiendo
estimaciones más precisas y confiables. Del mismo modo la proporción
intermedia de 𝑝=0.5 tiende a ser más simétrica desde tamaños de muestra
más pequeños, pero aún así requiere tamaños de muestra medianos a
grandes para lograr normalidad.
Recomendaciones para Estudios en Plantas:
Para obtener estimaciones confiables de la proporción de plantas
enfermas, especialmente cuando se trata de proporciones extremas, es
crucial utilizar tamaños de muestra grandes. A partir de 𝑛=100 y
superiores, las distribuciones muestrales tienden a la normalidad, lo
que permite realizar inferencias estadísticas con alta precisión. En
estudios donde la proporción de plantas enfermas es cercana al 50%, las
distribuciones muestrales tienden a ser más estables y menos
susceptibles a sesgos, incluso con tamaños de muestra relativamente
pequeños.
Aplicabilidad de los Resultados:
Este
análisis es particularmente relevante en estudios epidemiológicos de
plantas, donde es necesario estimar la prevalencia de enfermedades.
Utilizar tamaños de muestra adecuados garantiza que las conclusiones
sobre la salud de la población de plantas sean precisas y basadas en
datos distribuidos normalmente, lo que a su vez facilita la toma de
decisiones informadas sobre manejo y control de enfermedades.
En
resumen, el análisis confirma que el tamaño de la muestra juega un papel
crucial en la precisión y confiabilidad de las estimaciones de
proporciones muestrales. Para proporciones extremas, es necesario
utilizar tamaños de muestra grandes para garantizar la normalidad de las
distribuciones muestrales y obtener resultados precisos. Las
proporciones intermedias, como 𝑝=0.5, tienden a ser más robustas frente
a la variabilidad, pero aún se benefician de tamaños de muestra
adecuados para asegurar la normalidad y la precisión de las inferencias
estadísticas.
Estimación boostrap
Cuando se extrae una muestra de una población que no es normal y se requiere estimar un intervalo de confianza se pueden utilizar los métodos de estimación bootstrap. Esta metodología supone que se puede reconstruir la población objeto de estudio mediante un muestreo con reemplazo de la muestra que se tiene. Existen varias versiones del método. Una presentación básica del método se describe a continuación:
El artículo de In-use Emissions from Heavy Duty Diesel Vehicles (J. Yanowitz, 2001) presenta las mediciones de eficiencia de combustible en millas/galón de una muestra de siete camiones. Los datos obtenidos son los siguientes: 7.69, 4.97, 4.56, 6.49, 4.34, 6.24 y 4.45. Se supone que es una muestra aleatoria de camiones y que se desea construir un intervalo de confianza del 95 % para la media de la eficiencia de combustible de esta población. No se tiene información de la distribución de los datos. El método bootstrap permite construir intervalos de confianza del 95 %.
Para ilustrar el método suponga que coloca los valores de la muestra en una caja y extrae uno al azar. Este correspondería al primer valor de la muestra bootstrap \(X_1^*\). Después de anotar el valor se regresa \(X_1^*\) a la caja y se extrae el valor \(X_2^*\), regresándolo nuevamente. Este procedimiento se repite hasta completar una muestra de tamaño \(n\), \(X_1^*, X_2^*, X_n^*\), conformando la muestra bootstrap.
Es necesario extraer un gran número de muestras (suponga \(k = 1000\)). Para cada una de las muestras bootstrap obtenidas se calcula la media \(\overline{X_i^*}\), obteniéndose un valor para cada muestra. El intervalo de confianza queda conformado por los percentiles \(P_{2.5}\) y \(P_{97.5}\). Existen dos métodos para estimar:
\[ (P_{2.5}; P_{97.5}) \]
\[ (2\overline{X} - P_{97.5}; 2\overline{X} - P_{2.5}) \]
Construya el intervalo de confianza por los dos métodos y compare los resultados obtenidos. Comente los resultados. ¿Confiaría en estas estimaciones?
| Método | Intervalo de Confianza |
|---|---|
| Método 1 | (6.908184, 7.154604) |
| Método 2 | (6.909907, 7.156327) |
df <- data.frame(medias_bootstrap = medias_bootstrap)
ggplot(df, aes(medias_bootstrap)) +
geom_histogram(binwidth = 0.01, color = "black", fill = "skyblue", alpha = 0.7) +
geom_vline(aes(xintercept = media_original), color = "red", linetype = "dashed", linewidth = 1) +
geom_vline(aes(xintercept = IC_metodo_1[1]), color = "blue", linetype = "solid", linewidth = 1) +
geom_vline(aes(xintercept = IC_metodo_1[2]), color = "blue", linetype = "solid", linewidth = 1) +
geom_vline(aes(xintercept = IC_metodo_2[1]), color = "green", linetype = "dotted", linewidth = 1) +
geom_vline(aes(xintercept = IC_metodo_2[2]), color = "green", linetype = "dotted", linewidth = 1) +
labs(title = "Distribución de las Medias Bootstrap con Intervalos de Confianza",
x = "Medias Bootstrap",
y = "Frecuencia") +
theme_minimal()
Comparación de Resultados
Método 1: (6.908,7.155)
Este intervalo se calcula directamente a partir de los percentiles 2.5 y 97.5 de las medias obtenidas de las muestras bootstrap.
Método 2: (6.910,7.156)
Este intervalo utiliza una fórmula que ajusta los percentiles mediante la media original, lo que intenta corregir cualquier posible sesgo. Comentarios sobre los Resultados Similitud: Los intervalos de confianza obtenidos por ambos métodos son casi idénticos, con diferencias mínimas en los límites inferior y superior (alrededor de 0.002 unidades). Esto indica que, en este caso, la estimación de la media es muy estable, y ambos métodos están proporcionando intervalos de confianza muy similares.
Método 1: Dado que este método es directo y refleja los percentiles extremos de las medias bootstrap, su estrecha similitud con el Método 2 sugiere que la distribución de las medias bootstrap es simétrica y no presenta sesgo significativo.
Método 2: Aunque introduce un ajuste basado en la media original para corregir posibles sesgos, el hecho de que el intervalo obtenido sea casi idéntico al del Método 1 sugiere que este ajuste no era necesario en este caso, ya que la distribución de las medias bootstrap es simétrica.
¿Confiaría en estas estimaciones?
Sí, confiaría en estas
estimaciones. La cercanía extrema entre los intervalos de confianza
obtenidos por los dos métodos refuerza la fiabilidad de la estimación de
la media de la población. Esta similitud indica que no hay un sesgo
significativo en las muestras bootstrap y que la distribución es
simétrica, lo que hace que ambos métodos sean igualmente válidos en este
contexto. Estos resultados sugieren que las estimaciones proporcionadas
por el bootstrap son estables y confiables, y que cualquiera de los dos
métodos puede ser utilizado con confianza para interpretar la media de
la población.
El “efecto del tamaño” (o tamaño del efecto, en inglés efect size) en el contexto de la prueba de hipótesis se refiere a la magnitud de la diferencia o la fuerza de la relación que se está investigando entre las variables. En otras palabras, mide la cantidad de cambio o la importancia práctica de los resultados, más allá de simplemente determinar si una diferencia es estadísticamente significativa.
Incluso si una prueba estadística muestra que un resultado es significativo (es decir, si se rechaza la hipótesis nula), el tamaño del efecto te indicará si esa diferencia es importante en un sentido práctico o clínico. Por ejemplo, un estudio podría encontrar que un nuevo medicamento reduce la presión arterial de manera significativa, pero el tamaño del efecto indicaría si la reducción es lo suficientemente grande como para tener relevancia clínica.
RELACIONES ENTRE LA POTENCIA, EL TAMAÑO DE LOS EFECTOS Y EL TAMAÑO DE LA MUESTRA
Para cada tamaño fijo de los efectos d, se modela la relación entre el tamaño muestral y la potencia (manteniendo constante el nivel de significancia α=0.05). En las siguientes figuras se visualizan los resultados para tamaño de efecto muy pequeño (d=0.1), pequeño (d=0.2), mediano (d=0.5) y grande (d=0.8). Repite el análisis usando 5 valores distintos del nivel de significancia. ¿Cambian los resultados? ¿Qué ocurre cuando el tamaño de muestra de los grupos que se comparan es de 20, 60, 100 y 140? Analiza y compara los resultados.
effect_sizes <- c(0.1, 0.2, 0.5, 0.8)
n_values <- seq(10, 200, by = 10)
combined_results <- data.frame()
for (d in effect_sizes) {
power_values <- sapply(n_values, function(n){
pwr.t.test(n = n, d = d, sig.level = 0.05, type = "two.sample", alternative = "two.sided")$power
})
df <- data.frame(
Tamaño_Muestral = n_values,
Potencia = power_values,
Tamaño_Efecto = paste("d =", d)
)
combined_results <- rbind(combined_results, df)
}
ggplot(combined_results, aes(x = Tamaño_Muestral, y = Potencia, color = Tamaño_Efecto, linetype = Tamaño_Efecto)) +
geom_line(size = 1) +
scale_color_manual(values = c("#1f77b4", "#ff7f0e", "#2ca02c", "#d62728")) +
scale_linetype_manual(values = c("solid", "dashed", "dotted", "dotdash")) +
labs(title = "Potencia de la Prueba T para Diferentes Tamaños de Efecto (n = 200)",
x = "Tamaño Muestral",
y = "Potencia",
color = "Tamaño Efecto",
linetype = "Tamaño Efecto") +
geom_hline(yintercept = 0.8, color = "black", linetype = "dashed") +
theme(
legend.position = "right",
legend.title = element_text(size = 12, face = "bold"),
legend.text = element_text(size = 10),
axis.title = element_text(size = 12, face = "bold"),
axis.text = element_text(size = 10)
)
Relación entre Tamaño Muestral y Potencia:
A medida que el tamaño muestral aumenta, la potencia de la prueba
también aumenta para todos los tamaños de efecto, esto significa que con
muestras más grandes, es más probable detectar un efecto si realmente
existe.
Impacto del Tamaño del Efecto:
Para un tamaño de muestra dado, los efectos más grandes (d=0.8) son
más fáciles de detectar (mayor potencia) en comparación con los efectos
más pequeños (d=0.1). Esto se refleja en las líneas de la gráfica, donde
la línea para d=0.8 alcanza una potencia alta más rápidamente que las
líneas para d=0.1, d=0.2 y d=0.5.
Tamaño de Muestra Necesario:
Para alcanzar una potencia deseada (por ejemplo, 0.8), se necesita un
tamaño de muestra mayor para detectar efectos más pequeños. Por ejemplo,
para un efecto muy pequeño (d=0.1), se requiere un tamaño de muestra
mucho mayor que para un efecto grande (d=0.8).
effect_sizes <- c(0.1, 0.2, 0.5, 0.8)
n_values <- seq(10, 20, by = 10)
combined_results <- data.frame()
for (d in effect_sizes) {
power_values <- sapply(n_values, function(n){
pwr.t.test(n = n, d = d, sig.level = 0.05, type = "two.sample", alternative = "two.sided")$power
})
df <- data.frame(
Tamaño_Muestral = n_values,
Potencia = power_values,
Tamaño_Efecto = paste("d =", d)
)
combined_results <- rbind(combined_results, df)
}
ggplot(combined_results, aes(x = Tamaño_Muestral, y = Potencia, color = Tamaño_Efecto, linetype = Tamaño_Efecto)) +
geom_line(size = 1) +
scale_color_manual(values = c("#1f77b4", "#ff7f0e", "#2ca02c", "#d62728")) +
scale_linetype_manual(values = c("solid", "dashed", "dotted", "dotdash")) +
labs(title = "Potencia de la Prueba T para Diferentes Tamaños de Efecto (n = 20)",
x = "Tamaño Muestral",
y = "Potencia",
color = "Tamaño Efecto",
linetype = "Tamaño Efecto") +
geom_hline(yintercept = 0.8, color = "black", linetype = "dashed") +
theme(
legend.position = "right",
legend.title = element_text(size = 12, face = "bold"),
legend.text = element_text(size = 10),
axis.title = element_text(size = 12, face = "bold"),
axis.text = element_text(size = 10)
)
Relación entre Tamaño del Efecto y Potencia:
Efecto muy pequeño (d=0.1): La potencia es muy baja, incluso con un
tamaño muestral de 20, lo que indica que es difícil detectar un efecto
tan pequeño con esta muestra. Efecto pequeño (d=0.2): La potencia sigue
siendo baja, aunque un poco mejor que para d=0.1. Efecto mediano
(d=0.5): La potencia es considerablemente mayor, lo que sugiere que es
más probable detectar un efecto de este tamaño con una muestra de 20.
Efecto grande (d=0.8): La potencia es alta, lo que indica que es muy
probable detectar un efecto grande con el tamaño muestral dado.
effect_sizes <- c(0.1, 0.2, 0.5, 0.8)
n_values <- seq(10, 60, by = 10)
combined_results <- data.frame()
for (d in effect_sizes) {
power_values <- sapply(n_values, function(n){
pwr.t.test(n = n, d = d, sig.level = 0.05, type = "two.sample", alternative = "two.sided")$power
})
df <- data.frame(
Tamaño_Muestral = n_values,
Potencia = power_values,
Tamaño_Efecto = paste("d =", d)
)
combined_results <- rbind(combined_results, df)
}
ggplot(combined_results, aes(x = Tamaño_Muestral, y = Potencia, color = Tamaño_Efecto, linetype = Tamaño_Efecto)) +
geom_line(size = 1) +
scale_color_manual(values = c("#1f77b4", "#ff7f0e", "#2ca02c", "#d62728")) +
scale_linetype_manual(values = c("solid", "dashed", "dotted", "dotdash")) +
labs(title = "Potencia de la Prueba T para Diferentes Tamaños de Efecto (n = 60)",
x = "Tamaño Muestral",
y = "Potencia",
color = "Tamaño Efecto",
linetype = "Tamaño Efecto") +
geom_hline(yintercept = 0.8, color = "black", linetype = "dashed") +
theme(
legend.position = "right",
legend.title = element_text(size = 12, face = "bold"),
legend.text = element_text(size = 10),
axis.title = element_text(size = 12, face = "bold"),
axis.text = element_text(size = 10)
)
Relación entre Tamaño del Efecto y Potencia:
Efecto muy pequeño (d=0.1): La potencia es baja, pero mejora en
comparación con tamaños muestrales más pequeños. Sin embargo, sigue
siendo difícil detectar un efecto tan pequeño. Efecto pequeño (d=0.2):
La potencia es mayor que para d=0.1, pero aún no es óptima. Efecto
mediano (d=0.5): La potencia es considerablemente alta, lo que sugiere
que es probable detectar un efecto de este tamaño con una muestra de 60.
Efecto grande (d=0.8): La potencia es muy alta, lo que indica que es muy
probable detectar un efecto grande con el tamaño muestral dado.
effect_sizes <- c(0.1, 0.2, 0.5, 0.8)
n_values <- seq(10, 100, by = 10)
combined_results <- data.frame()
for (d in effect_sizes) {
power_values <- sapply(n_values, function(n){
pwr.t.test(n = n, d = d, sig.level = 0.05, type = "two.sample", alternative = "two.sided")$power
})
df <- data.frame(
Tamaño_Muestral = n_values,
Potencia = power_values,
Tamaño_Efecto = paste("d =", d)
)
combined_results <- rbind(combined_results, df)
}
ggplot(combined_results, aes(x = Tamaño_Muestral, y = Potencia, color = Tamaño_Efecto, linetype = Tamaño_Efecto)) +
geom_line(size = 1) +
scale_color_manual(values = c("#1f77b4", "#ff7f0e", "#2ca02c", "#d62728")) +
scale_linetype_manual(values = c("solid", "dashed", "dotted", "dotdash")) +
labs(title = "Potencia de la Prueba T para Diferentes Tamaños de Efecto (n = 100)",
x = "Tamaño Muestral",
y = "Potencia",
color = "Tamaño Efecto",
linetype = "Tamaño Efecto") +
geom_hline(yintercept = 0.8, color = "black", linetype = "dashed") +
theme(
legend.position = "right",
legend.title = element_text(size = 12, face = "bold"),
legend.text = element_text(size = 10),
axis.title = element_text(size = 12, face = "bold"),
axis.text = element_text(size = 10)
)
Relación entre Tamaño del Efecto y Potencia:
Efecto muy pequeño (d=0.1): La potencia sigue siendo baja, aunque mejora
en comparación con tamaños muestrales más pequeños. Detectar un efecto
tan pequeño sigue siendo difícil. Efecto pequeño (d=0.2): La potencia es
mayor que para d=0.1, pero aún no es óptima. Efecto mediano (d=0.5): La
potencia es considerablemente alta, lo que sugiere que es probable
detectar un efecto de este tamaño con una muestra de 100. Efecto grande
(d=0.8): La potencia es muy alta, lo que indica que es muy probable
detectar un efecto grande con el tamaño muestral dado.
effect_sizes <- c(0.1, 0.2, 0.5, 0.8)
n_values <- seq(10, 140, by = 10)
combined_results <- data.frame()
for (d in effect_sizes) {
power_values <- sapply(n_values, function(n){
pwr.t.test(n = n, d = d, sig.level = 0.05, type = "two.sample", alternative = "two.sided")$power
})
df <- data.frame(
Tamaño_Muestral = n_values,
Potencia = power_values,
Tamaño_Efecto = paste("d =", d)
)
combined_results <- rbind(combined_results, df)
}
ggplot(combined_results, aes(x = Tamaño_Muestral, y = Potencia, color = Tamaño_Efecto, linetype = Tamaño_Efecto)) +
geom_line(size = 1) +
scale_color_manual(values = c("#1f77b4", "#ff7f0e", "#2ca02c", "#d62728")) +
scale_linetype_manual(values = c("solid", "dashed", "dotted", "dotdash")) +
labs(title = "Potencia de la Prueba T para Diferentes Tamaños de Efecto (n = 140)",
x = "Tamaño Muestral",
y = "Potencia",
color = "Tamaño Efecto",
linetype = "Tamaño Efecto") +
geom_hline(yintercept = 0.8, color = "black", linetype = "dashed") +
theme(
legend.position = "right",
legend.title = element_text(size = 12, face = "bold"),
legend.text = element_text(size = 10),
axis.title = element_text(size = 12, face = "bold"),
axis.text = element_text(size = 10)
)
Relación entre Tamaño del Efecto y Potencia:
Efecto pequeño (d=0.2): La potencia es moderada, pero aún no óptima.
Detectar un efecto pequeño sigue siendo un desafío, aunque mejora con el
aumento del tamaño muestral. Efecto mediano (d=0.5): La potencia es
considerablemente alta, lo que sugiere que es probable detectar un
efecto de este tamaño con una muestra de 140. Efecto grande (d=0.8): La
potencia es muy alta, lo que indica que es muy probable detectar un
efecto grande con el tamaño muestral dado.
En general, la capacidad de detectar un efecto (potencia) depende
tanto del tamaño del efecto como del tamaño muestral. Detectar efectos
pequeños requiere muestras más grandes, mientras que los efectos grandes
pueden ser detectados con muestras más pequeñas. A medida que el tamaño
muestral aumenta, la potencia de la prueba también aumenta, mejorando la
probabilidad de detectar efectos de cualquier tamaño.
En este problema nos centraremos en la aplicación de la prueba t de Student para comparar las medias entre dos grupos. Evaluaremos cómo las diferencias en los tamaños muestrales de los grupos influyen en la potencia de la prueba.
La potencia se define como la probabilidad de rechazar la hipótesis nula cuando la hipótesis alternativa es verdadera. En términos más sencillos, la potencia es la capacidad de una prueba estadística para identificar un efecto si este realmente existe. En general, desequilibrios muy marcados en los tamaños de muestra tienden a reducir la potencia estadística, lo que incrementa la probabilidad de cometer un error de tipo II.
Se evaluarán los siguientes tamaños muestrales, donde \(n_1\) es el número de sujetos en el grupo 1 y \(n_2\) es el número de sujetos en el grupo 2:
p <- ggplot(temp3, aes(x = `effect size`, y = power, color = samples)) +
geom_line(size=1) +
theme_bw() +
theme(axis.text=element_text(size=10),
axis.title=element_text(size=10),
legend.text=element_text(size=10)) +
geom_vline(xintercept = .54, linetype = 2) +
geom_hline(yintercept = 0.80, linetype = 2)+
labs(x="Tamaño del efecto", y="Potencia") +
scale_color_discrete(name = "Sampling size")
plotly::ggplotly(p)
Se tazaron las curvas de potencia para la prueba t de Student, en función del tamaño del efecto, asumiendo un nivel de significancia \(\alpha = 0.05\). La comparación de diferentes curvas de potencia, basadas en el tamaño de muestra de cada grupo, nos permite visualizar cómo los tamaños de muestra afectan la capacidad de la prueba para detectar efectos.
Además, se trazó una línea discontinua en el nivel de potencia aceptable del 80% y una línea vertical en el tamaño de efecto mínimo necesario para alcanzar ese nivel de potencia. Se observa que el tamaño del efecto debe ser superior a 0.54 para alcanzar una potencia aceptable del 80% en el escenario más desequilibrado \(n_1 = 28\) y \(n_2 = 1406\), en comparación con otros escenarios que conducen al 100% de potencia con tamaños de efecto más pequeños.
Este informe analiza los resultados de un ejercicio donde se calcularon curvas de potencia para diferentes niveles de significancia (\(\alpha\)) utilizando el test t de Student con muestras desiguales: \(n1 = 28\) y \(n2 = 1406\).
Sí, los resultados cambian significativamente cuando se utilizan diferentes valores de \(\alpha\). En el siguiente gráfico, se observa cómo las curvas de potencia varían en función de \(\alpha\), abarcando desde 0.01 hasta 0.10.
# Definir el rango de 55 valores distintos de alpha
alpha_values <- seq(0.01, 0.10, length.out = 55)
# Inicializar un data frame para almacenar los resultados
results <- data.frame()
# Definir los tamaños de muestra específicos
n1 <- 28
n2 <- 1406
# Iterar sobre los valores de alpha
for (alpha in alpha_values) {
ptab <- cbind(NULL, NULL)
# Calcular la potencia para diferentes tamaños de efecto
for (i in seq(0, 1, length.out = 200)) {
pwrt <- pwr.t2n.test(n1 = n1, n2 = n2, sig.level = alpha, power = NULL, d = i, alternative = "two.sided")
ptab <- rbind(ptab, cbind(pwrt$d, pwrt$power, alpha))
}
# Convertir a data frame y agregar a los resultados totales
ptab_df <- as.data.frame(ptab)
colnames(ptab_df) <- c("effect_size", "power", "alpha")
results <- rbind(results, ptab_df)
}
# Gráfica interactiva para observar los resultados
p <- ggplot(results, aes(x = effect_size, y = power, color = as.factor(alpha), group = alpha)) +
geom_line(size = 1) +
theme_bw() +
labs(x = "Efecto del tamaño", y = "Potencia", color = "Alfa") +
ggtitle(paste("Curvas de potencia para n1 =", n1, "y n2 =", n2, "con 55 niveles de alfa"))
plotly::ggplotly(p)
Respecto a Potencia y \(\alpha\), a medida que aumenta el nivel de significancia (\(\alpha\)), la potencia de la prueba aumenta para cualquier tamaño del efecto dado. Para valores más bajos de \(\alpha\) (como 0.01), es necesario un tamaño de efecto mayor para alcanzar una potencia significativa, por ejemplo, 0.80. Para valores más altos de \(\alpha\) (como 0.10), la prueba puede alcanzar una potencia alta con tamaños de efecto más pequeños. Lo anterior ocurre porque con un nivel de significancia más alto, el criterio para rechazar la hipótesis nula se vuelve menos estricto, lo que facilita detectar efectos, incluso si son pequeños. Por lo tanto, el nivel de significancia tiene un impacto directo en la potencia de la prueba.
El desequilibrio en el tamaño de las muestras tiene un impacto notable en la potencia de la prueba ya que para tamaños de efecto cercanos a 0, la potencia es baja en todos los niveles de \(\alpha\), esto es esperado, ya que el desequilibrio en los tamaños de muestra afecta la capacidad de la prueba para detectar efectos pequeños.
Por el contrario, para tamaños de efecto superiores a 0.5, la potencia comienza a aumentar rápidamente, alcanzando niveles cercanos a 1 cuando el tamaño del efecto es lo suficientemente grande, lo que muestra que la prueba es capaz de detectar efectos significativos a medida que aumenta el tamaño del efecto, incluso con el desequilibrio en el tamaño de las muestras.