Actividad 2

Problema 3

Teorema del Límite Central

Objetivo

El objetivo de este ejercicio es explorar la aplicación del Teorema del Límite Central y verificar su validez en la aproximación de la distribución de la proporción muestral a una distribución normal para diferentes tamaños de muestra y diferentes porcentajes de éxito en la población simulada de plantas enfermas y sanas.

Generación de Población:

Se creó una población de N=1000 individuos, con una proporción de individuos enfermos del 50%.

Estimador de la Proporción Muestral:

Para cada tamaño de muestra, se generaron 10 muestras aleatorias de la población y se calculó el estimador de la proporción muestral s1.

Tamaños de Muestra Analizados:

Tamaños de muestra de n=5,50,100,200,500.

library(nortest)
set.seed(123)
N <- 1000
test_shapiro <- c()
test_lillie <- c()
test_sf <- c()
N_mues <- c()
probal <- c()
k = 1
n <- c(5,50,100,200,500)
for (j in c(0.5,0.1,0.9)) {
  

x <- rbinom(N, 1, j) # población simulada

proporcion <- function(m){
  p <- sum(sample(x,m))/m
  return(p)
  }

proporcion(10)


#___________________________________________________________________
#n=5

for (i in n) {
  

w <- rep(i,1000)

s1 <- sapply(w, proporcion)
hist(s1,
     main=paste("Con", i,"Muestreos de", j*100,"% Plantas Enfermas"),
     xlab = "",
     ylab = "")

qqnorm(s1,
       main=paste("Grafico QQ Normal", i," Muestros de", j*100, "% Plantas Enfermas"),
       xlab = "Cuantiles teoricos",
       ylab = "Cuantiles de muestra")
qqline(s1, col='red')

# Ho: s1 tiene distribucion normal
# Ha: s1 no tiene distribucion nomal
#
# Si el v-p < alpha : 0.05
# se rechaza Ho, se acepta Ha como V 
# -> s1 no es normal
# De lo contrario
# -> asumimos que s1 es normal

test_shapiro[k] <- c(shapiro.test(s1)$p.value)
test_lillie[k] <- c(lillie.test(s1)$p.value)
test_sf[k] <- c(sf.test(s1)$p.value)
N_mues[k] <- c(i)
probal[k] <- c(j)


print(shapiro.test(s1))

k <- k+1
}
}


    Shapiro-Wilk normality test

data:  s1
W = 0.92989, p-value < 2.2e-16


    Shapiro-Wilk normality test

data:  s1
W = 0.99196, p-value = 2.903e-05


    Shapiro-Wilk normality test

data:  s1
W = 0.99477, p-value = 0.001556


    Shapiro-Wilk normality test

data:  s1
W = 0.99612, p-value = 0.01332


    Shapiro-Wilk normality test

data:  s1
W = 0.99734, p-value = 0.1007


    Shapiro-Wilk normality test

data:  s1
W = 0.70494, p-value < 2.2e-16


    Shapiro-Wilk normality test

data:  s1
W = 0.97582, p-value = 7.528e-12


    Shapiro-Wilk normality test

data:  s1
W = 0.98751, p-value = 1.593e-07


    Shapiro-Wilk normality test

data:  s1
W = 0.98927, p-value = 1.089e-06


    Shapiro-Wilk normality test

data:  s1
W = 0.99478, p-value = 0.001585


    Shapiro-Wilk normality test

data:  s1
W = 0.73232, p-value < 2.2e-16


    Shapiro-Wilk normality test

data:  s1
W = 0.97013, p-value = 1.789e-13


    Shapiro-Wilk normality test

data:  s1
W = 0.9881, p-value = 2.991e-07


    Shapiro-Wilk normality test

data:  s1
W = 0.99328, p-value = 0.0001747


    Shapiro-Wilk normality test

data:  s1
W = 0.99493, p-value = 0.001995

Comparación de Resultados:

Se analizaron los resultados obtenidos para las n en términos de simetría, sesgo y variabilidad utilizando pruebas de bondad de ajuste (Shapiro-Wilk) y métodos gráficos (QQ-plot). Ho: s1 tiene distribucion normal Ha: s1 no tiene distribucion nomal

Si el p < alpha = 0.05 : se rechaza Ho, se acepta Ha como Verdadera: s1 no es normal

De lo contrario: asumimos que s1 es normal

Simulación con Diferentes Proporciones en la Población:

Se repitió el análisis para poblaciones con proporciones de plantas enfermas del 10% y 90%.

Tamaño de Muestra n=5,50,100,200

Simetría y Sesgo:

La distribución de las proporciones muestrales s1 tiende a ser sesgada y asimétrica. Esto se debe a que con tamaños de muestra pequeños, la distribución de s1 no sigue bien una distribución normal, especialmente cuando la proporción de éxito en la población no es 50%.

Variabilidad:

La variabilidad de p es alta en comparación con el tamaño de muestra mayor. Las estimaciones pueden variar ampliamente debido a la pequeña cantidad de datos en cada muestra.

Pruebas de Bondad de Ajuste y Métodos Gráficos:

Las pruebas de Shapiro-Wilk y los QQ-plots muestran que la distribución de s1 no se ajusta bien a una distribución normal. Se observa que el p es menor que 0.05 rechazando Ho, aceptando Ha como verdadera, lo que indica que s1 no es normal.

Tamaño de Muestra n=500

Simetría y Sesgo:

Con un tamaño de muestra de 500, la distribución de s1 es mucho más simétrica y se aproxima a una distribución normal. Esto es consistente con el Teorema del Límite Central, que sugiere que la distribución de la proporción muestral se aproxima a una normal a medida que el tamaño de la muestra aumenta.

Variabilidad:

La variabilidad de s1 es significativamente menor en comparación con el tamaño de muestra de 5, lo que se alinea con la reducción de la varianza en proporciones muestrales con tamaños de muestra mayores.

Pruebas de Bondad de Ajuste y Métodos Gráficos:

Las pruebas de Shapiro-Wilk y los QQ-plots indican que la distribución de s1 se ajusta bien a una distribución normal, Como se observa en la tabla el único valor que supera el limite de p para s1 es para 500 muestras con 50% de la población enferma, dando Ho como verdadera y se asume que cumple con una distribución normal.

Poblaciones con Diferentes Proporciones de Éxito (10% y 90%)

Proporción del 10%:

Para poblaciones con un 10% de plantas enfermas, las muestras aún muestran una aproximación a la normalidad para n=500, pero la distribución es más sesgada y menos simétrica para n=5. La varianza es mayor para la proporción baja en comparación con la proporción de 50%.

Proporción del 90%:

o Similar al caso del 10%, para una población con 90% de plantas enfermas, la distribución de p tiende a aproximarse a una normal para n=500, pero se observa una mayor sesgo y asimetría para n=5. La varianza también es mayor comparada con la proporción del 50%.

probal	N_mues	test_shapiro	diferencia_shapiro
0.5	5	0.000	-0.050
0.5	50	0.000	-0.050
0.5	100	0.002	-0.048
0.5	200	0.013	-0.037
0.5	500	0.101	0.051
0.1	5	0.000	-0.050
0.1	50	0.000	-0.050
0.1	100	0.000	-0.050
0.1	200	0.000	-0.050
0.1	500	0.002	-0.048
0.9	5	0.000	-0.050
0.9	50	0.000	-0.050
0.9	100	0.000	-0.050
0.9	200	0.000	-0.050
0.9	500	0.002	-0.048

Conclusiones

La aproximación a la normalidad de la distribución de la proporción muestral es significativamente mejor para tamaños de muestra grandes (por ejemplo, n=500) en comparación con tamaños de muestra pequeños (por ejemplo, n=5,100,200). El Teorema del Límite Central se confirma al observar que para tamaños grandes la distribución se ajusta bien a la normalidad. Aunque la distribución de la proporción muestral se aproxima a una distribución normal con tamaños de muestra grandes, la simetría y la varianza varían con la proporción de éxito en la población. Proporciones extremas (10% o 90%) generan una mayor variabilidad y sesgo en muestras pequeñas en comparación con una proporción cercana al 50%. Este análisis confirma la robustez del Teorema del Límite Central en la inferencia estadística, especialmente para tamaños de muestra grandes, y muestra la importancia de considerar la proporción de éxito en la población al interpretar los resultados de muestras pequeñas.

Actividad 2 - Problema 3

Pontificia Universidad Javeriana de Cali

Karem Meneses y Carlos Osorio

2024-09-11

Problema 3

Teorema del Límite Central

Objetivo

Generación de Población:

Estimador de la Proporción Muestral:

Tamaños de Muestra Analizados:

Comparación de Resultados:

Simulación con Diferentes Proporciones en la Población:

Tamaño de Muestra n=5,50,100,200

Simetría y Sesgo:

Variabilidad:

Pruebas de Bondad de Ajuste y Métodos Gráficos:

Tamaño de Muestra n=500

Simetría y Sesgo:

Variabilidad:

Pruebas de Bondad de Ajuste y Métodos Gráficos:

Poblaciones con Diferentes Proporciones de Éxito (10% y 90%)

Proporción del 10%:

Proporción del 90%:

Conclusiones