Actividad

##Terorema de limite Centra

El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.

A continuación se describen los siguientes pasos para su verificación:

Realice una simulación en la cual genere una población de n=10000 (Lote), donde el porcentaje de individuos (supongamos plantas) enfermas sea del 50%.

Generador_poblacion=function(n,p_s,p_e)
{
Poblacion=c(rep("enferma",n*p_e),rep("sana",n*p_s))
return(Poblacion)
}
poblacion1=1000
p_sanas=0.5
p_enfermas=0.5
Poblacion=Generador_poblacion(poblacion1,p_sanas,p_enfermas)

Genere una función que permita:

Obtener una muestra aleatoria de la población.

Generador_muestra=function(n_muestra)
{
muestra1=sample(Poblacion,size=n_muestra)
return(sum(muestra1=="enferma")/n_muestra)
}

gen_pri=function(n_muestra,numero_muestras)
{
return(sapply(rep(n_muestra,numero_muestras),Generador_muestra))
}
gen_pri(100,1)

## [1] 0.52

Calcule el estimador de la proporción muestral pˆ para un tamaño de muestra dado n.

Repita el escenario anterior (b) n=500 veces y analice los resultados en cuanto al comportamiento de los 500 resultados del estimador pˆ. ¿Qué tan simétricos o sesgados son los resultados obtenidos? y ¿qué se puede observar en cuanto a la variabilidad?. Realice en su informe un comentario sobre los resultados obtenidos.

n=100
n_repeticiones=500
cbind(devacion,media,mediana)

##        devacion   media mediana
## [1,] 0.04722257 0.49878     0.5

Dado que el promedio de los estimadores calculados en las 500 muestras de tamaño 100 se acerca al parámetro de la población, que es 0.5, se puede demostrar que el estimador cumple con la propiedad de ser un estimador insesgado. Este estimador tendría un intervalo de confianza de 0.398 a 0.596 y un nivel de confianza del 95%.

Repita los puntos b y c para tamaños de muestra n=5, 100, 60, 20, 30, 50, 60, 1000, 200, 500. Compare los resultados obtenidos para los diferentes tamaños de muestra en cuanto a la normalidad. Utilice pruebas de bondad y ajuste (shapiro wilks :shspiro.test()) y métodos gráficos (gráfico de normalidad: qqnorm()). Comente en su informe los resultados obtenidos

funcion_puntod=function(n_repeticiones){
tamano_muestra=c(5,10,15,20,30,50,60,100,200,500)
result_estimadores=matrix(0,nrow=n_repeticiones,ncol=length(tamano_muestra))
i=1
for (i in 1:length(tamano_muestra)){
result_estimadores[,i]=gen_pri(tamano_muestra[i],n_repeticiones)
}
colnames(result_estimadores)=c("n5","n10","n15","n20","n30","n50","n60","n100","n200","n500")
return(result_estimadores)
}
resultados_puntod=data.frame(funcion_puntod(n_repeticiones))


funcion_graficas=function(datos_finales, perc_enfermas){
nombres=c("n=5","n=10","n=15","n=20","n=30","n=50","n=60","n=100","n=200","n=500")
for (i in 1:ncol(datos_finales)){
par(mfrow=c(1,2))
plot(density(datos_finales[,i]), las=1, ylab = "Densidad",main =print(paste0(nombres[i]),quote = FALSE), )  
qqnorm(datos_finales[,i])
qqline(datos_finales[,i])
print(paste0("El tamaño de la muestra es ",nombres[i]),quote = FALSE)
print(shapiro.test(datos_finales[,i]))
}
}
funcion_graficas(resultados_puntod,p_enfermas)

## [1] n=5

## [1] El tamaño de la muestra es n=5
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.92851, p-value = 1.05e-14
## 
## [1] n=10

## [1] El tamaño de la muestra es n=10
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.96164, p-value = 3.922e-10
## 
## [1] n=15

## [1] El tamaño de la muestra es n=15
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.97392, p-value = 8.929e-08
## 
## [1] n=20

## [1] El tamaño de la muestra es n=20
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.98073, p-value = 3.504e-06
## 
## [1] n=30

## [1] El tamaño de la muestra es n=30
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.98777, p-value = 0.0003361
## 
## [1] n=50

## [1] El tamaño de la muestra es n=50
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.98917, p-value = 0.0009423
## 
## [1] n=60

## [1] El tamaño de la muestra es n=60
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.99133, p-value = 0.00504
## 
## [1] n=100

## [1] El tamaño de la muestra es n=100
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.99413, p-value = 0.05082
## 
## [1] n=200

## [1] El tamaño de la muestra es n=200
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.99442, p-value = 0.06515
## 
## [1] n=500

## [1] El tamaño de la muestra es n=500
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.99634, p-value = 0.3087

Repita toda la simulación (puntos a – d), pero ahora para lotes con 100% de plantas enfermas y de nuevo para lotes con un 90% de plantas enfermas. Concluya sobre los resultados del ejercicio.

poblacion2=1000
p_sanas2=0.1
p_enfermas2=0.9
Poblacion=Generador_poblacion(poblacion2,p_sanas2,p_enfermas2)
x=gen_pri(100,1)
x

## [1] 0.94

n=100
n_repeticiones=500
estimadores_p2=gen_pri(n,n_repeticiones)
estimadores_p2_graf=data.frame(estimadores_p2)
resultados_puntoe=data.frame(funcion_puntod(n_repeticiones))
funcion_graficas(resultados_puntoe,p_enfermas2)

## [1] n=5

## [1] El tamaño de la muestra es n=5
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.6795, p-value < 2.2e-16
## 
## [1] n=10

## [1] El tamaño de la muestra es n=10
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.82615, p-value < 2.2e-16
## 
## [1] n=15

## [1] El tamaño de la muestra es n=15
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.8901, p-value < 2.2e-16
## 
## [1] n=20

## [1] El tamaño de la muestra es n=20
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.92548, p-value = 4.808e-15
## 
## [1] n=30

## [1] El tamaño de la muestra es n=30
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.95371, p-value = 2.058e-11
## 
## [1] n=50

## [1] El tamaño de la muestra es n=50
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.96042, p-value = 2.433e-10
## 
## [1] n=60

## [1] El tamaño de la muestra es n=60
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.97202, p-value = 3.538e-08
## 
## [1] n=100

## [1] El tamaño de la muestra es n=100
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.97825, p-value = 8.6e-07
## 
## [1] n=200

## [1] El tamaño de la muestra es n=200
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.98506, p-value = 5.202e-05
## 
## [1] n=500

## [1] El tamaño de la muestra es n=500
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.99355, p-value = 0.03134

Analisis final

En el primer caso, cuando los datos tienen una paridad de 50% para la distribución binomial, es difícil determinar si los datos parecen tener una distribución normal debido a la aleatoriedad de los datos en varios muestreos. Sin embargo, los resultados indican que el tamaño muestral de 500 es más adecuado y que la tendencia de los datos desde un tamaño muestral de 100 es similar a la normal.

En el segundo caso, los datos muestran que el 90% de las plantas están enfermas y el 10% no, el tamaño muestral a partir del cual se puede determinar que la distribución de los datos es normal a partir de 500, lo que se debe a la aleatoriedad de los datos, mientras que el tamaño muestral de 200 no mostró una distribución normal.

Actividad_3

Carlo Camilo Cuchumbre Escandon

2024-03-18

El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.

A continuación se describen los siguientes pasos para su verificación:

Realice una simulación en la cual genere una población de n=10000 (Lote), donde el porcentaje de individuos (supongamos plantas) enfermas sea del 50%.

Genere una función que permita:

Obtener una muestra aleatoria de la población.

Calcule el estimador de la proporción muestral pˆ para un tamaño de muestra dado n.

Repita toda la simulación (puntos a – d), pero ahora para lotes con 100% de plantas enfermas y de nuevo para lotes con un 90% de plantas enfermas. Concluya sobre los resultados del ejercicio.

Analisis final