El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.

A continuación se describen los siguientes pasos para su verificación:

A - Realice una simulación en la cual genere una población de n=1000 (Lote), donde el porcentaje de individuos (supongamos plantas) enfermas sea del 50%.

#a Creacion de poblacion con n = 1000 con un porcentaje del 50% de plantas enfermas
poblacion <- (rbinom(1000,1,0.5))

B - Genere una función que permita: Obtener una muestra aleatoria de la población y Calcule el estimador de la proporción muestral pˆ para un tamaño de muestra dado n.

# b
#crear funcion donde se ingresa la poblacion y la cantidad de la muestra 
funcion <- function(poblacion,n_muestra){
  
  # Muestra aleatoria
  muestra <- sample(poblacion,n_muestra,replace=FALSE)
  muestra
  # calculo de estimadores
  Media <- mean(muestra)
  Media
}

C - Repita el escenario anterior (b) n=500 veces y analice los resultados en cuanto al comportamiento de los 500 resultados del estimador pˆ. ¿Qué tan simétricos o sesgados son los resultados obtenidos? y ¿qué se puede observar en cuanto a la variabilidad?. Realice en su informe un comentario sobre los resultados obtenidos.

veces <- function(n_muestra){
  
  # c
  veces_500 <- numeric(500)
  veces_500
  # Ciclo para 500 veces
  for (i in 1:500) {
    veces_500[i] <- funcion(poblacion, n_muestra)
    veces_500
  }
  #print(veces_500)
  qqnorm(veces_500) ; qqline(veces_500, col="red")
  print(shapiro.test(veces_500)) # validación de normalidad 
  #sesgo
  media_500 <- mean(veces_500)
  sesgo <- media_500 - 0.5
  
  #Varianza
  varianza <- var(veces_500)
  
  #imprimir
  cat("Sesgo", sesgo, "\n")
  cat("Varianza", varianza, "\n")
}

Se evidencia que entre mayor sea la muestra que se obtenga, el valor promedio se aproximara a 0.5 indicando que el 50% de las plantas estan bien el el restante se plantas se encuentran enfermas. Caso contrario si se tiene una muestra pequeña se encuentra un p value muy bajo y su varianza en grande.

D - Repita los puntos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Compare los resultados obtenidos para los diferentes tamaños de muestra en cuanto a la normalidad. Utilice pruebas de bondad y ajuste (shapiro wilks :shspiro.test()) y métodos gráficos (gráfico de normalidad: qqnorm()). Comente en su informe los resultados obtenidos

Se utilizan las funciones creadas anteriormente para realizar el mismo proceso pero con diferentes tamaños de muestra.

funcion(poblacion,5)
## [1] 0.4
veces(5)

## 
##  Shapiro-Wilk normality test
## 
## data:  veces_500
## W = 0.92796, p-value = 9.096e-15
## 
## Sesgo 0.0016 
## Varianza 0.04897539
funcion(poblacion,10)
## [1] 0.6
veces(10)

## 
##  Shapiro-Wilk normality test
## 
## data:  veces_500
## W = 0.96466, p-value = 1.335e-09
## 
## Sesgo 0.01 
## Varianza 0.02647295
funcion(poblacion,15)
## [1] 0.4666667
veces(15)

## 
##  Shapiro-Wilk normality test
## 
## data:  veces_500
## W = 0.97572, p-value = 2.227e-07
## 
## Sesgo 0.002266667 
## Varianza 0.01621396
funcion(poblacion,20)
## [1] 0.6
veces(20)

## 
##  Shapiro-Wilk normality test
## 
## data:  veces_500
## W = 0.97933, p-value = 1.565e-06
## 
## Sesgo 0.0088 
## Varianza 0.01155567
funcion(poblacion,30)
## [1] 0.4
veces(30)

## 
##  Shapiro-Wilk normality test
## 
## data:  veces_500
## W = 0.98554, p-value = 7.167e-05
## 
## Sesgo 0.01353333 
## Varianza 0.00928208
funcion(poblacion,50)
## [1] 0.44
veces(50)

## 
##  Shapiro-Wilk normality test
## 
## data:  veces_500
## W = 0.99, p-value = 0.001765
## 
## Sesgo 0.01312 
## Varianza 0.004351769
funcion(poblacion,60)
## [1] 0.5
veces(60)

## 
##  Shapiro-Wilk normality test
## 
## data:  veces_500
## W = 0.98783, p-value = 0.0003514
## 
## Sesgo 0.01 
## Varianza 0.00411601
funcion(poblacion,100)
## [1] 0.52
veces(100)

## 
##  Shapiro-Wilk normality test
## 
## data:  veces_500
## W = 0.99411, p-value = 0.05018
## 
## Sesgo 0.00862 
## Varianza 0.002468032
funcion(poblacion,200)
## [1] 0.495
veces(200)

## 
##  Shapiro-Wilk normality test
## 
## data:  veces_500
## W = 0.99639, p-value = 0.3201
## 
## Sesgo 0.01021 
## Varianza 0.001006619
funcion(poblacion,500)
## [1] 0.516
veces(500)

## 
##  Shapiro-Wilk normality test
## 
## data:  veces_500
## W = 0.99592, p-value = 0.2241
## 
## Sesgo 0.00902 
## Varianza 0.0002441118

Se evidencia que cuando se obtiene muestras mucho mas grandes de la poblacion se tiende mas a la normalidad caso contrario de cuanto se tiene una muestra muy baja su varianza es mayor, en el caso de una poblacion de 500 los datos de sesgo se tratan de mantener es un estandar y varianza si es mas baja por lo que la mayoria de datos se encuentran o se aproximan a la media del 50% de plantas enfermas.