Problema 3 - Teorema del limite central

El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.

A continuación se describen los siguientes pasos para su verificación:

Realice una simulación en la cual genere una población de n=10000 (Lote), donde el porcentaje de individuos (supongamos plantas) enfermas sea del 50%.
Genere una función que permita:

Obtener una muestra aleatoria de la población.
Calcule el estimador de la proporción muestral pˆ para un tamaño de muestra dado n.

Repita el escenario anterior (b) n=500 veces y analice los resultados en cuanto al comportamiento de los 500 resultados del estimador pˆ. ¿Qué tan simétricos o sesgados son los resultados obtenidos? y ¿qué se puede observar en cuanto a la variabilidad?. Realice en su informe un comentario sobre los resultados obtenidos.
Repita los puntos b y c para tamaños de muestra n=5, 100, 60, 20, 30, 50, 60, 1000, 200, 500. Compare los resultados obtenidos para los diferentes tamaños de muestra en cuanto a la normalidad. Utilice pruebas de bondad y ajuste (shapiro wilks :shspiro.test()) y métodos gráficos (gráfico de normalidad: qqnorm()). Comente en su informe los resultados obtenidos
Repita toda la simulación (puntos a – d), pero ahora para lotes con 100% de plantas enfermas y de nuevo para lotes con un 90% de plantas enfermas. Concluya sobre los resultados del ejercicio.

Desarrollo

El Teorema del Límite Central (TLC) es un concepto fundamental en estadísticas que establece que, sin importar la forma de la distribución original de los datos, cuando se toma una muestra lo suficientemente grande y se calcula la media de esas muestras, la distribución de esas medias se aproxima a una distribución normal. Esto significa que, en la práctica, podemos aplicar métodos estadísticos basados en la distribución normal para hacer inferencias sobre poblaciones, incluso si no conocemos la distribución subyacente de los datos originales. El TLC es ampliamente utilizado en estadísticas y es la base de muchas técnicas de inferencia y estimación en la ciencia y la investigación.

Para la resolñución del problema en cuestión, en primera instancia se genera una simulación con una población \(n=10000\), mediante una distribución binomial, de tal forma que el conjunto de datos tome valores entre 0 y 1:

lote <- rbinom(10000,1,0.5)
head(lote)

## [1] 1 0 0 1 0 0

Acto seguido, se creó una función que generara una proporción muestral de \(x\) cantidad de datos y calculara el estimador \(p^\). Seguida de otra función que ejecuta la simulación n cantidad de veces.

muestra <- function(datos, x){
  m <- sample(datos, x)
  return(mean(m))
}

simulacion <- function(datos, n){
  result <- c()
  for(x in 1:n){
    result <- append(result, muestra(datos, n))
  }
  return(result)
}

Ahora bien, se requiere hacer simulaciones para los siguientes tamaños de muestra n=5, 100, 60, 20, 30, 50, 60, 1000, 200, 500, de los cuales se busca comparar los resultados y verificar si se presenta normalidad en los datos.

Teniendo en cuenta que la hipotesis nula para esta prueba de normalidad, significa que la muestra tiene una distribución normal con un nivel de significancia del 95, por lo tanto, si el p-value obtenido en la prueba shapiro-test es mayor a 0.05 se infiere que no se cuenta con evidencia suficiente para rechazar la hipotesis nula, por lo cual, la distribución de los datos es normal. Caso contrario si obtenemos un p-value menor a 0.05 podemos rechazar la hipotesis nula por lo cual la distribución no es normal. Con base en esto a continuación se presentan los resultados de los diferentes escenarios de análisis.

Escenario n = 5

esc_5 <- simulacion(lote, 5)
qqnorm(esc_5)
qqline(esc_5)

shapiro.test(esc_5)

## 
##  Shapiro-Wilk normality test
## 
## data:  esc_5
## W = 0.82083, p-value = 0.1185

El p-value obtenido nos indica que no se cuenta con evidencia suficiente para rechazar la hipotesis nula de no normalidad. No obstante, según el grafico de cuantiles qq-norm, se puede evidenciar que la dispersión de los datos es grande puesto que estos no se ajustan a la linea de tendencia, por lo cual, los datos para este muestreo no presentan una distribución normal.

Escenario n = 10

esc_10 <- simulacion(lote, 10)
qqnorm(esc_10)
qqline(esc_10)

shapiro.test(esc_10)

## 
##  Shapiro-Wilk normality test
## 
## data:  esc_10
## W = 0.90231, p-value = 0.2323

Al igual que en el caso anterior el p-value obtenido nos indica que no se cuenta con evidencia suficiente para rechazar la hipotesis nula de no normalidad. No obstante, según el grafico de cuantiles qq-norm, se puede evidenciar que la dispersión de los datos es grande puesto que estos no se ajustan a la linea de tendencia, por lo cual, los datos para este muestreo no presentan una distribución normal.

Escenario n = 15

esc_15 <- simulacion(lote, 15)
qqnorm(esc_15)
qqline(esc_15)

shapiro.test(esc_15)

## 
##  Shapiro-Wilk normality test
## 
## data:  esc_15
## W = 0.73384, p-value = 0.0005859

Para este caso el p-value es menor a 0.05 por lo cual se rechaza la hipotesis nula, concluyendo que la distribución de los datos para esta muestra no es normal.

Escenario n = 20

esc_20 <- simulacion(lote, 20)
qqnorm(esc_20)
qqline(esc_20)

shapiro.test(esc_20)

## 
##  Shapiro-Wilk normality test
## 
## data:  esc_20
## W = 0.92656, p-value = 0.1326

Escenario n = 30

esc_30 <- simulacion(lote, 30)
qqnorm(esc_30)
qqline(esc_30)

shapiro.test(esc_30)

## 
##  Shapiro-Wilk normality test
## 
## data:  esc_30
## W = 0.96273, p-value = 0.363

Escenario n = 50

esc_50 <- simulacion(lote, 50)
qqnorm(esc_50)
qqline(esc_50)

shapiro.test(esc_50)

## 
##  Shapiro-Wilk normality test
## 
## data:  esc_50
## W = 0.97091, p-value = 0.2519

Escenario n = 60

esc_60 <- simulacion(lote, 60)
qqnorm(esc_60)
qqline(esc_60)

shapiro.test(esc_60)

## 
##  Shapiro-Wilk normality test
## 
## data:  esc_60
## W = 0.96397, p-value = 0.07369

Escenario n = 100

esc_100 <- simulacion(lote, 100)
qqnorm(esc_100)
qqline(esc_100)

shapiro.test(esc_100)

## 
##  Shapiro-Wilk normality test
## 
## data:  esc_100
## W = 0.98008, p-value = 0.135

En este caso el p-value obtenido nos indica que no se cuenta con evidencia suficiente para rechazar la hipotesis nula de no normalidad. Sin embargo, analizando el grafico qq-norm se evidencia que los datos se ajustan mejor a la linea de tendencia, por lo cual se puede concluir que para este tamaño muestral la distribución es normal.

Escenario n = 200

esc_200 <- simulacion(lote, 200)
qqnorm(esc_200)
qqline(esc_200)

shapiro.test(esc_200)

## 
##  Shapiro-Wilk normality test
## 
## data:  esc_200
## W = 0.99059, p-value = 0.2178

Al igual que en el caso anterior el p-value obtenido nos indica que no se cuenta con evidencia suficiente para rechazar la hipotesis nula de no normalidad. Sin embargo, analizando el grafico qq-norm se evidencia que los datos se ajustan mejor a la linea de tendencia, por lo cual se puede concluir que para este tamaño muestral la distribución es normal.

Escenario n = 500

esc_500 <- simulacion(lote, 500)
qqnorm(esc_500)
qqline(esc_500)

shapiro.test(esc_500)

## 
##  Shapiro-Wilk normality test
## 
## data:  esc_500
## W = 0.99679, p-value = 0.4266

Caso 2 plantas 90% enfermas

En esta situación se repite el análisis presentado anteriormente, cambiando las condiciones iniciales del ejercicio.

lote_2 <- rbinom(10000,1,0.9)

Escenario n = 5

esc_5 <- simulacion(lote_2, 5)
qqnorm(esc_5)
qqline(esc_5)

shapiro.test(esc_5)

## 
##  Shapiro-Wilk normality test
## 
## data:  esc_5
## W = 0.68403, p-value = 0.00647

El p-value obtenido se rechaza la hipotesis nula, por lo cual se establece que la distribución de los datos no es normal.

Escenario n = 10

esc_10 <- simulacion(lote_2, 10)
qqnorm(esc_10)
qqline(esc_10)

shapiro.test(esc_10)

## 
##  Shapiro-Wilk normality test
## 
## data:  esc_10
## W = 0.72741, p-value = 0.001895

Al igual que en el caso anterior el p-value obtenido se rechaza la hipotesis nula, por lo cual se establece que la distribución de los datos no es normal.

Escenario n = 15

esc_15 <- simulacion(lote_2, 15)
qqnorm(esc_15)
qqline(esc_15)

shapiro.test(esc_15)

## 
##  Shapiro-Wilk normality test
## 
## data:  esc_15
## W = 0.92877, p-value = 0.2615

Escenario n = 20

esc_20 <- simulacion(lote_2, 20)
qqnorm(esc_20)
qqline(esc_20)

shapiro.test(esc_20)

## 
##  Shapiro-Wilk normality test
## 
## data:  esc_20
## W = 0.9046, p-value = 0.05035

En este caso el p-value obtenido se rechaza la hipotesis nula, por lo cual se establece que la distribución de los datos no es normal.

Escenario n = 30

esc_30 <- simulacion(lote_2, 30)
qqnorm(esc_30)
qqline(esc_30)

shapiro.test(esc_30)

## 
##  Shapiro-Wilk normality test
## 
## data:  esc_30
## W = 0.95064, p-value = 0.1758

Escenario n = 50

esc_50 <- simulacion(lote_2, 50)
qqnorm(esc_50)
qqline(esc_50)

shapiro.test(esc_50)

## 
##  Shapiro-Wilk normality test
## 
## data:  esc_50
## W = 0.96637, p-value = 0.1642

Escenario n = 60

esc_60 <- simulacion(lote_2, 60)
qqnorm(esc_60)
qqline(esc_60)

shapiro.test(esc_60)

## 
##  Shapiro-Wilk normality test
## 
## data:  esc_60
## W = 0.95545, p-value = 0.02831

En este caso el p-value obtenido se rechaza la hipotesis nula, por lo cual se establece que la distribución de los datos no es normal.

Escenario n = 100

esc_100 <- simulacion(lote_2, 100)
qqnorm(esc_100)
qqline(esc_100)

shapiro.test(esc_100)

## 
##  Shapiro-Wilk normality test
## 
## data:  esc_100
## W = 0.97943, p-value = 0.12

Escenario n = 200

esc_200 <- simulacion(lote_2, 200)
qqnorm(esc_200)
qqline(esc_200)

shapiro.test(esc_200)

## 
##  Shapiro-Wilk normality test
## 
## data:  esc_200
## W = 0.98285, p-value = 0.01535

En esta situación pese a contar con un tamaño muestral grande el p-value es menor a 0.05, por lo que se concluye que la distribución no es normal.

Escenario n = 500

esc_500 <- simulacion(lote_2, 500)
qqnorm(esc_500)
qqline(esc_500)

shapiro.test(esc_500)

## 
##  Shapiro-Wilk normality test
## 
## data:  esc_500
## W = 0.99596, p-value = 0.2302

El p-value obtenido nos indica que no se cuenta con evidencia suficiente para rechazar la hipotesis nula de no normalidad. Sin embargo, analizando el grafico qq-norm se evidencia que los datos se ajustan mejor a la linea de tendencia, por lo cual se puede concluir que para este tamaño muestral la distribución es normal.

Conclusiones

En el primer caso cuando los datos tienen una paridad de 50% para la distribución binomial, se observo que debido la aleatoriedad de los datos en los diferentes muestreos, es dificil establecer a partir de que tamaño muestral los datos se asemejan a una distribución normal. No obstante, con base en los resultados obtenidos se sugiere que desde un tamaño muestral de 100 la tendencia de los datos es semejante a la normal, siendo el de 500 datos el que mejor se ajusta.
En el segundo caso cuando los datos tienen se presentan como 90% para plantas que se encuentran enfermas y 10% no, el tamaño muestral a parti del cual se puede establecer que la distribución de los datos en normal e a partir de 500, esto dado por la aleatoriedad de los datos y que en el caso del tamaño muestral de 200 no se obtuvo una distribución normal.

Problema 3 - Teorema del limite central

Sebastian Barrera Saenz

2023-09-17

Desarrollo

Escenario n = 5

Escenario n = 10

Escenario n = 15

Escenario n = 20

Escenario n = 30

Escenario n = 50

Escenario n = 60

Escenario n = 100

Escenario n = 200

Escenario n = 500

Caso 2 plantas 90% enfermas

Escenario n = 5

Escenario n = 10

Escenario n = 15

Escenario n = 20

Escenario n = 30

Escenario n = 50

Escenario n = 60

Escenario n = 100

Escenario n = 200

Escenario n = 500

Conclusiones