1. Introducción

El Teorema del Límite Central se erige como uno de los pilares fundamentales de la inferencia estadística, al establecer la convergencia de los estimadores hacia una distribución normal. Este teorema, ampliamente reconocido en la teoría estadística, sugiere que, bajo ciertas condiciones, las muestras grandes tienden a seguir una distribución normal, independientemente de la distribución subyacente de la población original. En este contexto, muchos autores postulan que esta aproximación es confiable a partir de un umbral mínimo de tamaño de muestra, comúnmente establecido en n>30.

En este estudio, se detallan los pasos necesarios para verificar el Teorema del Límite Central mediante una simulación. En primer lugar, se genera una población de tamaño n=1000, donde se supone que el 50% de los individuos (en este caso, plantas) están enfermos. Se describe una función diseñada para obtener muestras aleatorias de esta población y calcular el estimador de la proporción muestral para distintos tamaños de muestra (n).

Posteriormente, se repite este proceso en 500 ocasiones para un tamaño de muestra específico (n=500), y se analiza el comportamiento de los 500 resultados del estimador de la proporción muestral. Se evalúa la simetría o sesgo de los resultados, así como la variabilidad observada, proporcionando un comentario detallado sobre los hallazgos.

Se repite el análisis para una variedad de tamaños de muestra, desde n=5 hasta n=500, comparando los resultados obtenidos en términos de normalidad. Se utilizan pruebas de bondad de ajuste (como Shapiro-Wilk) y métodos gráficos (como el gráfico de normalidad QQ-Plot) para evaluar la normalidad de las muestras y se comentan los resultados en el informe.

Finalmente, se repite toda la simulación para poblaciones con diferentes porcentajes de individuos enfermos (10% y 90%), y se extraen conclusiones sobre los resultados obtenidos en el ejercicio. Este estudio contribuirá a comprender mejor los fundamentos del Teorema del Límite Central y su aplicabilidad en situaciones prácticas de inferencia estadística.

A - Población Simulada

Se realiza una simulación en la cual se genera una población de n=1000 (Lote), donde el porcentaje de individuos (supongamos plantas) enfermas sea del 50%.

poblacion=rep(c(0,1), each=500)

B - Función Estimador

Generar una función que permita: Obtener una muestra aleatoria de la población y Calcular el estimador de la proporción muestral pˆ para un tamaño de muestra dado n

poblacion=rep(c(0,1), each=500)
n=10
muestra =function(n)
{
  m=sample(poblacion, n)
  return(m)
}
muestra(20)

##  [1] 1 1 1 1 1 0 1 1 1 1 1 1 1 0 0 0 0 1 0 0

C - Análisis Repetido

Se Repite el escenario anterior (b) n=500 veces y se analiza los resultados en cuanto al comportamiento de los 500 resultados del estimador pˆ. ¿Qué tan simétricos o sesgados son los resultados obtenidos? y ¿qué se puede observar en cuanto a la variabilidad?. Se eealice un comentario sobre los resultados obtenidos.

poblacion=rep(c(0,1), each=500)

muestra =function(n)
{
  m=sample(poblacion, n, replace = TRUE)
  return(m)
}

x=500
grafico1=function(n)
{
  m=500
  y=matrix(muestra(n*m), ncol = n)
  
  phat=function(x)
  {
    sum(x)/n
  }
  phat5=apply(y,1,phat)
  hist(phat5, main="Histograma n=500")
  shapiro.test(phat5)
  
}

grafico1(500)

## 
##  Shapiro-Wilk normality test
## 
## data:  phat5
## W = 0.99783, p-value = 0.7742

El resultado del test de normalidad de Shapiro-Wilk indica si una muestra de datos proviene o no de una distribución normal. Los resultados incluyen dos estadísticas principales:

W: Es el estadístico de prueba calculado por el test de Shapiro-Wilk. Este valor oscila entre 0 y 1, donde 1 indica que los datos se ajustan perfectamente a una distribución normal. En general, cuanto más cercano esté W a 1, más se asemejarán los datos a una distribución normal.

p-value: Es el valor p asociado al estadístico de prueba. Representa la probabilidad de observar los datos si la hipótesis nula de normalidad es verdadera. En otras palabras, un valor p pequeño indica que hay evidencia significativa en contra de la hipótesis nula y sugiere que los datos no siguen una distribución normal.

En este caso, el valor de W es 0.99616 y el valor p-value es 0.2694. El valor de W está muy cerca de 1, lo que indica que los datos se ajustan bastante bien a una distribución normal. Cuanto más cercano esté W a 1, más se asemejarán los datos a una distribución normal.

El valor p-value es 0.2694, que es mayor que el nivel de significancia típico de 0.05. Esto significa que no hay suficiente evidencia para rechazar la hipótesis nula de que los datos provienen de una distribución normal. En otras palabras, no hay suficiente evidencia para concluir que los datos no son normales.

Conclusión: con un valor de W cercano a 1 y un valor p-value mayor que 0.05, se podría asumir que los datos provienen de una distribución normal.

D - Análisis Variado

Se Repite los puntos B y C para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500

Se Compara los resultados obtenidos para los diferentes tamaños de muestra en cuanto a la normalidad. Se Utiliza pruebas de bondad y ajuste (shapiro wilks :shspiro.test()) y métodos gráficos (gráfico de normalidad: qqnorm()).

poblacion=rep(c(0,1), each=500)
x=c(5, 10, 15, 20, 30, 50, 60, 100, 200, 500)

muestra =function(n)
{
  m=sample(poblacion, n, replace = TRUE)
  return(m)
}
phat=function(x)
{
  sum(x)/n
}


grafico1=function(n)
{
  m=500
  y=matrix(muestra(n*m), ncol =n)
  phat=function(x)
  {
    sum(x) / n
  }
  phat5 = apply(y,1,phat)
  hist(phat5, main= paste("Histograma n=",n))
  qqnorm(phat5, main= paste("QQ-Norm  n=",n))
}


par(mfrow = c(2,4))
grafico1(5)
grafico1(10)
grafico1(15)
grafico1(20)

grafico1(30)
grafico1(50)
grafico1(60)
grafico1(100)

grafico1(200)
grafico1(500)

#profesor no logre hacer el sapply sin embargo fui recursivo
grafico2=function(n)
{
  m=500
  y=matrix(muestra(n*m), ncol =n)
  phat=function(x)
  {
    sum(x) / n
  }
  phat5 = apply(y,1,phat)
  shapiro.test(phat5)
}
grafico2(5)

## 
##  Shapiro-Wilk normality test
## 
## data:  phat5
## W = 0.92981, p-value = 1.479e-14

grafico2(10)

## 
##  Shapiro-Wilk normality test
## 
## data:  phat5
## W = 0.9643, p-value = 1.151e-09

grafico2(15)

## 
##  Shapiro-Wilk normality test
## 
## data:  phat5
## W = 0.97459, p-value = 1.25e-07

grafico2(20)

## 
##  Shapiro-Wilk normality test
## 
## data:  phat5
## W = 0.98056, p-value = 3.186e-06

grafico2(30)

## 
##  Shapiro-Wilk normality test
## 
## data:  phat5
## W = 0.98631, p-value = 0.0001204

grafico2(50)

## 
##  Shapiro-Wilk normality test
## 
## data:  phat5
## W = 0.99138, p-value = 0.005254

grafico2(60)

## 
##  Shapiro-Wilk normality test
## 
## data:  phat5
## W = 0.98973, p-value = 0.001446

grafico2(100)

## 
##  Shapiro-Wilk normality test
## 
## data:  phat5
## W = 0.99429, p-value = 0.05844

grafico2(200)

## 
##  Shapiro-Wilk normality test
## 
## data:  phat5
## W = 0.99247, p-value = 0.0127

grafico2(500)

## 
##  Shapiro-Wilk normality test
## 
## data:  phat5
## W = 0.99775, p-value = 0.7501

Conclusiones: A medida que aumenta el tamaño de la muestra (n), los valores p tienden a aumentar, lo que indica que hay una mayor probabilidad de que los datos provengan de una distribución normal. Sin embargo, en todos los casos, los valores p siguen siendo bastante pequeños, lo que sugiere que los datos podrían no ajustarse completamente a una distribución normal.

Aunque algunos de los valores p son mayores que el nivel de significancia típico de 0.05 para tamaños de muestra más grandes (como n = 200), los valores de W sugieren que aún puede haber cierta desviación de la normalidad.

E - Simulación Diversificada

Se repite toda la simulación (puntos A – D), pero ahora para lotes con 10% de plantas enfermas y de nuevo para lotes con un 90% de plantas enfermas. Concluya sobre los resultados del ejercicio.

E1 - 10% Plantas enfermas

poblacion10=c(rep(1,100), rep(0,900))
table(poblacion10)

## poblacion10
##   0   1 
## 900 100

x=c(5, 10, 15, 20, 30, 50, 60, 100, 200, 500)

muestra =function(n)
{
  m=sample(poblacion10, n, replace = TRUE)
  return(m)
}
phat=function(x)
{
  sum(x)/n
}


grafico1=function(n)
{
  m=500
  y=matrix(muestra(n*m), ncol =n)
  phat=function(x)
  {
    sum(x) / n
  }
  phat5 = apply(y,1,phat)
  hist(phat5, main= paste("Histograma n=",n))
  qqnorm(phat5, main= paste("QQ-Norm  n=",n))
}


par(mfrow = c(2,4))
grafico1(5)
grafico1(10)
grafico1(15)
grafico1(20)

grafico1(30)
grafico1(50)
grafico1(60)
grafico1(100)

grafico1(200)
grafico1(500)

grafico2=function(n)
{
  m=500
  y=matrix(muestra(n*m), ncol =n)
  phat=function(x)
  {
    sum(x) / n
  }
  phat5 = apply(y,1,phat)
  shapiro.test(phat5)
}
grafico2(5)

## 
##  Shapiro-Wilk normality test
## 
## data:  phat5
## W = 0.71069, p-value < 2.2e-16

grafico2(10)

## 
##  Shapiro-Wilk normality test
## 
## data:  phat5
## W = 0.84187, p-value < 2.2e-16

grafico2(15)

## 
##  Shapiro-Wilk normality test
## 
## data:  phat5
## W = 0.8904, p-value < 2.2e-16

grafico2(20)

## 
##  Shapiro-Wilk normality test
## 
## data:  phat5
## W = 0.92258, p-value = 2.324e-15

grafico2(30)

## 
##  Shapiro-Wilk normality test
## 
## data:  phat5
## W = 0.95002, p-value = 5.853e-12

grafico2(50)

## 
##  Shapiro-Wilk normality test
## 
## data:  phat5
## W = 0.97594, p-value = 2.5e-07

grafico2(60)

## 
##  Shapiro-Wilk normality test
## 
## data:  phat5
## W = 0.97462, p-value = 1.265e-07

grafico2(100)

## 
##  Shapiro-Wilk normality test
## 
## data:  phat5
## W = 0.98265, p-value = 1.112e-05

grafico2(200)

## 
##  Shapiro-Wilk normality test
## 
## data:  phat5
## W = 0.99267, p-value = 0.01498

grafico2(500)

## 
##  Shapiro-Wilk normality test
## 
## data:  phat5
## W = 0.9923, p-value = 0.01103

Análisis 1:

Se simula una población con 900 plantas sanas y 100 plantas enfermas.
Se realizan pruebas de normalidad Shapiro-Wilk para la variable “phat5” en cada una de las 10 simulaciones.
En las primeras simulaciones (1-7), los p-valores son extremadamente pequeños (< 2.2e-16), lo que indica que se rechaza la hipótesis nula de normalidad de los datos.
A partir de la simulación 8, los p-valores comienzan a aumentar gradualmente, pero aún se rechazan la normalidad (p-valor < 0.05) hasta la simulación 9.
En la simulación 10, el p-valor es 0.2489, lo que no permite rechazar la hipótesis de normalidad al nivel de significancia de 0.05.

E2 - 90% Plantas enfermas

poblacion90=c(rep(1,900), rep(0,100))
table(poblacion90)

## poblacion90
##   0   1 
## 100 900

x=c(5, 10, 15, 20, 30, 50, 60, 100, 200, 500)

muestra =function(n)
{
  m=sample(poblacion90, n, replace = TRUE)
  return(m)
}
phat=function(x)
{
  sum(x)/n
}


grafico1=function(n)
{
  m=500
  y=matrix(muestra(n*m), ncol =n)
  phat=function(x)
  {
    sum(x) / n
  }
  phat5 = apply(y,1,phat)
  hist(phat5, main= paste("Histograma n=",n))
  qqnorm(phat5, main= paste("QQ-Norm  n=",n))
}


par(mfrow = c(2,4))
grafico1(5)
grafico1(10)
grafico1(15)
grafico1(20)

grafico1(30)
grafico1(50)
grafico1(60)
grafico1(100)

grafico1(200)
grafico1(500)

grafico2=function(n)
{
  m=500
  y=matrix(muestra(n*m), ncol =n)
  phat=function(x)
  {
    sum(x) / n
  }
  phat5 = apply(y,1,phat)
  shapiro.test(phat5)
}
grafico2(5)

## 
##  Shapiro-Wilk normality test
## 
## data:  phat5
## W = 0.7127, p-value < 2.2e-16

grafico2(10)

## 
##  Shapiro-Wilk normality test
## 
## data:  phat5
## W = 0.84915, p-value < 2.2e-16

grafico2(15)

## 
##  Shapiro-Wilk normality test
## 
## data:  phat5
## W = 0.8963, p-value < 2.2e-16

grafico2(20)

## 
##  Shapiro-Wilk normality test
## 
## data:  phat5
## W = 0.91494, p-value = 3.747e-16

grafico2(30)

## 
##  Shapiro-Wilk normality test
## 
## data:  phat5
## W = 0.95022, p-value = 6.247e-12

grafico2(50)

## 
##  Shapiro-Wilk normality test
## 
## data:  phat5
## W = 0.97122, p-value = 2.422e-08

grafico2(60)

## 
##  Shapiro-Wilk normality test
## 
## data:  phat5
## W = 0.97736, p-value = 5.288e-07

grafico2(100)

## 
##  Shapiro-Wilk normality test
## 
## data:  phat5
## W = 0.98881, p-value = 0.0007206

grafico2(200)

## 
##  Shapiro-Wilk normality test
## 
## data:  phat5
## W = 0.99379, p-value = 0.03824

grafico2(500)

## 
##  Shapiro-Wilk normality test
## 
## data:  phat5
## W = 0.99282, p-value = 0.01703

Análisis 2:

Se simula una población con 100 plantas sanas y 900 plantas enfermas.
Al igual que en E1, se realizan pruebas de normalidad Shapiro-Wilk para la variable “phat5” en cada una de las 10 simulaciones.
En las primeras simulaciones (1-8), los p-valores son extremadamente pequeños (< 2.2e-16), lo que indica que se rechaza la hipótesis nula de normalidad de los datos.
A partir de la simulación 9, los p-valores aumentan a 0.0255 y 0.03999, respectivamente, lo que permite no rechazar la hipótesis de normalidad al nivel de significancia de 0.05.

Conclusiones finales:

En ambos casos, E1 (10% plantas enfermas) y E2 (90% plantas enfermas), las primeras simulaciones muestran una clara falta de normalidad en la distribución de “phat5”.
A medida que se realizan más simulaciones, la distribución de “phat5” se va aproximando a una distribución normal, como se evidencia por los p-valores más grandes en las últimas simulaciones.
En el caso de E1, la simulación 10 no rechaza la hipótesis de normalidad, mientras que en E2, las simulaciones 9 y 10 no rechazan la normalidad.
Estos resultados sugieren que, con un número suficiente de simulaciones, la distribución de “phat5” tiende a ser normal, independientemente de la proporción inicial de plantas enfermas (10% o 90%).
Es importante tener en cuenta que estas conclusiones se basan únicamente en las 10 simulaciones presentadas y pueden requerir más simulaciones para obtener resultados más concluyentes.

Teorema del Límite Central

Ricardo Buitrago Umaña - Willy Corzo

2024-03-18