El presente Informe tiene como Objetivo demostrar de manera aplicada el Teorema del Limite Central con unos ejercicios relacionados al analisis de unos individuos enfermos dentro de una población y su comportamiento.
A continuación se describen los siguientes pasos para su verificación:
N = 1000
P = 0.5 # Procentaje de individuos (plantas) enfermos
set.seed(1234)
enfermos = rbinom(N,1,P)
A continuación construimos la función solicitada.
estimar_proporcion = function(tamano,muestra_total) {
muestra = sample(muestra_total, size = tamano) # Obtener una muestra aleatoria de tamaño n
p_muestral = mean(muestra) # Calcular el estimador de la proporción muestral
return(p_muestral)
}
Ahora bien, para solucionar este punto creamos un ciclo que iterara 500 veces la función previamente creada con un tamaño de muestra 100, esto con el objetivo de realizar el analisis solicitado.
tamano_muestra = 100
P_500 = rep(NA, 500)
for (i in 1:500) {
pro1_500=estimar_proporcion(tamano_muestra,enfermos)
P_500[i] = pro1_500
}
cat("Resultados para n =", 100, "\n")
## Resultados para n = 100
print(summary(P_500))
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3800 0.4900 0.5200 0.5203 0.5600 0.6400
cat("\nDesviación estándar: ", sd(P_500), "\n")
##
## Desviación estándar: 0.04863759
cat("\nVarianza: ", var(P_500), "\n")
##
## Varianza: 0.002365616
hist(P_500, main = "Histograma de los resultados", xlab = "Proporción muestral")
cat("\n\n")
boxplot(P_500)
Luego de analizar los resultados del proceso, podremos responder las preguntas realizadas para este Item, que son:
Los resultados son simetricos ya que la media y la mediana son cercanas con valores de 0,5151 y 0,5200 respectivamente, por tanto el sesgo es muy pequeño, adicional la grafica del histograma se ve en forma de campana y el diagrama de bigotes tambien confirma esta simetria.
La Variabilidad de los datos es muy pequeña y lo podemos evidenciar con los valores resultados que arrojan la desviación estandar y la varianza, pero esto lo podemos confirmar calculando el coeficiente de variación, que lo haremos a continuación:
cat("\nCoeficiente de Variación: ", (sd(P_500)/mean(P_500))*100,"%","\n")
##
## Coeficiente de Variación: 9.347272 %
Al ser un coeficiente de variación inferior al 25% podemos confirmar con plena seguridad esto.
En general, estos hallazgos indican que los datos muestran una distribución simétrica con poca variabilidad. La comparación de la media y la mediana, junto con las medidas de dispersión, proporciona una imagen completa de la distribución de los datos. El coeficiente de variación nos confirma que los datos para esta muestra generados manera aleatoria tienen bastante uniformidad.
Teninendo en cuenta la cantidad de iteraciónes que hay que realizar para este ejercicio, hemos decidido crear una función que genere los calculos para cada una de las muestras solicitadas y al final realizaremos los comentarios respecto a lo evidenciado.
Creamos la funcion:
analisis_muestras = function(n,enfermosf1) {
probfr=estimar_proporcion(n,enfermosf1)
estimadoresfr = rep(NA, 500)
for (i in 1:500) {
probfr=estimar_proporcion(n,enfermosf1)
estimadoresfr[i] = probfr
}
cat("Resumen Muestras con repetición para n =", n, "\n")
print(summary(estimadoresfr))
cat("\nDesviación estándar: ", sd(estimadoresfr), "\n")
cat("\nVarianza: ", var(estimadoresfr), "\n")
cat("\nCoeficiente de Variación: ", (sd(estimadoresfr)/mean(estimadoresfr))*100,"%","\n")
print(shapiro.test(estimadoresfr))
cat("\n\n")
hist(estimadoresfr, main = paste("Histograma de los resultados",n), xlab = paste("Proporción muestral",n))
cat("\n\n")
#boxplot(estimadoresfr, main = paste("Diagrama de caja de estimadores para ",n))
#cat("\n\n")
qqnorm(estimadoresfr) ; qqline(estimadoresfr, col="red")
cat("\n\n")
}
Luego de creada la función creamos un ciclo de ejcución de cara a obtener los resultados para cada muestra, y el resultado es el siguiente:
tamanos_estimadores= c(5,10,15,20,30,50,60,100,200,500)
for(i in tamanos_estimadores){
analisis_muestras(i,enfermos)
}
## Resumen Muestras con repetición para n = 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.4000 0.6000 0.5228 0.6500 1.0000
##
## Desviación estándar: 0.2290526
##
## Varianza: 0.05246509
##
## Coeficiente de Variación: 43.81266 %
##
## Shapiro-Wilk normality test
##
## data: estimadoresfr
## W = 0.92386, p-value = 3.196e-15
##
##
## Resumen Muestras con repetición para n = 10
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1000 0.4000 0.5000 0.5186 0.6000 1.0000
##
## Desviación estándar: 0.1629944
##
## Varianza: 0.02656717
##
## Coeficiente de Variación: 31.4297 %
##
## Shapiro-Wilk normality test
##
## data: estimadoresfr
## W = 0.96696, p-value = 3.543e-09
##
##
## Resumen Muestras con repetición para n = 15
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.06667 0.40000 0.53333 0.51013 0.60000 0.80000
##
## Desviación estándar: 0.1333817
##
## Varianza: 0.01779067
##
## Coeficiente de Variación: 26.14644 %
##
## Shapiro-Wilk normality test
##
## data: estimadoresfr
## W = 0.97449, p-value = 1.188e-07
##
##
## Resumen Muestras con repetición para n = 20
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.15 0.45 0.50 0.51 0.60 0.85
##
## Desviación estándar: 0.1113319
##
## Varianza: 0.01239479
##
## Coeficiente de Variación: 21.82978 %
##
## Shapiro-Wilk normality test
##
## data: estimadoresfr
## W = 0.98128, p-value = 4.854e-06
##
##
## Resumen Muestras con repetición para n = 30
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3000 0.4667 0.5333 0.5209 0.5667 0.8000
##
## Desviación estándar: 0.08861748
##
## Varianza: 0.007853057
##
## Coeficiente de Variación: 17.01129 %
##
## Shapiro-Wilk normality test
##
## data: estimadoresfr
## W = 0.9823, p-value = 9.004e-06
##
##
## Resumen Muestras con repetición para n = 50
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2800 0.4600 0.5100 0.5148 0.5600 0.7400
##
## Desviación estándar: 0.06883327
##
## Varianza: 0.004738018
##
## Coeficiente de Variación: 13.37191 %
##
## Shapiro-Wilk normality test
##
## data: estimadoresfr
## W = 0.99056, p-value = 0.002732
##
##
## Resumen Muestras con repetición para n = 60
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3500 0.4833 0.5167 0.5189 0.5667 0.7167
##
## Desviación estándar: 0.06321541
##
## Varianza: 0.003996188
##
## Coeficiente de Variación: 12.1818 %
##
## Shapiro-Wilk normality test
##
## data: estimadoresfr
## W = 0.99242, p-value = 0.01219
##
##
## Resumen Muestras con repetición para n = 100
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.320 0.490 0.520 0.519 0.550 0.650
##
## Desviación estándar: 0.04683617
##
## Varianza: 0.002193627
##
## Coeficiente de Variación: 9.023963 %
##
## Shapiro-Wilk normality test
##
## data: estimadoresfr
## W = 0.98972, p-value = 0.001432
##
##
## Resumen Muestras con repetición para n = 200
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4250 0.4950 0.5150 0.5168 0.5350 0.6250
##
## Desviación estándar: 0.03233717
##
## Varianza: 0.001045692
##
## Coeficiente de Variación: 6.256829 %
##
## Shapiro-Wilk normality test
##
## data: estimadoresfr
## W = 0.99442, p-value = 0.06504
##
##
## Resumen Muestras con repetición para n = 500
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.470 0.506 0.518 0.517 0.528 0.560
##
## Desviación estándar: 0.01660939
##
## Varianza: 0.0002758717
##
## Coeficiente de Variación: 3.212697 %
##
## Shapiro-Wilk normality test
##
## data: estimadoresfr
## W = 0.99416, p-value = 0.05234
Luego de revisar los datos obtenidos con las diferentes muestras podemos concluir que, para las frecuencias mas bajas la simetria es muy poca con el valor de 5 sobre todo, pero a medido que vamos tomando mas muestras ya podemos visualizar mucha mas simetria, ahora bien en tanto a variabilidad de los datos, es un comprotamiento similar, el coeficiente de variación inicia a ser aceptable luego de la muestra 20, ahora analizando la Normalidad de las diferentes muestras en base al resultado de la función Saphiro podemos concluir que teniendo en cuenta el nivel de significancia superior a 0,05 encontramos que las frecuencias que tienen una distribución Normal son las de 200 y 500, al final estos resultados comprueban el Teorema del Limite Central.
Lo primero que realizamos es la simulación con un 10% de plantas enfermas.
N = 1000
P = 0.1 # Procentaje de individuos (plantas) enfermos
set.seed(1234)
enfermos = rbinom(N,1,P)
Ahora ejecutamos de nuevo el ciclo pero con el 10% de plantas enfermas:
tamanos_estimadores= c(5,10,15,20,30,50,60,100,200,500)
for(i in tamanos_estimadores){
analisis_muestras(i,enfermos)
}
## Resumen Muestras con repetición para n = 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0000 0.0000 0.1248 0.2000 0.6000
##
## Desviación estándar: 0.1447303
##
## Varianza: 0.02094685
##
## Coeficiente de Variación: 115.9698 %
##
## Shapiro-Wilk normality test
##
## data: estimadoresfr
## W = 0.75989, p-value < 2.2e-16
##
##
## Resumen Muestras con repetición para n = 10
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0000 0.1000 0.1178 0.2000 0.5000
##
## Desviación estándar: 0.1062343
##
## Varianza: 0.01128573
##
## Coeficiente de Variación: 90.18194 %
##
## Shapiro-Wilk normality test
##
## data: estimadoresfr
## W = 0.86489, p-value < 2.2e-16
##
##
## Resumen Muestras con repetición para n = 15
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00000 0.06667 0.13333 0.12480 0.20000 0.40000
##
## Desviación estándar: 0.08344658
##
## Varianza: 0.006963331
##
## Coeficiente de Variación: 66.86424 %
##
## Shapiro-Wilk normality test
##
## data: estimadoresfr
## W = 0.91921, p-value = 1.023e-15
##
##
## Resumen Muestras con repetición para n = 20
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0500 0.1000 0.1236 0.1500 0.3500
##
## Desviación estándar: 0.07066135
##
## Varianza: 0.004993026
##
## Coeficiente de Variación: 57.16938 %
##
## Shapiro-Wilk normality test
##
## data: estimadoresfr
## W = 0.94356, p-value = 7.407e-13
##
##
## Resumen Muestras con repetición para n = 30
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00000 0.06667 0.10000 0.11673 0.16667 0.36667
##
## Desviación estándar: 0.05723142
##
## Varianza: 0.003275435
##
## Coeficiente de Variación: 49.02749 %
##
## Shapiro-Wilk normality test
##
## data: estimadoresfr
## W = 0.96131, p-value = 3.452e-10
##
##
## Resumen Muestras con repetición para n = 50
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0200 0.1000 0.1200 0.1207 0.1400 0.2600
##
## Desviación estándar: 0.04426575
##
## Varianza: 0.001959457
##
## Coeficiente de Variación: 36.68027 %
##
## Shapiro-Wilk normality test
##
## data: estimadoresfr
## W = 0.97826, p-value = 8.619e-07
##
##
## Resumen Muestras con repetición para n = 60
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.1000 0.1167 0.1183 0.1333 0.2333
##
## Desviación estándar: 0.03795156
##
## Varianza: 0.001440321
##
## Coeficiente de Variación: 32.08982 %
##
## Shapiro-Wilk normality test
##
## data: estimadoresfr
## W = 0.97774, p-value = 6.506e-07
##
##
## Resumen Muestras con repetición para n = 100
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0400 0.1000 0.1200 0.1212 0.1400 0.2400
##
## Desviación estándar: 0.03200173
##
## Varianza: 0.001024111
##
## Coeficiente de Variación: 26.39536 %
##
## Shapiro-Wilk normality test
##
## data: estimadoresfr
## W = 0.98295, p-value = 1.34e-05
##
##
## Resumen Muestras con repetición para n = 200
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0650 0.1050 0.1200 0.1201 0.1350 0.1850
##
## Desviación estándar: 0.02124231
##
## Varianza: 0.0004512356
##
## Coeficiente de Variación: 17.68277 %
##
## Shapiro-Wilk normality test
##
## data: estimadoresfr
## W = 0.9913, p-value = 0.004917
##
##
## Resumen Muestras con repetición para n = 500
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.094 0.114 0.120 0.120 0.128 0.148
##
## Desviación estándar: 0.01011355
##
## Varianza: 0.000102284
##
## Coeficiente de Variación: 8.429648 %
##
## Shapiro-Wilk normality test
##
## data: estimadoresfr
## W = 0.99335, p-value = 0.02639
Con este porcentaje de plantas enfermas solo las muestras mas grandes evidencian simetria y la Normalidad solo se ve en la muestra de 500, debido a que es la unica que supera el nivel de significancia, aun cuando la muestra de 200 esta bastante cercana al nivel de significancia.
Lo primero que realizamos es la simulación con un 90% de plantas enfermas.
N = 1000
P = 0.9 # Procentaje de individuos (plantas) enfermos
set.seed(1234)
enfermos = rbinom(N,1,P)
Ahora ejecutamos de nuevo el ciclo pero con el 90% de plantas enfermas:
tamanos_estimadores= c(5,10,15,20,30,50,60,100,200,500)
for(i in tamanos_estimadores){
analisis_muestras(i,enfermos)
}
## Resumen Muestras con repetición para n = 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4000 0.8000 1.0000 0.8752 1.0000 1.0000
##
## Desviación estándar: 0.1447303
##
## Varianza: 0.02094685
##
## Coeficiente de Variación: 16.53682 %
##
## Shapiro-Wilk normality test
##
## data: estimadoresfr
## W = 0.75989, p-value < 2.2e-16
##
##
## Resumen Muestras con repetición para n = 10
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.5000 0.8000 0.9000 0.8822 1.0000 1.0000
##
## Desviación estándar: 0.1062343
##
## Varianza: 0.01128573
##
## Coeficiente de Variación: 12.04198 %
##
## Shapiro-Wilk normality test
##
## data: estimadoresfr
## W = 0.86489, p-value < 2.2e-16
##
##
## Resumen Muestras con repetición para n = 15
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.6000 0.8000 0.8667 0.8752 0.9333 1.0000
##
## Desviación estándar: 0.08344658
##
## Varianza: 0.006963331
##
## Coeficiente de Variación: 9.534572 %
##
## Shapiro-Wilk normality test
##
## data: estimadoresfr
## W = 0.91921, p-value = 1.023e-15
##
##
## Resumen Muestras con repetición para n = 20
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.6500 0.8500 0.9000 0.8764 0.9500 1.0000
##
## Desviación estándar: 0.07066135
##
## Varianza: 0.004993026
##
## Coeficiente de Variación: 8.062682 %
##
## Shapiro-Wilk normality test
##
## data: estimadoresfr
## W = 0.94356, p-value = 7.407e-13
##
##
## Resumen Muestras con repetición para n = 30
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.6333 0.8333 0.9000 0.8833 0.9333 1.0000
##
## Desviación estándar: 0.05723142
##
## Varianza: 0.003275435
##
## Coeficiente de Variación: 6.479518 %
##
## Shapiro-Wilk normality test
##
## data: estimadoresfr
## W = 0.96131, p-value = 3.452e-10
##
##
## Resumen Muestras con repetición para n = 50
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.7400 0.8600 0.8800 0.8793 0.9000 0.9800
##
## Desviación estándar: 0.04426575
##
## Varianza: 0.001959457
##
## Coeficiente de Variación: 5.034089 %
##
## Shapiro-Wilk normality test
##
## data: estimadoresfr
## W = 0.97826, p-value = 8.619e-07
##
##
## Resumen Muestras con repetición para n = 60
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.7667 0.8667 0.8833 0.8817 0.9000 1.0000
##
## Desviación estándar: 0.03795156
##
## Varianza: 0.001440321
##
## Coeficiente de Variación: 4.304199 %
##
## Shapiro-Wilk normality test
##
## data: estimadoresfr
## W = 0.97774, p-value = 6.506e-07
##
##
## Resumen Muestras con repetición para n = 100
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.7600 0.8600 0.8800 0.8788 0.9000 0.9600
##
## Desviación estándar: 0.03200173
##
## Varianza: 0.001024111
##
## Coeficiente de Variación: 3.641692 %
##
## Shapiro-Wilk normality test
##
## data: estimadoresfr
## W = 0.98295, p-value = 1.34e-05
##
##
## Resumen Muestras con repetición para n = 200
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.8150 0.8650 0.8800 0.8799 0.8950 0.9350
##
## Desviación estándar: 0.02124231
##
## Varianza: 0.0004512356
##
## Coeficiente de Variación: 2.414255 %
##
## Shapiro-Wilk normality test
##
## data: estimadoresfr
## W = 0.9913, p-value = 0.004917
##
##
## Resumen Muestras con repetición para n = 500
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.852 0.872 0.880 0.880 0.886 0.906
##
## Desviación estándar: 0.01011355
##
## Varianza: 0.000102284
##
## Coeficiente de Variación: 1.149236 %
##
## Shapiro-Wilk normality test
##
## data: estimadoresfr
## W = 0.99335, p-value = 0.02639
Con lotes con el 90% de plantas enfermas, pasa algo muy particular, existe una alta simetria en los datos y tambien el coeficiente de variación para todas las muestras estan dentro del umbral del 25%, lo particular es que la función Sphiro para ninguna de las muestras arrojo un resultado favorable para comprobar la hipotesis de una distriución Normal.