El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.
Realice una simulación en la cual genere una población de N=1000 (Lote) y además que el porcentaje de individuos (plantas) enfermas sea del 50%.
require(car)
attach(mtcars)
require(data.table)
require(knitr)
require(moments)
población=c(rep(x = 'S',500),rep(x = 'E',500))
#población linea de control: Imprime la población generada
Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n.
Se crea la función muestra() que recibe el parámetro ‘n’ que corresponde al tamaño de la muestra y el tipo de planta (enf: [‘E’, ‘S’])
muestra=function(n,enf){
y=sample(población,n)
#print(y) #Linea de control: Imprime una muestra 'n' de la población
return(sum(y==enf))
}
#muestra(10,'E')/10 # Linea de control: imprime el porcentaje de plantas Enfermas en la muestra
Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores. ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?
# n=70
estimador_muestra=array(NA,500)
for(i in 1:500){
est=muestra(70,'E')
estimador_muestra[i]=est/70
#print(estimador_muestra) #Linea de control: Imprime los porcent. de plantas Enf. por cada muestra
}
summary(estimador_muestra)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3286 0.4571 0.5000 0.4984 0.5321 0.6571
DesvEstandar=sd(estimador_muestra)
Asimetria=skewness(estimador_muestra)
Curtosis=kurtosis(estimador_muestra)
Min=min(estimador_muestra)
Max=max(estimador_muestra)
st<-shapiro.test(estimador_muestra)
st
##
## Shapiro-Wilk normality test
##
## data: estimador_muestra
## W = 0.99167, p-value = 0.006631
hist(estimador_muestra, col="#336699", main = "n=70")
abline(v = mean(estimador_muestra),col="red",lwd=4)
dt=data.table(DesvEstandar,Asimetria,Curtosis,Min,Max)
print(kable(dt))
##
##
## | DesvEstandar| Asimetria| Curtosis| Min| Max|
## |------------:|----------:|--------:|---------:|---------:|
## | 0.055846| -0.0957345| 2.793939| 0.3285714| 0.6571429|
Se asigna un tamaño de muestra n=70. Se toman 500 muestras aleatorias y respectivos estimadores. Estos estimadores son almacenados en un vector unidimensional de tamaño 500 denominado “estimador_muestra”. Se observa que los estimadores (p) de las muestras se concentran (frecuencia) alrededor de la media general de todo el vector “estimador_muestra”. Esta media del vector “estimador_muestra” es cercana al parámetro (P) teórico de la población que es P=0.5. Por otro lado, en esta distribución se observa una tendencia a ajustarse a la Distribución Normal con simetría alrededor de la media. Dado que hasta este punto es un escenario con un solo tamaño de muestra, se hace necesario cambiar los tamaños de muestra para ver la evolución y comportamiento de la distribución de los estimadores. Este es lo que se en los siguientes puntos a continuación.
Realice los ejercicios completos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad).
par(mfrow=c(1,3))
n=c(5,10,15,20,30,50,60,100,200,500)
for (i in n) {
estimador_muestra=array(NA,500)
for(j in 1:500) {
est=muestra(i,'E')
estimador_muestra[j]=est/i
}
hist(estimador_muestra, col="#336699", main=paste("Caso 1 (50% enf.)-Muestra n=",i))
abline(v = mean(estimador_muestra),col="red",lwd=4)
plot(density(estimador_muestra), las=1, ylab = "Densidad", main = "")
qqPlot(estimador_muestra, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
ShapiroWilk_test<-shapiro.test(estimador_muestra)
KolmogorovSmirnov_test <- ks.test(estimador_muestra,"pnorm", mean(estimador_muestra), sd(estimador_muestra))
Media=mean(estimador_muestra)
Mediana=median(estimador_muestra)
DesvEstandar=sd(estimador_muestra)
Asimetria=skewness(estimador_muestra)
Curtosis=kurtosis(estimador_muestra)
Min=min(estimador_muestra)
Max=max(estimador_muestra)
dt=data.table(Caso=paste("Caso 1 (50% enf.)-Muestra n=",i),Media,Mediana,DesvEstandar,Asimetria,Curtosis,Min,Max)
sw=data.table(ShapiroWilk_test)
ks=data.table(KolmogorovSmirnov_test)
print(kable(dt))
print(kable(sw))
print(kable(ks))
}
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:------------------------------|------:|-------:|------------:|----------:|--------:|---:|---:|
## |Caso 1 (50% enf.)-Muestra n= 5 | 0.5076| 0.6| 0.22655| -0.0114128| 2.367277| 0| 1|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9254625 |
## |4.788249e-15 |
## |Shapiro-Wilk normality test |
## |estimador_muestra |
##
##
## |KolmogorovSmirnov_test |
## |:----------------------------------|
## |0.1803107 |
## |1.521006e-14 |
## |two-sided |
## |One-sample Kolmogorov-Smirnov test |
## |estimador_muestra |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:-------------------------------|-----:|-------:|------------:|----------:|--------:|---:|---:|
## |Caso 1 (50% enf.)-Muestra n= 10 | 0.495| 0.5| 0.1573675| -0.0286068| 2.957067| 0.1| 1|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9644105 |
## |1.203001e-09 |
## |Shapiro-Wilk normality test |
## |estimador_muestra |
##
##
## |KolmogorovSmirnov_test |
## |:----------------------------------|
## |0.1353266 |
## |2.226721e-08 |
## |two-sided |
## |One-sample Kolmogorov-Smirnov test |
## |estimador_muestra |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:-------------------------------|------:|---------:|------------:|---------:|--------:|---------:|---------:|
## |Caso 1 (50% enf.)-Muestra n= 15 | 0.4872| 0.4666667| 0.1316719| 0.0116544| 2.940308| 0.1333333| 0.8666667|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9764101 |
## |3.192737e-07 |
## |Shapiro-Wilk normality test |
## |estimador_muestra |
##
##
## |KolmogorovSmirnov_test |
## |:----------------------------------|
## |0.1119611 |
## |7.194931e-06 |
## |two-sided |
## |One-sample Kolmogorov-Smirnov test |
## |estimador_muestra |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:-------------------------------|------:|-------:|------------:|----------:|--------:|---:|---:|
## |Caso 1 (50% enf.)-Muestra n= 20 | 0.4986| 0.5| 0.1162112| -0.1692874| 2.83037| 0.1| 0.8|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9793463 |
## |1.583766e-06 |
## |Shapiro-Wilk normality test |
## |estimador_muestra |
##
##
## |KolmogorovSmirnov_test |
## |:----------------------------------|
## |0.1248632 |
## |3.388602e-07 |
## |two-sided |
## |One-sample Kolmogorov-Smirnov test |
## |estimador_muestra |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:-------------------------------|---------:|-------:|------------:|----------:|--------:|---------:|---------:|
## |Caso 1 (50% enf.)-Muestra n= 30 | 0.5066667| 0.5| 0.0873928| -0.0307222| 2.863212| 0.2333333| 0.7666667|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.985249 |
## |5.892636e-05 |
## |Shapiro-Wilk normality test |
## |estimador_muestra |
##
##
## |KolmogorovSmirnov_test |
## |:----------------------------------|
## |0.1055966 |
## |2.873216e-05 |
## |two-sided |
## |One-sample Kolmogorov-Smirnov test |
## |estimador_muestra |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:-------------------------------|-------:|-------:|------------:|---------:|--------:|---:|---:|
## |Caso 1 (50% enf.)-Muestra n= 50 | 0.50344| 0.5| 0.0704933| 0.0447431| 2.847778| 0.3| 0.7|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9920503 |
## |0.009025972 |
## |Shapiro-Wilk normality test |
## |estimador_muestra |
##
##
## |KolmogorovSmirnov_test |
## |:----------------------------------|
## |0.06746025 |
## |0.02111569 |
## |two-sided |
## |One-sample Kolmogorov-Smirnov test |
## |estimador_muestra |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:-------------------------------|---------:|-------:|------------:|----------:|--------:|---------:|---------:|
## |Caso 1 (50% enf.)-Muestra n= 60 | 0.5004667| 0.5| 0.0624217| -0.1231788| 2.663159| 0.3333333| 0.6666667|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9899078 |
## |0.001650782 |
## |Shapiro-Wilk normality test |
## |estimador_muestra |
##
##
## |KolmogorovSmirnov_test |
## |:----------------------------------|
## |0.06838501 |
## |0.01862289 |
## |two-sided |
## |One-sample Kolmogorov-Smirnov test |
## |estimador_muestra |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:--------------------------------|-------:|-------:|------------:|---------:|--------:|----:|----:|
## |Caso 1 (50% enf.)-Muestra n= 100 | 0.49964| 0.5| 0.0462054| 0.1318675| 2.978525| 0.38| 0.65|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9939755 |
## |0.04475848 |
## |Shapiro-Wilk normality test |
## |estimador_muestra |
##
##
## |KolmogorovSmirnov_test |
## |:----------------------------------|
## |0.05929456 |
## |0.05944381 |
## |two-sided |
## |One-sample Kolmogorov-Smirnov test |
## |estimador_muestra |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:--------------------------------|-------:|-------:|------------:|---------:|--------:|----:|----:|
## |Caso 1 (50% enf.)-Muestra n= 200 | 0.49995| 0.5| 0.0319576| 0.0581785| 3.030132| 0.39| 0.59|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9958159 |
## |0.2056296 |
## |Shapiro-Wilk normality test |
## |estimador_muestra |
##
##
## |KolmogorovSmirnov_test |
## |:----------------------------------|
## |0.05623263 |
## |0.08466636 |
## |two-sided |
## |One-sample Kolmogorov-Smirnov test |
## |estimador_muestra |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:--------------------------------|--------:|-------:|------------:|---------:|--------:|-----:|-----:|
## |Caso 1 (50% enf.)-Muestra n= 500 | 0.500348| 0.5| 0.0163435| 0.1866018| 3.095318| 0.452| 0.552|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9948773 |
## |0.09540453 |
## |Shapiro-Wilk normality test |
## |estimador_muestra |
##
##
## |KolmogorovSmirnov_test |
## |:----------------------------------|
## |0.04673669 |
## |0.2247878 |
## |two-sided |
## |One-sample Kolmogorov-Smirnov test |
## |estimador_muestra |
Se repite el proceso de tomar 500 muestras aleatorias de la Población pero con diferentes tamaños de muestra. Este ejercicio permitió verificar la evolución de la distribución de los estimadores y establecer la relación directa entre el tamaño de la muestra y la Distribución Normal [Entre mas grande el tamaño de muestra, la distribución se aproxima mas a la Distribución Normal]
Se emplearon los siguientes recursos gráficos: Histograma, Gráfico de Densidad, y Gráfico Q-Q de Normalidad.
En los gráficos construidos se puede observar la evolución desde una distribución no uniforme con alta Desviación Estándar (DS) hacia una distribución que paulatinamente se acerca a la Distribución Normal con una baja DS a medida que se aumenta el tamaño de la muestra .
Se tomaron medidas de: Media, Mediana, Desviación Estándar, valor mínimo y valor máximo. La evolución de la medida de estas variables muestra como dato importante que la Media se acerca paulatinamente al valor del parámetro (P) de la población.
Test de Shapiro-Wilks: Por cada tamaño de muestra se realizó la prueba de Shapiro-Wilks. Para valores pequeños de la muestra, el P-valor comienza siendo mas pequeño que el valor alfa (0.05). Sin embargo, a medida que aumenta el tamaño de la muestra el P-valor se hace mayor que el valor alfa. Lo que permite inferir que la muestra proviene de una población con una Distribución Normal para el parametro P.
Test de Kolmogorov-Smirnov: Dado que en la literatura se encuentra que el test de Shapiro-Wilks es mas recomendado para muestras de tamaño menor a 50, en este ejercicio se realizó un test de contraste de normalidad de Kolmogorov-Smirnov recomendado para muestras de tamaño mayor a 50. Se encontró que a medida que aumenta el tamaño de la muestra el P-valor se hace mayor que el valor alfa. Lo que permite inferir nuevamente que la muestra proviene de una población con una Distribución Normal para el parametro P.
Asi pues, en el contexto de Contraste de Hipótesis podemos definir los siguiente:
Hipótesis nula H0: La variable μ (media) de la muestra presenta una Distribución Normal. Hipótesis alternativa H1: La variable μ de la muestra presenta una distribución no coherente con la Distribución Normal. Entonces de acuerdo con los diferentes recursos de análisis empleados, especialmente con los test de Shapiro-Wilks y Kolmogorov-Smirnov, podemos establecer en este caso que la Hipótesis nula H0 no es rechazada. (Esto es coherente con el conocimiento previo que se tiene de la población en este ejercicio pues es una población controlada con 50% de plantas “Enfermas” y 50% de plantas “Sanas”)
Repita toda la simulación (puntos a – d) pero ahora con lotes con 10% y 90% de plantas enfermas. Concluya todo el ejercicio.
# CASO 2: 10% de plantas enfermas
población_2=c(rep(x = 'S',900),rep(x = 'E',100))
muestra_2=function(n,enf){
y=sample(población_2,n)
return(sum(y==enf))
}
attach(mtcars)
par(mfrow=c(1,3))
n=c(5,10,15,20,30,50,60,100,200,500)
for (i in n) {
estimador_muestra_2=array(NA,500)
for(j in 1:500) {
est=muestra_2(i,'E')
estimador_muestra_2[j]=est/i
}
hist(estimador_muestra_2, col="#336699", main=paste("Caso 2 (10% enf.)-Muestra n=",i))
abline(v = mean(estimador_muestra_2),col="red",lwd=4)
plot(density(estimador_muestra_2), las=1, ylab = "Densidad", main = "")
qqPlot(estimador_muestra_2, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
ShapiroWilk_test<-shapiro.test(estimador_muestra_2)
KolmogorovSmirnov_test <- ks.test(estimador_muestra_2,"pnorm", mean(estimador_muestra_2), sd(estimador_muestra_2))
Media=mean(estimador_muestra_2)
Mediana=median(estimador_muestra_2)
DesvEstandar=sd(estimador_muestra_2)
Asimetria=skewness(estimador_muestra_2)
Curtosis=kurtosis(estimador_muestra_2)
Min=min(estimador_muestra_2)
Max=max(estimador_muestra_2)
dt=data.table(Caso=paste("Caso 2 (10% enf.)-Muestra n=",i),Media,Mediana,DesvEstandar,Asimetria,Curtosis,Min,Max)
sw=data.table(ShapiroWilk_test)
ks=data.table(KolmogorovSmirnov_test)
print(kable(dt))
print(kable(sw))
print(kable(ks))
}
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:------------------------------|------:|-------:|------------:|---------:|--------:|---:|---:|
## |Caso 2 (10% enf.)-Muestra n= 5 | 0.0916| 0| 0.1279147| 1.21537| 3.932841| 0| 0.6|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.6889351 |
## |2.579781e-29 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_2 |
##
##
## |KolmogorovSmirnov_test |
## |:----------------------------------|
## |0.3790359 |
## |0 |
## |two-sided |
## |One-sample Kolmogorov-Smirnov test |
## |estimador_muestra_2 |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:-------------------------------|------:|-------:|------------:|---------:|--------:|---:|---:|
## |Caso 2 (10% enf.)-Muestra n= 10 | 0.0978| 0.1| 0.0954641| 0.790921| 3.084708| 0| 0.4|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.837742 |
## |3.466522e-22 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_2 |
##
##
## |KolmogorovSmirnov_test |
## |:----------------------------------|
## |0.2268071 |
## |0 |
## |two-sided |
## |One-sample Kolmogorov-Smirnov test |
## |estimador_muestra_2 |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:-------------------------------|------:|---------:|------------:|---------:|--------:|---:|---------:|
## |Caso 2 (10% enf.)-Muestra n= 15 | 0.1024| 0.0666667| 0.077385| 0.8129898| 4.336558| 0| 0.4666667|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.8915261 |
## |2.650566e-18 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_2 |
##
##
## |KolmogorovSmirnov_test |
## |:----------------------------------|
## |0.1958734 |
## |0 |
## |two-sided |
## |One-sample Kolmogorov-Smirnov test |
## |estimador_muestra_2 |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:-------------------------------|------:|-------:|------------:|---------:|--------:|---:|----:|
## |Caso 2 (10% enf.)-Muestra n= 20 | 0.1026| 0.1| 0.0670241| 0.5597| 3.261075| 0| 0.35|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9280843 |
## |9.392683e-15 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_2 |
##
##
## |KolmogorovSmirnov_test |
## |:----------------------------------|
## |0.1754719 |
## |8.493206e-14 |
## |two-sided |
## |One-sample Kolmogorov-Smirnov test |
## |estimador_muestra_2 |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:-------------------------------|---------:|-------:|------------:|---------:|--------:|---:|---:|
## |Caso 2 (10% enf.)-Muestra n= 30 | 0.1013333| 0.1| 0.0532447| 0.4573427| 3.100823| 0| 0.3|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.951234 |
## |8.786758e-12 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_2 |
##
##
## |KolmogorovSmirnov_test |
## |:----------------------------------|
## |0.1579891 |
## |2.889333e-11 |
## |two-sided |
## |One-sample Kolmogorov-Smirnov test |
## |estimador_muestra_2 |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:-------------------------------|-------:|-------:|------------:|---------:|--------:|---:|----:|
## |Caso 2 (10% enf.)-Muestra n= 50 | 0.10212| 0.1| 0.0403132| 0.3590259| 2.883358| 0| 0.24|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9683753 |
## |6.58723e-09 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_2 |
##
##
## |KolmogorovSmirnov_test |
## |:----------------------------------|
## |0.14097 |
## |4.682697e-09 |
## |two-sided |
## |One-sample Kolmogorov-Smirnov test |
## |estimador_muestra_2 |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:-------------------------------|---------:|-------:|------------:|---------:|--------:|---------:|---------:|
## |Caso 2 (10% enf.)-Muestra n= 60 | 0.1006667| 0.1| 0.0361163| 0.2891593| 2.718728| 0.0166667| 0.2166667|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9720401 |
## |3.567894e-08 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_2 |
##
##
## |KolmogorovSmirnov_test |
## |:----------------------------------|
## |0.1293636 |
## |1.079284e-07 |
## |two-sided |
## |One-sample Kolmogorov-Smirnov test |
## |estimador_muestra_2 |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:--------------------------------|-------:|-------:|------------:|---------:|--------:|----:|---:|
## |Caso 2 (10% enf.)-Muestra n= 100 | 0.09736| 0.09| 0.0291467| 0.2708021| 3.168672| 0.02| 0.2|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9849773 |
## |4.921502e-05 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_2 |
##
##
## |KolmogorovSmirnov_test |
## |:----------------------------------|
## |0.1016788 |
## |6.47205e-05 |
## |two-sided |
## |One-sample Kolmogorov-Smirnov test |
## |estimador_muestra_2 |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:--------------------------------|-------:|-------:|------------:|----------:|--------:|----:|-----:|
## |Caso 2 (10% enf.)-Muestra n= 200 | 0.09894| 0.1| 0.0187852| -0.0847151| 2.622372| 0.05| 0.145|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9891726 |
## |0.0009443319 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_2 |
##
##
## |KolmogorovSmirnov_test |
## |:----------------------------------|
## |0.06649939 |
## |0.02401629 |
## |two-sided |
## |One-sample Kolmogorov-Smirnov test |
## |estimador_muestra_2 |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:--------------------------------|--------:|-------:|------------:|---------:|--------:|-----:|-----:|
## |Caso 2 (10% enf.)-Muestra n= 500 | 0.098872| 0.098| 0.0093547| 0.1016868| 3.196731| 0.076| 0.132|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9918769 |
## |0.00783696 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_2 |
##
##
## |KolmogorovSmirnov_test |
## |:----------------------------------|
## |0.06801148 |
## |0.01959628 |
## |two-sided |
## |One-sample Kolmogorov-Smirnov test |
## |estimador_muestra_2 |
# CASO 3: 90% de plantas enfermas
población_3=c(rep(x = 'S',100),rep(x = 'E',900))
muestra_3=function(n,enf){
y=sample(población_3,n)
return(sum(y==enf))
}
attach(mtcars)
par(mfrow=c(1,3))
n=c(5,10,15,20,30,50,60,100,200,500)
for (i in n) {
estimador_muestra_3=array(NA,500)
for(j in 1:500) {
est=muestra_3(i,'E')
estimador_muestra_3[j]=est/i
}
summary(estimador_muestra_3)
hist(estimador_muestra_3, col="#336699", main=paste("Caso 3 (90% enf.)-Muestra n=",i))
abline(v = mean(estimador_muestra_3),col="red",lwd=4)
plot(density(estimador_muestra_3), las=1, ylab = "Densidad", main = "")
qqPlot(estimador_muestra_3, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
ShapiroWilk_test<-shapiro.test(estimador_muestra_3)
KolmogorovSmirnov_test <- ks.test(estimador_muestra_3,"pnorm", mean(estimador_muestra_3), sd(estimador_muestra_3))
Media=mean(estimador_muestra_3)
Mediana=median(estimador_muestra_3)
DesvEstandar=sd(estimador_muestra_3)
Asimetria=skewness(estimador_muestra_3)
Curtosis=kurtosis(estimador_muestra_3)
Min=min(estimador_muestra_3)
Max=max(estimador_muestra_3)
dt=data.table(Caso=paste("Caso 3 (90% enf.)-Muestra n=",i),Media,Mediana,DesvEstandar,Asimetria,Curtosis,Min,Max)
sw=data.table(ShapiroWilk_test)
ks=data.table(KolmogorovSmirnov_test)
print(kable(dt))
print(kable(sw))
print(kable(ks))
}
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:------------------------------|------:|-------:|------------:|---------:|--------:|---:|---:|
## |Caso 3 (90% enf.)-Muestra n= 5 | 0.8812| 1| 0.145633| -0.980547| 3.21572| 0.4| 1|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.7462634 |
## |5.702211e-27 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_3 |
##
##
## |KolmogorovSmirnov_test |
## |:----------------------------------|
## |0.3306782 |
## |0 |
## |two-sided |
## |One-sample Kolmogorov-Smirnov test |
## |estimador_muestra_3 |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:-------------------------------|-----:|-------:|------------:|----------:|--------:|---:|---:|
## |Caso 3 (90% enf.)-Muestra n= 10 | 0.899| 0.9| 0.0916286| -0.6843162| 3.111489| 0.5| 1|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.8470357 |
## |1.361091e-21 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_3 |
##
##
## |KolmogorovSmirnov_test |
## |:----------------------------------|
## |0.2323538 |
## |0 |
## |two-sided |
## |One-sample Kolmogorov-Smirnov test |
## |estimador_muestra_3 |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:-------------------------------|-----:|---------:|------------:|----------:|--------:|---:|---:|
## |Caso 3 (90% enf.)-Muestra n= 15 | 0.902| 0.9333333| 0.0781978| -0.6576214| 3.063565| 0.6| 1|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.8947181 |
## |4.95866e-18 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_3 |
##
##
## |KolmogorovSmirnov_test |
## |:----------------------------------|
## |0.221677 |
## |0 |
## |two-sided |
## |One-sample Kolmogorov-Smirnov test |
## |estimador_muestra_3 |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:-------------------------------|------:|-------:|------------:|----------:|--------:|----:|---:|
## |Caso 3 (90% enf.)-Muestra n= 20 | 0.9021| 0.9| 0.0657208| -0.5968506| 3.347059| 0.65| 1|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9226109 |
## |2.344116e-15 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_3 |
##
##
## |KolmogorovSmirnov_test |
## |:----------------------------------|
## |0.1892546 |
## |5.551115e-16 |
## |two-sided |
## |One-sample Kolmogorov-Smirnov test |
## |estimador_muestra_3 |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:-------------------------------|---------:|-------:|------------:|----------:|--------:|---------:|---:|
## |Caso 3 (90% enf.)-Muestra n= 30 | 0.9027333| 0.9| 0.0515975| -0.3934235| 3.008404| 0.7333333| 1|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9507603 |
## |7.488685e-12 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_3 |
##
##
## |KolmogorovSmirnov_test |
## |:----------------------------------|
## |0.157427 |
## |3.449852e-11 |
## |two-sided |
## |One-sample Kolmogorov-Smirnov test |
## |estimador_muestra_3 |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:-------------------------------|-------:|-------:|------------:|----------:|--------:|----:|----:|
## |Caso 3 (90% enf.)-Muestra n= 50 | 0.89888| 0.9| 0.0410721| -0.4971492| 3.289684| 0.76| 0.98|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9623453 |
## |5.194873e-10 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_3 |
##
##
## |KolmogorovSmirnov_test |
## |:----------------------------------|
## |0.1488775 |
## |4.732734e-10 |
## |two-sided |
## |One-sample Kolmogorov-Smirnov test |
## |estimador_muestra_3 |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:-------------------------------|---------:|-------:|------------:|----------:|--------:|---------:|---:|
## |Caso 3 (90% enf.)-Muestra n= 60 | 0.9000333| 0.9| 0.0383282| -0.3211111| 2.857893| 0.7833333| 1|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9759361 |
## |2.491033e-07 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_3 |
##
##
## |KolmogorovSmirnov_test |
## |:----------------------------------|
## |0.1158455 |
## |2.969779e-06 |
## |two-sided |
## |One-sample Kolmogorov-Smirnov test |
## |estimador_muestra_3 |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:--------------------------------|-------:|-------:|------------:|----------:|--------:|----:|----:|
## |Caso 3 (90% enf.)-Muestra n= 100 | 0.89994| 0.9| 0.0305756| -0.1732752| 2.894596| 0.81| 0.98|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9873107 |
## |0.0002427251 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_3 |
##
##
## |KolmogorovSmirnov_test |
## |:----------------------------------|
## |0.07878286 |
## |0.004031598 |
## |two-sided |
## |One-sample Kolmogorov-Smirnov test |
## |estimador_muestra_3 |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:--------------------------------|-------:|-------:|------------:|---------:|--------:|-----:|----:|
## |Caso 3 (90% enf.)-Muestra n= 200 | 0.89772| 0.9| 0.0188842| -0.021042| 2.729039| 0.845| 0.95|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9917224 |
## |0.006913646 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_3 |
##
##
## |KolmogorovSmirnov_test |
## |:----------------------------------|
## |0.07004975 |
## |0.01478976 |
## |two-sided |
## |One-sample Kolmogorov-Smirnov test |
## |estimador_muestra_3 |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:--------------------------------|-------:|-------:|------------:|---------:|--------:|----:|-----:|
## |Caso 3 (90% enf.)-Muestra n= 500 | 0.89954| 0.9| 0.0099032| 0.1303529| 3.055025| 0.87| 0.934|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9932321 |
## |0.0239835 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_3 |
##
##
## |KolmogorovSmirnov_test |
## |:----------------------------------|
## |0.05252414 |
## |0.1267052 |
## |two-sided |
## |One-sample Kolmogorov-Smirnov test |
## |estimador_muestra_3 |
Se repite el proceso de tomar 500 muestras aleatorias de la Población con diferentes tamaños de muestra. Pero en este ejercicio se analizan dos casos: El primero con una población en la que el porcentaje de plantas enfermas es 10%. En el segundo caso con una población en la que el porcentaje de plantas enfermas es del 90%. En ambos casos se verifica la evolución de la distribución de los estimadores y permite establecer la relación directa entre el tamaño de la muestra y la Distribución Normal [Entre mas grande el tamaño de muestra, la distribución se aproxima mas a la Distribución Normal]
En todos los casos, la distribución de los estimadores muestrales presentan tendencia a ajustarse a la Distribución Normal con simetría alredor de la media (0.5, 0.1 y 0.9 respectivamente).
En los gráficos construidos se puede observar la evolución desde una distribución no uniforme con alta Desviación Estándar (DS) hacia una distribución que paulatinamente se acerca a la Distribución Normal con una baja DS a medida que se aumenta el tamaño de la muestra.
La evolución de la medida de las variables muestra como dato importante que la Media se acerca paulatinamente al valor del parámetro (P) de la población. La Desviación Estandar tiende a disminuir a medida que se aumenta el tamaño de la muestra y la distribución de los estimadores se acerca a la Distribución Normal.
Test de Shapiro-Wilks: En todos los casos se observa que para valores pequeños de la muestra, el P-valor comienza siendo mas pequeño que el valor alfa (0.05). Sin embargo, a medida que aumenta el tamaño de la muestra el P-valor se hace mayor que el valor alfa. Lo que permite inferir que la muestra proviene de una población con una Distribución Normal para el parametro P.
Test de Kolmogorov-Smirnov: En todos los casos se encontró que a medida que aumenta el tamaño de la muestra el P-valor se hace mayor que el valor alfa. Lo que permite inferir nuevamente que la muestra proviene de una población con una Distribución Normal para el parametro P.
Para todos los casos anteriores podemos establecer las siguientes Hipótesis: Hipótesis nula H0: La variable μ (media) de la muestra presenta una Distribución Normal. Hipótesis alternativa H1: La variable μ de la muestra presenta una distribución no coherente con la Distribución Normal. Entonces de acuerdo con los diferentes recursos de análisis empleados, especialmente con los test de Shapiro-Wilks y Kolmogorov-Smirnov, podemos establecer hasta este punto que la Hipótesis nula H0 no es rechazada. (Esto es coherente con el conocimiento previo que se tiene de las poblaciónes en este ejercicio pues son tres poblaciónes controladas con 50%, 10% y 90% de plantas “Enfermas” respectivamente)
La comparación de tratamientos es una práctica fundamental en las ciencias agropecuarias y para esto a nivel estadístico se cuenta con algunas herramientas para apoyar el proceso de toma de decisiones y lograr concluir con algún grado de confianza que los resultados observados en una muestra son representativos y se pueden asociar a los tratamientos y no se deben únicamente al azar. Por medio una simulación validemos algunos de estos resultados.
Suponga un escenario en el cual usted aplicó tratamientos diferentes a dos lotes y desea analizar si alguno de los dos presenta un mejor desempeño en el control de una plaga presente en ambos al momento inicial. Para ello utilizará como criterio de desempeño el tratamiento que menor % de plantas enfermas presente después de un tiempo de aplicación (es decir, si se presentan o no diferencias en las proporciones de enfermos P1 y P2). Realice una simulación en la cual genere dos poblaciónes de N1=1000 (Lote1) y N2=1500 (Lote2), además asuma que el porcentaje de individuos (plantas) enfermas en ambos lotes sea la misma 10% (es decir, sin diferencias entre los tratamientos).
población_1=c(rep("S",900),rep("E",100))
población_2=c(rep("S",1350),rep("E",150))
Genere una función que permita obtener una muestra aleatoria de los lotes y calcule el estimador de la proporción muestral para cada lote (p1 y p2) para un tamaño de muestra dado n1=n2. Calcule la diferencia entre los estimadores p1-p2.
muestra_dif_est=function(n1){
n2=n1
muestra1=sample(población_1,n1)
est_muestra1=sum(muestra1=="E")/n1
est_muestra1
muestra2=sample(población_2,n2)
est_muestra2=sum(muestra2=="E")/n2
dif_est=(est_muestra1-est_muestra2)
return(dif_est)
}
muestra_dif_est(70)
## [1] 0.07142857
Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores (diferencias p1-p2). ¿Qué tan simétricos son los datos?, ¿Son siempre cero las diferencias?
estimador_muestra_dif=array(NA,500)
for(i in 1:500) {
estimador_muestra_dif[i]=muestra_dif_est(70)
}
summary(estimador_muestra_dif)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.12857 -0.02857 0.00000 -0.00320 0.02857 0.14286
DesvEstandar=sd(estimador_muestra_dif)
Asimetria=skewness(estimador_muestra_dif)
Curtosis=kurtosis(estimador_muestra_dif)
Min=min(estimador_muestra_dif)
Max=max(estimador_muestra_dif)
st<-shapiro.test(estimador_muestra_dif)
st
##
## Shapiro-Wilk normality test
##
## data: estimador_muestra_dif
## W = 0.99009, p-value = 0.001898
hist(estimador_muestra_dif, col="#336699", main = "n=70")
abline(v = mean(estimador_muestra_dif),col="red",lwd=4)
dt=data.table(DesvEstandar,Asimetria,Curtosis,Min,Max)
print(kable(dt))
##
##
## | DesvEstandar| Asimetria| Curtosis| Min| Max|
## |------------:|---------:|--------:|----------:|---------:|
## | 0.0465264| 0.0285964| 2.953436| -0.1285714| 0.1428571|
Se asigna un tamaño de muestra n=70 que aplica para ambas poblaciónes. Se toman 500 muestras aleatorias y se obtienen las respectivas diferencias entre estimadores. Estas diferencias son almacenadas en un vector unidimensional de tamaño 500 denominado “estimador_muestra_dif”. Se observa que los estimadores (p) de las muestras se concentran (frecuencia) alrededor de la media general de todo el vector “estimador_muestra_dif”. Esta media del vector “estimador_muestra_dif” es cercana al parámetro (P) teórico de las poblaciónes que es P=0. Por otro lado, en esta distribución se observa una tendencia a ajustarse a la Distribución Normal con simetría alrededor de la media. Dado que hasta este punto es un escenario con un solo tamaño de muestra, se hace necesario cambiar los tamaños de muestra para ver la evolución y comportamiento de la distribución de los estimadores. Este es lo que se en los siguientes puntos a continuación.
Realice los ejercicios completos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad).
attach(mtcars)
par(mfrow=c(1,3))
n=c(5,10,15,20,30,50,60,100,200,500)
for (i in n) {
estimador_muestra_dif=array(NA,500)
for(j in 1:500) {
estimador_muestra_dif[j]=muestra_dif_est(i)
}
hist(estimador_muestra_dif, col="#336699", main=paste("DiferenciaEstimadores - n=",i))
abline(v = mean(estimador_muestra_dif),col="red",lwd=4)
plot(density(estimador_muestra_dif), las=1, ylab = "Densidad", main = "")
qqPlot(estimador_muestra_dif, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
ShapiroWilk_test<-shapiro.test(estimador_muestra_dif)
Media=mean(estimador_muestra_dif)
Mediana=median(estimador_muestra_dif)
DesvEstandar=sd(estimador_muestra_dif)
Asimetria=skewness(estimador_muestra_dif)
Curtosis=kurtosis(estimador_muestra_dif)
Min=min(estimador_muestra_dif)
Max=max(estimador_muestra_dif)
dt=data.table(Caso=paste("DiferenciaEstimadores - n=",i),Media,Mediana,DesvEstandar,Asimetria,Curtosis,Min,Max)
sw=data.table(ShapiroWilk_test)
print(kable(dt))
print(kable(sw))
}
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:----------------------------|-------:|-------:|------------:|----------:|--------:|----:|---:|
## |DiferenciaEstimadores - n= 5 | -0.0068| 0| 0.1962416| -0.1358553| 4.031463| -0.8| 0.6|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.900648 |
## |1.648359e-17 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_dif |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:-----------------------------|------:|-------:|------------:|---------:|--------:|----:|---:|
## |DiferenciaEstimadores - n= 10 | 0.0056| 0| 0.1335827| 0.074326| 3.059431| -0.4| 0.4|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9513415 |
## |9.11274e-12 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_dif |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:-----------------------------|---------:|-------:|------------:|---------:|--------:|----------:|---:|
## |DiferenciaEstimadores - n= 15 | 0.0030667| 0| 0.1148103| 0.0749053| 2.972091| -0.3333333| 0.4|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9712156 |
## |2.413392e-08 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_dif |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:-----------------------------|-------:|-------:|------------:|---------:|--------:|-----:|----:|
## |DiferenciaEstimadores - n= 20 | -0.0053| 0| 0.0943117| 0.0329305| 2.697979| -0.25| 0.25|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.974016 |
## |9.363919e-08 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_dif |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:-----------------------------|---------:|-------:|------------:|---------:|--------:|----:|---------:|
## |DiferenciaEstimadores - n= 30 | 0.0027333| 0| 0.0740055| 0.0912232| 2.92608| -0.2| 0.2333333|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9809919 |
## |4.096884e-06 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_dif |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:-----------------------------|--------:|-------:|------------:|----------:|--------:|----:|----:|
## |DiferenciaEstimadores - n= 50 | -0.00112| 0| 0.0573596| -0.1340488| 2.950182| -0.2| 0.18|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9870752 |
## |0.0002055553 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_dif |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:-----------------------------|---------:|-------:|------------:|---------:|--------:|----------:|---------:|
## |DiferenciaEstimadores - n= 60 | 0.0007333| 0| 0.0539728| 0.0597298| 3.147227| -0.1666667| 0.1833333|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9907792 |
## |0.003253263 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_dif |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:------------------------------|-------:|-------:|------------:|---------:|--------:|-----:|----:|
## |DiferenciaEstimadores - n= 100 | 0.00024| 0| 0.0405812| 0.1987181| 3.163668| -0.12| 0.16|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9918454 |
## |0.007638601 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_dif |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:------------------------------|-------:|-------:|------------:|---------:|--------:|------:|-----:|
## |DiferenciaEstimadores - n= 200 | 0.00011| 0| 0.0256896| 0.0197831| 2.656365| -0.065| 0.065|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.991919 |
## |0.008109674 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_dif |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:------------------------------|--------:|-------:|------------:|----------:|--------:|-----:|-----:|
## |DiferenciaEstimadores - n= 500 | 0.000224| 0| 0.0143044| -0.0528086| 2.881123| -0.04| 0.042|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9957647 |
## |0.197414 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_dif |
Se repite el proceso de tomar 500 muestras aleatorias de las dos poblaciónes pero con diferentes tamaños de muestra. Este ejercicio permitió verificar la evolución de la distribución de la diferencia entre estimadores (estimador (p)) y establecer la relación directa entre el tamaño de la muestra y la Distribución Normal [Entre mas grande el tamaño de muestra, la distribución se aproxima mas a la Distribución Normal]
Se emplearon los siguientes recursos gráficos: Histograma, Gráfico de Densidad, y Gráfico Q-Q de Normalidad.
En los gráficos construidos se puede observar la evolución desde una distribución no uniforme con alta Desviación Estándar (DS) hacia una distribución que paulatinamente se acerca a la Distribución Normal con baja DS a medida que se aumenta el tamaño de la muestra.
Se tomaron medidas de: Media, Mediana, Desviación Estándar, valor mínimo y valor máximo. La evolución de la medida de estas variables muestra como dato importante que la Media se acerca paulatinamente al valor del parámetro (P) teórico de las poblaciónes.
Test de Shapiro-Wilks: Por cada tamaño de muestra se realizó la prueba de Shapiro-Wilks. Para valores pequeños de la muestra, el P-valor comienza siendo mas pequeño que el valor alfa (0.05). Sin embargo, a medida que aumenta el tamaño de la muestra el P-valor se hace mayor que el valor alfa. Lo que permite inferir que la muestra proviene de una población con una Distribución Normal para el parametro P.
Test de Kolmogorov-Smirnov: Dado que en la literatura se encuentra que el test de Shapiro-Wilks es mas recomendado para muestras de tamaño menor a 50, en este ejercicio se realizó el test de contraste de normalidad de Kolmogorov-Smirnov recomendado para muestras de tamaño mayor a 50. Se encontró que a medida que aumenta el tamaño de la muestra el P-valor se hace mayor que el valor alfa. Lo que permite inferir nuevamente que la muestra proviene de una población con una Distribución Normal para el parametro P.
Asi pues, en el contexto de Contraste de Hipótesis podemos definir lo siguiente:
Hipótesis nula H0: El tratamiento aplicado tiene el mismo efecto en ambas poblaciónes de plantas. Hipótesis alternativa H1: El tratamiento aplicado presenta un efecto mayor en la población 1.
Entonces de acuerdo con los diferentes recursos de análisis empleados, especialmente los test de Shapiro-Wilks y Kolmogorov-Smirnov, podemos establecer hasta este punto que la Hipótesis nula H0 no es rechazada. (Esto es coherente con el conocimiento previo que se tiene de las poblaciónes en este ejercicio y el efecto del tratamiento aplicado)
Ahora realice nuevamente los puntos a-d bajo un escenario con dos lotes, pero de proporciones de enfermos diferentes (P1=0.1 y P2=0.15), es decir, el tratamiento del lote 1 si presentó un mejor desempeño reduciendo en un 5% el porcentaje de enfermos. Bajo este nuevo escenario compare la distribución de estas diferencias (p1-p2) con las observadas bajo igualdad de condiciones en los lotes. ¿Qué puede concluir? ¿Existen puntos en los cuales es posible que se observen diferencias de p1- p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2: diferencia de 5%)?
población_1a=c(rep("S",900),rep("E",100))
población_2a=c(rep("S",1275),rep("E",225))
muestra_dif_est2=function(n1){
n2=n1
muestra3=sample(población_1a,n1)
est_muestra3=sum(muestra3=="E")/n1
muestra4=sample(población_2a,n2)
est_muestra4=sum(muestra4=="E")/n2
dif_est_2=(est_muestra4-est_muestra3)
return(dif_est_2)
}
par(mfrow=c(1,3))
n=c(5,10,15,20,30,50,60,100,200,500)
for (i in n) {
estimador_muestra_dif_2=array(NA,500)
for(j in 1:500) {
estimador_muestra_dif_2[j]=muestra_dif_est2(i)
}
hist(estimador_muestra_dif_2, col="#336699", main=paste("DiferenciaEstimadores - n=",i))
abline(v = mean(estimador_muestra_dif_2),col="red",lwd=4)
plot(density(estimador_muestra_dif_2), las=1, ylab = "Densidad", main = "")
qqPlot(estimador_muestra_dif_2, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
ShapiroWilk_test<-shapiro.test(estimador_muestra_dif_2)
Media=mean(estimador_muestra_dif_2)
Mediana=median(estimador_muestra_dif_2)
DesvEstandar=sd(estimador_muestra_dif_2)
Asimetria=skewness(estimador_muestra_dif_2)
Curtosis=kurtosis(estimador_muestra_dif_2)
Min=min(estimador_muestra_dif_2)
Max=max(estimador_muestra_dif_2)
dt=data.table(Caso=paste("DiferenciaEstimadores - n=",i),Media,Mediana,DesvEstandar,Asimetria,Curtosis,Min,Max)
sw=data.table(ShapiroWilk_test)
print(kable(dt))
print(kable(sw))
}
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:----------------------------|------:|-------:|------------:|---------:|--------:|----:|---:|
## |DiferenciaEstimadores - n= 5 | 0.0388| 0| 0.2053751| 0.1724979| 3.82352| -0.6| 0.8|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9124433 |
## |2.115866e-16 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_dif_2 |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:-----------------------------|------:|-------:|------------:|---------:|--------:|----:|---:|
## |DiferenciaEstimadores - n= 10 | 0.0442| 0| 0.1478854| 0.0984546| 2.929551| -0.4| 0.5|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9607 |
## |2.715599e-10 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_dif_2 |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:-----------------------------|---------:|---------:|------------:|---------:|--------:|----------:|---:|
## |DiferenciaEstimadores - n= 15 | 0.0465333| 0.0666667| 0.1139325| 0.0535228| 3.047584| -0.3333333| 0.4|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9697379 |
## |1.217089e-08 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_dif_2 |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:-----------------------------|------:|-------:|------------:|---------:|--------:|----:|---:|
## |DiferenciaEstimadores - n= 20 | 0.0441| 0.05| 0.103787| 0.2195683| 3.207603| -0.3| 0.4|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.976233 |
## |2.909055e-07 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_dif_2 |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:-----------------------------|---------:|---------:|------------:|---------:|--------:|----------:|---------:|
## |DiferenciaEstimadores - n= 30 | 0.0490667| 0.0333333| 0.0832245| 0.0204679| 2.884047| -0.2333333| 0.2666667|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9841044 |
## |2.786565e-05 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_dif_2 |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:-----------------------------|-------:|-------:|------------:|----------:|--------:|-----:|----:|
## |DiferenciaEstimadores - n= 50 | 0.05688| 0.06| 0.0663738| -0.0806803| 2.746242| -0.16| 0.24|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.989042 |
## |0.0008562798 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_dif_2 |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:-----------------------------|------:|-------:|------------:|---------:|--------:|-----:|---------:|
## |DiferenciaEstimadores - n= 60 | 0.0534| 0.05| 0.0582399| 0.0005041| 3.07974| -0.15| 0.2333333|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9910877 |
## |0.004153628 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_dif_2 |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:------------------------------|------:|-------:|------------:|---------:|--------:|-----:|---:|
## |DiferenciaEstimadores - n= 100 | 0.0488| 0.05| 0.0436896| 0.1372034| 3.430017| -0.08| 0.2|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9915211 |
## |0.005876665 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_dif_2 |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:------------------------------|-------:|-------:|------------:|---------:|--------:|-----:|-----:|
## |DiferenciaEstimadores - n= 200 | 0.04922| 0.05| 0.0308917| 0.0382276| 3.181715| -0.05| 0.145|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9963795 |
## |0.3177916 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_dif_2 |
##
##
## |Caso | Media| Mediana| DesvEstandar| Asimetria| Curtosis| Min| Max|
## |:------------------------------|------:|-------:|------------:|----------:|--------:|------:|---:|
## |DiferenciaEstimadores - n= 500 | 0.0502| 0.05| 0.0165441| -0.0372546| 3.092747| -0.008| 0.1|
##
##
## |ShapiroWilk_test |
## |:---------------------------|
## |0.9975263 |
## |0.6706496 |
## |Shapiro-Wilk normality test |
## |estimador_muestra_dif_2 |
Se repite el proceso de tomar 500 muestras aleatorias de las dos poblaciónes con diferentes tamaños de muestra. Pero en este ejercicio cambia la proporción de plantas enfermas en las poblaciónes (10% y 15 % respectivamente). Este ejercicio permitió verificar la evolución de la distribución de la diferencia entre estimadores y establecer la relación directa entre el tamaño de la muestra y la Distribución Normal [Entre mas grande el tamaño de muestra, la distribución se aproxima mas a la Distribución Normal]. Se observa que la diferencia de estimadores (p) de las muestras se concentran (frecuencia) alrededor de la media general de todo el vector “estimador_muestra_dif_2”. Esta media del vector “estimador_muestra_dif_2” es cercana al parámetro (P) teórico de las poblaciónes que es P=0.05
Se tomaron medidas de: Media, Mediana, Desviación Estándar, valor mínimo y valor máximo. La evolución de la medida de estas variables muestra como dato importante que la Media se acerca paulatinamente al valor del parámetro (P) teórico de las poblaciónes.
Test de Shapiro-Wilks: Por cada tamaño de muestra se realizó la prueba de Shapiro-Wilks. Para valores pequeños de la muestra, el P-valor comienza siendo mas pequeño que el valor alfa (0.05). Sin embargo, a medida que aumenta el tamaño de la muestra el P-valor se hace mayor que el valor alfa. Lo que permite inferir que la muestra proviene de una población con una Distribución Normal para el parametro P.
Test de Kolmogorov-Smirnov: Dado que en la literatura se encuentra que el test de Shapiro-Wilks es mas recomendado para muestras de tamaño menor a 50, en este ejercicio se realizó el test de contraste de normalidad de KolmogorovSmirnov recomendado para muestras con tamaños mayores a 50. Se encontró que a medida que aumenta el tamaño de la muestra el P-valor se hace mayor que el valor alfa. Lo que permite inferir nuevamente que la muestra proviene de una población con una Distribución Normal para el parametro P.
Asi pues, en el contexto de Contraste de Hipótesis podemos definir lo siguiente:
Hipótesis nula H0: El tratamiento aplicado presenta un efecto mayor en la población 1.
Hipótesis alternativa H1: El tratamiento aplicado tiene el mismo efecto en ambas poblaciónes de plantas.
Entonces de acuerdo con los diferentes recursos de análisis empleados, especialmente los test de Shapiro-Wilks y Kolmogorov-Smirnov, podemos establecer en este caso que la Hipótesis nula H0 no es rechazada. (Esto es coherente con el conocimiento previo que se tiene de las poblaciónes en este ejercicio y el efecto del tratamiento aplicado)
Con base a los artículos “Statistical Errors: P values, the gold standard of statistical validity, are not as reliable as many scientists assume” & “Statisticians issue warning on P values: Statement aims to halt missteps in the quest for certainty” escriba un resumen (máximo 2 páginas) sobre ambos artículos e incluya en este sus opiniones en cuanto al uso del valor p como criterio de decisión en inferencia estadística.
El artículo escrito por la profesora Regina Nuzzo, trata sobre la naturaleza e interpretación del concepto Valor-P. De acuerdo con Nuzzo (2014), actualmente existen varios estudios en los que se han establecido conclusiones erradas a partir de una interpretacion acelerada o sesgada del Valor-P en los resultados obtenidos. Esta situación es preocupante toda vez que estos hallazgos errados son publicados en articulos que a su vez pueden ser replicados en otros estudios.
El concepto de Valor-P fue desarrollado por Ronald Fisher en la década de 1920 y el proposito inicial no era constituir una prueba definitiva sobre la significancia estadística de un estudio o investigación. Está pensado como una prueba preliminar para descartar que el azar haya producido un resultado estadistico significativo. Pero con el tiempo el umbral máximo de 0.05 para el Valor-P se convirtió en el referente para determinar hallazgos con importancia o relevancia estadística.
Sin embargo, algo realmente interesante que el artículo menciona es que el Valor-P tiene un poder de inferencia limitado, al desconocer muchos aspectos de la realidad subyacente: “Cuanto más inverosímil sea la hipótesis, mayor será la probabilidad de que un hallazgo emocionante sea una falsa alarma, sin importar cuál sea el valor P.” En este mismo sentido el profesor Geoff Cumming menciona que confiar a ciegas en valores pequeños del Valor-P en búsqueda de la “importancia” del resultado no tiene relavancia práctica pues la pregunta clave debe ser “¿Cuanto hay de un efecto?” y no la pregunta ¿Hay un efecto?.
En este panorama, la peor práctica es caer en el autoengaño al centrar el propósito de un estudio en la busqueda de valores pequeños de P, recurriendo para ello a “probar varias cosas hasta obtener el resultado esperado”. El profesor Uri Simomnson lo llama P-hacking. Esta práctica tiende a convertir resultados de estudios exploratorios o preliminares en definitivos. Pero que en realidad necesitan soportar el rigor de estudios o fases posteriores donde se cuente con mayor evidencia. Es como si de antemano se estuviera buscando un resultado, y se recurre al concepto de valor-P para justificarlo. Esto va en contravía del método científico.
Dada esta situación, se han planteado algunas recomendaciones o alternativas al uso descuidado del Valor-P. El profesor cumming propone que los investigadores complementen el concepto de valor-P e informen sobre el tamaño real del efecto y los intervalos de confianza; porque estos dos conceptos reflejan la magnitud y la importancia relativa de un efecto (algo que no transmite el valor-P).
Otra propuesta es reemplazar el concepto del valor-P con los conceptos de inferencia Bayesiana, pues aunque al principio se incorpora un elemento subjetivo de conocimiento previo del fenomeno estudiado con el tiempo los resultados se van fortaleciendo al incorporar nueva evidencia o conocimiento.
También se propone emplear multiples métodos en el mismo estudio buscando contrastes o diferencias en los respectivos resultados para las cuales necesariamente debe buscarse explicación.
Otra propuesta realizar el analisis en dos etapas. En este enfoque se etiquetan claramente los analisis exploratorios y los confirmatorios. En la etapa exploratoria se obtienen los resultados sin enfocarse en posibles hallazgos de importancia estadística o falsas alarmas. posteriormente a partir de los resultados exploratorios , los investigadores informan publicamente cómo planean confirmar los hallazgos (lo pueden hacer en repositorios abiertos de publicacion cientifica). En la segunda etapa los investigadores proceden a realizar estudios de replicacion de resultados y los publican junto con los analisis exploratorios. Siempre en un contexto de plena y abierta informacion a la comunidad científica.