Taller -Unidad 2

PUNTO 1

El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.

a. Realice una simulación en la cual genere una población de N=1000 (Lote) y además que el porcentaje de individuos (plantas) enfermas sea del 50%.

lote=c(rep("sanas",500), rep("enfermas",500))
sum(lote=="enfermas")/1000*100

## [1] 50

b. Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n.

calc_enfermas=function(n){
  muestra=sample(lote,size=n)  
  return(sum(muestra=="enfermas")/n)
} 

calc_enfermas(n=180)

## [1] 0.4666667

c. Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores. ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?

punto3=sapply(rep(180,500), calc_enfermas)
E=data.frame(punto3)

hist(E$punto3, col="#EE6AA7", main="Histograma")
abline(v=0.5,col="green",lwd=5)

qqnorm(E$punto3, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría")
qqline(E$punto3)

resumen=summary(E$punto3)
resumen

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4056  0.4778  0.5000  0.4996  0.5222  0.6000

sd(punto3)

## [1] 0.03281796

#ggplot(E, mapping=aes(x=punto3))+geom_histogram(bins=30, fill="#EE6AA7", color="back")+theme_classic()+ggtitle("Histograma")

Respuesta

Los 500 estimadores tienen una distribución simétrica normal, éstos no están ajustados en algún lado específico de la gráfica (histograma) por lo cual no son sesgados, su valor principal está centrado en un 50% (mean = 0.4996) lo que corresponde a su valor real (punto a); también se puede observar en la gráfica de simetría que los puntos están centrados en la recta sin formar curva (derecha o izquierda), siendo así simétrico. En cuanto la variabilidad, la desviación estandar da un resultado de 0.03, lo que nos muestra poca dispersión de los datos; por ello, el indicador de centralidad es más confiable.

d. Realice los ejercicios completos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad).

muestra5=sapply(rep(5,500), calc_enfermas)
muestra10=sapply(rep(10,500), calc_enfermas)
muestra15=sapply(rep(15,500), calc_enfermas)
muestra20=sapply(rep(20,500), calc_enfermas)
muestra30=sapply(rep(30,500), calc_enfermas)
muestra50=sapply(rep(50,500), calc_enfermas)
muestra60=sapply(rep(60,500), calc_enfermas)
muestra100=sapply(rep(100,500), calc_enfermas)
muestra200=sapply(rep(200,500), calc_enfermas)
muestra500=sapply(rep(500,500), calc_enfermas)
data_puntos=data.frame(muestra5, muestra10, muestra15, muestra20, muestra30, muestra50, muestra60, muestra100, muestra200, muestra500)

boxplot(data_puntos, col =rainbow(ncol(data_puntos)))
abline(h=0.5, col="#76EEC6", lwd=2)
title("Diagrama de Cajas")

hist(data_puntos$muestra5, col="#54FF9F", main="Histograma muestra 5")
abline(v=0.5,col="#FF34B3",lwd=5)

qqnorm(data_puntos$muestra5, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muesta 5")
qqline(data_puntos$muestra5)

shapiro.test(data_puntos$muestra5)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos$muestra5
## W = 0.92719, p-value = 7.445e-15

hist(data_puntos$muestra10, col="#54FF9F", main="Histograma muestra 10")
abline(v=0.5,col="#FF34B3",lwd=5)

qqnorm(data_puntos$muestra10, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 10")
qqline(data_puntos$muestra10)

shapiro.test(data_puntos$muestra10)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos$muestra10
## W = 0.95553, p-value = 3.93e-11

hist(data_puntos$muestra15, col="#54FF9F", main="Histograma muestra 15")
abline(v=0.5,col="#FF34B3",lwd=5)

qqnorm(data_puntos$muestra15, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 15")
qqline(data_puntos$muestra15)

shapiro.test(data_puntos$muestra15)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos$muestra15
## W = 0.97111, p-value = 2.297e-08

hist(data_puntos$muestra20, col="#54FF9F", main="Histograma muestra 20")
abline(v=0.5,col="#FF34B3",lwd=5)

qqnorm(data_puntos$muestra20, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 20")
qqline(data_puntos$muestra20)

shapiro.test(data_puntos$muestra20)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos$muestra20
## W = 0.98256, p-value = 1.057e-05

hist(data_puntos$muestra30, col="#54FF9F", main="Histograma muestra 30")
abline(v=0.5,col="#FF34B3",lwd=5)

qqnorm(data_puntos$muestra30, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 30")
qqline(data_puntos$muestra30)

shapiro.test(data_puntos$muestra30)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos$muestra30
## W = 0.98429, p-value = 3.14e-05

hist(data_puntos$muestra50, col="#54FF9F", main="Histograma muestra 50")
abline(v=0.5,col="#FF34B3",lwd=5)

qqnorm(data_puntos$muestra50, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 50")
qqline(data_puntos$muestra50)

shapiro.test(data_puntos$muestra50)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos$muestra50
## W = 0.98725, p-value = 0.0002331

hist(data_puntos$muestra60, col="#54FF9F", main="Histograma muestra 60")
abline(v=0.5,col="#FF34B3",lwd=5)

qqnorm(data_puntos$muestra60, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 60")
qqline(data_puntos$muestra60)

shapiro.test(data_puntos$muestra60)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos$muestra60
## W = 0.99154, p-value = 0.005946

hist(data_puntos$muestra100, col="#54FF9F", main="Histograma muestra 100")
abline(v=0.5,col="#FF34B3",lwd=5)

qqnorm(data_puntos$muestra100, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 100")
qqline(data_puntos$muestra100)

shapiro.test(data_puntos$muestra100)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos$muestra100
## W = 0.99372, p-value = 0.03614

hist(data_puntos$muestra200, col="#54FF9F", main="Histograma muestra 200")
abline(v=0.5,col="#FF34B3",lwd=5)

qqnorm(data_puntos$muestra200, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 200")
qqline(data_puntos$muestra200)

shapiro.test(data_puntos$muestra200)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos$muestra200
## W = 0.99577, p-value = 0.1983

hist(data_puntos$muestra500, col="#54FF9F", main="Histograma muestra 500")
abline(v=0.5,col="#FF34B3",lwd=5)

qqnorm(data_puntos$muestra500, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 500")
qqline(data_puntos$muestra500)

shapiro.test(data_puntos$muestra500)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos$muestra500
## W = 0.99571, p-value = 0.1893

Respuesta

Teniendo en cuenta los tamaños de muesta dados en el enunciado, se puede evidenciar que, en una muestra de 5 datos, los puntos se encuentran totalmente dispersos de la recta lo que significa que son asimétricos; en la medida que se tengan mas datos, tendrán un comportamiento más sesgado hasta llegar a la muestra de 500. En los histogramas y gráficas de simetría se visualiza este comportamiento. La prueba de bondad y ajuste Shapiro Wilk indica si un conjunto de datos siguen una distribución normal o no. Para el ejercicio dado, el p-value de las muestras están por debajo del nivel de sinificancia alfa = 0.05, lo que significa que se rechaza la hipótsis nula y se determina que, los datos, no siguen una ditribución normal.

e. Repita toda la simulación (puntos a – d) pero ahora con lotes con 10% y 90% de plantas enfermas. Concluya todo el ejercicio.

PLANTAS ENFERMAS 10%

PUNTO A

lote=c(rep("sanas",900), rep("enfermas",100))
sum(lote=="enfermas")/1000*100

## [1] 10

PUNTO B

calc_enfermas1=function(n){
  muestra=sample(lote,size=n)  
  return(sum(muestra=="enfermas")/n)
} 

calc_enfermas1(n=80)

## [1] 0.075

PUNTO C

punto31=sapply(rep(80,100), calc_enfermas1)
E1=data.frame(punto31)

hist(E1$punto31, col="#EE6AA7", main="Histograma")
abline(v=0.1,col="green",lwd=5)

qqnorm(E1$punto31, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría")
qqline(E1$punto31)

resumen=summary(E1$punto31)
resumen

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0375  0.0750  0.1000  0.1009  0.1250  0.1875

sd(punto31)

## [1] 0.03204198

PUNTO D

muestra51=sapply(rep(5,100), calc_enfermas1)
muestra101=sapply(rep(10,100), calc_enfermas1)
muestra151=sapply(rep(15,100), calc_enfermas1)
muestra201=sapply(rep(20,100), calc_enfermas1)
muestra301=sapply(rep(30,100), calc_enfermas1)
muestra501=sapply(rep(50,100), calc_enfermas1)
muestra601=sapply(rep(60,100), calc_enfermas1)
muestra1001=sapply(rep(100,100), calc_enfermas1)
muestra2001=sapply(rep(200,100), calc_enfermas1)
muestra5001=sapply(rep(500,100), calc_enfermas1)
data_puntos1=data.frame(muestra51, muestra101, muestra151, muestra201, muestra301, muestra501, muestra601, muestra1001, muestra2001, muestra5001)

boxplot(data_puntos1, col =rainbow(ncol(data_puntos1)))
abline(h=0.1, col="#76EEC6", lwd=2)
title("Diagrama de Cajas")

hist(data_puntos1$muestra51, col="#54FF9F", main="Histograma muestra 5")
abline(v=0.1,col="#FF34B3",lwd=5)

qqnorm(data_puntos1$muestra51, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muesta 51")
qqline(data_puntos1$muestra51)

shapiro.test(data_puntos1$muestra51)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos1$muestra51
## W = 0.7335, p-value = 3.506e-12

hist(data_puntos1$muestra101, col="#54FF9F", main="Histograma muestra 10")
abline(v=0.1,col="#FF34B3",lwd=5)

qqnorm(data_puntos1$muestra101, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 101")
qqline(data_puntos1$muestra101)

shapiro.test(data_puntos1$muestra101)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos1$muestra101
## W = 0.85122, p-value = 1.316e-08

hist(data_puntos1$muestra151, col="#54FF9F", main="Histograma muestra 15")
abline(v=0.1,col="#FF34B3",lwd=5)

qqnorm(data_puntos1$muestra151, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 151")
qqline(data_puntos1$muestra151)

shapiro.test(data_puntos1$muestra151)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos1$muestra151
## W = 0.89922, p-value = 1.299e-06

hist(data_puntos1$muestra201, col="#54FF9F", main="Histograma muestra 20")
abline(v=0.1,col="#FF34B3",lwd=5)

qqnorm(data_puntos1$muestra201, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 20")
qqline(data_puntos1$muestra201)

shapiro.test(data_puntos1$muestra201)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos1$muestra201
## W = 0.8765, p-value = 1.294e-07

hist(data_puntos1$muestra301, col="#54FF9F", main="Histograma muestra 30")
abline(v=0.1,col="#FF34B3",lwd=5)

qqnorm(data_puntos1$muestra301, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 30")
qqline(data_puntos1$muestra301)

shapiro.test(data_puntos1$muestra301)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos1$muestra301
## W = 0.95361, p-value = 0.001446

hist(data_puntos1$muestra501, col="#54FF9F", main="Histograma muestra 50")
abline(v=0.1,col="#FF34B3",lwd=5)

qqnorm(data_puntos1$muestra501, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 50")
qqline(data_puntos1$muestra501)

shapiro.test(data_puntos1$muestra501)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos1$muestra501
## W = 0.96173, p-value = 0.005353

hist(data_puntos1$muestra601, col="#54FF9F", main="Histograma muestra 60")
abline(v=0.1,col="#FF34B3",lwd=5)

qqnorm(data_puntos1$muestra601, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 60")
qqline(data_puntos1$muestra601)

shapiro.test(data_puntos1$muestra601)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos1$muestra601
## W = 0.96372, p-value = 0.007474

hist(data_puntos1$muestra1001, col="#54FF9F", main="Histograma muestra 100")
abline(v=0.1,col="#FF34B3",lwd=5)

qqnorm(data_puntos1$muestra1001, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 100")
qqline(data_puntos1$muestra1001)

shapiro.test(data_puntos1$muestra1001)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos1$muestra1001
## W = 0.96923, p-value = 0.01929

hist(data_puntos1$muestra2001, col="#54FF9F", main="Histograma muestra 200")
abline(v=0.1,col="#FF34B3",lwd=5)

qqnorm(data_puntos1$muestra2001, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 200")
qqline(data_puntos1$muestra2001)

shapiro.test(data_puntos1$muestra2001)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos1$muestra2001
## W = 0.97379, p-value = 0.04337

hist(data_puntos1$muestra5001, col="#54FF9F", main="Histograma muestra 500")
abline(v=0.1,col="#FF34B3",lwd=5)

qqnorm(data_puntos1$muestra5001, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 500")
qqline(data_puntos1$muestra5001)

shapiro.test(data_puntos1$muestra5001)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos1$muestra5001
## W = 0.98263, p-value = 0.2119

Respuesta

Para un lote de 100 plantas enfermas (10%), el comportamiento de los datos en general igual al anterior pero no en todas las muestras. De la muestra 5 a la 60 la prueba de bondad y ajuste Shapiro Wilk indica que el p-value de éstas se encuentran por debajo del nivel de sinificancia alfa = 0.05, lo que significa que se rechaza la hipótsis nula y se determina que, los datos, no siguen una ditribución normal. Por otro lado, de la muestra 100 a la 500, el p-value es mayor al nivel de sinificación alfa = 0.05, por ello, se puede deducir que, los datos no difieren significativamente de la distribución normal, en otras palabras, se puede asumir normalidad.

PLANTAS ENFERMAS 90%

PUNTO A

lote=c(rep("sanas",100), rep("enfermas",900))
sum(lote=="enfermas")/1000*100

## [1] 90

PUNTO B

calc_enfermas2=function(n){
  muestra=sample(lote,size=n)  
  return(sum(muestra=="enfermas")/n)
} 

calc_enfermas2(n=700)

## [1] 0.9042857

PUNTO C

punto32=sapply(rep(70,900), calc_enfermas2)
E2=data.frame(punto32)

hist(E2$punto32, col="#EE6AA7", main="Histograma")
abline(v=0.9,col="green",lwd=5)

qqnorm(E2$punto32, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría")
qqline(E2$punto32)

resumen=summary(E2$punto32)
resumen

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.7857  0.8714  0.9000  0.8999  0.9286  0.9857

sd(punto31)

## [1] 0.03204198

PUNTO D

muestra52=sapply(rep(5,900), calc_enfermas2)
muestra102=sapply(rep(10,900), calc_enfermas2)
muestra152=sapply(rep(15,900), calc_enfermas2)
muestra202=sapply(rep(20,900), calc_enfermas2)
muestra302=sapply(rep(30,900), calc_enfermas2)
muestra502=sapply(rep(50,900), calc_enfermas2)
muestra602=sapply(rep(60,900), calc_enfermas2)
muestra1002=sapply(rep(100,900), calc_enfermas2)
muestra2002=sapply(rep(200,900), calc_enfermas2)
muestra5002=sapply(rep(500,900), calc_enfermas2)
data_puntos2=data.frame(muestra52, muestra102, muestra152, muestra202, muestra302, muestra502, muestra602, muestra1002, muestra2002, muestra5002)

boxplot(data_puntos2, col =rainbow(ncol(data_puntos2)))
abline(h=0.9, col="#76EEC6", lwd=2)
title("Diagrama de Cajas")

hist(data_puntos2$muestra52, col="#54FF9F", main="Histograma muestra 5")
abline(v=0.9,col="#FF34B3",lwd=5)

qqnorm(data_puntos2$muestra52, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muesta 5")
qqline(data_puntos2$muestra52)

shapiro.test(data_puntos2$muestra52)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos2$muestra52
## W = 0.69626, p-value < 2.2e-16

hist(data_puntos2$muestra102, col="#54FF9F", main="Histograma muestra 10")
abline(v=0.9,col="#FF34B3",lwd=5)

qqnorm(data_puntos2$muestra102, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 10")
qqline(data_puntos2$muestra102)

shapiro.test(data_puntos2$muestra102)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos2$muestra102
## W = 0.84543, p-value < 2.2e-16

hist(data_puntos2$muestra152, col="#54FF9F", main="Histograma muestra 15")
abline(v=0.9,col="#FF34B3",lwd=5)

qqnorm(data_puntos2$muestra152, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 15")
qqline(data_puntos2$muestra152)

shapiro.test(data_puntos2$muestra152)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos2$muestra152
## W = 0.88195, p-value < 2.2e-16

hist(data_puntos2$muestra202, col="#54FF9F", main="Histograma muestra 20")
abline(v=0.9,col="#FF34B3",lwd=5)

qqnorm(data_puntos2$muestra202, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 20")
qqline(data_puntos2$muestra202)

shapiro.test(data_puntos2$muestra202)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos2$muestra202
## W = 0.93091, p-value < 2.2e-16

hist(data_puntos2$muestra302, col="#54FF9F", main="Histograma muestra 30")
abline(v=0.9,col="#FF34B3",lwd=5)

qqnorm(data_puntos2$muestra302, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 30")
qqline(data_puntos2$muestra302)

shapiro.test(data_puntos2$muestra302)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos2$muestra302
## W = 0.95671, p-value = 1.211e-15

hist(data_puntos2$muestra502, col="#54FF9F", main="Histograma muestra 50")
abline(v=0.9,col="#FF34B3",lwd=5)

qqnorm(data_puntos2$muestra502, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 50")
qqline(data_puntos2$muestra502)

shapiro.test(data_puntos2$muestra502)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos2$muestra502
## W = 0.97169, p-value = 3.207e-12

hist(data_puntos2$muestra602, col="#54FF9F", main="Histograma muestra 60")
abline(v=0.9,col="#FF34B3",lwd=5)

qqnorm(data_puntos2$muestra602, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 60")
qqline(data_puntos2$muestra602)

shapiro.test(data_puntos2$muestra602)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos2$muestra602
## W = 0.97466, p-value = 2.095e-11

hist(data_puntos2$muestra1002, col="#54FF9F", main="Histograma muestra 100")
abline(v=0.9,col="#FF34B3",lwd=5)

qqnorm(data_puntos2$muestra1002, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 100")
qqline(data_puntos2$muestra1002)

shapiro.test(data_puntos2$muestra1002)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos2$muestra1002
## W = 0.98114, p-value = 2.201e-09

hist(data_puntos2$muestra2002, col="#54FF9F", main="Histograma muestra 200")
abline(v=0.9,col="#FF34B3",lwd=5)

qqnorm(data_puntos2$muestra2002, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 200")
qqline(data_puntos2$muestra2002)

shapiro.test(data_puntos2$muestra2002)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos2$muestra2002
## W = 0.99163, p-value = 5.554e-05

hist(data_puntos2$muestra5002, col="#54FF9F", main="Histograma muestra 500")
abline(v=0.9,col="#FF34B3",lwd=5)

qqnorm(data_puntos2$muestra5002, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 500")
qqline(data_puntos2$muestra5002)

shapiro.test(data_puntos2$muestra5002)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos2$muestra5002
## W = 0.99414, p-value = 0.001418

Para un lote de 900 plantas enfermas (10%), el comportamiento de los datos en general es igual al lote de 500 plantas enfermas. Todas las muestras en la prueba de bondad y ajuste Shapiro Wilk indica que, el p-value de éstas se encuentran por debajo del nivel de sinificancia alfa = 0.05, lo que valida un rechazo en la hipótsis nula y se determina que, los datos, no siguen una ditribución normal, por lo tanto son datos asimétricos. Lo anterior se evidencia en los Histogramas y Gráfico de Simetría (donde los puntos están alejados de la recta).

CONCLUSIONES

El número de lote y la cantidad de datos influyen en el comportamiento las muestras aleatorias dadas. Los gráficos usados y prueba de bondad, corroboran y argumentan su resultado. La mayoría tienden a la distribución normal, cada vez que son consideradas muestras para n>30, los valores pequeños de muestras no arrojan simetría alrededor de la media de la población.

PUNTO 2

La comparación de tratamientos es una práctica fundamental en las ciencias agropecuarias y para esto a nivel estadístico se cuenta con algunas herramientas para apoyar el proceso de toma de decisiones y lograr concluir con algún grado de confianza que los resultados observados en una muestra son representativos y se pueden asociar a los tratamientos y no se deben únicamente al azar. Por medio una simulación validemos algunos de estos resultados..

a. Suponga un escenario en el cual usted aplicó tratamientos diferentes a dos lotes y desea analizar si alguno de los dos presenta un mejor desempeño en el control de una plaga presente en ambos al momento inicial. Para ello utilizará como criterio de desempeño el tratamiento que menor % de plantas enfermas presente después de un tiempo de aplicación (es decir, si se presentan o no diferencias en las proporciones de enfermos P1 y P2). Realice una simulación en la cual genere dos poblaciones de N1=1000 (Lote1) y N2=1500 (Lote2), además asuma que el porcentaje de individuos (plantas) enfermas en ambos lotes sea la misma 10% (es decir, sin diferencias entre los tratamientos).

lote1=c(rep("sanas",900), rep("enfermas",100))
sum(lote1=="enfermas")/1000*100

## [1] 10

lote2=c(rep("sanas",1350), rep("enfermas",150))
sum(lote2=="enfermas")/1500*100

## [1] 10

b. Genere una función que permita obtener una muestra aleatoria de los lotes y calcule el estimador de la proporción muestral para cada lote (p1 y p2) para un tamaño de muestra dado n1=n2. Calcule la diferencia entre los estimadores p1-p2.

difer_1=function(n){
muestrap1=sample(lote1,size=n)
muestrap2=sample(lote2,size=n)
p1=sum(muestrap1=="enfermas")/n
p2=sum(muestrap2=="enfermas")/n
difer_2=p1-p2
return(difer_2)
}

difer_1(n=80)

## [1] -0.0125

c. Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores (diferencias p1-p2). ¿Qué tan simétricos son los datos?, ¿Son siempre cero las diferencias?

repet=sapply(rep(80,500), difer_1)
datos=data.frame(repet)

hist(datos$repet, col="#EE6AA7", main="Histograma")
abline(v=0.0,col="green",lwd=5)

qqnorm(datos$repet, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría")
qqline(datos$repet)

resumen=summary(datos$repet)
resumen

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.13750 -0.02500  0.00000  0.00005  0.02500  0.13750

sd(repet)

## [1] 0.04554967

Los estimadores tienen una distribución simétrica normal, éstos no están ajustados en algún lado específico de la gráfica (histograma) por lo cual no son sesgados, su valor principal está centrado en valor cero; también se puede observar en la gráfica de simetría que los puntos están centrados en la recta sin formar curva (derecha o izquierda), siendo así simétrico. En cuanto la variabilidad, la desviación estandar da un resultado de 0.04, lo que nos muestra poca dispersión de los datos; por ello, el indicador de centralidad es más confiable.

d. Realice los puntos b y c para tamaños de muestra n1=n2=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores (p1-p2) en cuanto a la normalidad. También analice el comportamiento de las diferencias y evalúe. ¿Considera que es más probable concluir que existen diferencias entre los tratamientos con muestras grandes que pequeñas, es decir, cuál considera usted que es el efecto del tamaño de muestra en el caso de la comparación de proporciones?

muestra54=sapply(rep(5,500), difer_1)
muestra104=sapply(rep(10,500), difer_1)
muestra154=sapply(rep(15,500), difer_1)
muestra204=sapply(rep(20,500), difer_1)
muestra304=sapply(rep(30,500), difer_1)
muestra504=sapply(rep(50,500), difer_1)
muestra604=sapply(rep(60,500), difer_1)
muestra1004=sapply(rep(100,500), difer_1)
muestra2004=sapply(rep(200,500), difer_1)
muestra5004=sapply(rep(500,500), difer_1)
data_puntos4=data.frame(muestra54, muestra104, muestra154, muestra204, muestra304, muestra504, muestra604, muestra1004, muestra2004, muestra5004)

boxplot(data_puntos4, col =rainbow(ncol(data_puntos4)))
abline(h=0.0, col="#76EEC6", lwd=2)
title("Diagrama de Cajas")

hist(data_puntos4$muestra54, col="#54FF9F", main="Histograma muestra 5")
abline(v=0.0,col="#FF34B3",lwd=5)

qqnorm(data_puntos4$muestra54, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muesta 5")
qqline(data_puntos4$muestra54)

shapiro.test(data_puntos4$muestra54)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos4$muestra54
## W = 0.90124, p-value < 2.2e-16

hist(data_puntos4$muestra104, col="#54FF9F", main="Histograma muestra 10")
abline(v=0.0,col="#FF34B3",lwd=5)

qqnorm(data_puntos4$muestra104, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 10")
qqline(data_puntos4$muestra104)

shapiro.test(data_puntos4$muestra104)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos4$muestra104
## W = 0.95078, p-value = 7.532e-12

hist(data_puntos4$muestra154, col="#54FF9F", main="Histograma muestra 15")
abline(v=0.0,col="#FF34B3",lwd=5)

qqnorm(data_puntos4$muestra154, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 15")
qqline(data_puntos4$muestra154)

shapiro.test(data_puntos4$muestra154)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos4$muestra154
## W = 0.96729, p-value = 4.088e-09

hist(data_puntos4$muestra204, col="#54FF9F", main="Histograma muestra 20")
abline(v=0.0,col="#FF34B3",lwd=5)

qqnorm(data_puntos4$muestra204, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 20")
qqline(data_puntos4$muestra204)

shapiro.test(data_puntos4$muestra204)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos4$muestra204
## W = 0.97345, p-value = 7.085e-08

hist(data_puntos4$muestra304, col="#54FF9F", main="Histograma muestra 30")
abline(v=0.0,col="#FF34B3",lwd=5)

qqnorm(data_puntos4$muestra304, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 30")
qqline(data_puntos4$muestra304)

shapiro.test(data_puntos4$muestra304)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos4$muestra304
## W = 0.97861, p-value = 1.047e-06

hist(data_puntos4$muestra504, col="#54FF9F", main="Histograma muestra 50")
abline(v=0.0,col="#FF34B3",lwd=5)

qqnorm(data_puntos4$muestra504, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 50")
qqline(data_puntos4$muestra504)

shapiro.test(data_puntos4$muestra504)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos4$muestra504
## W = 0.988, p-value = 0.0003976

hist(data_puntos4$muestra604, col="#54FF9F", main="Histograma muestra 60")
abline(v=0.0,col="#FF34B3",lwd=5)

qqnorm(data_puntos4$muestra604, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 60")
qqline(data_puntos4$muestra604)

shapiro.test(data_puntos4$muestra604)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos4$muestra604
## W = 0.98783, p-value = 0.0003511

hist(data_puntos4$muestra1004, col="#54FF9F", main="Histograma muestra 100")
abline(v=0.0,col="#FF34B3",lwd=5)

qqnorm(data_puntos4$muestra1004, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 100")
qqline(data_puntos4$muestra1004)

shapiro.test(data_puntos4$muestra1004)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos4$muestra1004
## W = 0.99317, p-value = 0.02278

hist(data_puntos4$muestra2004, col="#54FF9F", main="Histograma muestra 200")
abline(v=0.0,col="#FF34B3",lwd=5)

qqnorm(data_puntos4$muestra2004, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 200")
qqline(data_puntos4$muestra2004)

shapiro.test(data_puntos4$muestra2004)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos4$muestra2004
## W = 0.99191, p-value = 0.008081

hist(data_puntos4$muestra5004, col="#54FF9F", main="Histograma muestra 500")
abline(v=0.0,col="#FF34B3",lwd=5)

qqnorm(data_puntos4$muestra5004, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 500")
qqline(data_puntos4$muestra5004)

shapiro.test(data_puntos4$muestra5004)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos4$muestra5004
## W = 0.99487, p-value = 0.09491

Teniendo en cuenta los tamaños de muesta dados en el enunciado, se puede evidenciar que, en una muestra de 5 datos, los puntos se encuentran totalmente dispersos de la recta lo que significa que son asimétricos; en la medida que se tengan mas datos, tendrán un comportamiento más sesgado hasta llegar a la muestra de 500 y éstas diferencias se van reduciendo. En los histogramas y gráficas de simetría se visualiza este comportamiento. La prueba de bondad y ajuste Shapiro Wilk indica si un conjunto de datos siguen una distribución normal o no. Para el ejercicio dado, el p-value de las muestras están por debajo del nivel de sinificancia alfa = 0.05, lo que significa que se rechaza la hipótsis nula y se determina que, los datos, no siguen una ditribución normal.

e. Ahora realice nuevamente los puntos a-d bajo un escenario con dos lotes, pero de proporciones de enfermos diferentes (P1=0.1 y P2=0.15), es decir, el tratamiento del lote 1 si presentó un mejor desempeño reduciendo en un 5% el porcentaje de enfermos. Bajo este nuevo escenario compare la distribución de estas diferencias (p1-p2) con las observadas bajo igualdad de condiciones en los lotes. ¿Qué puede concluir? ¿Existen puntos en los cuales es posible que se observen diferencias de p1- p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2: diferencia de 5%)?

PUNTO A

lote11=c(rep("sanas",900), rep("enfermas",100))
sum(lote1=="enfermas")/1000*100

## [1] 10

lote21=c(rep("sanas",1275), rep("enfermas",225))
sum(lote2=="enfermas")/1500*100

## [1] 10

PUNTO B

difer_11=function(n){
muestrap11=sample(lote11,size=n)
muestrap21=sample(lote21,size=n)
p11=sum(muestrap11=="enfermas")/n
p21=sum(muestrap21=="enfermas")/n
difer_21=p11-p21
return(difer_21)
}

difer_11(n=80)

## [1] -0.075

PUNTO C

muestra55=sapply(rep(5,500), difer_11)
muestra105=sapply(rep(10,500), difer_11)
muestra155=sapply(rep(15,500), difer_11)
muestra205=sapply(rep(20,500), difer_11)
muestra305=sapply(rep(30,500), difer_11)
muestra505=sapply(rep(50,500), difer_11)
muestra605=sapply(rep(60,500), difer_11)
muestra1005=sapply(rep(100,500), difer_11)
muestra2005=sapply(rep(200,500), difer_11)
muestra5005=sapply(rep(500,500), difer_11)
data_puntos5=data.frame(muestra55, muestra105, muestra155, muestra205, muestra305, muestra505, muestra605, muestra1005, muestra2005, muestra5005)

boxplot(data_puntos5, col =rainbow(ncol(data_puntos5)))
title("Diagrama de Cajas")

hist(data_puntos5$muestra55, col="#54FF9F", main="Histograma muestra 5")

qqnorm(data_puntos5$muestra55, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muesta 5")
qqline(data_puntos5$muestra55)

shapiro.test(data_puntos5$muestra55)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos5$muestra55
## W = 0.92564, p-value = 5.006e-15

hist(data_puntos5$muestra105, col="#54FF9F", main="Histograma muestra 10")

qqnorm(data_puntos5$muestra105, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 10")
qqline(data_puntos5$muestra105)

shapiro.test(data_puntos5$muestra105)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos5$muestra105
## W = 0.96048, p-value = 2.492e-10

hist(data_puntos5$muestra155, col="#54FF9F", main="Histograma muestra 15")

qqnorm(data_puntos5$muestra155, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 15")
qqline(data_puntos5$muestra155)

shapiro.test(data_puntos5$muestra155)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos5$muestra155
## W = 0.97278, p-value = 5.108e-08

hist(data_puntos5$muestra205, col="#54FF9F", main="Histograma muestra 20")

qqnorm(data_puntos5$muestra205, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 20")
qqline(data_puntos5$muestra205)

shapiro.test(data_puntos5$muestra205)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos5$muestra205
## W = 0.97802, p-value = 7.568e-07

hist(data_puntos5$muestra305, col="#54FF9F", main="Histograma muestra 30")

qqnorm(data_puntos5$muestra305, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 30")
qqline(data_puntos5$muestra305)

shapiro.test(data_puntos5$muestra305)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos5$muestra305
## W = 0.98224, p-value = 8.669e-06

hist(data_puntos5$muestra505, col="#54FF9F", main="Histograma muestra 50")

qqnorm(data_puntos5$muestra505, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 50")
qqline(data_puntos5$muestra505)

shapiro.test(data_puntos5$muestra505)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos5$muestra505
## W = 0.98868, p-value = 0.0006539

hist(data_puntos5$muestra605, col="#54FF9F", main="Histograma muestra 60")

qqnorm(data_puntos5$muestra605, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 60")
qqline(data_puntos5$muestra605)

shapiro.test(data_puntos5$muestra605)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos5$muestra605
## W = 0.99035, p-value = 0.002326

hist(data_puntos5$muestra1005, col="#54FF9F", main="Histograma muestra 100")

qqnorm(data_puntos5$muestra1005, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 100")
qqline(data_puntos5$muestra1005)

shapiro.test(data_puntos5$muestra1005)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos5$muestra1005
## W = 0.99259, p-value = 0.01406

hist(data_puntos5$muestra2005, col="#54FF9F", main="Histograma muestra 200")

qqnorm(data_puntos5$muestra2005, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 200")
qqline(data_puntos5$muestra2005)

shapiro.test(data_puntos5$muestra2005)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos5$muestra2005
## W = 0.99592, p-value = 0.2241

hist(data_puntos5$muestra5005, col="#54FF9F", main="Histograma muestra 500")

qqnorm(data_puntos5$muestra5005, las=1, pch=18, main="", font.main=1, col="#00CDCD")
title("Simetría muestra 500")
qqline(data_puntos5$muestra5005)

shapiro.test(data_puntos5$muestra5005)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_puntos5$muestra5005
## W = 0.99473, p-value = 0.08465

CONCLUSIONES

El tamaño de la muestra determina las diferencias, es decir, entre más pequeñas sean más marcadas son; también denomina que, a más grande sea ésta más se acerca al resultado esperado. Por último se puede deducir que se presentó un mayor desempeño reduciendo un 5% las plantas enfermas.

3.Con base a los artículos “Statistical Errors: P values, the gold standard of statistical validity, are not as reliable as many scientists assume” & “Statisticians issue warning on P values: Statement aims to halt missteps in the quest for certainty” escriba un resumen (máximo 2 páginas) sobre ambos artículos e incluya en este sus opiniones en cuanto al uso del valor p como criterio de decisión en inferencia estadística.

Como primera instancia se debe tener en cuenta que, el P-valor es un indicador que no es confiable ni objetivo como esperaban los científicos y esto es preocupante. La parodia es que cuando el estadístico británico Ronald Fisher introdujo el valor P en la década de 1920, no pretendía que fuera una prueba definitiva, lo pensó simplemente como una forma informal de juzgar si la evidencia era significativa en el sentido antiguo: digno de una segunda mirada. Los investigadores primero establecerían una ‘hipótesis nula’ que querían refutar, como que no hubiera correlación o diferencia entre dos grupos. A continuación, harían el papel de abogado del diablo y, suponiendo que esta hipótesis nula fuera cierta, calcularían las posibilidades de obtener resultados al menos tan extremos como los que realmente se observaron. Esta probabilidad fue la P-valor. Cuanto más pequeño era, sugirió Fisher, mayor era la probabilidad de que la hipótesis nula fuera falsa. El P-valor nunca tuvo la intención de usarse de la forma en que se usa hoy.

Dado que el P-valor sólo no es concluyente, éste debe ser complementado con más datos para soportar una hipótesis, indistintamente del valor que este tenga. Es necesario aclarar que éste conlleva una probabilidad de ocurrencia de eventos catalogados como “falsas alarmas”, que a medida que disminuye, esa probabilidad de falsa alarma aumenta, por ejemplo, para 0.05 se estima una probabilidad del 29%.

Muchos estadísticos también abogan por reemplazar el P-valor con métodos que aprovechan la regla de Bayes: un teorema del siglo XVIII que describe cómo pensar en la probabilidad como la plausibilidad de un resultado, en lugar de la frecuencia potencial de ese resultado.

En términos más generales, los investigadores deben darse cuenta de los límites de las estadísticas convencionales, dice Goodman. En su lugar, deberían traer a su análisis elementos de juicio científico sobre la plausibilidad de una hipótesis y limitaciones del estudio que normalmente están desterradas a la sección de discusión: resultados de experimentos idénticos o similares, mecanismos propuestos, conocimiento clínico, etc. El estadístico Richard Royall de la Escuela de Salud Pública Johns Hopkins Bloomberg en Baltimore, Maryland, dijo que hay tres preguntas que un científico podría querer hacer después de un estudio: “¿Cuál es la evidencia?” ‘¿Qué debo creer?’ ¿Y que debería hacer?’ Un método no puede responder a todas estas preguntas, dice Goodman: “Los números son donde debe comenzar la discusión científica.

Comentario Final: El P-valor es una herramienta que requiere información adicional para que su resultado sea más confiable, por ello, se sugiere tomar diferentes análisis que conlleven a una respuesta un poco más cerca de la realidad y de lo que se espera, mitigando así la brecha del error en el análisis estadístico.

Taller -Unidad 2

Ximena Marulanda Walles

2022-09-23

Respuesta

Respuesta

Respuesta