Inferencia Estadística y Simulación

Punto 1 El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.

a. Realice una simulación en la cual genere una población de N=1000 (Lote) y además que el porcentaje de individuos (plantas) enfermas sea del 50%.

lote= c(rep("Enfermas", 500), rep("Sanas",500))
lote= sample(lote)
table(lote)
## lote
## Enfermas    Sanas 
##      500      500

b. Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n.

Nota: En este caso se elige un n=350

calc_p_muestra = function(n){
muestra = sample(lote, size = n)
p_muestra = sum(muestra == "Enfermas")/n
return(p_muestra)
}

calc_p_muestra(n=350)
## [1] 0.4657143

c. Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores.

posibles_p_muestra= sapply(rep(350, 500), calc_p_muestra)
hist(posibles_p_muestra)
line = mean(posibles_p_muestra)
abline(v=line, col="purple", lwd=3)

library(moments)

Indicadores=data.frame("ID"=0,"Tamaño_muestra"=350,"Media"=mean(posibles_p_muestra),"Mediana"=median(posibles_p_muestra),"Desvest"=sd(posibles_p_muestra),"Varianza"=var(posibles_p_muestra),"Mín."=min(posibles_p_muestra),"Máx"=max(posibles_p_muestra),"Asimetría"=skewness(posibles_p_muestra), "Curtosis"= kurtosis(posibles_p_muestra))
Indicadores
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
0 350 0.5010914 0.5028571 0.0211316 0.0004465 0.4428571 0.5657143 -0.0058416 2.910818

Análisis ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?

En la simulación, se observa graficamente que no hay una distribución muestral simétrica exacta, pero está muy cerca de estarlo. El coeficiente de asimetría calculado es muy cercano a 0 (en este caso de 0.01306458), lo que significa que presenta una asimetría positiva.

Dado el resultado positivo de la curtosis, se trata de una distribución leptocúrtica, con una mayor concentración de los datos en torno a la media.En este sentido, el sesgo es positivo, la distribución tiene una cola asimétrica extendida hacia los valores positivos.El grado de concentración que presentan los valores en la región central de la distribución es significativa, es decir que la variabilidad no es muy alta.En este sentido, se evidencia que hay no hay una alta dispersión en los datos, según el indicador calculado en la tabla anterior (desviación estandar: 0.02069).

d Realice los ejercicios completos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad).

n=5

require(car)
## Loading required package: car
## Warning: package 'car' was built under R version 4.1.3
## Loading required package: carData
## Warning: package 'carData' was built under R version 4.1.3
posibles_p_muestra_5 = sapply(rep(350, 5), calc_p_muestra)
par(mfrow=c(1,4))
hist(posibles_p_muestra_5, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:5",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra_5), col="purple", lwd=3)
plot(density(posibles_p_muestra_5), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra_5, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra_5,col = 'purple', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra_5, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 4 5
Swn=shapiro.test(posibles_p_muestra_5)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_muestra_5
## W = 0.94825, p-value = 0.7247
library(moments)

Indic_5=data.frame("ID"=1,"Tamaño_muestra"=5,"Media"=mean(posibles_p_muestra_5),"Mediana"=median(posibles_p_muestra_5),"Desvest"=sd(posibles_p_muestra_5),"Varianza"=var(posibles_p_muestra_5),"Mín."=min(posibles_p_muestra_5),"Máx"=max(posibles_p_muestra_5),"Asimetría"=skewness(posibles_p_muestra_5), "Curtosis"= kurtosis(posibles_p_muestra_5))
Indic_5
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
1 5 0.5137143 0.5228571 0.0295131 0.000871 0.4685714 0.5457143 -0.6139339 2.171185

n=10

require(car)
posibles_p_muestra_10 = sapply(rep(350, 10), calc_p_muestra)
par(mfrow=c(1,4))
hist(posibles_p_muestra_10, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:10",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra_10), col="purple", lwd=3)
plot(density(posibles_p_muestra_10), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra_10, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra_10,col = 'purple', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra_10, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 8 4
Swn=shapiro.test(posibles_p_muestra_10)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_muestra_10
## W = 0.94388, p-value = 0.5969
library(moments)

Indic_10=data.frame("ID"=2,"Tamaño_muestra"=10,"Media"=mean(posibles_p_muestra_10),"Mediana"=median(posibles_p_muestra_10),"Desvest"=sd(posibles_p_muestra_10),"Varianza"=var(posibles_p_muestra_10),"Mín."=min(posibles_p_muestra_10),"Máx"=max(posibles_p_muestra_10),"Asimetría"=skewness(posibles_p_muestra_10), "Curtosis"= kurtosis(posibles_p_muestra_10))
Indic_10
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
2 10 0.4965714 0.49 0.0254769 0.0006491 0.46 0.54 0.4492354 2.118557

n=15

require(car)
posibles_p_muestra_15 = sapply(rep(350, 15), calc_p_muestra)
par(mfrow=c(1,4))
hist(posibles_p_muestra_15, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:15",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra_15), col="purple", lwd=3)
plot(density(posibles_p_muestra_15), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra_15, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra_15,col = 'purple', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra_15, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 6 1
Swn=shapiro.test(posibles_p_muestra_15)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_muestra_15
## W = 0.9003, p-value = 0.09617
library(moments)

Indic_15=data.frame("ID"=3,"Tamaño_muestra"=15,"Media"=mean(posibles_p_muestra_15),"Mediana"=median(posibles_p_muestra_15),"Desvest"=sd(posibles_p_muestra_15),"Varianza"=var(posibles_p_muestra_15),"Mín."=min(posibles_p_muestra_15),"Máx"=max(posibles_p_muestra_15),"Asimetría"=skewness(posibles_p_muestra_15), "Curtosis"= kurtosis(posibles_p_muestra_15))
Indic_15
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
3 15 0.5013333 0.5085714 0.0222067 0.0004931 0.4514286 0.5314286 -0.9395477 3.058296

n=20

require(car)
posibles_p_muestra_20 = sapply(rep(350, 20), calc_p_muestra)
par(mfrow=c(1,4))
hist(posibles_p_muestra_20, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:20",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra_20), col="purple", lwd=3)
plot(density(posibles_p_muestra_20), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra_20, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra_20,col = 'purple', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra_20, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 4 9
Swn=shapiro.test(posibles_p_muestra_20)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_muestra_20
## W = 0.97451, p-value = 0.8457
library(moments)

Indic_20=data.frame("ID"=4,"Tamaño_muestra"=20,"Media"=mean(posibles_p_muestra_20),"Mediana"=median(posibles_p_muestra_20),"Desvest"=sd(posibles_p_muestra_20),"Varianza"=var(posibles_p_muestra_20),"Mín."=min(posibles_p_muestra_20),"Máx"=max(posibles_p_muestra_20),"Asimetría"=skewness(posibles_p_muestra_20), "Curtosis"= kurtosis(posibles_p_muestra_20))
Indic_20
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
4 20 0.4967143 0.4942857 0.0243016 0.0005906 0.4428571 0.54 -0.1571161 2.912258

n=30

require(car)
posibles_p_muestra_30 = sapply(rep(350, 30), calc_p_muestra)
par(mfrow=c(1,4))
hist(posibles_p_muestra_30, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:30",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra_30), col="purple", lwd=3)
plot(density(posibles_p_muestra_30), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra_30, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra_30,col = 'purple', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra_30, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 16 15
Swn=shapiro.test(posibles_p_muestra_30)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_muestra_30
## W = 0.98788, p-value = 0.9757
library(moments)

Indic_30=data.frame("ID"=5,"Tamaño_muestra"=30,"Media"=mean(posibles_p_muestra_30),"Mediana"=median(posibles_p_muestra_30),"Desvest"=sd(posibles_p_muestra_30),"Varianza"=var(posibles_p_muestra_30),"Mín."=min(posibles_p_muestra_30),"Máx"=max(posibles_p_muestra_30),"Asimetría"=skewness(posibles_p_muestra_30), "Curtosis"= kurtosis(posibles_p_muestra_30))
Indic_30
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
5 30 0.5033333 0.5028571 0.0191455 0.0003665 0.4628571 0.5428571 0.0085998 2.618285

n=50

require(car)
posibles_p_muestra_50 = sapply(rep(350, 50), calc_p_muestra)
par(mfrow=c(1,4))
hist(posibles_p_muestra_50, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:50",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra_50), col="purple", lwd=3)
plot(density(posibles_p_muestra_50), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra_50, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra_50,col = 'purple', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra_50, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 48 33
Swn=shapiro.test(posibles_p_muestra_50)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_muestra_50
## W = 0.97741, p-value = 0.4485
library(moments)

Indic_50=data.frame("ID"=6,"Tamaño_muestra"=50,"Media"=mean(posibles_p_muestra_50),"Mediana"=median(posibles_p_muestra_50),"Desvest"=sd(posibles_p_muestra_50),"Varianza"=var(posibles_p_muestra_50),"Mín."=min(posibles_p_muestra_50),"Máx"=max(posibles_p_muestra_50),"Asimetría"=skewness(posibles_p_muestra_50), "Curtosis"= kurtosis(posibles_p_muestra_50))
Indic_50
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
6 50 0.5016 0.5085714 0.0252148 0.0006358 0.4428571 0.5457143 -0.2397688 2.393515

n=60

require(car)
posibles_p_muestra_60 = sapply(rep(350, 60), calc_p_muestra)
par(mfrow=c(1,4))
hist(posibles_p_muestra_60, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:60",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra_60), col="purple", lwd=3)
plot(density(posibles_p_muestra_60), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra_60, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra_60,col = 'purple', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra_60, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 42 55
Swn=shapiro.test(posibles_p_muestra_60)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_muestra_60
## W = 0.97933, p-value = 0.4007
library(moments)

Indic_60=data.frame("ID"=7,"Tamaño_muestra"=60,"Media"=mean(posibles_p_muestra_60),"Mediana"=median(posibles_p_muestra_60),"Desvest"=sd(posibles_p_muestra_60),"Varianza"=var(posibles_p_muestra_60),"Mín."=min(posibles_p_muestra_60),"Máx"=max(posibles_p_muestra_60),"Asimetría"=skewness(posibles_p_muestra_60), "Curtosis"= kurtosis(posibles_p_muestra_60))
Indic_60
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
7 60 0.5007619 0.5028571 0.0220051 0.0004842 0.4485714 0.5542857 -0.0848874 2.445153

n=100

require(car)
posibles_p_muestra_100 = sapply(rep(350, 100), calc_p_muestra)
par(mfrow=c(1,4))
hist(posibles_p_muestra_100, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:100",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra_100), col="purple", lwd=3)
plot(density(posibles_p_muestra_100), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra_100, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra_100,col = 'purple', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra_100, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 99 16
Swn=shapiro.test(posibles_p_muestra_100)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_muestra_100
## W = 0.97899, p-value = 0.1108
library(moments)

Indic_100=data.frame("ID"=8,"Tamaño_muestra"=100,"Media"=mean(posibles_p_muestra_100),"Mediana"=median(posibles_p_muestra_100),"Desvest"=sd(posibles_p_muestra_100),"Varianza"=var(posibles_p_muestra_100),"Mín."=min(posibles_p_muestra_100),"Máx"=max(posibles_p_muestra_100),"Asimetría"=skewness(posibles_p_muestra_100), "Curtosis"= kurtosis(posibles_p_muestra_100))
Indic_100
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
8 100 0.4999714 0.4971429 0.0253526 0.0006428 0.4457143 0.5828571 0.4924756 3.275689

n=200

require(car)
posibles_p_muestra_200 = sapply(rep(350, 200), calc_p_muestra)
par(mfrow=c(1,4))
hist(posibles_p_muestra_200, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:200",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra_200), col="purple", lwd=3)
plot(density(posibles_p_muestra_200), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra_200, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra_200,col = 'purple', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra_200, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1]  87 136
Swn=shapiro.test(posibles_p_muestra_200)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_muestra_200
## W = 0.99317, p-value = 0.4831
library(moments)

Indic_200=data.frame("ID"=9,"Tamaño_muestra"=200,"Media"=mean(posibles_p_muestra_200),"Mediana"=median(posibles_p_muestra_200),"Desvest"=sd(posibles_p_muestra_200),"Varianza"=var(posibles_p_muestra_200),"Mín."=min(posibles_p_muestra_200),"Máx"=max(posibles_p_muestra_200),"Asimetría"=skewness(posibles_p_muestra_200), "Curtosis"= kurtosis(posibles_p_muestra_200))
Indic_200
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
9 200 0.5022 0.5028571 0.0182075 0.0003315 0.4542857 0.5542857 -0.0291875 2.942779

n=500

require(car)
posibles_p_muestra_500 = sapply(rep(350, 500), calc_p_muestra)
par(mfrow=c(1,4))
hist(posibles_p_muestra_500, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:500",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra_500), col="purple", lwd=3)
plot(density(posibles_p_muestra_500), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra_500, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra_500,col = 'purple', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra_500, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 186 442
Swn=shapiro.test(posibles_p_muestra_500)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_muestra_500
## W = 0.99676, p-value = 0.418
library(moments)

Indic_500=data.frame("ID"=10,"Tamaño_muestra"=500,"Media"=mean(posibles_p_muestra_500),"Mediana"=median(posibles_p_muestra_500),"Desvest"=sd(posibles_p_muestra_500),"Varianza"=var(posibles_p_muestra_500),"Mín."=min(posibles_p_muestra_500),"Máx"=max(posibles_p_muestra_500),"Asimetría"=skewness(posibles_p_muestra_500), "Curtosis"= kurtosis(posibles_p_muestra_500))
Indic_500
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
10 500 0.4998229 0.5 0.0223714 0.0005005 0.4314286 0.56 -0.0818815 2.877816
Resultados=rbind(Indic_5,Indic_10,Indic_15,Indic_20,Indic_30,Indic_50,Indic_60,Indic_100,Indic_200,Indic_500)
Resultados
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
1 5 0.5137143 0.5228571 0.0295131 0.0008710 0.4685714 0.5457143 -0.6139339 2.171185
2 10 0.4965714 0.4900000 0.0254769 0.0006491 0.4600000 0.5400000 0.4492354 2.118557
3 15 0.5013333 0.5085714 0.0222067 0.0004931 0.4514286 0.5314286 -0.9395477 3.058296
4 20 0.4967143 0.4942857 0.0243016 0.0005906 0.4428571 0.5400000 -0.1571161 2.912258
5 30 0.5033333 0.5028571 0.0191455 0.0003665 0.4628571 0.5428571 0.0085998 2.618285
6 50 0.5016000 0.5085714 0.0252148 0.0006358 0.4428571 0.5457143 -0.2397688 2.393515
7 60 0.5007619 0.5028571 0.0220051 0.0004842 0.4485714 0.5542857 -0.0848874 2.445153
8 100 0.4999714 0.4971429 0.0253526 0.0006428 0.4457143 0.5828571 0.4924756 3.275689
9 200 0.5022000 0.5028571 0.0182075 0.0003315 0.4542857 0.5542857 -0.0291875 2.942779
10 500 0.4998229 0.5000000 0.0223714 0.0005005 0.4314286 0.5600000 -0.0818815 2.877816

Análisis: De acuerdo a las gráficas de qq-normalidad de las diferentes distribuciones, se puede concluir que a medida que se aumenta el tamaño de la muestra, mejora la aproximación a una distribución normal: la media muestral se torna más acampanada y lo más parecida a una distribución normal. Si se analiza la varianza, se valida que a mayor tamaño de muestra se reduce la varianza, validando el teorema del limite central. Por su parte, en la prueba Shapiro Wilks para las diferentes distribuciones evidenció en algunas ocasiones valores mayores a 0.05 rechanzado la Hipotesis nula (H0:distribución normal).

e. Repita toda la simulación (puntos a – d) pero ahora con lotes con 10% y 90% de plantas enfermas. Concluya todo el ejercicio.

Lote de 10% con plantas enfermas

a.

lote1= c(rep("Enfermas", 100), rep("Sanas",900))
lote1= sample(lote1)
table(lote1)
## lote1
## Enfermas    Sanas 
##      100      900

b.

calc_p_muestra1= function(n){
muestra1= sample(lote1, size = n)
p_muestra1= sum(muestra1== "Enfermas")/n
return(p_muestra1)
}

calc_p_muestra1(n=350)
## [1] 0.1

c.

posibles_p_muestra1= sapply(rep(350, 500), calc_p_muestra1)
hist(posibles_p_muestra1)
line = mean(posibles_p_muestra1)
abline(v=line, col="green", lwd=3)

library(moments)

Indicadores1=data.frame("ID"=0,"Tamaño_muestra"=350,"Media"=mean(posibles_p_muestra1),"Mediana"=median(posibles_p_muestra1),"Desvest"=sd(posibles_p_muestra1),"Varianza"=var(posibles_p_muestra1),"Mín."=min(posibles_p_muestra1),"Máx"=max(posibles_p_muestra1),"Asimetría"=skewness(posibles_p_muestra1), "Curtosis"= kurtosis(posibles_p_muestra1))
Indicadores1
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
0 350 0.10028 0.1 0.012549 0.0001575 0.0628571 0.14 -0.0395757 3.207208

Análisis ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?

En la simulación, se observa graficamente que no hay una distribución muestral simétrica exacta, pero está muy cerca de estarlo. El coeficiente de asimetría calculado es negativo, muy cercano a 0 (en este caso de -0.00602305), lo que significa que presenta una asimetría negativa.

Por el contrario,la curtosis es positiva se trata de una distribución leptocúrtica, con una mayor concentración de los datos en torno a la media.En este sentido, el sesgo es positivo, la distribución tiene una cola asimétrica extendida hacia los valores positivos.El grado de concentración que presentan los valores en la región central de la distribución es significativa, es decir que la variabilidad no es muy alta.En este sentido, se evidencia que hay no hay una alta dispersión en los datos, según el indicador calculado en la tabla anterior (desviación estandar: 0.012662227).

d.

n=5

require(car)
posibles_p_muestra1_5 = sapply(rep(350, 5), calc_p_muestra1)
par(mfrow=c(1,4))
hist(posibles_p_muestra1_5, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:5",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra1_5), col="green", lwd=3)
plot(density(posibles_p_muestra1_5), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra1_5, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra1_5,col = 'green', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra1_5, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 2 3
Swn=shapiro.test(posibles_p_muestra1_5)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_muestra1_5
## W = 0.83543, p-value = 0.1527
library(moments)

Indic1_5=data.frame("ID"=1,"Tamaño_muestra"=5,"Media"=mean(posibles_p_muestra1_5),"Mediana"=median(posibles_p_muestra1_5),"Desvest"=sd(posibles_p_muestra1_5),"Varianza"=var(posibles_p_muestra1_5),"Mín."=min(posibles_p_muestra1_5),"Máx"=max(posibles_p_muestra1_5),"Asimetría"=skewness(posibles_p_muestra1_5), "Curtosis"= kurtosis(posibles_p_muestra1_5))
Indic1_5
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
1 5 0.0982857 0.0914286 0.016238 0.0002637 0.0828571 0.1171429 0.314634 1.239833

n=10

require(car)
posibles_p_muestra1_10 = sapply(rep(350, 10), calc_p_muestra1)
par(mfrow=c(1,4))
hist(posibles_p_muestra1_10, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:10",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra1_10), col="green", lwd=3)
plot(density(posibles_p_muestra1_10), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra1_10, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra1_10,col = 'green', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra1_10, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 8 4
Swn=shapiro.test(posibles_p_muestra1_10)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_muestra1_10
## W = 0.91388, p-value = 0.3087
library(moments)

Indic1_10=data.frame("ID"=2,"Tamaño_muestra"=10,"Media"=mean(posibles_p_muestra1_10),"Mediana"=median(posibles_p_muestra1_10),"Desvest"=sd(posibles_p_muestra1_10),"Varianza"=var(posibles_p_muestra1_10),"Mín."=min(posibles_p_muestra1_10),"Máx"=max(posibles_p_muestra1_10),"Asimetría"=skewness(posibles_p_muestra1_10), "Curtosis"= kurtosis(posibles_p_muestra1_10))
Indic1_10
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
2 10 0.1017143 0.1028571 0.0114444 0.000131 0.0771429 0.1142857 -0.8603295 3.134468

n=15

require(car)
posibles_p_muestra1_15 = sapply(rep(350, 15), calc_p_muestra1)
par(mfrow=c(1,4))
hist(posibles_p_muestra1_15, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:15",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra1_15), col="green", lwd=3)
plot(density(posibles_p_muestra1_15), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra1_15, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra1_15,col = 'green', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra1_15, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 9 7
Swn=shapiro.test(posibles_p_muestra1_15)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_muestra1_15
## W = 0.95958, p-value = 0.685
library(moments)

Indic1_15=data.frame("ID"=3,"Tamaño_muestra"=15,"Media"=mean(posibles_p_muestra1_15),"Mediana"=median(posibles_p_muestra1_15),"Desvest"=sd(posibles_p_muestra1_15),"Varianza"=var(posibles_p_muestra1_15),"Mín."=min(posibles_p_muestra1_15),"Máx"=max(posibles_p_muestra1_15),"Asimetría"=skewness(posibles_p_muestra1_15), "Curtosis"= kurtosis(posibles_p_muestra1_15))
Indic1_15
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
3 15 0.096 0.0971429 0.0154919 0.00024 0.0685714 0.12 -0.1962439 1.907288

n=20

require(car)
posibles_p_muestra1_20 = sapply(rep(350, 20), calc_p_muestra1)
par(mfrow=c(1,4))
hist(posibles_p_muestra1_20, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:20",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra1_20), col="green", lwd=3)
plot(density(posibles_p_muestra1_20), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra1_20, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra1_20,col = 'green', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra1_20, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1]  3 10
Swn=shapiro.test(posibles_p_muestra1_20)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_muestra1_20
## W = 0.96562, p-value = 0.661
library(moments)

Indic1_20=data.frame("ID"=4,"Tamaño_muestra"=20,"Media"=mean(posibles_p_muestra1_20),"Mediana"=median(posibles_p_muestra1_20),"Desvest"=sd(posibles_p_muestra1_20),"Varianza"=var(posibles_p_muestra1_20),"Mín."=min(posibles_p_muestra1_20),"Máx"=max(posibles_p_muestra1_20),"Asimetría"=skewness(posibles_p_muestra1_20), "Curtosis"= kurtosis(posibles_p_muestra1_20))
Indic1_20
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
4 20 0.101 0.1014286 0.01341 0.0001798 0.0771429 0.1314286 0.409806 3.069974

n=30

require(car)
posibles_p_muestra1_30 = sapply(rep(350, 30), calc_p_muestra1)
par(mfrow=c(1,4))
hist(posibles_p_muestra1_30, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:30",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra1_30), col="green", lwd=3)
plot(density(posibles_p_muestra1_30), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra1_30, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra1_30,col = 'green', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra1_30, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 24 12
Swn=shapiro.test(posibles_p_muestra1_30)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_muestra1_30
## W = 0.98944, p-value = 0.988
library(moments)

Indic1_30=data.frame("ID"=5,"Tamaño_muestra"=30,"Media"=mean(posibles_p_muestra1_30),"Mediana"=median(posibles_p_muestra1_30),"Desvest"=sd(posibles_p_muestra1_30),"Varianza"=var(posibles_p_muestra1_30),"Mín."=min(posibles_p_muestra1_30),"Máx"=max(posibles_p_muestra1_30),"Asimetría"=skewness(posibles_p_muestra1_30), "Curtosis"= kurtosis(posibles_p_muestra1_30))
Indic1_30
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
5 30 0.1000952 0.1 0.0131142 0.000172 0.0714286 0.1314286 0.1566462 2.916201

n=50

require(car)
posibles_p_muestra1_50 = sapply(rep(350, 50), calc_p_muestra1)
par(mfrow=c(1,4))
hist(posibles_p_muestra1_50, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:50",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra1_50), col="green", lwd=3)
plot(density(posibles_p_muestra1_50), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra1_50, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra1_50,col = 'green', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra1_50, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 37 24
Swn=shapiro.test(posibles_p_muestra1_50)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_muestra1_50
## W = 0.96683, p-value = 0.1715
library(moments)

Indic1_50=data.frame("ID"=6,"Tamaño_muestra"=50,"Media"=mean(posibles_p_muestra1_50),"Mediana"=median(posibles_p_muestra1_50),"Desvest"=sd(posibles_p_muestra1_50),"Varianza"=var(posibles_p_muestra1_50),"Mín."=min(posibles_p_muestra1_50),"Máx"=max(posibles_p_muestra1_50),"Asimetría"=skewness(posibles_p_muestra1_50), "Curtosis"= kurtosis(posibles_p_muestra1_50))
Indic1_50
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
6 50 0.0971429 0.0971429 0.0130229 0.0001696 0.0714286 0.1314286 0.322635 2.513789

n=60

n=100

require(car)
posibles_p_muestra1_100 = sapply(rep(350, 100), calc_p_muestra1)
par(mfrow=c(1,4))
hist(posibles_p_muestra1_100, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:100",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra1_100), col="green", lwd=3)
plot(density(posibles_p_muestra1_100), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra1_100, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra1_100,col = 'green', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra1_100, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 40 71
Swn=shapiro.test(posibles_p_muestra1_100)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_muestra1_100
## W = 0.98435, p-value = 0.2848
library(moments)

Indic1_100=data.frame("ID"=8,"Tamaño_muestra"=100,"Media"=mean(posibles_p_muestra1_100),"Mediana"=median(posibles_p_muestra1_100),"Desvest"=sd(posibles_p_muestra1_100),"Varianza"=var(posibles_p_muestra1_100),"Mín."=min(posibles_p_muestra1_100),"Máx"=max(posibles_p_muestra1_100),"Asimetría"=skewness(posibles_p_muestra1_100), "Curtosis"= kurtosis(posibles_p_muestra1_100))
Indic1_100
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
8 100 0.1004 0.1 0.0134688 0.0001814 0.0714286 0.1285714 -0.0358837 2.332283

n=200

require(car)
posibles_p_muestra1_200 = sapply(rep(350, 200), calc_p_muestra1)
par(mfrow=c(1,4))
hist(posibles_p_muestra1_200, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:200",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra1_200), col="green", lwd=3)
plot(density(posibles_p_muestra1_200), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra1_200, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra1_200,col = 'green', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra1_200, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 49 74
Swn=shapiro.test(posibles_p_muestra1_200)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_muestra1_200
## W = 0.99207, p-value = 0.3499
library(moments)

Indic1_200=data.frame("ID"=9,"Tamaño_muestra"=200,"Media"=mean(posibles_p_muestra1_200),"Mediana"=median(posibles_p_muestra1_200),"Desvest"=sd(posibles_p_muestra1_200),"Varianza"=var(posibles_p_muestra1_200),"Mín."=min(posibles_p_muestra1_200),"Máx"=max(posibles_p_muestra1_200),"Asimetría"=skewness(posibles_p_muestra1_200), "Curtosis"= kurtosis(posibles_p_muestra1_200))
Indic1_200
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
9 200 0.0996143 0.1 0.0125759 0.0001582 0.0628571 0.1342857 -0.0982503 3.19326

n=500

require(car)
posibles_p_muestra1_500 = sapply(rep(350, 500), calc_p_muestra1)
par(mfrow=c(1,4))
hist(posibles_p_muestra1_500, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:500",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra1_500), col="green", lwd=3)
plot(density(posibles_p_muestra1_500), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra1_500, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra1_500,col = 'green', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra1_500, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 316 136
Swn=shapiro.test(posibles_p_muestra1_500)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_muestra1_500
## W = 0.99064, p-value = 0.002924
library(moments)

Indic1_500=data.frame("ID"=10,"Tamaño_muestra"=500,"Media"=mean(posibles_p_muestra1_500),"Mediana"=median(posibles_p_muestra1_500),"Desvest"=sd(posibles_p_muestra1_500),"Varianza"=var(posibles_p_muestra1_500),"Mín."=min(posibles_p_muestra1_500),"Máx"=max(posibles_p_muestra1_500),"Asimetría"=skewness(posibles_p_muestra1_500), "Curtosis"= kurtosis(posibles_p_muestra1_500))
Indic1_500
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
10 500 0.0995086 0.1 0.0120319 0.0001448 0.0685714 0.1457143 0.2380653 3.361924
Resultados1=rbind(Indic1_5,Indic1_10,Indic1_15,Indic1_20,Indic1_30,Indic1_50,Indic1_60,Indic1_100,Indic1_200,Indic1_500)
Resultados1
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
1 5 0.0982857 0.0914286 0.0162380 0.0002637 0.0828571 0.1171429 0.3146340 1.239833
2 10 0.1017143 0.1028571 0.0114444 0.0001310 0.0771429 0.1142857 -0.8603295 3.134468
3 15 0.0960000 0.0971429 0.0154919 0.0002400 0.0685714 0.1200000 -0.1962439 1.907288
4 20 0.1010000 0.1014286 0.0134100 0.0001798 0.0771429 0.1314286 0.4098060 3.069974
5 30 0.1000952 0.1000000 0.0131142 0.0001720 0.0714286 0.1314286 0.1566462 2.916201
6 50 0.0971429 0.0971429 0.0130229 0.0001696 0.0714286 0.1314286 0.3226350 2.513789
7 60 0.1018095 0.1000000 0.0120757 0.0001458 0.0771429 0.1400000 0.3247067 3.450906
8 100 0.1004000 0.1000000 0.0134688 0.0001814 0.0714286 0.1285714 -0.0358837 2.332283
9 200 0.0996143 0.1000000 0.0125759 0.0001582 0.0628571 0.1342857 -0.0982503 3.193260
10 500 0.0995086 0.1000000 0.0120319 0.0001448 0.0685714 0.1457143 0.2380653 3.361924

Lote de 90% plantas enfermas

a.

lote2= c(rep("Enfermas", 900), rep("Sanas",100))
lote2= sample(lote2)
table(lote2)
## lote2
## Enfermas    Sanas 
##      900      100

b

calc_p_muestra2= function(n){
muestra2= sample(lote2, size = n)
p_muestra2= sum(muestra2== "Enfermas")/n
return(p_muestra2)
}

calc_p_muestra2(n=350)
## [1] 0.9085714

c.

posibles_p_muestra2= sapply(rep(350, 500), calc_p_muestra2)
hist(posibles_p_muestra2)
line = mean(posibles_p_muestra2)
abline(v=line, col="orange", lwd=3)

library(moments)

Indicadores2=data.frame("ID"=0,"Tamaño_muestra"=350,"Media"=mean(posibles_p_muestra2),"Mediana"=median(posibles_p_muestra2),"Desvest"=sd(posibles_p_muestra2),"Varianza"=var(posibles_p_muestra2),"Mín."=min(posibles_p_muestra2),"Máx"=max(posibles_p_muestra2),"Asimetría"=skewness(posibles_p_muestra2), "Curtosis"= kurtosis(posibles_p_muestra2))
Indicadores2
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
0 350 0.8999886 0.9 0.0127762 0.0001632 0.8628571 0.94 0.2347059 3.134705

Análisis ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?

En la simulación, se observa graficamente que no hay una distribución muestral simétrica exacta, pero está muy cerca de estarlo. El coeficiente de asimetría calculado es negativo (en este caso de -0.0577553), lo que significa que presenta una asimetría negativa.

Por el contrario, la curtosis es positiva, se trata de una distribución leptocúrtica, con una mayor concentración de los datos en torno a la media.En este sentido, el sesgo es positivo, la distribución tiene una cola asimétrica extendida hacia los valores positivos.El grado de concentración que presentan los valores en la región central de la distribución es significativa, es decir que la variabilidad no es muy alta.En este sentido, se evidencia que hay no hay una alta dispersión en los datos, según el indicador calculado en la tabla anterior (desviación estandar: 0.0131054).

d.

n=5

require(car)
posibles_p_muestra2_5 = sapply(rep(350, 5), calc_p_muestra2)
par(mfrow=c(1,4))
hist(posibles_p_muestra2_5, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:5",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra2_5), col="orange", lwd=3)
plot(density(posibles_p_muestra2_5), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra2_5, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra2_5,col = 'orange', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra2_5, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 1 2
Swn=shapiro.test(posibles_p_muestra2_5)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_muestra2_5
## W = 0.8867, p-value = 0.3408
library(moments)

Indic2_5=data.frame("ID"=1,"Tamaño_muestra"=5,"Media"=mean(posibles_p_muestra2_5),"Mediana"=median(posibles_p_muestra2_5),"Desvest"=sd(posibles_p_muestra2_5),"Varianza"=var(posibles_p_muestra2_5),"Mín."=min(posibles_p_muestra2_5),"Máx"=max(posibles_p_muestra2_5),"Asimetría"=skewness(posibles_p_muestra2_5), "Curtosis"= kurtosis(posibles_p_muestra2_5))
Indic2_5
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
1 5 0.9028571 0.9 0.0098974 9.8e-05 0.8942857 0.9171429 0.5244665 1.744792

n=10

n=15

n=20

require(car)
posibles_p_muestra2_20 = sapply(rep(350, 20), calc_p_muestra2)
par(mfrow=c(1,4))
hist(posibles_p_muestra2_20, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:20",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra2_20), col="orange", lwd=3)
plot(density(posibles_p_muestra2_20), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra2_20, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra2_20,col = 'orange', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra2_20, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1]  3 11
Swn=shapiro.test(posibles_p_muestra2_20)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_muestra2_20
## W = 0.95657, p-value = 0.4777
library(moments)

Indic2_20=data.frame("ID"=4,"Tamaño_muestra"=20,"Media"=mean(posibles_p_muestra2_20),"Mediana"=median(posibles_p_muestra2_20),"Desvest"=sd(posibles_p_muestra2_20),"Varianza"=var(posibles_p_muestra2_20),"Mín."=min(posibles_p_muestra2_20),"Máx"=max(posibles_p_muestra2_20),"Asimetría"=skewness(posibles_p_muestra2_20), "Curtosis"= kurtosis(posibles_p_muestra2_20))
Indic2_20
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
4 20 0.902 0.9 0.0121254 0.000147 0.8828571 0.9285714 0.4595742 2.685493

n=30

require(car)
posibles_p_muestra2_30 = sapply(rep(350, 30), calc_p_muestra2)
par(mfrow=c(1,4))
hist(posibles_p_muestra2_30, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:30",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra2_30), col="orange", lwd=3)
plot(density(posibles_p_muestra2_30), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra2_30, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra2_30,col = 'orange', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra2_30, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 7 1
Swn=shapiro.test(posibles_p_muestra2_30)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_muestra2_30
## W = 0.9657, p-value = 0.4291
library(moments)

Indic2_30=data.frame("ID"=5,"Tamaño_muestra"=30,"Media"=mean(posibles_p_muestra2_30),"Mediana"=median(posibles_p_muestra2_30),"Desvest"=sd(posibles_p_muestra2_30),"Varianza"=var(posibles_p_muestra2_30),"Mín."=min(posibles_p_muestra2_30),"Máx"=max(posibles_p_muestra2_30),"Asimetría"=skewness(posibles_p_muestra2_30), "Curtosis"= kurtosis(posibles_p_muestra2_30))
Indic2_30
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
5 30 0.8972381 0.8971429 0.0126109 0.000159 0.8742857 0.92 0.048334 2.222403

n=50

require(car)
posibles_p_muestra2_50 = sapply(rep(350, 50), calc_p_muestra2)
par(mfrow=c(1,4))
hist(posibles_p_muestra2_50, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:50",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra2_50), col="orange", lwd=3)
plot(density(posibles_p_muestra2_50), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra2_50, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra2_50,col = 'orange', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra2_50, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 27 22
Swn=shapiro.test(posibles_p_muestra2_50)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_muestra2_50
## W = 0.97271, p-value = 0.2973
library(moments)

Indic2_50=data.frame("ID"=6,"Tamaño_muestra"=50,"Media"=mean(posibles_p_muestra2_50),"Mediana"=median(posibles_p_muestra2_50),"Desvest"=sd(posibles_p_muestra2_50),"Varianza"=var(posibles_p_muestra2_50),"Mín."=min(posibles_p_muestra2_50),"Máx"=max(posibles_p_muestra2_50),"Asimetría"=skewness(posibles_p_muestra2_50), "Curtosis"= kurtosis(posibles_p_muestra2_50))
Indic2_50
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
6 50 0.8982286 0.8957143 0.0123653 0.0001529 0.8714286 0.92 -0.0025464 2.262323

n=60

require(car)
posibles_p_muestra2_60 = sapply(rep(350, 60), calc_p_muestra2)
par(mfrow=c(1,4))
hist(posibles_p_muestra2_60, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:60",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra2_60), col="orange", lwd=3)
plot(density(posibles_p_muestra2_60), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra2_60, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra2_60,col = 'orange', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra2_60, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 53 20
Swn=shapiro.test(posibles_p_muestra2_60)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_muestra2_60
## W = 0.98806, p-value = 0.8241
library(moments)

Indic2_60=data.frame("ID"=7,"Tamaño_muestra"=60,"Media"=mean(posibles_p_muestra2_60),"Mediana"=median(posibles_p_muestra2_60),"Desvest"=sd(posibles_p_muestra2_60),"Varianza"=var(posibles_p_muestra2_60),"Mín."=min(posibles_p_muestra2_60),"Máx"=max(posibles_p_muestra2_60),"Asimetría"=skewness(posibles_p_muestra2_60), "Curtosis"= kurtosis(posibles_p_muestra2_60))
Indic2_60
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
7 60 0.8987143 0.8971429 0.0126734 0.0001606 0.8628571 0.9257143 -0.1097483 3.107962

n=100

require(car)
posibles_p_muestra2_100 = sapply(rep(350, 100), calc_p_muestra2)
par(mfrow=c(1,4))
hist(posibles_p_muestra2_100, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:100",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra2_100), col="orange", lwd=3)
plot(density(posibles_p_muestra2_100), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra2_100, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra2_100,col = 'orange', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra2_100, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 57 44
Swn=shapiro.test(posibles_p_muestra2_100)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_muestra2_100
## W = 0.98586, p-value = 0.3657
library(moments)

Indic2_100=data.frame("ID"=8,"Tamaño_muestra"=100,"Media"=mean(posibles_p_muestra2_100),"Mediana"=median(posibles_p_muestra2_100),"Desvest"=sd(posibles_p_muestra2_100),"Varianza"=var(posibles_p_muestra2_100),"Mín."=min(posibles_p_muestra2_100),"Máx"=max(posibles_p_muestra2_100),"Asimetría"=skewness(posibles_p_muestra2_100), "Curtosis"= kurtosis(posibles_p_muestra2_100))
Indic2_100
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
8 100 0.9006857 0.9 0.0127136 0.0001616 0.86 0.9285714 -0.2865294 3.183297

n=200

n=500

require(car)
posibles_p_muestra2_500 = sapply(rep(350, 500), calc_p_muestra2)
par(mfrow=c(1,4))
hist(posibles_p_muestra2_500, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:500",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra2_500), col="orange", lwd=3)
plot(density(posibles_p_muestra2_500), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra2_500, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra2_500,col = 'orange', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra2_500, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1]   4 177
Swn=shapiro.test(posibles_p_muestra2_500)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_muestra2_500
## W = 0.99331, p-value = 0.0256
library(moments)

Indic2_500=data.frame("ID"=10,"Tamaño_muestra"=500,"Media"=mean(posibles_p_muestra2_500),"Mediana"=median(posibles_p_muestra2_500),"Desvest"=sd(posibles_p_muestra2_500),"Varianza"=var(posibles_p_muestra2_500),"Mín."=min(posibles_p_muestra2_500),"Máx"=max(posibles_p_muestra2_500),"Asimetría"=skewness(posibles_p_muestra2_500), "Curtosis"= kurtosis(posibles_p_muestra2_500))
Indic2_500
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
10 500 0.90016 0.9 0.0131588 0.0001732 0.8628571 0.9371429 -0.1464575 2.918519
Resultados2=rbind(Indic2_5,Indic2_10,Indic2_15,Indic2_20,Indic2_30,Indic2_50,Indic2_60,Indic2_100,Indic2_200,Indic2_500)
Resultados2
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
1 5 0.9028571 0.9000000 0.0098974 0.0000980 0.8942857 0.9171429 0.5244665 1.744792
2 10 0.8982857 0.9014286 0.0155445 0.0002416 0.8714286 0.9200000 -0.0991421 2.173078
3 15 0.8958095 0.9000000 0.0119702 0.0001433 0.8685714 0.9085714 -0.9747078 2.882897
4 20 0.9020000 0.9000000 0.0121254 0.0001470 0.8828571 0.9285714 0.4595742 2.685493
5 30 0.8972381 0.8971429 0.0126109 0.0001590 0.8742857 0.9200000 0.0483340 2.222403
6 50 0.8982286 0.8957143 0.0123653 0.0001529 0.8714286 0.9200000 -0.0025464 2.262323
7 60 0.8987143 0.8971429 0.0126734 0.0001606 0.8628571 0.9257143 -0.1097483 3.107962
8 100 0.9006857 0.9000000 0.0127136 0.0001616 0.8600000 0.9285714 -0.2865294 3.183297
9 200 0.9003000 0.9000000 0.0120110 0.0001443 0.8600000 0.9314286 -0.1322990 3.005111
10 500 0.9001600 0.9000000 0.0131588 0.0001732 0.8628571 0.9371429 -0.1464575 2.918519

Conclusión punto 1:

De acuerdo a los gráficos y la tabla anterior, se puede concluir que los datos tienen muy poca dispersión, si se tiene en cuenta que la desviación estándar es muy cercana a 0 dentro de un rango que oscila entre 0.01 y 0.02, por lo cual los datos están muy concentrados alrededor de la media real (0.9). En relación al coeficiente de asimetría muestra valores que aunque negativos estan muy cercanos a 0.

En cuanto a la variabilidad y teniendo en cuenta que el cálculo del coeficiente de curtosis (apuntamiento) indica un valor mayor a cero (0), entonces los datos se distribuyen de una forma leptocúrtica.Por lo tanto, el grado de concentración que presentan los valores en la región central de la distribución es significativo, es decir que la variabilidad no es muy alta.

Para valores de muestra mayores a 30 se cumple el teorema del límite central: la varianza disminuye cuando n aumenta, esto permite confirmar que los valores del estimador convergen al parametro real. En este sentido, la media muestral es muy similar a la media real, por tanto una sola muestra del lote sería representativa para inferir la generalidad.

En sintesis, al modificar la población cpn diferentes con proporciones de 10% y 90% de individuos enfermos respectivamente, podemos observar que los estimadores en ambos casos estan muy cercanos del valor del parametro respectivamente. Con relación a la aplicación de la prueba Shapiro-Wilk se concluye para muestras de tamaño n > 200 se logra aceptación y rechazo de la Hipotesis nula H0 hecho que se respalda con la grafica qq-plot de normalidad, donde las observaciones se sobreponen cada vez más con muestras de tamaño n > 200 en la linea compuesta por los valores nominales, acercandose mas a una distribución Gaussiana.

Punto 2. La comparación de tratamientos es una práctica fundamental en las ciencias agropecuarias y para esto a nivel estadístico se cuenta con algunas herramientas para apoyar el proceso de toma de decisiones y lograr concluir con algún grado de confianza que los resultados observados en una muestra son representativos y se pueden asociar a los tratamientos y no se deben únicamente al azar. Por medio una simulación validemos algunos de estos resultados.

**a.* Suponga un escenario en el cual usted aplicó tratamientos diferentes a dos lotes y desea analizar si alguno de los dos presenta un mejor desempeño en el control de una plaga presente en ambos al momento inicial. Para ello utilizará como criterio de desempeño el tratamiento que menor % de plantas enfermas presente después de un tiempo de aplicación (es decir, si se presentan o no diferencias en las proporciones de enfermos P1 y P2). Realice una simulación en la cual genere dos poblaciones de N1=1000 (Lote1) y N2=1500 (Lote2), además asuma que el porcentaje de individuos (plantas) enfermas en ambos lotes sea la misma 10% (es decir, sin diferencias entre los tratamientos).

CrearPob = function(Tamaño = 1000, Enfermas = 0.5, Sanas = 0.5) {
  Enf= round(Tamaño * Enfermas, 0)
  San = round(Tamaño * Sanas, 0)
  Pob= c(rep("Enfermas", Enf), rep("Sanas",San))
  print(paste("Lote de tamaño: ", Tamaño, " Enfermas: ",Enf,"Sanas: ",San))
  return(Pob)
}

loteN1=CrearPob(Tamaño = 1000, Enfermas = 0.1, Sanas = 0.9)
## [1] "Lote de tamaño:  1000  Enfermas:  100 Sanas:  900"
loteN2=CrearPob(Tamaño = 1500, Enfermas = 0.1, Sanas = 0.9)
## [1] "Lote de tamaño:  1500  Enfermas:  150 Sanas:  1350"

b. Genere una función que permita obtener una muestra aleatoria de los lotes y calcule el estimador de la proporción muestral para cada lote (p1 y p2) para un tamaño de muestra dado n1=n2. Calcule la diferencia entre los estimadores p1-p2.

Nota En este caso se elige n=350

CrearMuestra_P1P2 = function(Pob1, Pob2, Tamaño, Condicion) {
  if (Tamaño<=length(Pob1)||Tamaño<=length(Pob2)) {
    muestraN1 = sample(x = Pob1, size = Tamaño)
    p_muestraN1 = sum(muestraN1 == Condicion)/Tamaño
    
    muestraN2 = sample(x = Pob2, size = Tamaño)
    p_muestraN2 = sum(muestraN2 == Condicion)/Tamaño
    
    return(p_muestraN1-p_muestraN2)
    }
  else {
    print("Error: el tamaño de la muestra es mayor que el tamaño de la población.")
    return(-1)
  }
}

n = 350
P1P2 = CrearMuestra_P1P2(Pob1 = loteN1, Pob2 = loteN2, n, Condicion = "Enfermas")
print(paste("Para una muestra de tamaño:", n, "del loteN1 y loteN2, se tiene un P1-P2 =",P1P2))
## [1] "Para una muestra de tamaño: 350 del loteN1 y loteN2, se tiene un P1-P2 = -0.00857142857142858"

c. Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores (diferencias p1-p2). ¿Qué tan simétricos son los datos?, ¿Son siempre cero las diferencias?

CrearMuestras_IterP1P2 = function(Pob1, Pob2, Tamaño, Condicion, Iteraciones) {
  if (Tamaño<=length(Pob1)||Tamaño<=length(Pob2)) {
    muestrasIter = array(NA,Iteraciones)
    for (i in 1:Iteraciones) {
      muestrasIter[i] = CrearMuestra_P1P2(Pob1, Pob2, Tamaño, Condicion)
    }
    return(muestrasIter)
  }
  else {
    print("Error: el tamaño de la muestra es mayor al tamaño de la población.")
    return(-1)
  }
}


iter = 500
P1P2_muestras = CrearMuestras_IterP1P2 (Pob1 = loteN1, Pob2 = loteN2, Tamaño = n, Condicion = "Enfermas",Iteraciones = iter)

hist(P1P2_muestras,prob = TRUE, main = "Histograma con curva de densidad")
line = mean(P1P2_muestras)
abline(v=line, col="blue", lwd=3)
lines(density(P1P2_muestras), col = "magenta", lwd = 2)

Resultado3=data.frame("ID"=0,"Tamaño_muestra"=n, "Media"=mean(P1P2_muestras),"Mediana"=median(P1P2_muestras),"Desvest"=sd(P1P2_muestras),"Varianza"=var(P1P2_muestras), "Mín."=min(P1P2_muestras), "Máx"=max(P1P2_muestras),"Asimetría"=skewness(P1P2_muestras), "Curtosis"= kurtosis(P1P2_muestras))

Resultado3
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
0 350 -0.0001371 0 0.0192616 0.000371 -0.06 0.0571429 0.0776351 3.129262

Conclusión: Para una muestra de tamaño 350 la media obtenida ^P <> 0, aunque su mediana si es igual a 0, podemos ver que no todas las diferencias son cero. La asimetría es negativa para el caso de las diferencias. Por el contrario la curtosis es positiva, se trata de una distribución leptocúrtica, con una mayor concentración de los datos en torno a la media.En este sentido, el sesgo es positivo, la distribución tiene una cola asimétrica extendida hacia los valores positivos.El grado de concentración que presentan los valores en la región central de la distribución es significativa, es decir que la variabilidad no es muy alta.En este sentido, se evidencia que hay no hay una alta dispersión en los datos, según el indicador calculado en la tabla anterior (desviación estandar: 0.0191).

d. Realice los puntos b y c para tamaños de muestra n1=n2=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores (p1-p2) en cuanto a la normalidad. También analice el comportamiento de las diferencias y evalúe.¿Considera que es más probable concluir que existen diferencias entre los tratamientos con muestras grandes que pequeñas, es decir, cuál considera usted que es el efecto del tamaño de muestra en el caso de la comparación de proporciones?

TMuestras = c(10,15,20,30,50,60,100,200,500)
iter = 500

for (i in 1:length(TMuestras)) {
     P1P2_muestras = CrearMuestras_IterP1P2 (Pob1 = loteN1, Pob = loteN2, Tamaño = n, Condicion = "Enfermas",Iteraciones = iter)
     par(mfrow=c(1,2))
     hist(P1P2_muestras, las=1, ylab = "Frecuencia", title = TMuestras[i], main = paste("Tamaño de muestra:", TMuestras[i]), col = "gray",prob = TRUE)
     abline(v=mean(P1P2_muestras), col="blue", lwd=3)
     lines(density(P1P2_muestras), col = "magenta", lwd = 2)
     qqnorm(P1P2_muestras, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
     qqline(P1P2_muestras,col = 'magenta', lwd = 2, lty = 2)
     print(paste("Para un tamaño de muestra: ", TMuestras[i])) 
     print(shapiro.test(P1P2_muestras))
     x=data.frame("ID"=i,"Tamaño_muestra"=TMuestras[i], 
                  "Media"=mean(P1P2_muestras),
                  "Mediana"=median(P1P2_muestras),
                  "Desvest"=sd(P1P2_muestras),
                  "Varianza"=var(P1P2_muestras), 
                  "Mín."=min(P1P2_muestras), 
                  "Máx"=max(P1P2_muestras),
                  "Asimetría"=skewness(P1P2_muestras), 
                  "Curtosis"= kurtosis(P1P2_muestras)
                  )
     Resultado3=rbind(Resultado3,x)
     
     } 
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter

## [1] "Para un tamaño de muestra:  10"
## 
##  Shapiro-Wilk normality test
## 
## data:  P1P2_muestras
## W = 0.99577, p-value = 0.1975
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter

## [1] "Para un tamaño de muestra:  15"
## 
##  Shapiro-Wilk normality test
## 
## data:  P1P2_muestras
## W = 0.98844, p-value = 0.0005482
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter

## [1] "Para un tamaño de muestra:  20"
## 
##  Shapiro-Wilk normality test
## 
## data:  P1P2_muestras
## W = 0.99665, p-value = 0.3858
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter

## [1] "Para un tamaño de muestra:  30"
## 
##  Shapiro-Wilk normality test
## 
## data:  P1P2_muestras
## W = 0.99654, p-value = 0.357
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter

## [1] "Para un tamaño de muestra:  50"
## 
##  Shapiro-Wilk normality test
## 
## data:  P1P2_muestras
## W = 0.99573, p-value = 0.1927
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter

## [1] "Para un tamaño de muestra:  60"
## 
##  Shapiro-Wilk normality test
## 
## data:  P1P2_muestras
## W = 0.99373, p-value = 0.03646
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter

## [1] "Para un tamaño de muestra:  100"
## 
##  Shapiro-Wilk normality test
## 
## data:  P1P2_muestras
## W = 0.99608, p-value = 0.2537
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter

## [1] "Para un tamaño de muestra:  200"
## 
##  Shapiro-Wilk normality test
## 
## data:  P1P2_muestras
## W = 0.99343, p-value = 0.02826
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter

## [1] "Para un tamaño de muestra:  500"
## 
##  Shapiro-Wilk normality test
## 
## data:  P1P2_muestras
## W = 0.99621, p-value = 0.2803
Resultado3
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
0 350 -0.0001371 0 0.0192616 0.0003710 -0.0600000 0.0571429 0.0776351 3.129262
1 10 0.0010057 0 0.0177071 0.0003135 -0.0485714 0.0571429 0.0817347 2.755118
2 15 -0.0020743 0 0.0201964 0.0004079 -0.0685714 0.0857143 -0.1306435 3.863385
3 20 0.0002800 0 0.0191437 0.0003665 -0.0571429 0.0657143 -0.0524017 3.006445
4 30 0.0012114 0 0.0189556 0.0003593 -0.0571429 0.0600000 0.1265986 2.967208
5 50 -0.0006743 0 0.0201000 0.0004040 -0.0628571 0.0628571 0.0104944 3.218237
6 60 0.0009429 0 0.0191891 0.0003682 -0.0514286 0.0485714 -0.1435594 2.851983
7 100 0.0004686 0 0.0187021 0.0003498 -0.0600000 0.0657143 -0.0782727 2.959751
8 200 0.0004914 0 0.0194090 0.0003767 -0.0542857 0.0657143 0.1608968 3.362599
9 500 -0.0010914 0 0.0193198 0.0003733 -0.0657143 0.0628571 -0.0708249 3.094028

Análisis:

Se observa que el cálculo de asimetría fluctua con pequeños saltos en su cercanía al cero cada que se incrementa el tamaño de muestra, en esta simulación osciló en mayor medida entre valores negativos muy cercanos a cero.

En cuanto a la variabilidad y teniendo en cuenta que el cálculo del coeficiente de curtosis (apuntamiento) indica un valor mayor a cero (0), entonces los datos se distribuyen de una forma leptocúrtica, lo que nos permite confirmar que el grado de concentración que presentan los valores en la región central de la distribución P1-P2 es significativo, es decir que la variabilidad no es muy alta (desviación estándar entre 0.01 y 0.02).

Dado que los datos tienen un alto grado de concentración en la región central, podemos sugerir la siguiente hipótesis nula (H0):

H0: “La diferencia de las medias muestrales (P1-P2) es una distribución normal cuando n>=500” Si indicamos un intervalo de confianza del 95%, por lo cual el “p-alfa” de referencia será 0.05 y teniendo en cuenta que el “p-value” obtenido de la prueba de normalidad (aplicando Shapiro-Wilks) es mayor al 0.05 cuando n=500 (en esta simulació fue de 0.1176), entonces no tenemos evidencia suficiente para rechazar la hipótesis nula, y podemos concluir que la distribución P1-P2 es normal.

e. Ahora realice nuevamente los puntos a-d bajo un escenario con dos lotes, pero de proporciones de enfermos diferentes (P1=0.1 y P2=0.15), es decir, el tratamiento del lote 1 si presentó un mejor desempeño reduciendo en un 5% el porcentaje de enfermos. Bajo este nuevo escenario compare la distribución de estas diferencias (p1- p2) con las observadas bajo igualdad de condiciones en los lotes. ¿Qué puede concluir? ¿Existen puntos en los cuales es posible que se observen diferencias de p1- p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2: diferencia de 5%)?

a.

loteN1_1 = CrearPob(Tamaño = 1000, Enfermas = 0.1, Sanas = 0.9)
## [1] "Lote de tamaño:  1000  Enfermas:  100 Sanas:  900"
loteN2_1 = CrearPob(Tamaño = 1500, Enfermas = 0.15, Sanas = 0.85)
## [1] "Lote de tamaño:  1500  Enfermas:  225 Sanas:  1275"

b

n = 350
P1P2_1 = CrearMuestra_P1P2(Pob1 = loteN1_1, Pob2= loteN2_1, n, Condicion = "Enfermas")
print(paste("Para un tamaño de muestra:", n, "de ambos lotes, se tiene un P1-P2 =",P1P2_1))
## [1] "Para un tamaño de muestra: 350 de ambos lotes, se tiene un P1-P2 = -0.0771428571428571"

c.

iter = 500
P1P2_muestras1= CrearMuestras_IterP1P2 (Pob1 = loteN1_1, Pob2 = loteN2_1, Tamaño = n, Condicion = "Enfermas",Iteraciones = iter)

hist(P1P2_muestras1, prob= TRUE)
line = mean(P1P2_muestras1)
abline(v=line, col="blue", lwd=3)
lines(density(P1P2_muestras1), col = "magenta", lwd = 2)

Resultado4=data.frame("ID"=0,"Tamaño_muestra"=n, "Media"=mean(P1P2_muestras1),"Mediana"=median(P1P2_muestras1),"Desvest"=sd(P1P2_muestras1),"Varianza"=var(P1P2_muestras1), "Mín."=min(P1P2_muestras1), "Máx"=max(P1P2_muestras1),"Asimetría"=skewness(P1P2_muestras1), "Curtosis"= kurtosis(P1P2_muestras1))

Resultado4
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
0 350 -0.0504743 -0.0485714 0.0212131 0.00045 -0.1228571 0.02 -0.1581558 3.27034

d.

for (i in 1:length(TMuestras)) {
     P1P2_muestras= CrearMuestras_IterP1P2 (Pob1 = loteN1_1, Pob2 = loteN2_1, Tamaño = n, Condicion = "Enfermas",Iteraciones = iter)
     par(mfrow=c(1,2))
     hist(P1P2_muestras, las=1, ylab = "Frecuencia", title = TMuestras[i], prob = TRUE, main = paste("Muestra de tamaño:", TMuestras[i]), col = "gray")
     lines(density(P1P2_muestras),col="magenta", lwd=3)
     abline(v=mean(P1P2_muestras), col="green", lwd=3)
     qqnorm(P1P2_muestras, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
     qqline(P1P2_muestras,col = 'magenta', lwd = 2, lty = 2)
     print(paste("Para una muestra de tamaño: ", TMuestras[i])) 
     print(shapiro.test(P1P2_muestras))
     
     x=data.frame("ID"=i,"Tamaño_muestra"=TMuestras[i], 
                  "Media"=mean(P1P2_muestras),
                  "Mediana"=median(P1P2_muestras),
                  "Desvest"=sd(P1P2_muestras),
                  "Varianza"=var(P1P2_muestras), 
                  "Mín."=min(P1P2_muestras), 
                  "Máx"=max(P1P2_muestras),
                  "Asimetría"=skewness(P1P2_muestras), 
                  "Curtosis"= kurtosis(P1P2_muestras)
                  )
     Resultado4=rbind(Resultado4,x)
} 
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter

## [1] "Para una muestra de tamaño:  10"
## 
##  Shapiro-Wilk normality test
## 
## data:  P1P2_muestras
## W = 0.99518, p-value = 0.1225
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter

## [1] "Para una muestra de tamaño:  15"
## 
##  Shapiro-Wilk normality test
## 
## data:  P1P2_muestras
## W = 0.99551, p-value = 0.1604
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter

## [1] "Para una muestra de tamaño:  20"
## 
##  Shapiro-Wilk normality test
## 
## data:  P1P2_muestras
## W = 0.99582, p-value = 0.207
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter

## [1] "Para una muestra de tamaño:  30"
## 
##  Shapiro-Wilk normality test
## 
## data:  P1P2_muestras
## W = 0.99662, p-value = 0.3795
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter

## [1] "Para una muestra de tamaño:  50"
## 
##  Shapiro-Wilk normality test
## 
## data:  P1P2_muestras
## W = 0.99685, p-value = 0.445
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter

## [1] "Para una muestra de tamaño:  60"
## 
##  Shapiro-Wilk normality test
## 
## data:  P1P2_muestras
## W = 0.99175, p-value = 0.007094
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter

## [1] "Para una muestra de tamaño:  100"
## 
##  Shapiro-Wilk normality test
## 
## data:  P1P2_muestras
## W = 0.99612, p-value = 0.2618
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter

## [1] "Para una muestra de tamaño:  200"
## 
##  Shapiro-Wilk normality test
## 
## data:  P1P2_muestras
## W = 0.99655, p-value = 0.3602
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter

## [1] "Para una muestra de tamaño:  500"
## 
##  Shapiro-Wilk normality test
## 
## data:  P1P2_muestras
## W = 0.99625, p-value = 0.2875
Resultado4
ID Tamaño_muestra Media Mediana Desvest Varianza Mín. Máx Asimetría Curtosis
0 350 -0.0504743 -0.0485714 0.0212131 0.0004500 -0.1228571 0.0200000 -0.1581558 3.270340
1 10 -0.0493257 -0.0485714 0.0210132 0.0004416 -0.1028571 0.0200000 0.0205243 2.703974
2 15 -0.0504400 -0.0485714 0.0213039 0.0004539 -0.1171429 0.0171429 -0.1447674 3.044022
3 20 -0.0512686 -0.0514286 0.0217971 0.0004751 -0.1114286 0.0057143 -0.0207787 2.774894
4 30 -0.0501943 -0.0485714 0.0211140 0.0004458 -0.1142857 0.0085714 -0.0745567 2.882790
5 50 -0.0508057 -0.0514286 0.0223444 0.0004993 -0.1142857 0.0228571 0.0342405 3.068674
6 60 -0.0511086 -0.0514286 0.0200591 0.0004024 -0.1400000 0.0057143 -0.1129749 3.299733
7 100 -0.0499886 -0.0514286 0.0216897 0.0004704 -0.1057143 0.0114286 0.0295360 2.726430
8 200 -0.0501257 -0.0514286 0.0200135 0.0004005 -0.1171429 0.0114286 0.1028436 3.022224
9 500 -0.0499943 -0.0485714 0.0220792 0.0004875 -0.1142857 0.0200000 0.1499102 2.981483

Conclusión: Al comparar p1-p2 y p1-p2 (mejorado al 5%), se concluye que en ambos casos se evidencia una baja dispersión de los datos y una concentración importante alrededor de la media real. Resalta que en el lote mejorado a medida que se aumenta el tamaño de la muestra no se observa un comportamiento lineal de la asimetría y el apuntamiento, estos dos datos se modifican en la medida en que el tamaño de muestra tiende a infinito, sin embargo la concentración de datos se mantiene alta alrededor del cero.

También, destaca que a medida que el tamaño de la muestra aumenta se evidencia una mejoría en los indicadores de variabilidad. El cálculo del coeficiente de curtosis (apuntamiento) indica un valor mayor a cero (0) con valores muy similares a la muestra de P1-P2, entonces los datos se distribuyen de una forma leptocúrtica, lo que valida que la variabilidad no es muy alta.

De esta manera, se determina que a nivel estadistico ambos escenarios hacen que los p1 y p2 muestrales (estimadores) converjan a los valores reales (parámetros).

En cuanto al desempeño del lote 1, destaca el resultado de la prueba de normalidad cuya hipotesis nula es confirmada con tamaños de muestras mayores o iguales a 200. Por ello, hay suficiente evidencia para no rechachar la hipótesis que realizando pequeños ajustes o mejoras de proporción al lote original se puede lograr distribuciones normales con tamaños de muestras cada vez más pequeños con individuos suficientemente representativos que permitan hacer inferencia estadística hacia la población en general.

Punto 3. Con base a los artículos “Statistical Errors: P values, the gold standard of statistical validity, are not as reliable as many scientists assume”, escriba un resumen sobre ambos artículos e incluya en este sus opiniones en cuanto al uso del valor p como criterio de decisión en inferencia estadística.

La reflexión planteada en Nuzzo, R. (2014) sobre el valor p hace alusión sobre la interpretación y variedad de conclusiones generalizadas que surgen al utilizar este criterio estadístico como apoyo a la toma de decisiones, y en este sentido al uso que a traves de los años se le ha dado en diferentes investigaciones o proyectos en los cuales se usa este indicador.

Se destaca que la popularidad del p-valor se puede ver influenciada por su facilidad de uso y la posibilidad de usarse como mecanismo automático para tomar decisiones sin otros criterios más profundos o detallados que lo apoyen. Por ello, gran parte del problema está en la interpretación errónea que se le da al p valor mas no en que este indicador no funcione.

Ante esto, Ruzzo destaca que diversos estadísticos a lo largo de la historia, han propuesto diferentes técnicas para utilizar e interpretar complementariamente el valor P de tal forma que los resultados sean más robustos. Un ejemplo de ello son los intervalos de confianza, tamaños de efectos y las reglas de bayes como soporte para los datos, entre otras. Adicional a ello, en esta reflexión se plantean tres preguntas al momento de hacer un estudio y analizar los resultados dl valor P :“¿Cuál es la evidencia?”, “¿Qué debo creer?” y “¿Qué debo creer?” ¿Sí?’, en términos generales, se debe siempre analiar los datos y el contexto en el cual se esta trabajando para valdiar y aceptar de forma segura los resultados obtenidos.

De forma particular, en esta reflexión me llamó la atención la siguiente frase: “Los críticos también lamentan la forma en que los valores P pueden fomentar el pensamiento confuso. Cualquier reforma tendría que barrer a través de una cultura arraigada. tendría que cambiar cómo se enseña estadística, cómo se realiza el análisis de datos y cómo se informan e interpretan los resultados.”

Para finalizar y desde mi opinión, con este taller de simulación a forma personal evidencié que cada vez que se modificaban los datos o muestras, se reflejaba inmediatamente un cambio directo en el valor p. Este hecho frecuente sucedia cada vez que se tomaba una muestra diferente y en cada caso, se podia o no rechazar hipótesis nula. Esto en pocas palabras, valida que el valor p es una media estadistica muy util pero que por si sola en muchas ocasiones no representa el contexto y los resultados de una forma adecuada o fija. Por ello, considero que el análisis inferencial de datos y en general, no solo debe considerar un criterio para la toma de decisiones, si no complementarse con el apoyo de otro tipo de herramientas como gráficos, test adicionales, conocimiento a priori y completo del contexto bajo el cual estemos trabajando , pruebas de simulación, entre otras técnicas para fortalecer la toma de decisiones y obtener mejores resultados.

Referecias

Nuzzo, R. (2014). Statistical errors: P values, the’gold standard’of statistical validity, are not as reliable as many scientists assume. Nature, 506(7487), 150-153.