a. Realice una simulación en la cual genere una población de N=1000 (Lote) y además que el porcentaje de individuos (plantas) enfermas sea del 50%.
lote= c(rep("Enfermas", 500), rep("Sanas",500))
lote= sample(lote)
table(lote)
## lote
## Enfermas Sanas
## 500 500
b. Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n.
Nota: En este caso se elige un n=350
calc_p_muestra = function(n){
muestra = sample(lote, size = n)
p_muestra = sum(muestra == "Enfermas")/n
return(p_muestra)
}
calc_p_muestra(n=350)
## [1] 0.4657143
c. Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores.
posibles_p_muestra= sapply(rep(350, 500), calc_p_muestra)
hist(posibles_p_muestra)
line = mean(posibles_p_muestra)
abline(v=line, col="purple", lwd=3)
library(moments)
Indicadores=data.frame("ID"=0,"Tamaño_muestra"=350,"Media"=mean(posibles_p_muestra),"Mediana"=median(posibles_p_muestra),"Desvest"=sd(posibles_p_muestra),"Varianza"=var(posibles_p_muestra),"Mín."=min(posibles_p_muestra),"Máx"=max(posibles_p_muestra),"Asimetría"=skewness(posibles_p_muestra), "Curtosis"= kurtosis(posibles_p_muestra))
Indicadores
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 0 | 350 | 0.5010914 | 0.5028571 | 0.0211316 | 0.0004465 | 0.4428571 | 0.5657143 | -0.0058416 | 2.910818 |
Análisis ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?
En la simulación, se observa graficamente que no hay una distribución muestral simétrica exacta, pero está muy cerca de estarlo. El coeficiente de asimetría calculado es muy cercano a 0 (en este caso de 0.01306458), lo que significa que presenta una asimetría positiva.
Dado el resultado positivo de la curtosis, se trata de una distribución leptocúrtica, con una mayor concentración de los datos en torno a la media.En este sentido, el sesgo es positivo, la distribución tiene una cola asimétrica extendida hacia los valores positivos.El grado de concentración que presentan los valores en la región central de la distribución es significativa, es decir que la variabilidad no es muy alta.En este sentido, se evidencia que hay no hay una alta dispersión en los datos, según el indicador calculado en la tabla anterior (desviación estandar: 0.02069).
d Realice los ejercicios completos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad).
n=5
require(car)
## Loading required package: car
## Warning: package 'car' was built under R version 4.1.3
## Loading required package: carData
## Warning: package 'carData' was built under R version 4.1.3
posibles_p_muestra_5 = sapply(rep(350, 5), calc_p_muestra)
par(mfrow=c(1,4))
hist(posibles_p_muestra_5, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:5",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra_5), col="purple", lwd=3)
plot(density(posibles_p_muestra_5), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra_5, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra_5,col = 'purple', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra_5, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 4 5
Swn=shapiro.test(posibles_p_muestra_5)
Swn
##
## Shapiro-Wilk normality test
##
## data: posibles_p_muestra_5
## W = 0.94825, p-value = 0.7247
library(moments)
Indic_5=data.frame("ID"=1,"Tamaño_muestra"=5,"Media"=mean(posibles_p_muestra_5),"Mediana"=median(posibles_p_muestra_5),"Desvest"=sd(posibles_p_muestra_5),"Varianza"=var(posibles_p_muestra_5),"Mín."=min(posibles_p_muestra_5),"Máx"=max(posibles_p_muestra_5),"Asimetría"=skewness(posibles_p_muestra_5), "Curtosis"= kurtosis(posibles_p_muestra_5))
Indic_5
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 5 | 0.5137143 | 0.5228571 | 0.0295131 | 0.000871 | 0.4685714 | 0.5457143 | -0.6139339 | 2.171185 |
n=10
require(car)
posibles_p_muestra_10 = sapply(rep(350, 10), calc_p_muestra)
par(mfrow=c(1,4))
hist(posibles_p_muestra_10, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:10",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra_10), col="purple", lwd=3)
plot(density(posibles_p_muestra_10), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra_10, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra_10,col = 'purple', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra_10, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 8 4
Swn=shapiro.test(posibles_p_muestra_10)
Swn
##
## Shapiro-Wilk normality test
##
## data: posibles_p_muestra_10
## W = 0.94388, p-value = 0.5969
library(moments)
Indic_10=data.frame("ID"=2,"Tamaño_muestra"=10,"Media"=mean(posibles_p_muestra_10),"Mediana"=median(posibles_p_muestra_10),"Desvest"=sd(posibles_p_muestra_10),"Varianza"=var(posibles_p_muestra_10),"Mín."=min(posibles_p_muestra_10),"Máx"=max(posibles_p_muestra_10),"Asimetría"=skewness(posibles_p_muestra_10), "Curtosis"= kurtosis(posibles_p_muestra_10))
Indic_10
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 2 | 10 | 0.4965714 | 0.49 | 0.0254769 | 0.0006491 | 0.46 | 0.54 | 0.4492354 | 2.118557 |
n=15
require(car)
posibles_p_muestra_15 = sapply(rep(350, 15), calc_p_muestra)
par(mfrow=c(1,4))
hist(posibles_p_muestra_15, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:15",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra_15), col="purple", lwd=3)
plot(density(posibles_p_muestra_15), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra_15, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra_15,col = 'purple', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra_15, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 6 1
Swn=shapiro.test(posibles_p_muestra_15)
Swn
##
## Shapiro-Wilk normality test
##
## data: posibles_p_muestra_15
## W = 0.9003, p-value = 0.09617
library(moments)
Indic_15=data.frame("ID"=3,"Tamaño_muestra"=15,"Media"=mean(posibles_p_muestra_15),"Mediana"=median(posibles_p_muestra_15),"Desvest"=sd(posibles_p_muestra_15),"Varianza"=var(posibles_p_muestra_15),"Mín."=min(posibles_p_muestra_15),"Máx"=max(posibles_p_muestra_15),"Asimetría"=skewness(posibles_p_muestra_15), "Curtosis"= kurtosis(posibles_p_muestra_15))
Indic_15
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 3 | 15 | 0.5013333 | 0.5085714 | 0.0222067 | 0.0004931 | 0.4514286 | 0.5314286 | -0.9395477 | 3.058296 |
n=20
require(car)
posibles_p_muestra_20 = sapply(rep(350, 20), calc_p_muestra)
par(mfrow=c(1,4))
hist(posibles_p_muestra_20, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:20",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra_20), col="purple", lwd=3)
plot(density(posibles_p_muestra_20), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra_20, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra_20,col = 'purple', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra_20, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 4 9
Swn=shapiro.test(posibles_p_muestra_20)
Swn
##
## Shapiro-Wilk normality test
##
## data: posibles_p_muestra_20
## W = 0.97451, p-value = 0.8457
library(moments)
Indic_20=data.frame("ID"=4,"Tamaño_muestra"=20,"Media"=mean(posibles_p_muestra_20),"Mediana"=median(posibles_p_muestra_20),"Desvest"=sd(posibles_p_muestra_20),"Varianza"=var(posibles_p_muestra_20),"Mín."=min(posibles_p_muestra_20),"Máx"=max(posibles_p_muestra_20),"Asimetría"=skewness(posibles_p_muestra_20), "Curtosis"= kurtosis(posibles_p_muestra_20))
Indic_20
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 4 | 20 | 0.4967143 | 0.4942857 | 0.0243016 | 0.0005906 | 0.4428571 | 0.54 | -0.1571161 | 2.912258 |
n=30
require(car)
posibles_p_muestra_30 = sapply(rep(350, 30), calc_p_muestra)
par(mfrow=c(1,4))
hist(posibles_p_muestra_30, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:30",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra_30), col="purple", lwd=3)
plot(density(posibles_p_muestra_30), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra_30, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra_30,col = 'purple', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra_30, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 16 15
Swn=shapiro.test(posibles_p_muestra_30)
Swn
##
## Shapiro-Wilk normality test
##
## data: posibles_p_muestra_30
## W = 0.98788, p-value = 0.9757
library(moments)
Indic_30=data.frame("ID"=5,"Tamaño_muestra"=30,"Media"=mean(posibles_p_muestra_30),"Mediana"=median(posibles_p_muestra_30),"Desvest"=sd(posibles_p_muestra_30),"Varianza"=var(posibles_p_muestra_30),"Mín."=min(posibles_p_muestra_30),"Máx"=max(posibles_p_muestra_30),"Asimetría"=skewness(posibles_p_muestra_30), "Curtosis"= kurtosis(posibles_p_muestra_30))
Indic_30
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 5 | 30 | 0.5033333 | 0.5028571 | 0.0191455 | 0.0003665 | 0.4628571 | 0.5428571 | 0.0085998 | 2.618285 |
n=50
require(car)
posibles_p_muestra_50 = sapply(rep(350, 50), calc_p_muestra)
par(mfrow=c(1,4))
hist(posibles_p_muestra_50, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:50",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra_50), col="purple", lwd=3)
plot(density(posibles_p_muestra_50), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra_50, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra_50,col = 'purple', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra_50, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 48 33
Swn=shapiro.test(posibles_p_muestra_50)
Swn
##
## Shapiro-Wilk normality test
##
## data: posibles_p_muestra_50
## W = 0.97741, p-value = 0.4485
library(moments)
Indic_50=data.frame("ID"=6,"Tamaño_muestra"=50,"Media"=mean(posibles_p_muestra_50),"Mediana"=median(posibles_p_muestra_50),"Desvest"=sd(posibles_p_muestra_50),"Varianza"=var(posibles_p_muestra_50),"Mín."=min(posibles_p_muestra_50),"Máx"=max(posibles_p_muestra_50),"Asimetría"=skewness(posibles_p_muestra_50), "Curtosis"= kurtosis(posibles_p_muestra_50))
Indic_50
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 6 | 50 | 0.5016 | 0.5085714 | 0.0252148 | 0.0006358 | 0.4428571 | 0.5457143 | -0.2397688 | 2.393515 |
n=60
require(car)
posibles_p_muestra_60 = sapply(rep(350, 60), calc_p_muestra)
par(mfrow=c(1,4))
hist(posibles_p_muestra_60, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:60",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra_60), col="purple", lwd=3)
plot(density(posibles_p_muestra_60), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra_60, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra_60,col = 'purple', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra_60, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 42 55
Swn=shapiro.test(posibles_p_muestra_60)
Swn
##
## Shapiro-Wilk normality test
##
## data: posibles_p_muestra_60
## W = 0.97933, p-value = 0.4007
library(moments)
Indic_60=data.frame("ID"=7,"Tamaño_muestra"=60,"Media"=mean(posibles_p_muestra_60),"Mediana"=median(posibles_p_muestra_60),"Desvest"=sd(posibles_p_muestra_60),"Varianza"=var(posibles_p_muestra_60),"Mín."=min(posibles_p_muestra_60),"Máx"=max(posibles_p_muestra_60),"Asimetría"=skewness(posibles_p_muestra_60), "Curtosis"= kurtosis(posibles_p_muestra_60))
Indic_60
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 7 | 60 | 0.5007619 | 0.5028571 | 0.0220051 | 0.0004842 | 0.4485714 | 0.5542857 | -0.0848874 | 2.445153 |
n=100
require(car)
posibles_p_muestra_100 = sapply(rep(350, 100), calc_p_muestra)
par(mfrow=c(1,4))
hist(posibles_p_muestra_100, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:100",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra_100), col="purple", lwd=3)
plot(density(posibles_p_muestra_100), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra_100, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra_100,col = 'purple', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra_100, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 99 16
Swn=shapiro.test(posibles_p_muestra_100)
Swn
##
## Shapiro-Wilk normality test
##
## data: posibles_p_muestra_100
## W = 0.97899, p-value = 0.1108
library(moments)
Indic_100=data.frame("ID"=8,"Tamaño_muestra"=100,"Media"=mean(posibles_p_muestra_100),"Mediana"=median(posibles_p_muestra_100),"Desvest"=sd(posibles_p_muestra_100),"Varianza"=var(posibles_p_muestra_100),"Mín."=min(posibles_p_muestra_100),"Máx"=max(posibles_p_muestra_100),"Asimetría"=skewness(posibles_p_muestra_100), "Curtosis"= kurtosis(posibles_p_muestra_100))
Indic_100
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 8 | 100 | 0.4999714 | 0.4971429 | 0.0253526 | 0.0006428 | 0.4457143 | 0.5828571 | 0.4924756 | 3.275689 |
n=200
require(car)
posibles_p_muestra_200 = sapply(rep(350, 200), calc_p_muestra)
par(mfrow=c(1,4))
hist(posibles_p_muestra_200, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:200",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra_200), col="purple", lwd=3)
plot(density(posibles_p_muestra_200), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra_200, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra_200,col = 'purple', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra_200, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 87 136
Swn=shapiro.test(posibles_p_muestra_200)
Swn
##
## Shapiro-Wilk normality test
##
## data: posibles_p_muestra_200
## W = 0.99317, p-value = 0.4831
library(moments)
Indic_200=data.frame("ID"=9,"Tamaño_muestra"=200,"Media"=mean(posibles_p_muestra_200),"Mediana"=median(posibles_p_muestra_200),"Desvest"=sd(posibles_p_muestra_200),"Varianza"=var(posibles_p_muestra_200),"Mín."=min(posibles_p_muestra_200),"Máx"=max(posibles_p_muestra_200),"Asimetría"=skewness(posibles_p_muestra_200), "Curtosis"= kurtosis(posibles_p_muestra_200))
Indic_200
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 9 | 200 | 0.5022 | 0.5028571 | 0.0182075 | 0.0003315 | 0.4542857 | 0.5542857 | -0.0291875 | 2.942779 |
n=500
require(car)
posibles_p_muestra_500 = sapply(rep(350, 500), calc_p_muestra)
par(mfrow=c(1,4))
hist(posibles_p_muestra_500, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:500",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra_500), col="purple", lwd=3)
plot(density(posibles_p_muestra_500), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra_500, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra_500,col = 'purple', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra_500, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 186 442
Swn=shapiro.test(posibles_p_muestra_500)
Swn
##
## Shapiro-Wilk normality test
##
## data: posibles_p_muestra_500
## W = 0.99676, p-value = 0.418
library(moments)
Indic_500=data.frame("ID"=10,"Tamaño_muestra"=500,"Media"=mean(posibles_p_muestra_500),"Mediana"=median(posibles_p_muestra_500),"Desvest"=sd(posibles_p_muestra_500),"Varianza"=var(posibles_p_muestra_500),"Mín."=min(posibles_p_muestra_500),"Máx"=max(posibles_p_muestra_500),"Asimetría"=skewness(posibles_p_muestra_500), "Curtosis"= kurtosis(posibles_p_muestra_500))
Indic_500
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 10 | 500 | 0.4998229 | 0.5 | 0.0223714 | 0.0005005 | 0.4314286 | 0.56 | -0.0818815 | 2.877816 |
Resultados=rbind(Indic_5,Indic_10,Indic_15,Indic_20,Indic_30,Indic_50,Indic_60,Indic_100,Indic_200,Indic_500)
Resultados
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 5 | 0.5137143 | 0.5228571 | 0.0295131 | 0.0008710 | 0.4685714 | 0.5457143 | -0.6139339 | 2.171185 |
| 2 | 10 | 0.4965714 | 0.4900000 | 0.0254769 | 0.0006491 | 0.4600000 | 0.5400000 | 0.4492354 | 2.118557 |
| 3 | 15 | 0.5013333 | 0.5085714 | 0.0222067 | 0.0004931 | 0.4514286 | 0.5314286 | -0.9395477 | 3.058296 |
| 4 | 20 | 0.4967143 | 0.4942857 | 0.0243016 | 0.0005906 | 0.4428571 | 0.5400000 | -0.1571161 | 2.912258 |
| 5 | 30 | 0.5033333 | 0.5028571 | 0.0191455 | 0.0003665 | 0.4628571 | 0.5428571 | 0.0085998 | 2.618285 |
| 6 | 50 | 0.5016000 | 0.5085714 | 0.0252148 | 0.0006358 | 0.4428571 | 0.5457143 | -0.2397688 | 2.393515 |
| 7 | 60 | 0.5007619 | 0.5028571 | 0.0220051 | 0.0004842 | 0.4485714 | 0.5542857 | -0.0848874 | 2.445153 |
| 8 | 100 | 0.4999714 | 0.4971429 | 0.0253526 | 0.0006428 | 0.4457143 | 0.5828571 | 0.4924756 | 3.275689 |
| 9 | 200 | 0.5022000 | 0.5028571 | 0.0182075 | 0.0003315 | 0.4542857 | 0.5542857 | -0.0291875 | 2.942779 |
| 10 | 500 | 0.4998229 | 0.5000000 | 0.0223714 | 0.0005005 | 0.4314286 | 0.5600000 | -0.0818815 | 2.877816 |
Análisis: De acuerdo a las gráficas de qq-normalidad de las diferentes distribuciones, se puede concluir que a medida que se aumenta el tamaño de la muestra, mejora la aproximación a una distribución normal: la media muestral se torna más acampanada y lo más parecida a una distribución normal. Si se analiza la varianza, se valida que a mayor tamaño de muestra se reduce la varianza, validando el teorema del limite central. Por su parte, en la prueba Shapiro Wilks para las diferentes distribuciones evidenció en algunas ocasiones valores mayores a 0.05 rechanzado la Hipotesis nula (H0:distribución normal).
e. Repita toda la simulación (puntos a – d) pero ahora con lotes con 10% y 90% de plantas enfermas. Concluya todo el ejercicio.
Lote de 10% con plantas enfermas
a.
lote1= c(rep("Enfermas", 100), rep("Sanas",900))
lote1= sample(lote1)
table(lote1)
## lote1
## Enfermas Sanas
## 100 900
b.
calc_p_muestra1= function(n){
muestra1= sample(lote1, size = n)
p_muestra1= sum(muestra1== "Enfermas")/n
return(p_muestra1)
}
calc_p_muestra1(n=350)
## [1] 0.1
c.
posibles_p_muestra1= sapply(rep(350, 500), calc_p_muestra1)
hist(posibles_p_muestra1)
line = mean(posibles_p_muestra1)
abline(v=line, col="green", lwd=3)
library(moments)
Indicadores1=data.frame("ID"=0,"Tamaño_muestra"=350,"Media"=mean(posibles_p_muestra1),"Mediana"=median(posibles_p_muestra1),"Desvest"=sd(posibles_p_muestra1),"Varianza"=var(posibles_p_muestra1),"Mín."=min(posibles_p_muestra1),"Máx"=max(posibles_p_muestra1),"Asimetría"=skewness(posibles_p_muestra1), "Curtosis"= kurtosis(posibles_p_muestra1))
Indicadores1
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 0 | 350 | 0.10028 | 0.1 | 0.012549 | 0.0001575 | 0.0628571 | 0.14 | -0.0395757 | 3.207208 |
Análisis ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?
En la simulación, se observa graficamente que no hay una distribución muestral simétrica exacta, pero está muy cerca de estarlo. El coeficiente de asimetría calculado es negativo, muy cercano a 0 (en este caso de -0.00602305), lo que significa que presenta una asimetría negativa.
Por el contrario,la curtosis es positiva se trata de una distribución leptocúrtica, con una mayor concentración de los datos en torno a la media.En este sentido, el sesgo es positivo, la distribución tiene una cola asimétrica extendida hacia los valores positivos.El grado de concentración que presentan los valores en la región central de la distribución es significativa, es decir que la variabilidad no es muy alta.En este sentido, se evidencia que hay no hay una alta dispersión en los datos, según el indicador calculado en la tabla anterior (desviación estandar: 0.012662227).
d.
n=5
require(car)
posibles_p_muestra1_5 = sapply(rep(350, 5), calc_p_muestra1)
par(mfrow=c(1,4))
hist(posibles_p_muestra1_5, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:5",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra1_5), col="green", lwd=3)
plot(density(posibles_p_muestra1_5), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra1_5, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra1_5,col = 'green', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra1_5, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 2 3
Swn=shapiro.test(posibles_p_muestra1_5)
Swn
##
## Shapiro-Wilk normality test
##
## data: posibles_p_muestra1_5
## W = 0.83543, p-value = 0.1527
library(moments)
Indic1_5=data.frame("ID"=1,"Tamaño_muestra"=5,"Media"=mean(posibles_p_muestra1_5),"Mediana"=median(posibles_p_muestra1_5),"Desvest"=sd(posibles_p_muestra1_5),"Varianza"=var(posibles_p_muestra1_5),"Mín."=min(posibles_p_muestra1_5),"Máx"=max(posibles_p_muestra1_5),"Asimetría"=skewness(posibles_p_muestra1_5), "Curtosis"= kurtosis(posibles_p_muestra1_5))
Indic1_5
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 5 | 0.0982857 | 0.0914286 | 0.016238 | 0.0002637 | 0.0828571 | 0.1171429 | 0.314634 | 1.239833 |
n=10
require(car)
posibles_p_muestra1_10 = sapply(rep(350, 10), calc_p_muestra1)
par(mfrow=c(1,4))
hist(posibles_p_muestra1_10, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:10",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra1_10), col="green", lwd=3)
plot(density(posibles_p_muestra1_10), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra1_10, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra1_10,col = 'green', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra1_10, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 8 4
Swn=shapiro.test(posibles_p_muestra1_10)
Swn
##
## Shapiro-Wilk normality test
##
## data: posibles_p_muestra1_10
## W = 0.91388, p-value = 0.3087
library(moments)
Indic1_10=data.frame("ID"=2,"Tamaño_muestra"=10,"Media"=mean(posibles_p_muestra1_10),"Mediana"=median(posibles_p_muestra1_10),"Desvest"=sd(posibles_p_muestra1_10),"Varianza"=var(posibles_p_muestra1_10),"Mín."=min(posibles_p_muestra1_10),"Máx"=max(posibles_p_muestra1_10),"Asimetría"=skewness(posibles_p_muestra1_10), "Curtosis"= kurtosis(posibles_p_muestra1_10))
Indic1_10
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 2 | 10 | 0.1017143 | 0.1028571 | 0.0114444 | 0.000131 | 0.0771429 | 0.1142857 | -0.8603295 | 3.134468 |
n=15
require(car)
posibles_p_muestra1_15 = sapply(rep(350, 15), calc_p_muestra1)
par(mfrow=c(1,4))
hist(posibles_p_muestra1_15, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:15",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra1_15), col="green", lwd=3)
plot(density(posibles_p_muestra1_15), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra1_15, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra1_15,col = 'green', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra1_15, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 9 7
Swn=shapiro.test(posibles_p_muestra1_15)
Swn
##
## Shapiro-Wilk normality test
##
## data: posibles_p_muestra1_15
## W = 0.95958, p-value = 0.685
library(moments)
Indic1_15=data.frame("ID"=3,"Tamaño_muestra"=15,"Media"=mean(posibles_p_muestra1_15),"Mediana"=median(posibles_p_muestra1_15),"Desvest"=sd(posibles_p_muestra1_15),"Varianza"=var(posibles_p_muestra1_15),"Mín."=min(posibles_p_muestra1_15),"Máx"=max(posibles_p_muestra1_15),"Asimetría"=skewness(posibles_p_muestra1_15), "Curtosis"= kurtosis(posibles_p_muestra1_15))
Indic1_15
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 3 | 15 | 0.096 | 0.0971429 | 0.0154919 | 0.00024 | 0.0685714 | 0.12 | -0.1962439 | 1.907288 |
n=20
require(car)
posibles_p_muestra1_20 = sapply(rep(350, 20), calc_p_muestra1)
par(mfrow=c(1,4))
hist(posibles_p_muestra1_20, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:20",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra1_20), col="green", lwd=3)
plot(density(posibles_p_muestra1_20), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra1_20, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra1_20,col = 'green', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra1_20, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 3 10
Swn=shapiro.test(posibles_p_muestra1_20)
Swn
##
## Shapiro-Wilk normality test
##
## data: posibles_p_muestra1_20
## W = 0.96562, p-value = 0.661
library(moments)
Indic1_20=data.frame("ID"=4,"Tamaño_muestra"=20,"Media"=mean(posibles_p_muestra1_20),"Mediana"=median(posibles_p_muestra1_20),"Desvest"=sd(posibles_p_muestra1_20),"Varianza"=var(posibles_p_muestra1_20),"Mín."=min(posibles_p_muestra1_20),"Máx"=max(posibles_p_muestra1_20),"Asimetría"=skewness(posibles_p_muestra1_20), "Curtosis"= kurtosis(posibles_p_muestra1_20))
Indic1_20
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 4 | 20 | 0.101 | 0.1014286 | 0.01341 | 0.0001798 | 0.0771429 | 0.1314286 | 0.409806 | 3.069974 |
n=30
require(car)
posibles_p_muestra1_30 = sapply(rep(350, 30), calc_p_muestra1)
par(mfrow=c(1,4))
hist(posibles_p_muestra1_30, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:30",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra1_30), col="green", lwd=3)
plot(density(posibles_p_muestra1_30), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra1_30, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra1_30,col = 'green', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra1_30, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 24 12
Swn=shapiro.test(posibles_p_muestra1_30)
Swn
##
## Shapiro-Wilk normality test
##
## data: posibles_p_muestra1_30
## W = 0.98944, p-value = 0.988
library(moments)
Indic1_30=data.frame("ID"=5,"Tamaño_muestra"=30,"Media"=mean(posibles_p_muestra1_30),"Mediana"=median(posibles_p_muestra1_30),"Desvest"=sd(posibles_p_muestra1_30),"Varianza"=var(posibles_p_muestra1_30),"Mín."=min(posibles_p_muestra1_30),"Máx"=max(posibles_p_muestra1_30),"Asimetría"=skewness(posibles_p_muestra1_30), "Curtosis"= kurtosis(posibles_p_muestra1_30))
Indic1_30
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 5 | 30 | 0.1000952 | 0.1 | 0.0131142 | 0.000172 | 0.0714286 | 0.1314286 | 0.1566462 | 2.916201 |
n=50
require(car)
posibles_p_muestra1_50 = sapply(rep(350, 50), calc_p_muestra1)
par(mfrow=c(1,4))
hist(posibles_p_muestra1_50, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:50",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra1_50), col="green", lwd=3)
plot(density(posibles_p_muestra1_50), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra1_50, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra1_50,col = 'green', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra1_50, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 37 24
Swn=shapiro.test(posibles_p_muestra1_50)
Swn
##
## Shapiro-Wilk normality test
##
## data: posibles_p_muestra1_50
## W = 0.96683, p-value = 0.1715
library(moments)
Indic1_50=data.frame("ID"=6,"Tamaño_muestra"=50,"Media"=mean(posibles_p_muestra1_50),"Mediana"=median(posibles_p_muestra1_50),"Desvest"=sd(posibles_p_muestra1_50),"Varianza"=var(posibles_p_muestra1_50),"Mín."=min(posibles_p_muestra1_50),"Máx"=max(posibles_p_muestra1_50),"Asimetría"=skewness(posibles_p_muestra1_50), "Curtosis"= kurtosis(posibles_p_muestra1_50))
Indic1_50
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 6 | 50 | 0.0971429 | 0.0971429 | 0.0130229 | 0.0001696 | 0.0714286 | 0.1314286 | 0.322635 | 2.513789 |
n=60
n=100
require(car)
posibles_p_muestra1_100 = sapply(rep(350, 100), calc_p_muestra1)
par(mfrow=c(1,4))
hist(posibles_p_muestra1_100, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:100",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra1_100), col="green", lwd=3)
plot(density(posibles_p_muestra1_100), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra1_100, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra1_100,col = 'green', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra1_100, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 40 71
Swn=shapiro.test(posibles_p_muestra1_100)
Swn
##
## Shapiro-Wilk normality test
##
## data: posibles_p_muestra1_100
## W = 0.98435, p-value = 0.2848
library(moments)
Indic1_100=data.frame("ID"=8,"Tamaño_muestra"=100,"Media"=mean(posibles_p_muestra1_100),"Mediana"=median(posibles_p_muestra1_100),"Desvest"=sd(posibles_p_muestra1_100),"Varianza"=var(posibles_p_muestra1_100),"Mín."=min(posibles_p_muestra1_100),"Máx"=max(posibles_p_muestra1_100),"Asimetría"=skewness(posibles_p_muestra1_100), "Curtosis"= kurtosis(posibles_p_muestra1_100))
Indic1_100
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 8 | 100 | 0.1004 | 0.1 | 0.0134688 | 0.0001814 | 0.0714286 | 0.1285714 | -0.0358837 | 2.332283 |
n=200
require(car)
posibles_p_muestra1_200 = sapply(rep(350, 200), calc_p_muestra1)
par(mfrow=c(1,4))
hist(posibles_p_muestra1_200, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:200",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra1_200), col="green", lwd=3)
plot(density(posibles_p_muestra1_200), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra1_200, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra1_200,col = 'green', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra1_200, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 49 74
Swn=shapiro.test(posibles_p_muestra1_200)
Swn
##
## Shapiro-Wilk normality test
##
## data: posibles_p_muestra1_200
## W = 0.99207, p-value = 0.3499
library(moments)
Indic1_200=data.frame("ID"=9,"Tamaño_muestra"=200,"Media"=mean(posibles_p_muestra1_200),"Mediana"=median(posibles_p_muestra1_200),"Desvest"=sd(posibles_p_muestra1_200),"Varianza"=var(posibles_p_muestra1_200),"Mín."=min(posibles_p_muestra1_200),"Máx"=max(posibles_p_muestra1_200),"Asimetría"=skewness(posibles_p_muestra1_200), "Curtosis"= kurtosis(posibles_p_muestra1_200))
Indic1_200
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 9 | 200 | 0.0996143 | 0.1 | 0.0125759 | 0.0001582 | 0.0628571 | 0.1342857 | -0.0982503 | 3.19326 |
n=500
require(car)
posibles_p_muestra1_500 = sapply(rep(350, 500), calc_p_muestra1)
par(mfrow=c(1,4))
hist(posibles_p_muestra1_500, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:500",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra1_500), col="green", lwd=3)
plot(density(posibles_p_muestra1_500), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra1_500, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra1_500,col = 'green', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra1_500, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 316 136
Swn=shapiro.test(posibles_p_muestra1_500)
Swn
##
## Shapiro-Wilk normality test
##
## data: posibles_p_muestra1_500
## W = 0.99064, p-value = 0.002924
library(moments)
Indic1_500=data.frame("ID"=10,"Tamaño_muestra"=500,"Media"=mean(posibles_p_muestra1_500),"Mediana"=median(posibles_p_muestra1_500),"Desvest"=sd(posibles_p_muestra1_500),"Varianza"=var(posibles_p_muestra1_500),"Mín."=min(posibles_p_muestra1_500),"Máx"=max(posibles_p_muestra1_500),"Asimetría"=skewness(posibles_p_muestra1_500), "Curtosis"= kurtosis(posibles_p_muestra1_500))
Indic1_500
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 10 | 500 | 0.0995086 | 0.1 | 0.0120319 | 0.0001448 | 0.0685714 | 0.1457143 | 0.2380653 | 3.361924 |
Resultados1=rbind(Indic1_5,Indic1_10,Indic1_15,Indic1_20,Indic1_30,Indic1_50,Indic1_60,Indic1_100,Indic1_200,Indic1_500)
Resultados1
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 5 | 0.0982857 | 0.0914286 | 0.0162380 | 0.0002637 | 0.0828571 | 0.1171429 | 0.3146340 | 1.239833 |
| 2 | 10 | 0.1017143 | 0.1028571 | 0.0114444 | 0.0001310 | 0.0771429 | 0.1142857 | -0.8603295 | 3.134468 |
| 3 | 15 | 0.0960000 | 0.0971429 | 0.0154919 | 0.0002400 | 0.0685714 | 0.1200000 | -0.1962439 | 1.907288 |
| 4 | 20 | 0.1010000 | 0.1014286 | 0.0134100 | 0.0001798 | 0.0771429 | 0.1314286 | 0.4098060 | 3.069974 |
| 5 | 30 | 0.1000952 | 0.1000000 | 0.0131142 | 0.0001720 | 0.0714286 | 0.1314286 | 0.1566462 | 2.916201 |
| 6 | 50 | 0.0971429 | 0.0971429 | 0.0130229 | 0.0001696 | 0.0714286 | 0.1314286 | 0.3226350 | 2.513789 |
| 7 | 60 | 0.1018095 | 0.1000000 | 0.0120757 | 0.0001458 | 0.0771429 | 0.1400000 | 0.3247067 | 3.450906 |
| 8 | 100 | 0.1004000 | 0.1000000 | 0.0134688 | 0.0001814 | 0.0714286 | 0.1285714 | -0.0358837 | 2.332283 |
| 9 | 200 | 0.0996143 | 0.1000000 | 0.0125759 | 0.0001582 | 0.0628571 | 0.1342857 | -0.0982503 | 3.193260 |
| 10 | 500 | 0.0995086 | 0.1000000 | 0.0120319 | 0.0001448 | 0.0685714 | 0.1457143 | 0.2380653 | 3.361924 |
Lote de 90% plantas enfermas
a.
lote2= c(rep("Enfermas", 900), rep("Sanas",100))
lote2= sample(lote2)
table(lote2)
## lote2
## Enfermas Sanas
## 900 100
b
calc_p_muestra2= function(n){
muestra2= sample(lote2, size = n)
p_muestra2= sum(muestra2== "Enfermas")/n
return(p_muestra2)
}
calc_p_muestra2(n=350)
## [1] 0.9085714
c.
posibles_p_muestra2= sapply(rep(350, 500), calc_p_muestra2)
hist(posibles_p_muestra2)
line = mean(posibles_p_muestra2)
abline(v=line, col="orange", lwd=3)
library(moments)
Indicadores2=data.frame("ID"=0,"Tamaño_muestra"=350,"Media"=mean(posibles_p_muestra2),"Mediana"=median(posibles_p_muestra2),"Desvest"=sd(posibles_p_muestra2),"Varianza"=var(posibles_p_muestra2),"Mín."=min(posibles_p_muestra2),"Máx"=max(posibles_p_muestra2),"Asimetría"=skewness(posibles_p_muestra2), "Curtosis"= kurtosis(posibles_p_muestra2))
Indicadores2
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 0 | 350 | 0.8999886 | 0.9 | 0.0127762 | 0.0001632 | 0.8628571 | 0.94 | 0.2347059 | 3.134705 |
Análisis ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?
En la simulación, se observa graficamente que no hay una distribución muestral simétrica exacta, pero está muy cerca de estarlo. El coeficiente de asimetría calculado es negativo (en este caso de -0.0577553), lo que significa que presenta una asimetría negativa.
Por el contrario, la curtosis es positiva, se trata de una distribución leptocúrtica, con una mayor concentración de los datos en torno a la media.En este sentido, el sesgo es positivo, la distribución tiene una cola asimétrica extendida hacia los valores positivos.El grado de concentración que presentan los valores en la región central de la distribución es significativa, es decir que la variabilidad no es muy alta.En este sentido, se evidencia que hay no hay una alta dispersión en los datos, según el indicador calculado en la tabla anterior (desviación estandar: 0.0131054).
d.
n=5
require(car)
posibles_p_muestra2_5 = sapply(rep(350, 5), calc_p_muestra2)
par(mfrow=c(1,4))
hist(posibles_p_muestra2_5, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:5",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra2_5), col="orange", lwd=3)
plot(density(posibles_p_muestra2_5), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra2_5, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra2_5,col = 'orange', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra2_5, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 1 2
Swn=shapiro.test(posibles_p_muestra2_5)
Swn
##
## Shapiro-Wilk normality test
##
## data: posibles_p_muestra2_5
## W = 0.8867, p-value = 0.3408
library(moments)
Indic2_5=data.frame("ID"=1,"Tamaño_muestra"=5,"Media"=mean(posibles_p_muestra2_5),"Mediana"=median(posibles_p_muestra2_5),"Desvest"=sd(posibles_p_muestra2_5),"Varianza"=var(posibles_p_muestra2_5),"Mín."=min(posibles_p_muestra2_5),"Máx"=max(posibles_p_muestra2_5),"Asimetría"=skewness(posibles_p_muestra2_5), "Curtosis"= kurtosis(posibles_p_muestra2_5))
Indic2_5
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 5 | 0.9028571 | 0.9 | 0.0098974 | 9.8e-05 | 0.8942857 | 0.9171429 | 0.5244665 | 1.744792 |
n=10
n=15
n=20
require(car)
posibles_p_muestra2_20 = sapply(rep(350, 20), calc_p_muestra2)
par(mfrow=c(1,4))
hist(posibles_p_muestra2_20, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:20",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra2_20), col="orange", lwd=3)
plot(density(posibles_p_muestra2_20), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra2_20, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra2_20,col = 'orange', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra2_20, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 3 11
Swn=shapiro.test(posibles_p_muestra2_20)
Swn
##
## Shapiro-Wilk normality test
##
## data: posibles_p_muestra2_20
## W = 0.95657, p-value = 0.4777
library(moments)
Indic2_20=data.frame("ID"=4,"Tamaño_muestra"=20,"Media"=mean(posibles_p_muestra2_20),"Mediana"=median(posibles_p_muestra2_20),"Desvest"=sd(posibles_p_muestra2_20),"Varianza"=var(posibles_p_muestra2_20),"Mín."=min(posibles_p_muestra2_20),"Máx"=max(posibles_p_muestra2_20),"Asimetría"=skewness(posibles_p_muestra2_20), "Curtosis"= kurtosis(posibles_p_muestra2_20))
Indic2_20
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 4 | 20 | 0.902 | 0.9 | 0.0121254 | 0.000147 | 0.8828571 | 0.9285714 | 0.4595742 | 2.685493 |
n=30
require(car)
posibles_p_muestra2_30 = sapply(rep(350, 30), calc_p_muestra2)
par(mfrow=c(1,4))
hist(posibles_p_muestra2_30, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:30",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra2_30), col="orange", lwd=3)
plot(density(posibles_p_muestra2_30), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra2_30, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra2_30,col = 'orange', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra2_30, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 7 1
Swn=shapiro.test(posibles_p_muestra2_30)
Swn
##
## Shapiro-Wilk normality test
##
## data: posibles_p_muestra2_30
## W = 0.9657, p-value = 0.4291
library(moments)
Indic2_30=data.frame("ID"=5,"Tamaño_muestra"=30,"Media"=mean(posibles_p_muestra2_30),"Mediana"=median(posibles_p_muestra2_30),"Desvest"=sd(posibles_p_muestra2_30),"Varianza"=var(posibles_p_muestra2_30),"Mín."=min(posibles_p_muestra2_30),"Máx"=max(posibles_p_muestra2_30),"Asimetría"=skewness(posibles_p_muestra2_30), "Curtosis"= kurtosis(posibles_p_muestra2_30))
Indic2_30
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 5 | 30 | 0.8972381 | 0.8971429 | 0.0126109 | 0.000159 | 0.8742857 | 0.92 | 0.048334 | 2.222403 |
n=50
require(car)
posibles_p_muestra2_50 = sapply(rep(350, 50), calc_p_muestra2)
par(mfrow=c(1,4))
hist(posibles_p_muestra2_50, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:50",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra2_50), col="orange", lwd=3)
plot(density(posibles_p_muestra2_50), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra2_50, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra2_50,col = 'orange', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra2_50, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 27 22
Swn=shapiro.test(posibles_p_muestra2_50)
Swn
##
## Shapiro-Wilk normality test
##
## data: posibles_p_muestra2_50
## W = 0.97271, p-value = 0.2973
library(moments)
Indic2_50=data.frame("ID"=6,"Tamaño_muestra"=50,"Media"=mean(posibles_p_muestra2_50),"Mediana"=median(posibles_p_muestra2_50),"Desvest"=sd(posibles_p_muestra2_50),"Varianza"=var(posibles_p_muestra2_50),"Mín."=min(posibles_p_muestra2_50),"Máx"=max(posibles_p_muestra2_50),"Asimetría"=skewness(posibles_p_muestra2_50), "Curtosis"= kurtosis(posibles_p_muestra2_50))
Indic2_50
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 6 | 50 | 0.8982286 | 0.8957143 | 0.0123653 | 0.0001529 | 0.8714286 | 0.92 | -0.0025464 | 2.262323 |
n=60
require(car)
posibles_p_muestra2_60 = sapply(rep(350, 60), calc_p_muestra2)
par(mfrow=c(1,4))
hist(posibles_p_muestra2_60, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:60",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra2_60), col="orange", lwd=3)
plot(density(posibles_p_muestra2_60), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra2_60, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra2_60,col = 'orange', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra2_60, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 53 20
Swn=shapiro.test(posibles_p_muestra2_60)
Swn
##
## Shapiro-Wilk normality test
##
## data: posibles_p_muestra2_60
## W = 0.98806, p-value = 0.8241
library(moments)
Indic2_60=data.frame("ID"=7,"Tamaño_muestra"=60,"Media"=mean(posibles_p_muestra2_60),"Mediana"=median(posibles_p_muestra2_60),"Desvest"=sd(posibles_p_muestra2_60),"Varianza"=var(posibles_p_muestra2_60),"Mín."=min(posibles_p_muestra2_60),"Máx"=max(posibles_p_muestra2_60),"Asimetría"=skewness(posibles_p_muestra2_60), "Curtosis"= kurtosis(posibles_p_muestra2_60))
Indic2_60
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 7 | 60 | 0.8987143 | 0.8971429 | 0.0126734 | 0.0001606 | 0.8628571 | 0.9257143 | -0.1097483 | 3.107962 |
n=100
require(car)
posibles_p_muestra2_100 = sapply(rep(350, 100), calc_p_muestra2)
par(mfrow=c(1,4))
hist(posibles_p_muestra2_100, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:100",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra2_100), col="orange", lwd=3)
plot(density(posibles_p_muestra2_100), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra2_100, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra2_100,col = 'orange', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra2_100, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 57 44
Swn=shapiro.test(posibles_p_muestra2_100)
Swn
##
## Shapiro-Wilk normality test
##
## data: posibles_p_muestra2_100
## W = 0.98586, p-value = 0.3657
library(moments)
Indic2_100=data.frame("ID"=8,"Tamaño_muestra"=100,"Media"=mean(posibles_p_muestra2_100),"Mediana"=median(posibles_p_muestra2_100),"Desvest"=sd(posibles_p_muestra2_100),"Varianza"=var(posibles_p_muestra2_100),"Mín."=min(posibles_p_muestra2_100),"Máx"=max(posibles_p_muestra2_100),"Asimetría"=skewness(posibles_p_muestra2_100), "Curtosis"= kurtosis(posibles_p_muestra2_100))
Indic2_100
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 8 | 100 | 0.9006857 | 0.9 | 0.0127136 | 0.0001616 | 0.86 | 0.9285714 | -0.2865294 | 3.183297 |
n=200
n=500
require(car)
posibles_p_muestra2_500 = sapply(rep(350, 500), calc_p_muestra2)
par(mfrow=c(1,4))
hist(posibles_p_muestra2_500, las=1, ylab = "Frecuencia",main ="Muestra de tamaño:500",col = "gray",prob=TRUE)
abline(v=mean(posibles_p_muestra2_500), col="orange", lwd=3)
plot(density(posibles_p_muestra2_500), las=1, ylab = "Densidad", main = "")
qqnorm(posibles_p_muestra2_500, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(posibles_p_muestra2_500,col = 'orange', lwd = 2, lty = 2)
qqPlot(posibles_p_muestra2_500, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 4 177
Swn=shapiro.test(posibles_p_muestra2_500)
Swn
##
## Shapiro-Wilk normality test
##
## data: posibles_p_muestra2_500
## W = 0.99331, p-value = 0.0256
library(moments)
Indic2_500=data.frame("ID"=10,"Tamaño_muestra"=500,"Media"=mean(posibles_p_muestra2_500),"Mediana"=median(posibles_p_muestra2_500),"Desvest"=sd(posibles_p_muestra2_500),"Varianza"=var(posibles_p_muestra2_500),"Mín."=min(posibles_p_muestra2_500),"Máx"=max(posibles_p_muestra2_500),"Asimetría"=skewness(posibles_p_muestra2_500), "Curtosis"= kurtosis(posibles_p_muestra2_500))
Indic2_500
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 10 | 500 | 0.90016 | 0.9 | 0.0131588 | 0.0001732 | 0.8628571 | 0.9371429 | -0.1464575 | 2.918519 |
Resultados2=rbind(Indic2_5,Indic2_10,Indic2_15,Indic2_20,Indic2_30,Indic2_50,Indic2_60,Indic2_100,Indic2_200,Indic2_500)
Resultados2
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 5 | 0.9028571 | 0.9000000 | 0.0098974 | 0.0000980 | 0.8942857 | 0.9171429 | 0.5244665 | 1.744792 |
| 2 | 10 | 0.8982857 | 0.9014286 | 0.0155445 | 0.0002416 | 0.8714286 | 0.9200000 | -0.0991421 | 2.173078 |
| 3 | 15 | 0.8958095 | 0.9000000 | 0.0119702 | 0.0001433 | 0.8685714 | 0.9085714 | -0.9747078 | 2.882897 |
| 4 | 20 | 0.9020000 | 0.9000000 | 0.0121254 | 0.0001470 | 0.8828571 | 0.9285714 | 0.4595742 | 2.685493 |
| 5 | 30 | 0.8972381 | 0.8971429 | 0.0126109 | 0.0001590 | 0.8742857 | 0.9200000 | 0.0483340 | 2.222403 |
| 6 | 50 | 0.8982286 | 0.8957143 | 0.0123653 | 0.0001529 | 0.8714286 | 0.9200000 | -0.0025464 | 2.262323 |
| 7 | 60 | 0.8987143 | 0.8971429 | 0.0126734 | 0.0001606 | 0.8628571 | 0.9257143 | -0.1097483 | 3.107962 |
| 8 | 100 | 0.9006857 | 0.9000000 | 0.0127136 | 0.0001616 | 0.8600000 | 0.9285714 | -0.2865294 | 3.183297 |
| 9 | 200 | 0.9003000 | 0.9000000 | 0.0120110 | 0.0001443 | 0.8600000 | 0.9314286 | -0.1322990 | 3.005111 |
| 10 | 500 | 0.9001600 | 0.9000000 | 0.0131588 | 0.0001732 | 0.8628571 | 0.9371429 | -0.1464575 | 2.918519 |
Conclusión punto 1:
De acuerdo a los gráficos y la tabla anterior, se puede concluir que los datos tienen muy poca dispersión, si se tiene en cuenta que la desviación estándar es muy cercana a 0 dentro de un rango que oscila entre 0.01 y 0.02, por lo cual los datos están muy concentrados alrededor de la media real (0.9). En relación al coeficiente de asimetría muestra valores que aunque negativos estan muy cercanos a 0.
En cuanto a la variabilidad y teniendo en cuenta que el cálculo del coeficiente de curtosis (apuntamiento) indica un valor mayor a cero (0), entonces los datos se distribuyen de una forma leptocúrtica.Por lo tanto, el grado de concentración que presentan los valores en la región central de la distribución es significativo, es decir que la variabilidad no es muy alta.
Para valores de muestra mayores a 30 se cumple el teorema del límite central: la varianza disminuye cuando n aumenta, esto permite confirmar que los valores del estimador convergen al parametro real. En este sentido, la media muestral es muy similar a la media real, por tanto una sola muestra del lote sería representativa para inferir la generalidad.
En sintesis, al modificar la población cpn diferentes con proporciones de 10% y 90% de individuos enfermos respectivamente, podemos observar que los estimadores en ambos casos estan muy cercanos del valor del parametro respectivamente. Con relación a la aplicación de la prueba Shapiro-Wilk se concluye para muestras de tamaño n > 200 se logra aceptación y rechazo de la Hipotesis nula H0 hecho que se respalda con la grafica qq-plot de normalidad, donde las observaciones se sobreponen cada vez más con muestras de tamaño n > 200 en la linea compuesta por los valores nominales, acercandose mas a una distribución Gaussiana.
**a.* Suponga un escenario en el cual usted aplicó tratamientos diferentes a dos lotes y desea analizar si alguno de los dos presenta un mejor desempeño en el control de una plaga presente en ambos al momento inicial. Para ello utilizará como criterio de desempeño el tratamiento que menor % de plantas enfermas presente después de un tiempo de aplicación (es decir, si se presentan o no diferencias en las proporciones de enfermos P1 y P2). Realice una simulación en la cual genere dos poblaciones de N1=1000 (Lote1) y N2=1500 (Lote2), además asuma que el porcentaje de individuos (plantas) enfermas en ambos lotes sea la misma 10% (es decir, sin diferencias entre los tratamientos).
CrearPob = function(Tamaño = 1000, Enfermas = 0.5, Sanas = 0.5) {
Enf= round(Tamaño * Enfermas, 0)
San = round(Tamaño * Sanas, 0)
Pob= c(rep("Enfermas", Enf), rep("Sanas",San))
print(paste("Lote de tamaño: ", Tamaño, " Enfermas: ",Enf,"Sanas: ",San))
return(Pob)
}
loteN1=CrearPob(Tamaño = 1000, Enfermas = 0.1, Sanas = 0.9)
## [1] "Lote de tamaño: 1000 Enfermas: 100 Sanas: 900"
loteN2=CrearPob(Tamaño = 1500, Enfermas = 0.1, Sanas = 0.9)
## [1] "Lote de tamaño: 1500 Enfermas: 150 Sanas: 1350"
b. Genere una función que permita obtener una muestra aleatoria de los lotes y calcule el estimador de la proporción muestral para cada lote (p1 y p2) para un tamaño de muestra dado n1=n2. Calcule la diferencia entre los estimadores p1-p2.
Nota En este caso se elige n=350
CrearMuestra_P1P2 = function(Pob1, Pob2, Tamaño, Condicion) {
if (Tamaño<=length(Pob1)||Tamaño<=length(Pob2)) {
muestraN1 = sample(x = Pob1, size = Tamaño)
p_muestraN1 = sum(muestraN1 == Condicion)/Tamaño
muestraN2 = sample(x = Pob2, size = Tamaño)
p_muestraN2 = sum(muestraN2 == Condicion)/Tamaño
return(p_muestraN1-p_muestraN2)
}
else {
print("Error: el tamaño de la muestra es mayor que el tamaño de la población.")
return(-1)
}
}
n = 350
P1P2 = CrearMuestra_P1P2(Pob1 = loteN1, Pob2 = loteN2, n, Condicion = "Enfermas")
print(paste("Para una muestra de tamaño:", n, "del loteN1 y loteN2, se tiene un P1-P2 =",P1P2))
## [1] "Para una muestra de tamaño: 350 del loteN1 y loteN2, se tiene un P1-P2 = -0.00857142857142858"
c. Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores (diferencias p1-p2). ¿Qué tan simétricos son los datos?, ¿Son siempre cero las diferencias?
CrearMuestras_IterP1P2 = function(Pob1, Pob2, Tamaño, Condicion, Iteraciones) {
if (Tamaño<=length(Pob1)||Tamaño<=length(Pob2)) {
muestrasIter = array(NA,Iteraciones)
for (i in 1:Iteraciones) {
muestrasIter[i] = CrearMuestra_P1P2(Pob1, Pob2, Tamaño, Condicion)
}
return(muestrasIter)
}
else {
print("Error: el tamaño de la muestra es mayor al tamaño de la población.")
return(-1)
}
}
iter = 500
P1P2_muestras = CrearMuestras_IterP1P2 (Pob1 = loteN1, Pob2 = loteN2, Tamaño = n, Condicion = "Enfermas",Iteraciones = iter)
hist(P1P2_muestras,prob = TRUE, main = "Histograma con curva de densidad")
line = mean(P1P2_muestras)
abline(v=line, col="blue", lwd=3)
lines(density(P1P2_muestras), col = "magenta", lwd = 2)
Resultado3=data.frame("ID"=0,"Tamaño_muestra"=n, "Media"=mean(P1P2_muestras),"Mediana"=median(P1P2_muestras),"Desvest"=sd(P1P2_muestras),"Varianza"=var(P1P2_muestras), "Mín."=min(P1P2_muestras), "Máx"=max(P1P2_muestras),"Asimetría"=skewness(P1P2_muestras), "Curtosis"= kurtosis(P1P2_muestras))
Resultado3
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 0 | 350 | -0.0001371 | 0 | 0.0192616 | 0.000371 | -0.06 | 0.0571429 | 0.0776351 | 3.129262 |
Conclusión: Para una muestra de tamaño 350 la media obtenida ^P <> 0, aunque su mediana si es igual a 0, podemos ver que no todas las diferencias son cero. La asimetría es negativa para el caso de las diferencias. Por el contrario la curtosis es positiva, se trata de una distribución leptocúrtica, con una mayor concentración de los datos en torno a la media.En este sentido, el sesgo es positivo, la distribución tiene una cola asimétrica extendida hacia los valores positivos.El grado de concentración que presentan los valores en la región central de la distribución es significativa, es decir que la variabilidad no es muy alta.En este sentido, se evidencia que hay no hay una alta dispersión en los datos, según el indicador calculado en la tabla anterior (desviación estandar: 0.0191).
d. Realice los puntos b y c para tamaños de muestra n1=n2=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores (p1-p2) en cuanto a la normalidad. También analice el comportamiento de las diferencias y evalúe.¿Considera que es más probable concluir que existen diferencias entre los tratamientos con muestras grandes que pequeñas, es decir, cuál considera usted que es el efecto del tamaño de muestra en el caso de la comparación de proporciones?
TMuestras = c(10,15,20,30,50,60,100,200,500)
iter = 500
for (i in 1:length(TMuestras)) {
P1P2_muestras = CrearMuestras_IterP1P2 (Pob1 = loteN1, Pob = loteN2, Tamaño = n, Condicion = "Enfermas",Iteraciones = iter)
par(mfrow=c(1,2))
hist(P1P2_muestras, las=1, ylab = "Frecuencia", title = TMuestras[i], main = paste("Tamaño de muestra:", TMuestras[i]), col = "gray",prob = TRUE)
abline(v=mean(P1P2_muestras), col="blue", lwd=3)
lines(density(P1P2_muestras), col = "magenta", lwd = 2)
qqnorm(P1P2_muestras, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(P1P2_muestras,col = 'magenta', lwd = 2, lty = 2)
print(paste("Para un tamaño de muestra: ", TMuestras[i]))
print(shapiro.test(P1P2_muestras))
x=data.frame("ID"=i,"Tamaño_muestra"=TMuestras[i],
"Media"=mean(P1P2_muestras),
"Mediana"=median(P1P2_muestras),
"Desvest"=sd(P1P2_muestras),
"Varianza"=var(P1P2_muestras),
"Mín."=min(P1P2_muestras),
"Máx"=max(P1P2_muestras),
"Asimetría"=skewness(P1P2_muestras),
"Curtosis"= kurtosis(P1P2_muestras)
)
Resultado3=rbind(Resultado3,x)
}
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter
## [1] "Para un tamaño de muestra: 10"
##
## Shapiro-Wilk normality test
##
## data: P1P2_muestras
## W = 0.99577, p-value = 0.1975
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter
## [1] "Para un tamaño de muestra: 15"
##
## Shapiro-Wilk normality test
##
## data: P1P2_muestras
## W = 0.98844, p-value = 0.0005482
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter
## [1] "Para un tamaño de muestra: 20"
##
## Shapiro-Wilk normality test
##
## data: P1P2_muestras
## W = 0.99665, p-value = 0.3858
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter
## [1] "Para un tamaño de muestra: 30"
##
## Shapiro-Wilk normality test
##
## data: P1P2_muestras
## W = 0.99654, p-value = 0.357
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter
## [1] "Para un tamaño de muestra: 50"
##
## Shapiro-Wilk normality test
##
## data: P1P2_muestras
## W = 0.99573, p-value = 0.1927
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter
## [1] "Para un tamaño de muestra: 60"
##
## Shapiro-Wilk normality test
##
## data: P1P2_muestras
## W = 0.99373, p-value = 0.03646
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter
## [1] "Para un tamaño de muestra: 100"
##
## Shapiro-Wilk normality test
##
## data: P1P2_muestras
## W = 0.99608, p-value = 0.2537
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter
## [1] "Para un tamaño de muestra: 200"
##
## Shapiro-Wilk normality test
##
## data: P1P2_muestras
## W = 0.99343, p-value = 0.02826
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter
## [1] "Para un tamaño de muestra: 500"
##
## Shapiro-Wilk normality test
##
## data: P1P2_muestras
## W = 0.99621, p-value = 0.2803
Resultado3
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 0 | 350 | -0.0001371 | 0 | 0.0192616 | 0.0003710 | -0.0600000 | 0.0571429 | 0.0776351 | 3.129262 |
| 1 | 10 | 0.0010057 | 0 | 0.0177071 | 0.0003135 | -0.0485714 | 0.0571429 | 0.0817347 | 2.755118 |
| 2 | 15 | -0.0020743 | 0 | 0.0201964 | 0.0004079 | -0.0685714 | 0.0857143 | -0.1306435 | 3.863385 |
| 3 | 20 | 0.0002800 | 0 | 0.0191437 | 0.0003665 | -0.0571429 | 0.0657143 | -0.0524017 | 3.006445 |
| 4 | 30 | 0.0012114 | 0 | 0.0189556 | 0.0003593 | -0.0571429 | 0.0600000 | 0.1265986 | 2.967208 |
| 5 | 50 | -0.0006743 | 0 | 0.0201000 | 0.0004040 | -0.0628571 | 0.0628571 | 0.0104944 | 3.218237 |
| 6 | 60 | 0.0009429 | 0 | 0.0191891 | 0.0003682 | -0.0514286 | 0.0485714 | -0.1435594 | 2.851983 |
| 7 | 100 | 0.0004686 | 0 | 0.0187021 | 0.0003498 | -0.0600000 | 0.0657143 | -0.0782727 | 2.959751 |
| 8 | 200 | 0.0004914 | 0 | 0.0194090 | 0.0003767 | -0.0542857 | 0.0657143 | 0.1608968 | 3.362599 |
| 9 | 500 | -0.0010914 | 0 | 0.0193198 | 0.0003733 | -0.0657143 | 0.0628571 | -0.0708249 | 3.094028 |
Análisis:
Se observa que el cálculo de asimetría fluctua con pequeños saltos en su cercanía al cero cada que se incrementa el tamaño de muestra, en esta simulación osciló en mayor medida entre valores negativos muy cercanos a cero.
En cuanto a la variabilidad y teniendo en cuenta que el cálculo del coeficiente de curtosis (apuntamiento) indica un valor mayor a cero (0), entonces los datos se distribuyen de una forma leptocúrtica, lo que nos permite confirmar que el grado de concentración que presentan los valores en la región central de la distribución P1-P2 es significativo, es decir que la variabilidad no es muy alta (desviación estándar entre 0.01 y 0.02).
Dado que los datos tienen un alto grado de concentración en la región central, podemos sugerir la siguiente hipótesis nula (H0):
H0: “La diferencia de las medias muestrales (P1-P2) es una distribución normal cuando n>=500” Si indicamos un intervalo de confianza del 95%, por lo cual el “p-alfa” de referencia será 0.05 y teniendo en cuenta que el “p-value” obtenido de la prueba de normalidad (aplicando Shapiro-Wilks) es mayor al 0.05 cuando n=500 (en esta simulació fue de 0.1176), entonces no tenemos evidencia suficiente para rechazar la hipótesis nula, y podemos concluir que la distribución P1-P2 es normal.
e. Ahora realice nuevamente los puntos a-d bajo un escenario con dos lotes, pero de proporciones de enfermos diferentes (P1=0.1 y P2=0.15), es decir, el tratamiento del lote 1 si presentó un mejor desempeño reduciendo en un 5% el porcentaje de enfermos. Bajo este nuevo escenario compare la distribución de estas diferencias (p1- p2) con las observadas bajo igualdad de condiciones en los lotes. ¿Qué puede concluir? ¿Existen puntos en los cuales es posible que se observen diferencias de p1- p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2: diferencia de 5%)?
a.
loteN1_1 = CrearPob(Tamaño = 1000, Enfermas = 0.1, Sanas = 0.9)
## [1] "Lote de tamaño: 1000 Enfermas: 100 Sanas: 900"
loteN2_1 = CrearPob(Tamaño = 1500, Enfermas = 0.15, Sanas = 0.85)
## [1] "Lote de tamaño: 1500 Enfermas: 225 Sanas: 1275"
b
n = 350
P1P2_1 = CrearMuestra_P1P2(Pob1 = loteN1_1, Pob2= loteN2_1, n, Condicion = "Enfermas")
print(paste("Para un tamaño de muestra:", n, "de ambos lotes, se tiene un P1-P2 =",P1P2_1))
## [1] "Para un tamaño de muestra: 350 de ambos lotes, se tiene un P1-P2 = -0.0771428571428571"
c.
iter = 500
P1P2_muestras1= CrearMuestras_IterP1P2 (Pob1 = loteN1_1, Pob2 = loteN2_1, Tamaño = n, Condicion = "Enfermas",Iteraciones = iter)
hist(P1P2_muestras1, prob= TRUE)
line = mean(P1P2_muestras1)
abline(v=line, col="blue", lwd=3)
lines(density(P1P2_muestras1), col = "magenta", lwd = 2)
Resultado4=data.frame("ID"=0,"Tamaño_muestra"=n, "Media"=mean(P1P2_muestras1),"Mediana"=median(P1P2_muestras1),"Desvest"=sd(P1P2_muestras1),"Varianza"=var(P1P2_muestras1), "Mín."=min(P1P2_muestras1), "Máx"=max(P1P2_muestras1),"Asimetría"=skewness(P1P2_muestras1), "Curtosis"= kurtosis(P1P2_muestras1))
Resultado4
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 0 | 350 | -0.0504743 | -0.0485714 | 0.0212131 | 0.00045 | -0.1228571 | 0.02 | -0.1581558 | 3.27034 |
d.
for (i in 1:length(TMuestras)) {
P1P2_muestras= CrearMuestras_IterP1P2 (Pob1 = loteN1_1, Pob2 = loteN2_1, Tamaño = n, Condicion = "Enfermas",Iteraciones = iter)
par(mfrow=c(1,2))
hist(P1P2_muestras, las=1, ylab = "Frecuencia", title = TMuestras[i], prob = TRUE, main = paste("Muestra de tamaño:", TMuestras[i]), col = "gray")
lines(density(P1P2_muestras),col="magenta", lwd=3)
abline(v=mean(P1P2_muestras), col="green", lwd=3)
qqnorm(P1P2_muestras, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",main="qq-normalidad")
qqline(P1P2_muestras,col = 'magenta', lwd = 2, lty = 2)
print(paste("Para una muestra de tamaño: ", TMuestras[i]))
print(shapiro.test(P1P2_muestras))
x=data.frame("ID"=i,"Tamaño_muestra"=TMuestras[i],
"Media"=mean(P1P2_muestras),
"Mediana"=median(P1P2_muestras),
"Desvest"=sd(P1P2_muestras),
"Varianza"=var(P1P2_muestras),
"Mín."=min(P1P2_muestras),
"Máx"=max(P1P2_muestras),
"Asimetría"=skewness(P1P2_muestras),
"Curtosis"= kurtosis(P1P2_muestras)
)
Resultado4=rbind(Resultado4,x)
}
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter
## [1] "Para una muestra de tamaño: 10"
##
## Shapiro-Wilk normality test
##
## data: P1P2_muestras
## W = 0.99518, p-value = 0.1225
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter
## [1] "Para una muestra de tamaño: 15"
##
## Shapiro-Wilk normality test
##
## data: P1P2_muestras
## W = 0.99551, p-value = 0.1604
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter
## [1] "Para una muestra de tamaño: 20"
##
## Shapiro-Wilk normality test
##
## data: P1P2_muestras
## W = 0.99582, p-value = 0.207
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter
## [1] "Para una muestra de tamaño: 30"
##
## Shapiro-Wilk normality test
##
## data: P1P2_muestras
## W = 0.99662, p-value = 0.3795
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter
## [1] "Para una muestra de tamaño: 50"
##
## Shapiro-Wilk normality test
##
## data: P1P2_muestras
## W = 0.99685, p-value = 0.445
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter
## [1] "Para una muestra de tamaño: 60"
##
## Shapiro-Wilk normality test
##
## data: P1P2_muestras
## W = 0.99175, p-value = 0.007094
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter
## [1] "Para una muestra de tamaño: 100"
##
## Shapiro-Wilk normality test
##
## data: P1P2_muestras
## W = 0.99612, p-value = 0.2618
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter
## [1] "Para una muestra de tamaño: 200"
##
## Shapiro-Wilk normality test
##
## data: P1P2_muestras
## W = 0.99655, p-value = 0.3602
## Warning in plot.window(xlim, ylim, "", ...): "title" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "title"
## is not a graphical parameter
## Warning in axis(1, ...): "title" is not a graphical parameter
## Warning in axis(2, ...): "title" is not a graphical parameter
## [1] "Para una muestra de tamaño: 500"
##
## Shapiro-Wilk normality test
##
## data: P1P2_muestras
## W = 0.99625, p-value = 0.2875
Resultado4
| ID | Tamaño_muestra | Media | Mediana | Desvest | Varianza | Mín. | Máx | Asimetría | Curtosis |
|---|---|---|---|---|---|---|---|---|---|
| 0 | 350 | -0.0504743 | -0.0485714 | 0.0212131 | 0.0004500 | -0.1228571 | 0.0200000 | -0.1581558 | 3.270340 |
| 1 | 10 | -0.0493257 | -0.0485714 | 0.0210132 | 0.0004416 | -0.1028571 | 0.0200000 | 0.0205243 | 2.703974 |
| 2 | 15 | -0.0504400 | -0.0485714 | 0.0213039 | 0.0004539 | -0.1171429 | 0.0171429 | -0.1447674 | 3.044022 |
| 3 | 20 | -0.0512686 | -0.0514286 | 0.0217971 | 0.0004751 | -0.1114286 | 0.0057143 | -0.0207787 | 2.774894 |
| 4 | 30 | -0.0501943 | -0.0485714 | 0.0211140 | 0.0004458 | -0.1142857 | 0.0085714 | -0.0745567 | 2.882790 |
| 5 | 50 | -0.0508057 | -0.0514286 | 0.0223444 | 0.0004993 | -0.1142857 | 0.0228571 | 0.0342405 | 3.068674 |
| 6 | 60 | -0.0511086 | -0.0514286 | 0.0200591 | 0.0004024 | -0.1400000 | 0.0057143 | -0.1129749 | 3.299733 |
| 7 | 100 | -0.0499886 | -0.0514286 | 0.0216897 | 0.0004704 | -0.1057143 | 0.0114286 | 0.0295360 | 2.726430 |
| 8 | 200 | -0.0501257 | -0.0514286 | 0.0200135 | 0.0004005 | -0.1171429 | 0.0114286 | 0.1028436 | 3.022224 |
| 9 | 500 | -0.0499943 | -0.0485714 | 0.0220792 | 0.0004875 | -0.1142857 | 0.0200000 | 0.1499102 | 2.981483 |
Conclusión: Al comparar p1-p2 y p1-p2 (mejorado al 5%), se concluye que en ambos casos se evidencia una baja dispersión de los datos y una concentración importante alrededor de la media real. Resalta que en el lote mejorado a medida que se aumenta el tamaño de la muestra no se observa un comportamiento lineal de la asimetría y el apuntamiento, estos dos datos se modifican en la medida en que el tamaño de muestra tiende a infinito, sin embargo la concentración de datos se mantiene alta alrededor del cero.
También, destaca que a medida que el tamaño de la muestra aumenta se evidencia una mejoría en los indicadores de variabilidad. El cálculo del coeficiente de curtosis (apuntamiento) indica un valor mayor a cero (0) con valores muy similares a la muestra de P1-P2, entonces los datos se distribuyen de una forma leptocúrtica, lo que valida que la variabilidad no es muy alta.
De esta manera, se determina que a nivel estadistico ambos escenarios hacen que los p1 y p2 muestrales (estimadores) converjan a los valores reales (parámetros).
En cuanto al desempeño del lote 1, destaca el resultado de la prueba de normalidad cuya hipotesis nula es confirmada con tamaños de muestras mayores o iguales a 200. Por ello, hay suficiente evidencia para no rechachar la hipótesis que realizando pequeños ajustes o mejoras de proporción al lote original se puede lograr distribuciones normales con tamaños de muestras cada vez más pequeños con individuos suficientemente representativos que permitan hacer inferencia estadística hacia la población en general.
La reflexión planteada en Nuzzo, R. (2014) sobre el valor p hace alusión sobre la interpretación y variedad de conclusiones generalizadas que surgen al utilizar este criterio estadístico como apoyo a la toma de decisiones, y en este sentido al uso que a traves de los años se le ha dado en diferentes investigaciones o proyectos en los cuales se usa este indicador.
Se destaca que la popularidad del p-valor se puede ver influenciada por su facilidad de uso y la posibilidad de usarse como mecanismo automático para tomar decisiones sin otros criterios más profundos o detallados que lo apoyen. Por ello, gran parte del problema está en la interpretación errónea que se le da al p valor mas no en que este indicador no funcione.
Ante esto, Ruzzo destaca que diversos estadísticos a lo largo de la historia, han propuesto diferentes técnicas para utilizar e interpretar complementariamente el valor P de tal forma que los resultados sean más robustos. Un ejemplo de ello son los intervalos de confianza, tamaños de efectos y las reglas de bayes como soporte para los datos, entre otras. Adicional a ello, en esta reflexión se plantean tres preguntas al momento de hacer un estudio y analizar los resultados dl valor P :“¿Cuál es la evidencia?”, “¿Qué debo creer?” y “¿Qué debo creer?” ¿Sí?’, en términos generales, se debe siempre analiar los datos y el contexto en el cual se esta trabajando para valdiar y aceptar de forma segura los resultados obtenidos.
De forma particular, en esta reflexión me llamó la atención la siguiente frase: “Los críticos también lamentan la forma en que los valores P pueden fomentar el pensamiento confuso. Cualquier reforma tendría que barrer a través de una cultura arraigada. tendría que cambiar cómo se enseña estadística, cómo se realiza el análisis de datos y cómo se informan e interpretan los resultados.”
Para finalizar y desde mi opinión, con este taller de simulación a forma personal evidencié que cada vez que se modificaban los datos o muestras, se reflejaba inmediatamente un cambio directo en el valor p. Este hecho frecuente sucedia cada vez que se tomaba una muestra diferente y en cada caso, se podia o no rechazar hipótesis nula. Esto en pocas palabras, valida que el valor p es una media estadistica muy util pero que por si sola en muchas ocasiones no representa el contexto y los resultados de una forma adecuada o fija. Por ello, considero que el análisis inferencial de datos y en general, no solo debe considerar un criterio para la toma de decisiones, si no complementarse con el apoyo de otro tipo de herramientas como gráficos, test adicionales, conocimiento a priori y completo del contexto bajo el cual estemos trabajando , pruebas de simulación, entre otras técnicas para fortalecer la toma de decisiones y obtener mejores resultados.
Referecias
Nuzzo, R. (2014). Statistical errors: P values, the’gold standard’of statistical validity, are not as reliable as many scientists assume. Nature, 506(7487), 150-153.