Punto 1.

a.

Realice una simulación en la cual genere una población de N=1000 (Lote) y además que el porcentaje de individuos (plantas) enfermas sea del 50%.

poblacion=c(rep("enfermo",500), rep("sano",500))

b.

Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n.

estimador_enfermo = function(n){
muestra= sample(poblacion, size=n)
estimador=sum(muestra == "enfermo")/n
return(estimador)
}
estimador_enfermo(n=150)
## [1] 0.4933333

c.

Repita el escenario anterior (b) 10.000 veces y analice los resultados en cuanto al comportamiento de los 10.000 estimadores. ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?

posible_estimador =sapply(rep(100,10000), estimador_enfermo)
hist(posible_estimador)
abline(v=mean(posible_estimador),col="blue", lwd=3)

promedio= mean(posible_estimador)
promedio
## [1] 0.501012
sd(posible_estimador)
## [1] 0.04692223
library(moments)
skewness(posible_estimador)
## [1] -0.01173087
varianza= function(posible_estimador){
  sum((posible_estimador-mean(posible_estimador))^2)/(length(posible_estimador)-1)}
varianza(posible_estimador)
## [1] 0.002201696

d.

Realice los ejercicios completos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad).

–Ejercicio n=5

require(car)
posible_estimado_n5 =sapply(rep(150,5), estimador_enfermo)
par(mfrow= c(1,3))
hist(posible_estimado_n5)
plot(density(posible_estimado_n5), las=1, ylab = "Densidad", main = "")
abline(v=mean(posible_estimado_n5),col="blue", lwd=3)
qqPlot(posible_estimado_n5, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 1 4
Swn= shapiro.test(posible_estimado_n5)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posible_estimado_n5
## W = 0.93653, p-value = 0.6415

–Ejercicio n=10

posible_estimado_n10 =sapply(rep(150,10), estimador_enfermo)
par(mfrow= c(1,3))
hist(posible_estimado_n10)
plot(density(posible_estimado_n10), las=1, ylab = "Densidad", main = "")
abline(v=mean(posible_estimado_n10),col="blue", lwd=3)
qqPlot(posible_estimado_n10, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 7 9
Swn= shapiro.test(posible_estimado_n10)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posible_estimado_n10
## W = 0.90833, p-value = 0.2697

–Ejercicio n= 15

require(car)
posible_estimado_n15 =sapply(rep(150,15), estimador_enfermo)
par(mfrow= c(1,3))
hist(posible_estimado_n15)
plot(density(posible_estimado_n15), las=1, ylab = "Densidad", main = "")
abline(v=mean(posible_estimado_n15),col="blue", lwd=3)
qqPlot(posible_estimado_n15, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1]  1 11
Swn= shapiro.test(posible_estimado_n15)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posible_estimado_n15
## W = 0.95394, p-value = 0.5885

–Ejercicio n=20

require(car)
posible_estimado_n20 =sapply(rep(150,20), estimador_enfermo)
par(mfrow= c(1,3))
hist(posible_estimado_n20)
plot(density(posible_estimado_n20), las=1, ylab = "Densidad", main = "")
abline(v=mean(posible_estimado_n20),col="blue", lwd=3)
qqPlot(posible_estimado_n20, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 13  5
Swn= shapiro.test(posible_estimado_n20)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posible_estimado_n20
## W = 0.97815, p-value = 0.908

–Ejercicio n=30

require(car)
posible_estimado_n30 =sapply(rep(150,30), estimador_enfermo)
par(mfrow= c(1,3))
hist(posible_estimado_n30)
plot(density(posible_estimado_n30), las=1, ylab = "Densidad", main = "")
abline(v=mean(posible_estimado_n30),col="blue", lwd=3)
qqPlot(posible_estimado_n30, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 19  8
Swn= shapiro.test(posible_estimado_n30)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posible_estimado_n30
## W = 0.96707, p-value = 0.4625

–Ejercicio n=50

require(car)
posible_estimado_n50 =sapply(rep(150,50), estimador_enfermo)
par(mfrow= c(1,3))
hist(posible_estimado_n50)
plot(density(posible_estimado_n50), las=1, ylab = "Densidad", main = "")
abline(v=mean(posible_estimado_n50),col="blue", lwd=3)
qqPlot(posible_estimado_n50, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 13 11
Swn= shapiro.test(posible_estimado_n50)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posible_estimado_n50
## W = 0.96918, p-value = 0.2143

–Ejercicio n=60

require(car)
posible_estimado_n60 =sapply(rep(150,60), estimador_enfermo)
par(mfrow= c(1,3))
hist(posible_estimado_n60)
plot(density(posible_estimado_n60), las=1, ylab = "Densidad", main = "")
abline(v=mean(posible_estimado_n60),col="blue", lwd=3)
qqPlot(posible_estimado_n60, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1]  2 21
Swn= shapiro.test(posible_estimado_n60)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posible_estimado_n60
## W = 0.97448, p-value = 0.2402

–Ejercicio n=100

require(car)
posible_estimado_n100 =sapply(rep(150,100), estimador_enfermo)
par(mfrow= c(1,3))
hist(posible_estimado_n100)
plot(density(posible_estimado_n100), las=1, ylab = "Densidad", main = "")
abline(v=mean(posible_estimado_n100),col="blue", lwd=3)
qqPlot(posible_estimado_n100, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 65 80
Swn= shapiro.test(posible_estimado_n100)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posible_estimado_n100
## W = 0.9898, p-value = 0.6486

–Ejercicio n=200

require(car)
posible_estimado_n200 =sapply(rep(150,200), estimador_enfermo)
par(mfrow= c(1,3))
hist(posible_estimado_n200)
plot(density(posible_estimado_n200), las=1, ylab = "Densidad", main = "")
abline(v=mean(posible_estimado_n200),col="blue", lwd=3)
qqPlot(posible_estimado_n200, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 142 104
Swn= shapiro.test(posible_estimado_n200)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posible_estimado_n200
## W = 0.98589, p-value = 0.04345

–Ejercicio n= 500

require(car)
posible_estimado_n500 =sapply(rep(150,500), estimador_enfermo)
par(mfrow= c(1,3))
hist(posible_estimado_n500)
plot(density(posible_estimado_n500), las=1, ylab = "Densidad", main = "")
abline(v=mean(posible_estimado_n500),col="blue", lwd=3)
qqPlot(posible_estimado_n500, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 446  85
Swn= shapiro.test(posible_estimado_n500)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posible_estimado_n500
## W = 0.99532, p-value = 0.1375

e.

Repita toda la simulación (puntos a – d) pero ahora con lotes con 10% y 90% de plantas enfermas. Concluya todo el ejercicio

–Lotes 10%

poblacion_lote10=c(rep("enfermo",100), rep("sano",900))
estimador_enfermo_10 = function(n){
muestra_10= sample(poblacion_lote10, size=n)
estimador_10=sum(muestra_10 == "enfermo")/n
return(estimador_10)
}
estimador_enfermo_10(n=80)
## [1] 0.125
posible_estimador_10 =sapply(rep(80,10000), estimador_enfermo_10)
hist(posible_estimador_10)
abline(v=mean(posible_estimador_10),col="blue", lwd=3)

mean(posible_estimador_10)
## [1] 0.09978625
sd(posible_estimador_10)
## [1] 0.03237977
library(moments)
skewness(posible_estimador_10)
## [1] 0.272506
varianza= function(posible_estimador_10){
sum((posible_estimador_10-mean(posible_estimador_10))^2)/(length(posible_estimador_10)-1)}
varianza(posible_estimador_10)
## [1] 0.00104845

–Ejercicio n=5

require(car)
posible_estimado_10_n5 =sapply(rep(80,5), estimador_enfermo_10)
par(mfrow= c(1,3))
hist(posible_estimado_10_n5)
plot(density(posible_estimado_10_n5), las=1, ylab = "Densidad", main = "")
abline(v=mean(posible_estimado_10_n5),col="blue", lwd=3)
qqPlot(posible_estimado_10_n5, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 1 2
Swn= shapiro.test(posible_estimado_10_n5)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posible_estimado_10_n5
## W = 0.90345, p-value = 0.4292

–Ejercicio n=10

require(car)
posible_estimado_10_n10 =sapply(rep(80,10), estimador_enfermo_10)
par(mfrow= c(1,3))
hist(posible_estimado_10_n10)
plot(density(posible_estimado_10_n10), las=1, ylab = "Densidad", main = "")
abline(v=mean(posible_estimado_10_n10),col="blue", lwd=3)
qqPlot(posible_estimado_10_n10, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 1 8
Swn= shapiro.test(posible_estimado_10_n10)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posible_estimado_10_n10
## W = 0.88619, p-value = 0.1536

–Ejercicio n=15

require(car)
posible_estimado_10_n15 =sapply(rep(80,15), estimador_enfermo_10)
par(mfrow= c(1,3))
hist(posible_estimado_10_n15)
plot(density(posible_estimado_10_n15), las=1, ylab = "Densidad", main = "")
abline(v=mean(posible_estimado_10_n15),col="blue", lwd=3)
qqPlot(posible_estimado_10_n15, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 1 6
Swn= shapiro.test(posible_estimado_10_n15)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posible_estimado_10_n15
## W = 0.90307, p-value = 0.106

–Ejercicio n=20

require(car)
posible_estimado_10_n20 =sapply(rep(80,20), estimador_enfermo_10)
par(mfrow= c(1,3))
hist(posible_estimado_10_n20)
plot(density(posible_estimado_10_n20), las=1, ylab = "Densidad", main = "")
abline(v=mean(posible_estimado_10_n20),col="blue", lwd=3)
qqPlot(posible_estimado_10_n20, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 13  4
Swn= shapiro.test(posible_estimado_10_n20)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posible_estimado_10_n20
## W = 0.97581, p-value = 0.8694

–Ejercicio n=30

require(car)
posible_estimado_10_n30 =sapply(rep(80,30), estimador_enfermo_10)
par(mfrow= c(1,3))
hist(posible_estimado_10_n30)
plot(density(posible_estimado_10_n30), las=1, ylab = "Densidad", main = "")
abline(v=mean(posible_estimado_10_n30),col="blue", lwd=3)
qqPlot(posible_estimado_10_n30, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 10  1
Swn= shapiro.test(posible_estimado_10_n30)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posible_estimado_10_n30
## W = 0.94999, p-value = 0.1689

–Ejercicio n=50

require(car)
posible_estimado_10_n50 =sapply(rep(80,50), estimador_enfermo_10)
par(mfrow= c(1,3))
hist(posible_estimado_10_n50)
plot(density(posible_estimado_10_n50), las=1, ylab = "Densidad", main = "")
abline(v=mean(posible_estimado_10_n50),col="blue", lwd=3)
qqPlot(posible_estimado_10_n50, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 1 6
Swn= shapiro.test(posible_estimado_10_n50)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posible_estimado_10_n50
## W = 0.96992, p-value = 0.2297

–Ejercicio n=60

require(car)
posible_estimado_10_n60 =sapply(rep(80,60), estimador_enfermo_10)
par(mfrow= c(1,3))
hist(posible_estimado_10_n60)
plot(density(posible_estimado_10_n60), las=1, ylab = "Densidad", main = "")
abline(v=mean(posible_estimado_10_n60),col="blue", lwd=3)
qqPlot(posible_estimado_10_n60, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 16 17
Swn= shapiro.test(posible_estimado_10_n60)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posible_estimado_10_n60
## W = 0.97338, p-value = 0.2128

–Ejercicio n=100

require(car)
posible_estimado_10_n100 =sapply(rep(80,100), estimador_enfermo_10)
par(mfrow= c(1,3))
hist(posible_estimado_10_n100)
plot(density(posible_estimado_10_n100), las=1, ylab = "Densidad", main = "")
abline(v=mean(posible_estimado_10_n100),col="blue", lwd=3)
qqPlot(posible_estimado_10_n100, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 41 14
Swn= shapiro.test(posible_estimado_10_n100)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posible_estimado_10_n100
## W = 0.94288, p-value = 0.0002901

–Ejercicio n=200

require(car)
posible_estimado_10_n200 =sapply(rep(80,200), estimador_enfermo_10)
par(mfrow= c(1,3))
hist(posible_estimado_10_n200)
plot(density(posible_estimado_10_n200), las=1, ylab = "Densidad", main = "")
abline(v=mean(posible_estimado_10_n200),col="blue", lwd=3)
qqPlot(posible_estimado_10_n200, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 123  15
Swn= shapiro.test(posible_estimado_10_n200)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posible_estimado_10_n200
## W = 0.96547, p-value = 8.111e-05

–Ejercicio n=500

require(car)
posible_estimado_10_n500 =sapply(rep(80,500), estimador_enfermo_10)
par(mfrow= c(1,3))
hist(posible_estimado_10_n500)
plot(density(posible_estimado_10_n500), las=1, ylab = "Densidad", main = "")
abline(v=mean(posible_estimado_10_n500),col="blue", lwd=3)
qqPlot(posible_estimado_10_n500, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1]  41 426
Swn= shapiro.test(posible_estimado_10_n500)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posible_estimado_10_n500
## W = 0.97801, p-value = 7.519e-07

–Lotes 90%

poblacion_lote90=c(rep("enfermo",900), rep("sano",100))
estimador_enfermo_90 = function(n){
muestra_90= sample(poblacion_lote90, size=n)
estimador_90=sum(muestra_90 == "enfermo")/n
return(estimador_90)
}
estimador_enfermo_90(n=700)
## [1] 0.8928571
posible_estimador_90 =sapply(rep(700,10000), estimador_enfermo_90)
hist(posible_estimador_90)
abline(v=mean(posible_estimador_90),col="blue", lwd=3)

mean(posible_estimador_90)
## [1] 0.9000044
sd(posible_estimador_90)
## [1] 0.006191661
library(moments)
skewness(posible_estimador_90)
## [1] 0.106726
varianza= function(posible_estimador_90){
sum((posible_estimador_90-mean(posible_estimador_90))^2)/(length(posible_estimador_90)-1)}
varianza(posible_estimador_90)
## [1] 3.833667e-05

–Ejercicio n=5

require(car)
posible_estimado_90_n5 =sapply(rep(700,5), estimador_enfermo_90)
par(mfrow= c(1,3))
hist(posible_estimado_90_n5)
plot(density(posible_estimado_90_n5), las=1, ylab = "Densidad", main = "")
abline(v=mean(posible_estimado_90_n5),col="blue", lwd=3)
qqPlot(posible_estimado_90_n5, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 2 1
Swn= shapiro.test(posible_estimado_90_n5)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posible_estimado_90_n5
## W = 0.93106, p-value = 0.6036

–Ejercicio n=10

require(car)
posible_estimado_90_n10 =sapply(rep(700,10), estimador_enfermo_90)
par(mfrow= c(1,3))
hist(posible_estimado_90_n10)
plot(density(posible_estimado_90_n10), las=1, ylab = "Densidad", main = "")
abline(v=mean(posible_estimado_90_n10),col="blue", lwd=3)
qqPlot(posible_estimado_90_n10, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 6 4
Swn= shapiro.test(posible_estimado_90_n10)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posible_estimado_90_n10
## W = 0.96088, p-value = 0.7959

–Ejercicio n=15

require(car)
posible_estimado_90_n15 =sapply(rep(700,15), estimador_enfermo_90)
par(mfrow= c(1,3))
hist(posible_estimado_90_n15)
plot(density(posible_estimado_90_n15), las=1, ylab = "Densidad", main = "")
abline(v=mean(posible_estimado_90_n15),col="blue", lwd=3)
qqPlot(posible_estimado_90_n15, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1]  8 15
Swn= shapiro.test(posible_estimado_90_n15)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posible_estimado_90_n15
## W = 0.96478, p-value = 0.7746

–Ejercicio n=20

require(car)
posible_estimado_90_n20 =sapply(rep(700,20), estimador_enfermo_90)
par(mfrow= c(1,3))
hist(posible_estimado_90_n20)
plot(density(posible_estimado_90_n20), las=1, ylab = "Densidad", main = "")
abline(v=mean(posible_estimado_90_n20),col="blue", lwd=3)
qqPlot(posible_estimado_90_n20, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1]  2 14
Swn= shapiro.test(posible_estimado_90_n20)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posible_estimado_90_n20
## W = 0.90683, p-value = 0.05548

–Ejercicio n=30

require(car)
posible_estimado_90_n30 =sapply(rep(700,30), estimador_enfermo_90)
par(mfrow= c(1,3))
hist(posible_estimado_90_n30)
plot(density(posible_estimado_90_n30), las=1, ylab = "Densidad", main = "")
abline(v=mean(posible_estimado_90_n30),col="blue", lwd=3)
qqPlot(posible_estimado_90_n30, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 26 18
Swn= shapiro.test(posible_estimado_90_n30)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posible_estimado_90_n30
## W = 0.98413, p-value = 0.9214

–Ejercicio n=50

require(car)
posible_estimado_90_n50 =sapply(rep(700,50), estimador_enfermo_90)
par(mfrow= c(1,3))
hist(posible_estimado_90_n50)
plot(density(posible_estimado_90_n50), las=1, ylab = "Densidad", main = "")
abline(v=mean(posible_estimado_90_n50),col="blue", lwd=3)
qqPlot(posible_estimado_90_n50, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 27 30
Swn= shapiro.test(posible_estimado_90_n50)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posible_estimado_90_n50
## W = 0.97572, p-value = 0.3885

–Ejercicio n=60

require(car)
posible_estimado_90_n60 =sapply(rep(700,60), estimador_enfermo_90)
par(mfrow= c(1,3))
hist(posible_estimado_90_n60)
plot(density(posible_estimado_90_n60), las=1, ylab = "Densidad", main = "")
abline(v=mean(posible_estimado_90_n60),col="blue", lwd=3)
qqPlot(posible_estimado_90_n60, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 41 10
Swn= shapiro.test(posible_estimado_90_n60)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posible_estimado_90_n60
## W = 0.9866, p-value = 0.7525

–Ejercicio n=100

require(car)
posible_estimado_90_n100 =sapply(rep(700,100), estimador_enfermo_90)
par(mfrow= c(1,3))
hist(posible_estimado_90_n100)
plot(density(posible_estimado_90_n100), las=1, ylab = "Densidad", main = "")
abline(v=mean(posible_estimado_90_n100),col="blue", lwd=3)
qqPlot(posible_estimado_90_n100, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 7 8
Swn= shapiro.test(posible_estimado_90_n100)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posible_estimado_90_n100
## W = 0.9815, p-value = 0.1737

–Ejercicio n=200

require(car)
posible_estimado_90_n200 =sapply(rep(700,200), estimador_enfermo_90)
par(mfrow= c(1,3))
hist(posible_estimado_90_n200)
plot(density(posible_estimado_90_n200), las=1, ylab = "Densidad", main = "")
abline(v=mean(posible_estimado_90_n200),col="blue", lwd=3)
qqPlot(posible_estimado_90_n200, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 126  99
Swn= shapiro.test(posible_estimado_90_n200)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posible_estimado_90_n200
## W = 0.98906, p-value = 0.1299

–Ejercicio n=500

require(car)
posible_estimado_90_n500 =sapply(rep(700,500), estimador_enfermo_90)
par(mfrow= c(1,3))
hist(posible_estimado_90_n500)
plot(density(posible_estimado_90_n500), las=1, ylab = "Densidad", main = "")
abline(v=mean(posible_estimado_90_n500),col="blue", lwd=3)
qqPlot(posible_estimado_90_n500, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1]  8 52
Swn= shapiro.test(posible_estimado_90_n500)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  posible_estimado_90_n500
## W = 0.99187, p-value = 0.007819

Analisis

En este punto 1 y a traves de todos los ejercicios realizados donde se encontro variacion de la poblacion en cuanto al porcentaje de plantas enfermas, asi como la toma de diferentes tamaños de muestras, se puede concluir que el teorema del limite central describe la distribucion de la media de una muestra aleatoria proveniente de una poblacion, cuando el tamaño de la muestra es lo suficientemente grande, la distribucion muestral sigue aproximadamente el comportamiento de una distribucion normal. Para esto es importante que si la distribucion de la poblacion es considerada como asimetrica se deben tomar muestras grandes >30 para no sesgar los resultados obtenidos.

Por lo tanto que la distribucion muestral tenga un comportamiento similar a la distribucion normal es muy util, ya que nos permite realizar las pruebas de hipotesis y la construccion de intervalos de confianza, asi como hacer inferencias sobre la media poblacional a traves de la media muestral.

Refiriendo un poco a los resultados obtenidos se tiene:

  • En la mayoria de casos al realizar la prueba de asimetria los valores estaban cercanos a cero, lo cual indica que tiene una tendencia de ser levemente simetrica.

  • Al calcular la varianza se evidencia que hay muy poca dispersion en los datos.

  • Se observa una distribucion normal en la mayoria de las muestras.

  • Los graficos de densidad tambien revelan que la gran parte de las muestras se encuentran dentro de las bandas de confianza.

  • Al aplicar la prueba Shapiro-Wilk se evidencia que el p-valor es mayor al nivel de significancia, por lo que se puede concluir que se trata de datos con distribución normal.

Punto 2.

a.

Suponga un escenario en el cual usted aplicó tratamientos diferentes a dos lotes y desea analizar si alguno de los dos presenta un mejor desempeño en el control de una plaga presente en ambos al momento inicial. Para ello utilizará como criterio de desempeño el tratamiento que menor % de plantas enfermas presente después de un tiempo de aplicación (es decir, si se presentan o no diferencias en las proporciones de enfermos P1 y P2). Realice una simulación en la cual genere dos poblaciones de N1=1000 (Lote1) y N2=1500 (Lote2), además asuma que el porcentaje de individuos (plantas) enfermas en ambos lotes sea la misma 10% (es decir, sin diferencias entre los tratamientos)

poblacion1 = c(rep("enfermo", 100), rep("sana",900))
poblacion2 = c(rep("enfermo", 150), rep("sana",1350))

b.

Genere una función que permita obtener una muestra aleatoria de los lotes y calcule el estimador de la proporción muestral para cada lote (p1 y p2) para un tamaño de muestra dado n1=n2. Calcule la diferencia entre los estimadores p1-p2.

estimador_enfermo_poblacion1 = function(n){
muestra = sample(poblacion1, size = n)
estimador_poblacion1 = sum(muestra == "enfermo")/n
return(estimador_poblacion1)
}

x1 = estimador_enfermo_poblacion1(n=400) *400

p1 = x1 / 400
estimador_enfermo_poblacion2 = function(n){
muestra = sample(poblacion2, size = n)
estimador_poblacion2 = sum(muestra == "enfermo")/n
return(estimador_poblacion2)
}

x2 = estimador_enfermo_poblacion2(n=400) *400

p2 = x2 / 400
diferencia_estimadores= p1 - p2
diferencia_estimadores
## [1] 0.01

c.

Repita el escenario anterior (b) 10.000 veces y analice los resultados en cuanto al comportamiento de los 10.000 estimadores (diferencias p1-p2). ¿Qué tan simétricos son los datos?, ¿Son siempre cero las diferencias?

simulacion_poblacion1 = sapply(rep(400, 10000), estimador_enfermo_poblacion1)
simulacion_poblacion2= sapply(rep(400, 10000), estimador_enfermo_poblacion2)
diferencia_p1_p2=simulacion_poblacion1-simulacion_poblacion2
par(mfrow=c(1,3))
hist(simulacion_poblacion1)
hist(simulacion_poblacion2)
hist(diferencia_p1_p2)
abline(v=mean(diferencia_p1_p2), col="blue", lwd=3)

sd(diferencia_p1_p2)
## [1] 0.01724324
library(moments)
skewness(diferencia_p1_p2)
## [1] -0.02126797
varianza= function(diferencia_p1_p2){
sum((diferencia_p1_p2-mean(diferencia_p1_p2))^2)/(length(diferencia_p1_p2)-1)}
varianza(diferencia_p1_p2)
## [1] 0.0002973293

d.

Realice los puntos b y c para tamaños de muestra n1=n2=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores (p1-p2) en cuanto a la normalidad. También analice el comportamiento de las diferencias y evalúe. ¿Considera que es más probable concluir que existen diferencias entre los tratamientos con muestras grandes que pequeñas, es decir, cuál considera usted que es el efecto del tamaño de muestra en el caso de la comparación de proporciones?

–Ejercicio n=5

estimador_poblacion1_n5 = sapply(rep(400, 5), estimador_enfermo_poblacion1)
estimador_poblacion2_n5 = sapply(rep(400, 5), estimador_enfermo_poblacion2)
par(mfrow=c(1,3))
hist(estimador_poblacion1_n5, las=1, ylab = "Frecuencia", main = "", col = "gray")
hist(estimador_poblacion2_n5, las=1, ylab = "Frecuencia", main = "", col = "gray")
diferencia_p1_p2_n5 = estimador_poblacion1_n5 - estimador_poblacion2_n5
hist(diferencia_p1_p2_n5, las=1, ylab = "Frecuencia", main = "", col = "gray")
abline(v=mean(diferencia_p1_p2_n5), col="blue", lwd=3)

–Ejercicio n=10

estimador_poblacion1_n10 = sapply(rep(400, 10), estimador_enfermo_poblacion1)
estimador_poblacion2_n10 = sapply(rep(400, 10), estimador_enfermo_poblacion2)
par(mfrow=c(1,3))
hist(estimador_poblacion1_n10, las=1, ylab = "Frecuencia", main = "", col = "gray")
hist(estimador_poblacion2_n10, las=1, ylab = "Frecuencia", main = "", col = "gray")
diferencia_p1_p2_n10 = estimador_poblacion1_n10 - estimador_poblacion2_n10
hist(diferencia_p1_p2_n10, las=1, ylab = "Frecuencia", main = "", col = "gray")
abline(v=mean(diferencia_p1_p2_n10), col="blue", lwd=3)

–Ejercicio n=15

estimador_poblacion1_n15 = sapply(rep(400, 15), estimador_enfermo_poblacion1)
estimador_poblacion2_n15 = sapply(rep(400, 15), estimador_enfermo_poblacion2)
par(mfrow=c(1,3))
hist(estimador_poblacion1_n15, las=1, ylab = "Frecuencia", main = "", col = "gray")
hist(estimador_poblacion2_n15, las=1, ylab = "Frecuencia", main = "", col = "gray")
diferencia_p1_p2_n15 = estimador_poblacion1_n15 - estimador_poblacion2_n15
hist(diferencia_p1_p2_n15, las=1, ylab = "Frecuencia", main = "", col = "gray")
abline(v=mean(diferencia_p1_p2_n15), col="blue", lwd=3)

–Ejercicio n=20

estimador_poblacion1_n20 = sapply(rep(400, 20), estimador_enfermo_poblacion1)
estimador_poblacion2_n20 = sapply(rep(400, 20), estimador_enfermo_poblacion2)
par(mfrow=c(1,3))
hist(estimador_poblacion1_n20, las=1, ylab = "Frecuencia", main = "", col = "gray")
hist(estimador_poblacion2_n20, las=1, ylab = "Frecuencia", main = "", col = "gray")
diferencia_p1_p2_n20 = estimador_poblacion1_n20 - estimador_poblacion2_n20
hist(diferencia_p1_p2_n20, las=1, ylab = "Frecuencia", main = "", col = "gray")
abline(v=mean(diferencia_p1_p2_n20), col="blue", lwd=3)

–Ejercicio n=30

estimador_poblacion1_n30 = sapply(rep(400, 30), estimador_enfermo_poblacion1)
estimador_poblacion2_n30 = sapply(rep(400, 30), estimador_enfermo_poblacion2)
par(mfrow=c(1,3))
hist(estimador_poblacion1_n30, las=1, ylab = "Frecuencia", main = "", col = "gray")
hist(estimador_poblacion2_n30, las=1, ylab = "Frecuencia", main = "", col = "gray")
diferencia_p1_p2_n30 = estimador_poblacion1_n30 - estimador_poblacion2_n30
hist(diferencia_p1_p2_n30, las=1, ylab = "Frecuencia", main = "", col = "gray")
abline(v=mean(diferencia_p1_p2_n30), col="blue", lwd=3)

–Ejercicio n=50

estimador_poblacion1_n50 = sapply(rep(400, 50), estimador_enfermo_poblacion1)
estimador_poblacion2_n50 = sapply(rep(400, 50), estimador_enfermo_poblacion2)
par(mfrow=c(1,3))
hist(estimador_poblacion1_n50, las=1, ylab = "Frecuencia", main = "", col = "gray")
hist(estimador_poblacion2_n50, las=1, ylab = "Frecuencia", main = "", col = "gray")
diferencia_p1_p2_n50 = estimador_poblacion1_n50 - estimador_poblacion2_n50
hist(diferencia_p1_p2_n50, las=1, ylab = "Frecuencia", main = "", col = "gray")
abline(v=mean(diferencia_p1_p2_n50), col="blue", lwd=3)

–Ejercicio n=60

estimador_poblacion1_n60 = sapply(rep(400, 60), estimador_enfermo_poblacion1)
estimador_poblacion2_n60 = sapply(rep(400, 60), estimador_enfermo_poblacion2)
par(mfrow=c(1,3))
hist(estimador_poblacion1_n60, las=1, ylab = "Frecuencia", main = "", col = "gray")
hist(estimador_poblacion2_n60, las=1, ylab = "Frecuencia", main = "", col = "gray")
diferencia_p1_p2_n60 = estimador_poblacion1_n60 - estimador_poblacion2_n60
hist(diferencia_p1_p2_n60, las=1, ylab = "Frecuencia", main = "", col = "gray")
abline(v=mean(diferencia_p1_p2_n60), col="blue", lwd=3)

–Ejercicio n=100

estimador_poblacion1_n100 = sapply(rep(400, 100), estimador_enfermo_poblacion1)
estimador_poblacion2_n100 = sapply(rep(400, 100), estimador_enfermo_poblacion2)
par(mfrow=c(1,3))
hist(estimador_poblacion1_n100, las=1, ylab = "Frecuencia", main = "", col = "gray")
hist(estimador_poblacion2_n100, las=1, ylab = "Frecuencia", main = "", col = "gray")
diferencia_p1_p2_n100 = estimador_poblacion1_n100 - estimador_poblacion2_n100
hist(diferencia_p1_p2_n100, las=1, ylab = "Frecuencia", main = "", col = "gray")
abline(v=mean(diferencia_p1_p2_n100), col="blue", lwd=3)

–Ejercicio n=200

estimador_poblacion1_n200 = sapply(rep(400, 200), estimador_enfermo_poblacion1)
estimador_poblacion2_n200 = sapply(rep(400, 200), estimador_enfermo_poblacion2)
par(mfrow=c(1,3))
hist(estimador_poblacion1_n200, las=1, ylab = "Frecuencia", main = "", col = "gray")
hist(estimador_poblacion2_n200, las=1, ylab = "Frecuencia", main = "", col = "gray")
diferencia_p1_p2_n200 = estimador_poblacion1_n200 - estimador_poblacion2_n200
hist(diferencia_p1_p2_n200, las=1, ylab = "Frecuencia", main = "", col = "gray")
abline(v=mean(diferencia_p1_p2_n200), col="blue", lwd=3)

–Ejercicio n=500

estimador_poblacion1_n500 = sapply(rep(400, 500), estimador_enfermo_poblacion1)
estimador_poblacion2_n500 = sapply(rep(400, 500), estimador_enfermo_poblacion2)
par(mfrow=c(1,3))
hist(estimador_poblacion1_n500, las=1, ylab = "Frecuencia", main = "", col = "gray")
hist(estimador_poblacion2_n500, las=1, ylab = "Frecuencia", main = "", col = "gray")
diferencia_p1_p2_n500 = estimador_poblacion1_n500 - estimador_poblacion2_n500
hist(diferencia_p1_p2_n500, las=1, ylab = "Frecuencia", main = "", col = "gray")
abline(v=mean(diferencia_p1_p2_n500), col="blue", lwd=3)

e.

Ahora realice nuevamente los puntos a-d bajo un escenario con dos lotes, pero de proporciones de enfermos diferentes (P1=0.1 y P2=0.15), es decir, el tratamiento del lote 1 si presentó un mejor desempeño reduciendo en un 5% el porcentaje de enfermos. Bajo este nuevo escenario compare la distribución de estas diferencias (p1- p2) con las observadas bajo igualdad de condiciones en los lotes. ¿Qué puede concluir? ¿Existen puntos en los cuales es posible que se observen diferencias de p1- p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2: diferencia de 5%)?

poblacion_1 = c(rep("enfermo", 100), rep("sana",900))
poblacion_2 = c(rep("enfermo", 225), rep("sana",1275))
estimador_enfermo_poblacion_1 = function(n){
muestra = sample(poblacion_1, size = n)
estimador_poblacion_1 = sum(muestra == "enfermo")/n
return(estimador_poblacion_1)
}
x_1 = estimador_enfermo_poblacion1(n=400) *400
p_1 = x_1 / 400
estimador_enfermo_poblacion_2 = function(n){
muestra = sample(poblacion_2, size = n)
estimador_poblacion_2 = sum(muestra == "enfermo")/n
return(estimador_poblacion_2)
}
x_2 = estimador_enfermo_poblacion_2(n=400) *400
p_2 = x_2 / 400
diferencia_estimadores_= p_1 - p_2
diferencia_estimadores_
## [1] -0.0275
simulacion_poblacion_1 = sapply(rep(400, 10000), estimador_enfermo_poblacion_1)
simulacion_poblacion_2= sapply(rep(400, 10000), estimador_enfermo_poblacion_2)
diferencia_p1_p2_=simulacion_poblacion_1-simulacion_poblacion_2
par(mfrow=c(1,3))
hist(simulacion_poblacion_1)
hist(simulacion_poblacion_2)
hist(diferencia_p1_p2_)
abline(v=mean(diferencia_p1_p2_), col="blue", lwd=3)

sd(diferencia_p1_p2_)
## [1] 0.01894916
library(moments)
skewness(diferencia_p1_p2_)
## [1] -0.03749416
varianza= function(diferencia_p1_p2_){
sum((diferencia_p1_p2_-mean(diferencia_p1_p2_))^2)/(length(diferencia_p1_p2_)-1)}
varianza(diferencia_p1_p2_)
## [1] 0.0003590707

–Ejercicio n=5

estimador_poblacion1_n5_ = sapply(rep(400, 5), estimador_enfermo_poblacion_1)
estimador_poblacion2_n5_ = sapply(rep(400, 5), estimador_enfermo_poblacion_2)
par(mfrow=c(1,3))
hist(estimador_poblacion1_n5_, las=1, ylab = "Frecuencia", main = "", col = "gray")
hist(estimador_poblacion2_n5_, las=1, ylab = "Frecuencia", main = "", col = "gray")
diferencia_p1_p2_n5_ = estimador_poblacion1_n5_ - estimador_poblacion2_n5_
hist(diferencia_p1_p2_n5_, las=1, ylab = "Frecuencia", main = "", col = "gray")
abline(v=mean(diferencia_p1_p2_n5_), col="blue", lwd=3)

–Ejercicio n=10

estimador_poblacion1_n10_ = sapply(rep(400, 10), estimador_enfermo_poblacion_1)
estimador_poblacion2_n10_ = sapply(rep(400, 10), estimador_enfermo_poblacion_2)
par(mfrow=c(1,3))
hist(estimador_poblacion1_n10_, las=1, ylab = "Frecuencia", main = "", col = "gray")
hist(estimador_poblacion2_n10_, las=1, ylab = "Frecuencia", main = "", col = "gray")
diferencia_p1_p2_n10_ = estimador_poblacion1_n10_ - estimador_poblacion2_n10_
hist(diferencia_p1_p2_n10_, las=1, ylab = "Frecuencia", main = "", col = "gray")
abline(v=mean(diferencia_p1_p2_n10_), col="blue", lwd=3)

–Ejercicio n=15

estimador_poblacion1_n15_ = sapply(rep(400, 15), estimador_enfermo_poblacion_1)
estimador_poblacion2_n15_ = sapply(rep(400, 15), estimador_enfermo_poblacion_2)
par(mfrow=c(1,3))
hist(estimador_poblacion1_n15_, las=1, ylab = "Frecuencia", main = "", col = "gray")
hist(estimador_poblacion2_n15_, las=1, ylab = "Frecuencia", main = "", col = "gray")
diferencia_p1_p2_n15_ = estimador_poblacion1_n15_ - estimador_poblacion2_n15_
hist(diferencia_p1_p2_n15_, las=1, ylab = "Frecuencia", main = "", col = "gray")
abline(v=mean(diferencia_p1_p2_n15_), col="blue", lwd=3)

–Ejercicio n=20

estimador_poblacion1_n20_ = sapply(rep(400, 20), estimador_enfermo_poblacion_1)
estimador_poblacion2_n20_ = sapply(rep(400, 20), estimador_enfermo_poblacion_2)
par(mfrow=c(1,3))
hist(estimador_poblacion1_n20_, las=1, ylab = "Frecuencia", main = "", col = "gray")
hist(estimador_poblacion2_n20_, las=1, ylab = "Frecuencia", main = "", col = "gray")
diferencia_p1_p2_n20_ = estimador_poblacion1_n20_ - estimador_poblacion2_n20_
hist(diferencia_p1_p2_n20_, las=1, ylab = "Frecuencia", main = "", col = "gray")
abline(v=mean(diferencia_p1_p2_n20_), col="blue", lwd=3)

–Ejercicio n=30

estimador_poblacion1_n30_ = sapply(rep(400, 30), estimador_enfermo_poblacion_1)
estimador_poblacion2_n30_ = sapply(rep(400, 30), estimador_enfermo_poblacion_2)
par(mfrow=c(1,3))
hist(estimador_poblacion1_n30_, las=1, ylab = "Frecuencia", main = "", col = "gray")
hist(estimador_poblacion2_n30_, las=1, ylab = "Frecuencia", main = "", col = "gray")
diferencia_p1_p2_n30_ = estimador_poblacion1_n30_ - estimador_poblacion2_n30_
hist(diferencia_p1_p2_n30_, las=1, ylab = "Frecuencia", main = "", col = "gray")
abline(v=mean(diferencia_p1_p2_n30_), col="blue", lwd=3)

–Ejercicio n=50

estimador_poblacion1_n50_ = sapply(rep(400, 50), estimador_enfermo_poblacion_1)
estimador_poblacion2_n50_ = sapply(rep(400, 50), estimador_enfermo_poblacion_2)
par(mfrow=c(1,3))
hist(estimador_poblacion1_n50_, las=1, ylab = "Frecuencia", main = "", col = "gray")
hist(estimador_poblacion2_n50_, las=1, ylab = "Frecuencia", main = "", col = "gray")
diferencia_p1_p2_n50_ = estimador_poblacion1_n50_ - estimador_poblacion2_n50_
hist(diferencia_p1_p2_n50_, las=1, ylab = "Frecuencia", main = "", col = "gray")
abline(v=mean(diferencia_p1_p2_n50_), col="blue", lwd=3)

–Ejercicio n=60

estimador_poblacion1_n60_ = sapply(rep(400, 60), estimador_enfermo_poblacion_1)
estimador_poblacion2_n60_ = sapply(rep(400, 60), estimador_enfermo_poblacion_2)
par(mfrow=c(1,3))
hist(estimador_poblacion1_n60_, las=1, ylab = "Frecuencia", main = "", col = "gray")
hist(estimador_poblacion2_n60_, las=1, ylab = "Frecuencia", main = "", col = "gray")
diferencia_p1_p2_n60_ = estimador_poblacion1_n60_ - estimador_poblacion2_n60_
hist(diferencia_p1_p2_n60_, las=1, ylab = "Frecuencia", main = "", col = "gray")
abline(v=mean(diferencia_p1_p2_n60_), col="blue", lwd=3)

–Ejercicio n=100

estimador_poblacion1_n100_ = sapply(rep(400, 100), estimador_enfermo_poblacion_1)
estimador_poblacion2_n100_ = sapply(rep(400, 100), estimador_enfermo_poblacion_2)
par(mfrow=c(1,3))
hist(estimador_poblacion1_n100_, las=1, ylab = "Frecuencia", main = "", col = "gray")
hist(estimador_poblacion2_n100_, las=1, ylab = "Frecuencia", main = "", col = "gray")
diferencia_p1_p2_n100_ = estimador_poblacion1_n100_ - estimador_poblacion2_n100_
hist(diferencia_p1_p2_n100_, las=1, ylab = "Frecuencia", main = "", col = "gray")
abline(v=mean(diferencia_p1_p2_n100_), col="blue", lwd=3)

–Ejercicio n=200

estimador_poblacion1_n200_ = sapply(rep(400, 200), estimador_enfermo_poblacion_1)
estimador_poblacion2_n200_ = sapply(rep(400, 200), estimador_enfermo_poblacion_2)
par(mfrow=c(1,3))
hist(estimador_poblacion1_n200_, las=1, ylab = "Frecuencia", main = "", col = "gray")
hist(estimador_poblacion2_n200_, las=1, ylab = "Frecuencia", main = "", col = "gray")
diferencia_p1_p2_n200_ = estimador_poblacion1_n200_ - estimador_poblacion2_n200_
hist(diferencia_p1_p2_n200_, las=1, ylab = "Frecuencia", main = "", col = "gray")
abline(v=mean(diferencia_p1_p2_n200_), col="blue", lwd=3)

–Ejercicio n=500

estimador_poblacion1_n500_ = sapply(rep(400, 500), estimador_enfermo_poblacion_1)
estimador_poblacion2_n500_ = sapply(rep(400, 500), estimador_enfermo_poblacion_2)
par(mfrow=c(1,3))
hist(estimador_poblacion1_n500_, las=1, ylab = "Frecuencia", main = "", col = "gray")
hist(estimador_poblacion2_n500_, las=1, ylab = "Frecuencia", main = "", col = "gray")
diferencia_p1_p2_n500_ = estimador_poblacion1_n500_ - estimador_poblacion2_n500_
hist(diferencia_p1_p2_n500_, las=1, ylab = "Frecuencia", main = "", col = "gray")
abline(v=mean(diferencia_p1_p2_n500_), col="blue", lwd=3)

Analisis

En el punto 2 y con los ejercicios realizados, se valida la importancia de hacer comparacion entre dos poblaciones y los constrastes entre ellos, se trata de ver si existe una relacion lineal entre las mismas a partir de la informacion muestral. El objetivo es realizar la comparacion de la varible P en dos pobalciones (p1 y p2), para validar si presenta diferencias significativas en cada una de ellas.

Analizando los resultados obtenidos se tiene que:

  • La diferencia entre ambos estimadores p1 y p2 tienden a cero, por lo que se concluye que el comportamiento de los datos son similares.

  • Al realizar la prueba de asimetria los valores estaban cercanos a cero, lo cual indica que tiene una tendencia de ser levemente simetrica.

  • Al calcular la varianza se evidencia que hay muy poca dispersion en los datos.

  • Se evidencia que pueden existir diferencias entre los tratamientos aplicados, cuando las muestras tienden a ser mas pequeñas, sin embargo a medida que esta aumenta la diferencia se reduce entre las proporciones de las dos poblaciones estudiadas.

  • En el ejercicio donde el tratamiento del lote 1 presentó un mejor desempeño reduciendo en un 5% el porcentaje de enfermos, estas diferencias no se reducen dependiendo el tipo y la cantidad de muestras, sino que se evidencia que las diferencias en su promedio son relativamente constantes.

Punto 3.

Resumen:

El uso del valor de p y la significación estadística han estado en entredicho desde hace muchas decadas hasta nuestros días, ya que mucho se ha discutido al respecto en el ámbito de la estadística y sus aplicaciones debido a que estos dos conceptos han sido dificiles de asimilar para muchos profesionales del tema.

Para empezar es necesario precisar que El p-valor hace referencia a la probabilidad de obtener por azar, una diferencia tan grande o mayor a la observada, cumpliendo que no haya diferencia real en la poblacion de la que proceden en las muestras,el valor de p constituye una medida de la credibilidad de la hipótesis nula. Cuanto menor sea, más nos inclinaremos a rechazar la hipótesis nula siendo esto asi se establece que si el p-valor es menor del 5% (0.05) es lo suficientemente improbable que se deba al azar como para rechazar con seguridad la hipotesis nula y afirmar que la diferencia es real, por el contrario, si es mayor al 5% no se tendra la confianza necesaria como para negar que la diferencia observada es por el azar.

El articulo de “Statistical Errors: P values, the ‘gold estándar’ of statistical validity, are not as reliable as many scientists assume”, coloca en evidencia la existencia de malas interpretaciones que se han venido dando alrededor del concepto de P-valor en cuanto a la toma decisiones sobre la hipotesis nula. Entre estas confusiones se encuentran:

  • El p-valor no representa que la hipotesis nula sea cierta.

  • Un p-valor < 0,05 significa que la hipótesis nula es falsa y una p-valor > 0,05 que la hipótesis nula es verdadera.

  • El p-valor tiene relación con la fiabilidad del estudio, cuyo resultado será más fiable cuanto menor sea la p.

  • El p-valor nos indica la importancia del resultado.

A continuacion se indica el motivo por que las afirmaciones anteriormente relacionadas no son las adecuadas:

  • El p-valor no representa que la hipotesis nula sea cierta, ya que se parte del supuesto de que la hipótesis nula es cierta y es bajo ese supuesto es que se calcula el valor de p.

  • Una p-valor < 0,05 indica que es poco probable que la hipotesis nula sea cierta, pero se tiene cierta probabilidad de rechazarla hipotesis nula cuando en realidad es verdadera. Por otra parte el p-valor > 0,05 no afirma que la hipotesis nula sea cierta ya que puede ocurrir que la diferencia sea real y el estudio que se este realizando no tenga potencia para detectarla.

  • No se puede afirmar que el p-valor tiene relacion con la fiabilidad del estudio, ya que en realidad el p-valor indica la probabilidad de obtener un valor semejante si se realiza el experimento en las mismas condiciones, pero existen muchos factores que pueden interferir como lo es el tamaño de la muestra, la varianza, la distribucion etc.

  • Tampoco se puede indicar que el p-valor nos muestra la importancia del estudio, ya que ese tipo de relacion de importancia la establece el investigador.

Para tratar de no caer en el error de mal interpretar la informacion que proporciona el p-valor, los estadísticos han buscando mejores formas de pensar sobre los datos, para ayudar a los científicos a evitar perder información importante o actuar sobre falsas alarmas, por lo tanto se recomienda acompañar este resultado de p-valor con otras tecnicas como el tamaño de los efectos y los intervalos de confianza, para brindar una informacion mas precisa y confiable.

Referencias web: