Inferencia Estadistica y Simulación

1. El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.

Realice una simulación en la cual genere una población de N=1000 (Lote) y además que el porcentaje de individuos (plantas) enfermas sea del 50%.

poblacion=c(rep("enfermo",500),rep("sano",500))
poblacion=sample(poblacion)
#poblacion

b.Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n.

calcula_p_gorro=function(n){

muestra=sample(poblacion,size = n)
p_gorro=sum(muestra=="enfermo")/n
return(p_gorro)

}

calcula_p_gorro(n=5)

## [1] 0.4

c.Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores. ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?

Interpretación: Para una muestra de 100, repetido 500 veces se puede ver que los resultados son simetricos ya que al mostrarse con la media un resultado del 50%, nos dice que esta se asemeja al valor real;por otro lado, la desviacion estandar con un valor del 5% muestra que al ser mas pequeño, los valores son cercanos al valor real, lo que nos dice que no hay mucha variabilidad. No existe sesgo ya que es simetrico y esto se ve con los resultados obtenidos de Media=Meadiana=Moda.

require(ggplot2)
posibles_p_gorro=sapply(rep(100,500), calcula_p_gorro)

hist(posibles_p_gorro)
abline(v=0.5,col="red",lwd=4)

mean(posibles_p_gorro)

## [1] 0.49926

median(posibles_p_gorro)

## [1] 0.5

sd(posibles_p_gorro)

## [1] 0.04792751

sqrt((0.5*0.5)/100)

## [1] 0.05

summary(posibles_p_gorro)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3500  0.4700  0.5000  0.4993  0.5300  0.6600

d.Realice los ejercicios completos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50,60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad).

Interpretación: Se puede ver que cuando la muestra es muy pequeña, en estas se rechazara la H0 lo cual, nos indica que los datos no son simetricos, ademas, de que los mismos son muy variables, lo que se manifiesta con una desviación estandar alta. Sin embargo, a media que la muestra se incrementa esta le da mucho mas sentido a el estudio y al analisis de los datos, al permitir ver los mismos mas cercanos a la realidad.Es decir, que entre mayor sea la muestra, los datos presentan normalidad y menos variabilidad.

require(ggplot2)
require(ggpubr)
# n=5: 

posibles_p_gorro_n5=sapply(rep(5,500), calcula_p_gorro)

hist(posibles_p_gorro_n5)
abline(v=0.5,col="red",lwd=4)

mean(posibles_p_gorro_n5)

## [1] 0.5072

median(posibles_p_gorro_n5)

## [1] 0.6

sd(posibles_p_gorro_n5)

## [1] 0.2222768

summary(posibles_p_gorro_n5)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.4000  0.6000  0.5072  0.6000  1.0000

shapiro.test(posibles_p_gorro_n5)

## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_n5
## W = 0.92852, p-value = 1.052e-14

ggqqplot(posibles_p_gorro_n5)

# n=10
require(ggplot2)
require(ggpubr)

posibles_p_gorro_n10=sapply(rep(10,500), calcula_p_gorro)

hist(posibles_p_gorro_n10)
abline(v=0.5,col="red",lwd=4)

sd(posibles_p_gorro_n10)

## [1] 0.1568605

summary(posibles_p_gorro_n10)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.100   0.400   0.500   0.498   0.600   0.900

shapiro.test(posibles_p_gorro_n10)

## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_n10
## W = 0.96349, p-value = 8.23e-10

ggqqplot(posibles_p_gorro_n10)

# n=15

require(ggplot2)
require(ggpubr)
posibles_p_gorro_n15=sapply(rep(15,500), calcula_p_gorro)

hist(posibles_p_gorro_n15)
abline(v=0.5,col="red",lwd=4)

sd(posibles_p_gorro_n15)

## [1] 0.1268357

summary(posibles_p_gorro_n15)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1333  0.4000  0.4667  0.5027  0.6000  0.9333

shapiro.test(posibles_p_gorro_n15)

## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_n15
## W = 0.97291, p-value = 5.434e-08

ggqqplot(posibles_p_gorro_n15)

# n=20

require(ggplot2)
require(ggpubr)

posibles_p_gorro_n20=sapply(rep(20,500), calcula_p_gorro)

hist(posibles_p_gorro_n20)
abline(v=0.5,col="red",lwd=4)

sd(posibles_p_gorro_n20)

## [1] 0.1059668

summary(posibles_p_gorro_n20)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1000  0.4500  0.5000  0.5043  0.6000  0.8000

shapiro.test(posibles_p_gorro_n20)

## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_n20
## W = 0.97922, p-value = 1.479e-06

ggqqplot(posibles_p_gorro_n20)

# n=30:

require(ggplot2)
require(ggpubr)
posibles_p_gorro_n30=sapply(rep(30,500), calcula_p_gorro)

hist(posibles_p_gorro_n30)
abline(v=0.5,col="red",lwd=4)

sd(posibles_p_gorro_n30)

## [1] 0.08828014

summary(posibles_p_gorro_n30)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2000  0.4667  0.5000  0.5076  0.5667  0.7667

shapiro.test(posibles_p_gorro_n30)

## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_n30
## W = 0.98655, p-value = 0.0001424

ggqqplot(posibles_p_gorro_n30)

# n=50
require(ggplot2)
require(ggpubr)
posibles_p_gorro_n50=sapply(rep(50,500), calcula_p_gorro)

hist(posibles_p_gorro_n50)
abline(v=0.5,col="red",lwd=4)

sd(posibles_p_gorro_n50)

## [1] 0.07099743

summary(posibles_p_gorro_n50)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2800  0.4400  0.5000  0.4941  0.5400  0.7200

shapiro.test(posibles_p_gorro_n50)

## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_n50
## W = 0.9913, p-value = 0.004909

ggqqplot(posibles_p_gorro_n50)

# n=60
require(ggplot2)
require(ggpubr)
posibles_p_gorro_n60=sapply(rep(60,500), calcula_p_gorro)

hist(posibles_p_gorro_n60)
abline(v=0.5,col="red",lwd=4)

sd(posibles_p_gorro_n60)

## [1] 0.06301328

summary(posibles_p_gorro_n60)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3167  0.4500  0.5000  0.5024  0.5500  0.6833

shapiro.test(posibles_p_gorro_n60)

## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_n60
## W = 0.98992, p-value = 0.00166

ggqqplot(posibles_p_gorro_n60)

# n= 100
require(ggplot2)
require(ggpubr)
posibles_p_gorro_n100=sapply(rep(100,500), calcula_p_gorro)

hist(posibles_p_gorro_n100)
abline(v=0.5,col="red",lwd=4)

sd(posibles_p_gorro_n100)

## [1] 0.04456188

summary(posibles_p_gorro_n100)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3800  0.4700  0.5000  0.5009  0.5300  0.6200

shapiro.test(posibles_p_gorro_n100)

## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_n100
## W = 0.99268, p-value = 0.01519

ggqqplot(posibles_p_gorro_n100)

# n= 200
require(ggplot2)
require(ggpubr)
posibles_p_gorro_n200=sapply(rep(200,500), calcula_p_gorro)

hist(posibles_p_gorro_n200)
abline(v=0.5,col="red",lwd=4)

sd(posibles_p_gorro_n200)

## [1] 0.03230444

summary(posibles_p_gorro_n200)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4150  0.4750  0.5000  0.4989  0.5200  0.6100

shapiro.test(posibles_p_gorro_n200)

## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_n200
## W = 0.99489, p-value = 0.09643

ggqqplot(posibles_p_gorro_n200)

# n=500
require(ggplot2)
require(ggpubr)
posibles_p_gorro_n500=sapply(rep(500,500), calcula_p_gorro)

hist(posibles_p_gorro_n500)
abline(v=0.5,col="red",lwd=4)

sd(posibles_p_gorro_n500)

## [1] 0.01514259

summary(posibles_p_gorro_n500)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4600  0.4900  0.5000  0.4997  0.5100  0.5500

shapiro.test(posibles_p_gorro_n500)

## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_n500
## W = 0.99539, p-value = 0.1462

ggqqplot(posibles_p_gorro_n500)

e.Repita toda la simulación (puntos a – d) pero ahora con lotes con 10% y 90% de plantas enfermas. Concluya todo el ejercicio.

P=10%

Realice una simulación en la cual genere una población de N=1000 (Lote) y además que el porcentaje de individuos (plantas) enfermas sea del 10%.

poblacion_10=c(rep("enfermo",100),rep("sano",900))
poblacion_10=sample(poblacion_10)
#poblacion_10

b.Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n.

calcula_p_gorro_10=function(n){

muestra_10=sample(poblacion_10,size = n)
p_gorro_10=sum(muestra_10=="enfermo")/n
return(p_gorro_10)

}

calcula_p_gorro_10(n=5)

## [1] 0

Interpretación: Para una muestra de 100, repetido 500 veces con un parametro del 10% se puede ver que, los datos son insesgados, se comportan de manera normal y no tienen mucha variación, ya que la desviación estandar se acerca al valor real. Además, que Media=Mediana=Moda

require(ggplot2)
posibles_p_gorro_10=sapply(rep(100,500), calcula_p_gorro_10)

hist(posibles_p_gorro_10)
abline(v=0.1,col="red",lwd=4)

mean(posibles_p_gorro_10)

## [1] 0.10052

median(posibles_p_gorro_10)

## [1] 0.1

sd(posibles_p_gorro_10)

## [1] 0.02751807

sqrt((0.1*0.9)/100)

## [1] 0.03

summary(posibles_p_gorro_10)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0200  0.0800  0.1000  0.1005  0.1200  0.1900

-Interpretación:Para este ejercicio se puede ver que para muestras muy pequeñas no existe normalidad, ya que los datos son asimetricos y esto se muestra con las graficas. Ademas, de que en las pruebas de shapiro rechazan la hipotesis nula al recibir valores p muy pequeños. Por otro lado, a medida que se incrementa la muestra se puede encontrar un poco mas de normalidad desde la muestra n=50, pero en estas todavia la parte visual no es completamente acertiva, ya que el valor p sigue rechazando la hipotesis nula. En la muestra n=500 todavia se rechaza la H0, ya que esta sigue dando un valor menor al 0.05, lo que nos puede decir que necesitaria una muestra mucho mayor a 500 para aceptar la H0 y mostrar normalidad.

#n=5
require(ggplot2)
require(ggpubr)
posibles_p_gorro_10_n5=sapply(rep(5,500), calcula_p_gorro_10)

hist(posibles_p_gorro_10_n5)
abline(v=0.1,col="red",lwd=4)

sd(posibles_p_gorro_10_n5)

## [1] 0.1338943

summary(posibles_p_gorro_10_n5)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0000  0.0000  0.0896  0.2000  0.8000

shapiro.test(posibles_p_gorro_10_n5)

## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_10_n5
## W = 0.667, p-value < 2.2e-16

ggqqplot(posibles_p_gorro_10_n5)

## [1] 0.1053919

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0000  0.1000  0.1074  0.2000  0.5000

## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_10_n10
## W = 0.84715, p-value < 2.2e-16

## [1] 0.07833618

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.00000 0.06667 0.06667 0.10040 0.13333 0.40000

## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_10_n15
## W = 0.89744, p-value < 2.2e-16

## [1] 0.06646951

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0500  0.1000  0.0992  0.1500  0.3500

## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_10_n20
## W = 0.92777, p-value = 8.647e-15

## [1] 0.05521739

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.00000 0.06667 0.10000 0.10440 0.13333 0.33333

## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_10_n30
## W = 0.95516, p-value = 3.44e-11

## [1] 0.04101203

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0800  0.1000  0.1008  0.1200  0.2400

## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_10_n50
## W = 0.97349, p-value = 7.231e-08

## [1] 0.03657837

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.01667 0.06667 0.10000 0.10090 0.11667 0.23333

## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_10_n60
## W = 0.97747, p-value = 5.622e-07

## [1] 0.01931453

## [1] 0.0212132

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0400  0.0900  0.1000  0.1011  0.1100  0.1650

## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_10_n200
## W = 0.98808, p-value = 0.0004219

#n=500
require(ggplot2)
require(ggpubr)
posibles_p_gorro_10_n500=sapply(rep(500,500), calcula_p_gorro_10)

hist(posibles_p_gorro_10_n500)
abline(v=0.1,col="red",lwd=4)

sd(posibles_p_gorro_10_n500)

## [1] 0.008793581

sqrt((0.1*0.9)/500)

## [1] 0.01341641

summary(posibles_p_gorro_10_n500)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.07200 0.09400 0.10000 0.09967 0.10600 0.12800

shapiro.test(posibles_p_gorro_10_n500)

## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_10_n500
## W = 0.99211, p-value = 0.009488

ggqqplot(posibles_p_gorro_10_n500)

P=90%

Realice una simulación en la cual genere una población de N=1000 (Lote) y además que el porcentaje de individuos (plantas) enfermas sea del 90%.

poblacion_90=c(rep("enfermo",900),rep("sano",100))
poblacion_90=sample(poblacion_90)
#poblacion_90

b.Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n.

calcula_p_gorro_90=function(n){

muestra_90=sample(poblacion_90,size = n)
p_gorro_90=sum(muestra_90=="enfermo")/n
return(p_gorro_90)

}

calcula_p_gorro_90(n=5)

## [1] 0.6

Interpretación: Para una muestra de 100, repetido 500 veces se puede ver que los resultados son simetricos ya que al mostrarse con media=Mediana=Moda, nos permite ver normalidad en los datos.Además que, al ser la cantidad del parametro un 90% de enfermos hay mayor probabilidad de encontrar poblacion enferma;por otro lado, la desviacion estandar con un valor del 3% muestra que al ser mas pequeño, los valores son cercanos al valor real, lo que nos dice que no hay mucha variabilidad. No existe sesgo ya que es simetrico y esto se ve con los resultados obtenidos.

require(ggplot2)
posibles_p_gorro_90=sapply(rep(100,500), calcula_p_gorro_90)

hist(posibles_p_gorro_90)
abline(v=0.9,col="red",lwd=4)

mean(posibles_p_gorro_90)

## [1] 0.90022

median(posibles_p_gorro_90)

## [1] 0.9

sd(posibles_p_gorro_90)

## [1] 0.0288134

sqrt((0.9*0.1)/100)

## [1] 0.03

summary(posibles_p_gorro_90)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.8100  0.8800  0.9000  0.9002  0.9200  0.9700

Interpretación: En cuanto a los resultados de las diferentes muestras.La normalidad se puede ver que, usando media, mediana y moda en todos podriamos decir que estas se comportan de manera normal, pero al revisarse los valores p, se puede notar que en todas las muestras se rechaza la H0, incluyendo la muestra mas grande que fue n=500, todavia el valor p siendo igual a 0.01 sigue siendo menor a 0.05, lo que nos dice que posiblemente para encontrar normalidad debemos usar una muestra mayor a 500.

#n=5
require(ggplot2)
require(ggpubr)
posibles_p_gorro_90_n5=sapply(rep(5,500), calcula_p_gorro_90)

hist(posibles_p_gorro_90_n5)
abline(v=0.9,col="red",lwd=4)

sd(posibles_p_gorro_90_n5)

## [1] 0.1342931

summary(posibles_p_gorro_90_n5)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4000  0.8000  1.0000  0.9012  1.0000  1.0000

shapiro.test(posibles_p_gorro_90_n5)

## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_90_n5
## W = 0.70362, p-value < 2.2e-16

ggqqplot(posibles_p_gorro_90_n5)

## [1] 0.08453361

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.5000  0.9000  0.9000  0.9094  1.0000  1.0000

## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_90_n10
## W = 0.82583, p-value < 2.2e-16

## [1] 0.07495564

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.6667  0.8667  0.9333  0.9013  0.9333  1.0000

## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_90_n15
## W = 0.89931, p-value < 2.2e-16

## [1] 0.06627288

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.6000  0.8500  0.9000  0.9013  0.9500  1.0000

## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_90_n20
## W = 0.91582, p-value = 4.596e-16

## [1] 0.05195857

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.6667  0.8667  0.9000  0.8981  0.9333  1.0000

## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_90_n30
## W = 0.95049, p-value = 6.849e-12

## [1] 0.04153903

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.7600  0.8800  0.9000  0.8994  0.9200  1.0000

## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_90_n50
## W = 0.97219, p-value = 3.834e-08

## [1] 0.03801411

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.7667  0.8833  0.9000  0.9002  0.9333  0.9833

## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_90_n60
## W = 0.97812, p-value = 8.01e-07

## [1] 0.0187926

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.8150  0.8850  0.9000  0.8996  0.9150  0.9500

## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_90_n200
## W = 0.98778, p-value = 0.0003382

#n=500
require(ggplot2)
require(ggpubr)
posibles_p_gorro_90_n500=sapply(rep(500,500), calcula_p_gorro_90)

hist(posibles_p_gorro_90_n500)
abline(v=0.9,col="red",lwd=4)

sd(posibles_p_gorro_90_n500)

## [1] 0.009305478

summary(posibles_p_gorro_90_n500)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.8720  0.8940  0.9000  0.8997  0.9060  0.9260

shapiro.test(posibles_p_gorro_90_n500)

## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_90_n500
## W = 0.99419, p-value = 0.05376

ggqqplot(posibles_p_gorro_90_n500)

2. La comparación de tratamientos es una práctica fundamental en las ciencias agropecuarias y para esto a nivel estadístico se cuenta con algunas herramientas para apoyar el proceso de toma de decisiones y lograr concluir con algún grado de confianza que los resultados observados en una muestra son representativos y se pueden asociar a los tratamientos y no se deben únicamente al azar. Por medio una simulación validemos algunos de estos resultados.

a.Suponga un escenario en el cual usted aplicó tratamientos diferentes a dos lotes y desea analizar si alguno de los dos presenta un mejor desempeño en el control de una plaga presente en ambos al momento inicial. Para ello utilizará como criterio de desempeño el tratamiento que menor % de plantas enfermas presente después de un tiempo de aplicación (es decir, si se presentan o no diferencias en las proporciones de enfermos P1 y P2). Realice una simulación en la cual genere dos poblaciones de N1=1000 (Lote1) y N2=1500 (Lote2), además asuma que el porcentaje de individuos (plantas) enfermas en ambos lotes sea la misma 10% (es decir, sin diferencias entre los tratamientos).

lote_1=c(rep("enfermo",100),rep("sano",900))
lote_1=sample(lote_1)
#lote_1

lote_2=c(rep("enfermo",150),rep("sano",1350))
lote_2=sample(lote_2)
#lote_2

b.Genere una función que permita obtener una muestra aleatoria de los lotes y calcule el estimador de la proporción muestral para cada lote (p1 y p2) para un tamaño de muestra dado n1=n2. Calcule la diferencia entre los estimadores p1-p2.

-Interpretación: Al realizar la muestra en los dos lotes podemos ver que los resultados de p1 y p2 son diferentes. En este caso #p1=0.05 y #p2=0.1, lo cual nos da una diferencia del 5%. Esta diferencia, se debe a que se estan sacando muestras y que no se esta analizando toda la población.

calcula_diferencia_p=function(n1){
#n1=60
n2=n1

muestra_1=sample(lote_1,n1)
p1=sum(muestra_1=="enfermo")/n1


muestra_2=sample(lote_2,n2)
p2=sum(muestra_2=="enfermo")/n2

data.frame(p1,p2)

diferencia_p=p1-p2
return(diferencia_p)

}

calcula_diferencia_p(n1=60)

## [1] 0.05

c.Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores (diferencias p1-p2). ¿Qué tan simétricos son los datos?, ¿Son siempre cero las diferencias?

diferencia_p=sapply(rep(400,500),calcula_diferencia_p)
summary(diferencia_p)

##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
## -0.042500 -0.010000  0.000000  0.000505  0.010000  0.045000

hist(diferencia_p)

shapiro.test(diferencia_p)

## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p
## W = 0.99446, p-value = 0.06735

d.Realice los puntos b y c para tamaños de muestra n1=n2=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores (p1-p2) en cuanto a la normalidad. También analice el comportamiento de las diferencias y evalúe. ¿Considera que es más probable concluir que existen diferencias entre los tratamientos con muestras grandes que pequeñas, es decir, cuál considera usted que es el efecto del tamaño de muestra en el caso de la comparación de proporciones?

-Interpretación: En cuanto a la normalidad se ve que con muestras muy pequeñas realmente no existe normalidad nisiquiera en la grafica, como lo muestra la grafica n=5. Al aumentar las muestras vemos que en las graficas se ve normalidad, pero en las pruebas de shapiro se puede notar que la unica que no rechaza la H0, es la muestra de n=500. Es mas probable ver diferencias con muestras mas grandes ya que esta detecta mas facil las mismas. Además, que se ve claramemte que en la ultima grafica los valores tienden a cero, mostrando que en este caso los parametros fueron los mismos para los dos lotes.

# n1=n2=5

diferencia_p_n5=sapply(rep(5,500),calcula_diferencia_p)
summary(diferencia_p_n5)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -0.6000  0.0000  0.0000  0.0084  0.2000  0.6000

hist(diferencia_p_n5)

shapiro.test(diferencia_p_n5)

## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n5
## W = 0.87988, p-value < 2.2e-16

# n1=n2=10

diferencia_p_n10=sapply(rep(10,500),calcula_diferencia_p)
summary(diferencia_p_n10)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -0.4000 -0.1000  0.0000 -0.0122  0.1000  0.4000

hist(diferencia_p_n10)

shapiro.test(diferencia_p_n10)

## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n10
## W = 0.95155, p-value = 9.785e-12

# n1=n2=15

diferencia_p_n15=sapply(rep(15,500),calcula_diferencia_p)
summary(diferencia_p_n15)

##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
## -0.400000 -0.066667  0.000000 -0.002933  0.066667  0.333333

hist(diferencia_p_n15)

shapiro.test(diferencia_p_n15)

## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n15
## W = 0.96609, p-value = 2.435e-09

# n1=n2=20

diferencia_p_n20=sapply(rep(20,500),calcula_diferencia_p)
summary(diferencia_p_n20)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -0.3000 -0.0500  0.0000  0.0027  0.0500  0.2500

hist(diferencia_p_n20)

shapiro.test(diferencia_p_n20)

## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n20
## W = 0.9754, p-value = 1.886e-07

# n1=n2=30

diferencia_p_n30=sapply(rep(30,500),calcula_diferencia_p)
summary(diferencia_p_n30)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.26667 -0.06667  0.00000 -0.00020  0.06667  0.23333

hist(diferencia_p_n30)

shapiro.test(diferencia_p_n30)

## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n30
## W = 0.98305, p-value = 1.426e-05

# n1=n2=50

diferencia_p_n50=sapply(rep(50,500),calcula_diferencia_p)
summary(diferencia_p_n50)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -0.1600 -0.0400  0.0000  0.0058  0.0400  0.1600

hist(diferencia_p_n50)

shapiro.test(diferencia_p_n50)

## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n50
## W = 0.98442, p-value = 3.407e-05

# n1=n2=60

diferencia_p_n60=sapply(rep(60,500),calcula_diferencia_p)
summary(diferencia_p_n60)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.15000 -0.03333  0.00000  0.00020  0.03333  0.18333

hist(diferencia_p_n60)

shapiro.test(diferencia_p_n60)

## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n60
## W = 0.99017, p-value = 0.002022

# n1=n2=100

diferencia_p_n100=sapply(rep(100,500),calcula_diferencia_p)
summary(diferencia_p_n100)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.15000 -0.03000  0.00000 -0.00172  0.03000  0.12000

hist(diferencia_p_n100)

shapiro.test(diferencia_p_n100)

## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n100
## W = 0.99242, p-value = 0.0122

# n1=n2=200

diferencia_p_n200=sapply(rep(200,500),calcula_diferencia_p)
summary(diferencia_p_n200)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.08000 -0.02000  0.00000 -0.00089  0.01500  0.07000

hist(diferencia_p_n200)

shapiro.test(diferencia_p_n200)

## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n200
## W = 0.99369, p-value = 0.03533

# n1=n2=500

diferencia_p_n500=sapply(rep(500,500),calcula_diferencia_p)
summary(diferencia_p_n500)

##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
## -0.038000 -0.010000  0.000000 -0.000536  0.010000  0.040000

hist(diferencia_p_n500)

shapiro.test(diferencia_p_n500)

## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n500
## W = 0.99191, p-value = 0.008027

e.Ahora realice nuevamente los puntos a-d bajo un escenario con dos lotes, pero de proporciones de enfermos diferentes (P1=0.1 y P2=0.15), es decir, el tratamiento del lote 1 si presentó un mejor desempeño reduciendo en un 5% el porcentaje de enfermos. Bajo este nuevo escenario compare la distribución de estas diferencias (p1-p2) con las observadas bajo igualdad de condiciones en los lotes. ¿Qué puede concluir? ¿Existen puntos en los cuales es posible que se observen diferencias de p1- p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2: diferencia de 5%)?

lote_1_0.1=c(rep("enfermo",100),rep("sano",900))
lote_2_0.15=c(rep("enfermo",225),rep("sano",1275))

P1_0.1= 100/1000
P2_0.15=225/1500

-Interpretación: Al realizar la muestra en los dos lotes podemos ver que los resultados de p1 y p2 son diferentes. En este caso #p1=0.12 y #p2=0.25, lo cual nos da una diferencia del 13% a favor de p1, diciendonos que en este caso, el tratamiento de p1 fue mejor que el realizado en p2.

calcula_diferencia_p_2caso=function(n1c){
#n1c=60
n2c=n1c

muestra_1_0.1=sample(lote_1_0.1,n1c)
p1_0.1=sum(muestra_1_0.1=="enfermo")/n1c


muestra_2_0.15=sample(lote_2_0.15,n2c)
p2_0.15=sum(muestra_2_0.15=="enfermo")/n2c

data.frame(p1_0.1,p2_0.15)

diferencia_p_2caso=p1_0.1-p2_0.15  
return(diferencia_p_2caso)

}

calcula_diferencia_p_2caso(n1c=60)

## [1] 0.03333333

-Interpretación: Se muestra que existe simetria en los datos y que en los mismos, entre mas grande sea la muestra mejor son los resultados y se pueden ver de mejor manera las diferencias entre las muestras de los lotes. Las diferencias no son necesariamente siempre cero, ya que lo podemos ver con los cuartiles y los datos de extremos, donde los mismos varian. Además, al ser los parametros diferentes este esta tendiendo mas hacia la diferencia real la cual va dirigia hacia p1 y al esta ser -0.13, podemos ver que en la grafica se empieza a alejar mas del cero y se va mas hacia este valor.

diferencia_p_2caso=sapply(rep(400,500),calcula_diferencia_p_2caso)
summary(diferencia_p_2caso)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.12000 -0.06250 -0.05000 -0.04986 -0.03750  0.00250

hist(diferencia_p_2caso)

shapiro.test(diferencia_p_2caso)

## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_2caso
## W = 0.99443, p-value = 0.06547

-Interpretación: Se puede ver variabilidad en muestras muy pequeñas y en las graficas no se muestra normalidad, por otro lado, cuando se aumentan la cantidad de las muestras se puede ver que los datos se comportan de manera mas normal; pero, al utilizar las pruebas de shapiro se ve que en cuanto al valor p todavia se rechaza hipotesis nula en todas las muestras menores de 500. En la ultima muestra de 500 repetida 500 veces, se muestra normalidad en cuanto a grafica y prueba de shapiro. En cuanto a las diferencias en muestras grandes, si considero que al aumentar las muestras se permite ver de mejor manera las diferencias; especialmente en parametros diferentes. En este caso, al aumentar las muestras se puede ver que:

Al los lotes ser diferentes y en este caso estar a favor de p1. En las graficas se empieza mostrar como esta se va alejando de cero y se acerca mas al valor de la diferencia de p1-p2; mostrando que el tratamiento de p1 si fue mas efectivo.

# n1=n2=5

diferencia_p_n5_2caso=sapply(rep(5,500),calcula_diferencia_p_2caso)
summary(diferencia_p_n5_2caso)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -0.8000 -0.2000  0.0000 -0.0556  0.0000  0.8000

hist(diferencia_p_n5_2caso)

shapiro.test(diferencia_p_n5_2caso)

## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n5_2caso
## W = 0.91455, p-value = 3.424e-16

# n1=n2=10

diferencia_p_n10_2caso=sapply(rep(10,500),calcula_diferencia_p_2caso)
summary(diferencia_p_n10_2caso)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -0.4000 -0.2000  0.0000 -0.0494  0.1000  0.4000

hist(diferencia_p_n10_2caso)

shapiro.test(diferencia_p_n10_2caso)

## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n10_2caso
## W = 0.95698, p-value = 6.661e-11

# n1=n2=15

diferencia_p_n15_2caso=sapply(rep(15,500),calcula_diferencia_p_2caso)
summary(diferencia_p_n15_2caso)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.40000 -0.13333 -0.06667 -0.04960  0.06667  0.26667

hist(diferencia_p_n15_2caso)

shapiro.test(diferencia_p_n15_2caso)

## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n15_2caso
## W = 0.96787, p-value = 5.265e-09

# n1=n2=20

diferencia_p_n20_2caso=sapply(rep(20,500),calcula_diferencia_p_2caso)
summary(diferencia_p_n20_2caso)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -0.4000 -0.1000 -0.0500 -0.0482  0.0000  0.2500

hist(diferencia_p_n20_2caso)

shapiro.test(diferencia_p_n20_2caso)

## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n20_2caso
## W = 0.97846, p-value = 9.667e-07

# n1=n2=30

diferencia_p_n30_2caso=sapply(rep(30,500),calcula_diferencia_p_2caso)
summary(diferencia_p_n30_2caso)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.30000 -0.10000 -0.03333 -0.04600  0.00000  0.23333

hist(diferencia_p_n30_2caso)

shapiro.test(diferencia_p_n30_2caso)

## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n30_2caso
## W = 0.98444, p-value = 3.454e-05

# n1=n2=50

diferencia_p_n50_2caso=sapply(rep(50,500),calcula_diferencia_p_2caso)
summary(diferencia_p_n50_2caso)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.22000 -0.10000 -0.04000 -0.04996  0.00000  0.16000

hist(diferencia_p_n50_2caso)

shapiro.test(diferencia_p_n50_2caso)

## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n50_2caso
## W = 0.99048, p-value = 0.002576

# n1=n2=60

diferencia_p_n60_2caso=sapply(rep(60,500),calcula_diferencia_p_2caso)
summary(diferencia_p_n60_2caso)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.25000 -0.08333 -0.05000 -0.05327 -0.01667  0.15000

hist(diferencia_p_n60_2caso)

shapiro.test(diferencia_p_n60_2caso)

## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n60_2caso
## W = 0.99152, p-value = 0.005866

# n1=n2=100

diferencia_p_n100_2caso=sapply(rep(100,500),calcula_diferencia_p_2caso)
summary(diferencia_p_n100_2caso)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.19000 -0.08000 -0.05000 -0.04914 -0.02000  0.07000

hist(diferencia_p_n100_2caso)

shapiro.test(diferencia_p_n100_2caso)

## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n100_2caso
## W = 0.99202, p-value = 0.008811

# n1=n2=200

diferencia_p_n200_2caso=sapply(rep(200,500),calcula_diferencia_p_2caso)
summary(diferencia_p_n200_2caso)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.13500 -0.06625 -0.05000 -0.04885 -0.03000  0.03000

hist(diferencia_p_n200_2caso)

shapiro.test(diferencia_p_n200_2caso)

## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n200_2caso
## W = 0.9948, p-value = 0.08912

# n1=n2=500

diferencia_p_n500_2caso=sapply(rep(500,500),calcula_diferencia_p_2caso)
summary(diferencia_p_n500_2caso)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.09400 -0.06200 -0.05000 -0.04955 -0.03800 -0.00200

hist(diferencia_p_n500_2caso)

shapiro.test(diferencia_p_n500_2caso)

## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n500_2caso
## W = 0.99494, p-value = 0.1004

3. Con base al articulo “Statistical Errors: P values, the gold standard of statistical validity, are not as reliable as many scientists assume” escriba un resumen (máximo 2 páginas) sobre ambos artículos e incluya en este sus opiniones en cuanto al uso del valor p como criterio de decisión en inferencia estadística.

                        ERRORES ESTADÍSTICOS

“Valor p, el estándar de oro para validar estadísticamente, no son tan confiables como muchos científicos piensan”.

Para empezar, Ronald Fisher quien introdujo la idea del valor p, al crearlo no lo hizo para que fuera utilizado de manera definitiva si no, como un punto de inicio que ayudara en las investigaciones. Para esto se debía establecer una Hipótesis la cual se estaba buscando desaprobar, en este caso llamada Hipótesis nula (H0). Luego, asumiendo que esta hipótesis era real, entonces calcular cual era la probabilidad de obtener resultados extremos a los observados. Esta probabilidad es lo que llamamos valor p. El resultado decía que, si el valor p era muy pequeño, entonces indicaba que la H0 era falsa.

Esta teoría fue muy criticada por diferentes matemáticos los cuales introdujeron la idea de una hipótesis alternativa. Por otro lado, investigadores al no ser matemáticos o estadísticos crearon un sistema hibrido que metió el valor P de Fisher en el sistema basado en reglas riguroso de Neyman y Pearson. Fue entonces cuando un valor P de 0,05 se consagró como “estadísticamente significativo”.

Después de diferentes investigaciones, se vio que exactamente lo que Fisher decía acerca de no tomar el resultado del valor p como un definitivo, fue cierto, ya que este omite mucha información la cual puede alejar a las personas de datos importantes en cualquier investigación y volver esta misma un P-hacking, que es moldear el estudio de acuerdo a conveniencia, lo cual no es la idea si se desea obtener información real.

Es importante incorporar conocimiento y experiencia sobre el mundo a las conclusiones y calcular como las probabilidades cambian cada vez que llega nueva evidencia. Es por esto, que es significativo realizar un buen análisis exploratorio y uso de diferentes métodos; ya que como Goodman dijo: “Un método no puede responder a todas las preguntas. Es por esto que los números es donde la discusión científica debe comenzar, no terminar”.

Para terminar, la decisión de usar cualquier tipo de valor significativo, ya sea 0.01 o 0.05, dependerá siempre de quienes estén realizando la investigación; y esta decisión se deberá basar en diferentes métodos y conocimientos tales como la experiencia, la intuición y demás. Los resultados no son siempre lo que parecen si los mismos no vienen soportados por métodos y factores que hacen parte del problema y probablemente de la solución.

Inferencia Estadistica y Simulación

Luisa Fernanda Giraldo-Mena

23/3/2022

1. El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.

P=10%

P=90%