Desarrollo

Punto 1

Teorema del limite central

A. Realice una simulación en la cual genere una población de N=1000 (Lote) y además que el porcentaje de individuos (plantas) enfermas sea del 50%.

lote=c(rep(x = 1,500),rep(x = 0,500))
parametro=0.5

B. Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n.

calcular_estimador_lote=function(n){
return(sum(sample(lote,size = n))/n)
}

prob_estimado1=calcular_estimador_lote(30)
prob_estimado1

## [1] 0.4333333

C.Repita el escenario anterior (b) 5000 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores. ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?

prob_estimado_multiple=sapply(rep(30,5000), calcular_estimador_lote)

generar_graficos=function(prob_estimado_multiple,cantidad_muestras,parametro,prob_estimado1){
  
summary(prob_estimado_multiple)
media=mean(prob_estimado_multiple)
dst=sd(prob_estimado_multiple)

variabilidad=data.frame(
  "parametro"=parametro,
  "prob_estimada_1_muestra"=prob_estimado1,
  "media_muestras"=media,
  "diferencia_media"=media-prob_estimado1,
  "sd"=dst,
  "variabilidad"=str_c(media-dst," entre ",media+dst)
  )
nombre_col=str_c('Valores de ',cantidad_muestras," muestras")
rownames(variabilidad)=c(nombre_col)

print(t(variabilidad))

par(mfrow=c(1,2))
hist(prob_estimado_multiple,main=str_c("Hist medias muestrales ",cantidad_muestras," muestras"))
abline(v=parametro,col="red",lwd=4)
abline(v=media,col="blue",lwd=4)
abline(v=prob_estimado1,col="green",lwd=4)  

qqPlot(prob_estimado_multiple, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales", las=1,main="Distribución medias muestrales")

}

generar_graficos(prob_estimado_multiple,30,parametro,prob_estimado1)

##                         Valores de 30 muestras                     
## parametro               "0.5"                                      
## prob_estimada_1_muestra "0.4333333"                                
## media_muestras          "0.4988267"                                
## diferencia_media        "0.06549333"                               
## sd                      "0.08834381"                               
## variabilidad            "0.410482857268016 entre 0.587170476065317"

## [1] 3808  456

Descriptivos	Análisis
¿Qué tan simétricos son los datos? ¿Son sesgados y qué pasa en cuanto a variabilidad?	Como se puede observar en el histograma los datos son simétricos dado que oscilan entre 0,3 y 0,7 con una desviación estándar de 0,091, donde se observa que hay una mayor concentración de valores por encima del parámetro 0,5 pero la diferencia no es muy grande. Si comparamos la línea verde que representa el estimador de una sola muestra de 30 con valor 0,33 y el valor de la media de 500 muestras azul 0,4965 se puede observar que está lejos del parámetro rojo y representa un sesgo significativo. Sim embargo se comprueba el teorema de limite central con la selección de 5000 muestras de 30 dado que las medias muestrales siguen una distribución muestral normal y el estimador azul 0,4965 se acerca al parámetro rojo 0,5 con una variabilidad 0.405 entre 0.587

¿Qué tan simétricos son los datos?
¿Son sesgados y qué pasa en cuanto a variabilidad?

Como se puede observar en el histograma los datos son simétricos dado que oscilan entre 0,3 y 0,7 con una desviación estándar de 0,091, donde se observa que hay una mayor concentración de valores por encima del parámetro 0,5 pero la diferencia no es muy grande.

Si comparamos la línea verde que representa el estimador de una sola muestra de 30 con valor 0,33 y el valor de la media de 500 muestras azul 0,4965 se puede observar que está lejos del parámetro rojo y representa un sesgo significativo.

Sim embargo se comprueba el teorema de limite central con la selección de 5000 muestras de 30 dado que las medias muestrales siguen una distribución muestral normal y el estimador azul 0,4965 se acerca al parámetro rojo 0,5 con una variabilidad 0.405 entre 0.587

C. Realice los ejercicios completos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad)

prob_estimado_multiple_5=sapply(rep(5,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(5)
generar_graficos(prob_estimado_multiple_5,5,parametro,prob_estimado1)

##                         Valores de 5 muestras                      
## parametro               "0.5"                                      
## prob_estimada_1_muestra "0.4"                                      
## media_muestras          "0.49872"                                  
## diferencia_media        "0.09872"                                  
## sd                      "0.2237328"                                
## variabilidad            "0.274987184180382 entre 0.722452815819618"

## [1] 11 26

prob_estimado_multiple_10=sapply(rep(10,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(10)
generar_graficos(prob_estimado_multiple_10,10,parametro,prob_estimado1)

##                         Valores de 10 muestras                     
## parametro               "0.5"                                      
## prob_estimada_1_muestra "0.7"                                      
## media_muestras          "0.50428"                                  
## diferencia_media        "-0.19572"                                 
## sd                      "0.1563412"                                
## variabilidad            "0.347938802249622 entre 0.660621197750378"

## [1] 2935 3443

prob_estimado_multiple_20=sapply(rep(20,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(20)
generar_graficos(prob_estimado_multiple_20,20,parametro,prob_estimado1)

##                         Valores de 20 muestras                     
## parametro               "0.5"                                      
## prob_estimada_1_muestra "0.4"                                      
## media_muestras          "0.49921"                                  
## diferencia_media        "0.09921"                                  
## sd                      "0.1118722"                                
## variabilidad            "0.387337845395759 entre 0.611082154604241"

## [1] 726 762

prob_estimado_multiple_30=sapply(rep(30,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(30)
generar_graficos(prob_estimado_multiple_30,30,parametro,prob_estimado1)

##                         Valores de 30 muestras                     
## parametro               "0.5"                                      
## prob_estimada_1_muestra "0.5666667"                                
## media_muestras          "0.50018"                                  
## diferencia_media        "-0.06648667"                              
## sd                      "0.09079681"                               
## variabilidad            "0.409383189171559 entre 0.590976810828441"

## [1] 2095 2637

prob_estimado_multiple_50=sapply(rep(50,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(50)
generar_graficos(prob_estimado_multiple_50,50,parametro,prob_estimado1)

##                         Valores de 50 muestras                     
## parametro               "0.5"                                      
## prob_estimada_1_muestra "0.52"                                     
## media_muestras          "0.500524"                                 
## diferencia_media        "-0.019476"                                
## sd                      "0.06892631"                               
## variabilidad            "0.431597694491013 entre 0.569450305508987"

## [1] 4106  230

prob_estimado_multiple_60=sapply(rep(60,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(60)
generar_graficos(prob_estimado_multiple_60,60,parametro,prob_estimado1)

##                         Valores de 60 muestras                     
## parametro               "0.5"                                      
## prob_estimada_1_muestra "0.5166667"                                
## media_muestras          "0.50028"                                  
## diferencia_media        "-0.01638667"                              
## sd                      "0.06158113"                               
## variabilidad            "0.438698869751554 entre 0.561861130248446"

## [1] 3507 3426

prob_estimado_multiple_100=sapply(rep(100,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(100)
generar_graficos(prob_estimado_multiple_100,100,parametro,prob_estimado1)

##                         Valores de 100 muestras                  
## parametro               "0.5"                                    
## prob_estimada_1_muestra "0.48"                                   
## media_muestras          "0.49972"                                
## diferencia_media        "0.01972"                                
## sd                      "0.04726995"                             
## variabilidad            "0.45245004665014 entre 0.54698995334986"

## [1] 4651 1642

prob_estimado_multiple_200=sapply(rep(200,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(200)
generar_graficos(prob_estimado_multiple_200,200,parametro,prob_estimado1)

##                         Valores de 200 muestras                    
## parametro               "0.5"                                      
## prob_estimada_1_muestra "0.475"                                    
## media_muestras          "0.500345"                                 
## diferencia_media        "0.025345"                                 
## sd                      "0.03131632"                               
## variabilidad            "0.469028676502126 entre 0.531661323497874"

## [1] 1429 3845

prob_estimado_multiple_500=sapply(rep(500,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(500)
generar_graficos(prob_estimado_multiple_500,500,parametro,prob_estimado1)

##                         Valores de 500 muestras                    
## parametro               "0.5"                                      
## prob_estimada_1_muestra "0.542"                                    
## media_muestras          "0.5003388"                                
## diferencia_media        "-0.0416612"                               
## sd                      "0.0157237"                                
## variabilidad            "0.484615102550217 entre 0.516062497449782"

## [1] 2176  484

Pruebas de bondad y ajuste con nivel de significancia: 0.05 (Hipotético)

vector_prob = data.frame("pe1"=prob_estimado_multiple_5,"pe2"=prob_estimado_multiple_10,"pe3"=prob_estimado_multiple_20,"pe3"=prob_estimado_multiple_30,"pe4"=prob_estimado_multiple_50,"pe5"=prob_estimado_multiple_60,"pe6"=prob_estimado_multiple_100,"pe7"=prob_estimado_multiple_100,"pe8"=prob_estimado_multiple_200,"pe9"=prob_estimado_multiple_200)

calcular_pruebas_bondad_ajuste=function(prob_estimada){
nom_col=colnames(prob_estimada)
appendedDf=data.frame()

for (i in 1:length(nom_col)) {
  ajuste=fitdistr(prob_estimada[[nom_col[i]]], "normal")
  Ksn=ks.test(prob_estimada[[nom_col[i]]], "pnorm", mean =ajuste$estimate[1], sd= ajuste$estimate[2])
  Adn=ad.test(prob_estimada[[nom_col[i]]], "pnorm", mean =ajuste$estimate[1], sd= ajuste$estimate[2])
  Swn=shapiro.test(prob_estimada[[nom_col[i]]])
  df1=data.frame(mean =ajuste$estimate[1], sd= ajuste$estimate[2],ksnp_value=Ksn$p.value,adnp_value=Adn$p.value,Swnp_value=Swn$p.value)
  appendedDf =rbind(appendedDf,df1)
}

  return(appendedDf)
}

calcular_pruebas_bondad_ajuste(vector_prob)

	mean	sd	ksnp_value	adnp_value	Swnp_value
mean	0.498720	0.2237104	0.0e+00	0.0000001	0e+00
mean1	0.504280	0.1563256	0.0e+00	0.0000001	0e+00
mean2	0.499210	0.1118610	0.0e+00	0.0000001	0e+00
mean3	0.500180	0.0907877	0.0e+00	0.0000001	0e+00
mean4	0.500524	0.0689194	0.0e+00	0.0000001	0e+00
mean5	0.500280	0.0615750	0.0e+00	0.0000001	0e+00
mean6	0.499720	0.0472652	0.0e+00	0.0000163	0e+00
mean7	0.499720	0.0472652	0.0e+00	0.0000163	0e+00
mean8	0.500345	0.0313132	7.5e-06	0.0020633	5e-07
mean9	0.500345	0.0313132	7.5e-06	0.0020633	5e-07

D. Repita toda la simulación (puntos a – d) pero ahora con lotes con 10% y 90% de plantas enfermas. Concluya todo el ejercicio.

lote=c(rep(x = 1,900),rep(x = 0,100))
parametro=0.9

D1. Calcule el estimador de la proporción muestral para un tamaño de muestra dado n.

prob_estimado1=calcular_estimador_lote(30)
prob_estimado1

## [1] 1

D2. Repita el escenario anterior (b) 5000 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores. ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?

prob_estimado_multiple=sapply(rep(30,5000), calcular_estimador_lote)
generar_graficos(prob_estimado_multiple,30,parametro,prob_estimado1)

##                         Valores de 30 muestras                     
## parametro               "0.9"                                      
## prob_estimada_1_muestra "1"                                        
## media_muestras          "0.9015067"                                
## diferencia_media        "-0.09849333"                              
## sd                      "0.05405021"                               
## variabilidad            "0.847456455272658 entre 0.955556878060675"

## [1] 207 700

D3. Realice los ejercicios completos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad)

prob_estimado_multiple_5=sapply(rep(5,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(5)
generar_graficos(prob_estimado_multiple_5,5,parametro,prob_estimado1)

##                         Valores de 5 muestras                     
## parametro               "0.9"                                     
## prob_estimada_1_muestra "1"                                       
## media_muestras          "0.89792"                                 
## diferencia_media        "-0.10208"                                
## sd                      "0.1364676"                               
## variabilidad            "0.761452427735905 entre 1.03438757226409"

## [1] 1442 1919

prob_estimado_multiple_10=sapply(rep(10,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(10)
generar_graficos(prob_estimado_multiple_10,10,parametro,prob_estimado1)

##                         Valores de 10 muestras                     
## parametro               "0.9"                                      
## prob_estimada_1_muestra "0.6"                                      
## media_muestras          "0.89902"                                  
## diferencia_media        "0.29902"                                  
## sd                      "0.09553463"                               
## variabilidad            "0.803485372911208 entre 0.994554627088792"

## [1] 1859  935

prob_estimado_multiple_20=sapply(rep(20,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(20)
generar_graficos(prob_estimado_multiple_20,20,parametro,prob_estimado1)

##                         Valores de 20 muestras                     
## parametro               "0.9"                                      
## prob_estimada_1_muestra "0.9"                                      
## media_muestras          "0.90176"                                  
## diferencia_media        "0.00176"                                  
## sd                      "0.0651978"                                
## variabilidad            "0.836562204404519 entre 0.966957795595481"

## [1] 544 596

prob_estimado_multiple_30=sapply(rep(30,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(30)
generar_graficos(prob_estimado_multiple_30,30,parametro,prob_estimado1)

##                         Valores de 30 muestras                     
## parametro               "0.9"                                      
## prob_estimada_1_muestra "0.9333333"                                
## media_muestras          "0.9001933"                                
## diferencia_media        "-0.03314"                                 
## sd                      "0.05387526"                               
## variabilidad            "0.846318078059243 entre 0.954068588607424"

## [1] 1771 2018

prob_estimado_multiple_50=sapply(rep(50,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(50)
generar_graficos(prob_estimado_multiple_50,50,parametro,prob_estimado1)

##                         Valores de 50 muestras                     
## parametro               "0.9"                                      
## prob_estimada_1_muestra "0.88"                                     
## media_muestras          "0.899128"                                 
## diferencia_media        "0.019128"                                 
## sd                      "0.04151993"                               
## variabilidad            "0.857608072291978 entre 0.940647927708022"

## [1] 1102 2402

prob_estimado_multiple_60=sapply(rep(60,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(60)
generar_graficos(prob_estimado_multiple_60,60,parametro,prob_estimado1)

##                         Valores de 60 muestras                     
## parametro               "0.9"                                      
## prob_estimada_1_muestra "0.8833333"                                
## media_muestras          "0.9007967"                                
## diferencia_media        "0.01746333"                               
## sd                      "0.03755785"                               
## variabilidad            "0.863238819483373 entre 0.938354513849961"

## [1] 2309 2410

prob_estimado_multiple_100=sapply(rep(100,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(100)
generar_graficos(prob_estimado_multiple_100,100,parametro,prob_estimado1)

##                         Valores de 100 muestras                    
## parametro               "0.9"                                      
## prob_estimada_1_muestra "0.87"                                     
## media_muestras          "0.900194"                                 
## diferencia_media        "0.030194"                                 
## sd                      "0.02846936"                               
## variabilidad            "0.871724639893159 entre 0.928663360106841"

## [1] 2543 3632

prob_estimado_multiple_200=sapply(rep(200,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(200)
generar_graficos(prob_estimado_multiple_200,200,parametro,prob_estimado1)

##                         Valores de 200 muestras                    
## parametro               "0.9"                                      
## prob_estimada_1_muestra "0.895"                                    
## media_muestras          "0.900138"                                 
## diferencia_media        "0.005138"                                 
## sd                      "0.0191751"                                
## variabilidad            "0.880962899142414 entre 0.919313100857586"

## [1] 1821  414

prob_estimado_multiple_500=sapply(rep(500,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(500)
generar_graficos(prob_estimado_multiple_500,500,parametro,prob_estimado1)

##                         Valores de 500 muestras                    
## parametro               "0.9"                                      
## prob_estimada_1_muestra "0.91"                                     
## media_muestras          "0.9000632"                                
## diferencia_media        "-0.0099368"                               
## sd                      "0.009453861"                              
## variabilidad            "0.890609339367636 entre 0.909517060632365"

## [1] 2920 4499

Pruebas de bondad y ajuste con nivel de significancia: 0.05 (Hipotético)

vector_prob = data.frame("pe1"=prob_estimado_multiple_5,"pe2"=prob_estimado_multiple_10,"pe3"=prob_estimado_multiple_20,"pe3"=prob_estimado_multiple_30,"pe4"=prob_estimado_multiple_50,"pe5"=prob_estimado_multiple_60,"pe6"=prob_estimado_multiple_100,"pe7"=prob_estimado_multiple_100,"pe8"=prob_estimado_multiple_200,"pe9"=prob_estimado_multiple_200)
calcular_pruebas_bondad_ajuste(vector_prob)

	mean	sd	adnp_value
mean	0.8979200	0.1364539	1e-07
mean1	0.8990200	0.0955251	1e-07
mean2	0.9017600	0.0651913	1e-07
mean3	0.9001933	0.0538699	1e-07
mean4	0.8991280	0.0415158	1e-07
mean5	0.9007967	0.0375541	1e-07
mean6	0.9001940	0.0284665	1e-07
mean7	0.9001940	0.0284665	1e-07
mean8	0.9001380	0.0191732	1e-07
mean9	0.9001380	0.0191732	1e-07

Descriptivos	Análisis
¿Qué tan simétricos son los datos? ¿Son sesgados y qué pasa en cuanto a variabilidad?	Como se muestra en las gráficas para muestras menores a 30 la línea verde que representa el estimador de una sola muestra y el valor de diferencia con respecto a la media de las n muestras es mayor, esto comprueba que para n<40 no hay un buen nivel de ajuste, sim embargo se mantiene la simetría de los datos y se cumple el teorema del límite central “Dada una muestra aleatoria suficientemente grande de la población, la distribución de las medias muestrales seguirá una distribución normal”. Para valores de muestra > 40 se observa que la línea verde (estimador 1 muestra) y la línea azul (medias de n muestras) se ajusta más al valor del parámetro línea roja con valor 0.5 y 0.9
Normalidad de la simulación	Para reforzar el análisis se realizan pruebas de bondad de ajuste donde se calcula parámetros de la distribución hipotética en este caso la normal y se realizan tres pruebas de bondad y de ajuste Kolmogorov Smirnov, Anderson Darling y Shapiro Wilk. pero estas no comprueban normalidad en este ejercicio debido a la exactitud de las mismas. Se observa que la media y la desviación estándar se ajustan más al parámetro 0.5 y 0.9 A Y B en la medida que n >40 lo cual significa que los estimadores agrupados de la simulación siguen una distribución normal
Conclusiones	Sin importar la distribución de la muestra con n>40 se cumple el teorema de limite central

¿Qué tan simétricos son los datos?
¿Son sesgados y qué pasa en cuanto a variabilidad?

Como se muestra en las gráficas para muestras menores a 30 la línea verde que representa el estimador de una sola muestra y el valor de diferencia con respecto a la media de las n muestras es mayor, esto comprueba que para n<40 no hay un buen nivel de ajuste, sim embargo se mantiene la simetría de los datos y se cumple el teorema del límite central “Dada una muestra aleatoria suficientemente grande de la población, la distribución de las medias muestrales seguirá una distribución normal”.

Para valores de muestra > 40 se observa que la línea verde (estimador 1 muestra) y la línea azul (medias de n muestras) se ajusta más al valor del parámetro línea roja con valor 0.5 y 0.9

Normalidad de la simulación

Para reforzar el análisis se realizan pruebas de bondad de ajuste donde se calcula parámetros de la distribución hipotética en este caso la normal y se realizan tres pruebas de bondad y de ajuste Kolmogorov Smirnov, Anderson Darling y Shapiro Wilk. pero estas no comprueban normalidad en este ejercicio debido a la exactitud de las mismas.

Se observa que la media y la desviación estándar se ajustan más al parámetro 0.5 y 0.9 A Y B en la medida que n >40 lo cual significa que los estimadores agrupados de la simulación siguen una distribución normal

Conclusiones

Sin importar la distribución de la muestra con n>40 se cumple el teorema de limite central

Punto 2

La comparación de tratamientos es una práctica fundamental en las ciencias agropecuarias y para esto a nivel estadístico se cuenta con algunas herramientas para apoyar el proceso de toma de decisiones y lograr concluir con algún grado de confianza que los resultados observados en una muestra son representativos y se pueden asociar a los tratamientos y no se deben únicamente al azar. Por medio una simulación validemos algunos de estos resultados.

A. Suponga un escenario en el cual usted aplicó tratamientos diferentes a dos lotes y desea analizar si alguno de los dos presenta un mejor desempeño en el control de una plaga presente en ambos al momento inicial. Para ello utilizará como criterio de desempeño el tratamiento que menor % de plantas enfermas presente después de un tiempo de aplicación (es decir, si se presentan o no diferencias en las proporciones de enfermos P1 y P2). Realice una simulación en la cual genere dos poblaciones de N1=1000 (Lote1) y N2=1500 (Lote2), además asuma que el porcentaje de individuos (plantas) enfermas en ambos lotes sea la misma 10% (es decir, sin diferencias entre los tratamientos).

loteA=c(rep(x = 1,100),rep(x = 0,900))
loteB=c(rep(x = 1,150),rep(x = 0,1350))
parametro=0.0

B. Genere una función que permita obtener una muestra aleatoria de los lotes y calcule el estimador de la proporción muestral para cada lote (p1 y p2) para un tamaño de muestra dado n1=n2. Calcule la diferencia entre los estimadores p1-p2.

calcular_estimador_loteAB=function(n,lote){
return(sum(sample(lote,size = n))/n)
}

prob_estimado1A=calcular_estimador_loteAB(200,loteA)
prob_estimado1A

## [1] 0.075

prob_estimado1B=calcular_estimador_loteAB(200,loteB)
prob_estimado1B

## [1] 0.11

diferenciaAB=data.frame("prob_estimadorA"=prob_estimado1A,
                        "prob_estimadorB"=prob_estimado1B,
                         "Diferencia p1-p2"=(prob_estimado1A-prob_estimado1B))
diferenciaAB

prob_estimadorA	prob_estimadorB	Diferencia.p1.p2
0.075	0.11	-0.035

C.Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores (diferencias p1-p2).

igualdadAB=TRUE
get_loteA=function(){
  return(loteA)
}
get_loteB=function(){
  return(loteB)
}

get_igualdadAB=function()
{
  return(igualdadAB)
}
calcular_estimador_lote_diferencias=function(n){
prob_estimado1A=calcular_estimador_loteAB(n,get_loteA())
prob_estimado1B=calcular_estimador_loteAB(n,get_loteB())
return(prob_estimado1A-prob_estimado1B)
}

calcular_estimador_lote_diferencias2=function(n){

prob_estimado1A=calcular_estimador_loteAB(n,get_loteA())
prob_estimado1B=calcular_estimador_loteAB(n,get_loteB())
cantA=round(prob_estimado1A*n, digits = 0)
cantB=round(prob_estimado1B*n, digits = 0) 

 if(get_igualdadAB()){
   if(prob_estimado1B!=0){
     hipAB=prop.test(x=cantA,n=n, conf.level = 0.95,p=prob_estimado1B , alternative = "two.sided")
    return(hipAB$p.value) 
    }else{return(0)}
    
  }else{
     if(prob_estimado1A!=0){
    hipBA=prop.test(x=cantB,n=n, conf.level = 0.95,p=prob_estimado1A , alternative = "two.sided")
    return(hipBA$p.value)
    }else{return(0)}
  }

}

prob_hipo_multiple_60=sapply(rep(60,5000), calcular_estimador_lote_diferencias)
prob_estimado1=calcular_estimador_lote_diferencias(60)
generar_graficos(prob_hipo_multiple_60,60,parametro,prob_estimado1)

##                         Valores de 60 muestras                        
## parametro               "0"                                           
## prob_estimada_1_muestra "0.03333333"                                  
## media_muestras          "0.0009866667"                                
## diferencia_media        "-0.03234667"                                 
## sd                      "0.05455435"                                  
## variabilidad            "-0.0535676849462013 entre 0.0555410182795346"

## [1] 1681 2112

Descriptivos	Análisis
¿Qué tan simétricos son los datos? ¿Son siempre cero las diferencias?	Los datos gráficamente muestran simetría a nivel de distribución por encima o por debajo de la media, se observa que estos se distribuyen como se ve en la tabla con una variabilidad de 5% y en la gráfica. Por lo tanto las diferencias de los dos estimadores de las dos muestras aleatorias no siempre son ceros.

D.Realice los puntos b y c para tamaños de muestra n1=n2=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores (p1-p2) en cuanto a la normalidad. También analice el comportamiento de las diferencias y evalúe. ¿Considera que es más probable concluir que existen diferencias entre los tratamientos con muestras grandes que pequeñas, es decir, cuál considera usted que es el efecto del tamaño de muestra en el caso de la comparación de proporciones?

##                         Valores de 5 muestras                       
## parametro               "0"                                         
## prob_estimada_1_muestra "-0.2"                                      
## media_muestras          "0.00128"                                   
## diferencia_media        "0.20128"                                   
## sd                      "0.1908026"                                 
## variabilidad            "-0.189522627677256 entre 0.192082627677256"

## [1] 2133 3703

##                         Valores de 10 muestras                      
## parametro               "0"                                         
## prob_estimada_1_muestra "0"                                         
## media_muestras          "-0.00102"                                  
## diferencia_media        "-0.00102"                                  
## sd                      "0.1353833"                                 
## variabilidad            "-0.136403253488255 entre 0.134363253488255"

## [1] 3854 1101

##                         Valores de 20 muestras                        
## parametro               "0"                                           
## prob_estimada_1_muestra "-0.1"                                        
## media_muestras          "0.00181"                                     
## diferencia_media        "0.10181"                                     
## sd                      "0.09446697"                                  
## variabilidad            "-0.0926569714860191 entre 0.0962769714860191"

## [1] 2517 4824

##                         Valores de 30 muestras                        
## parametro               "0"                                           
## prob_estimada_1_muestra "-0.06666667"                                 
## media_muestras          "-1e-04"                                      
## diferencia_media        "0.06656667"                                  
## sd                      "0.0757835"                                   
## variabilidad            "-0.0758834983866907 entre 0.0756834983866907"

## [1] 1480 1626

##                         Valores de 50 muestras                        
## parametro               "0"                                           
## prob_estimada_1_muestra "0.06"                                        
## media_muestras          "0.000496"                                    
## diferencia_media        "-0.059504"                                   
## sd                      "0.05840373"                                  
## variabilidad            "-0.0579077343261255 entre 0.0588997343261255"

## [1] 3990 1510

##                         Valores de 60 muestras                        
## parametro               "0"                                           
## prob_estimada_1_muestra "0.05"                                        
## media_muestras          "-1.333333e-05"                               
## diferencia_media        "-0.05001333"                                 
## sd                      "0.05476657"                                  
## variabilidad            "-0.0547799059437779 entre 0.0547532392771113"

## [1]  279 1310

##                         Valores de 100 muestras                       
## parametro               "0"                                           
## prob_estimada_1_muestra "0.87"                                        
## media_muestras          "0.000512"                                    
## diferencia_media        "-0.869488"                                   
## sd                      "0.04050711"                                  
## variabilidad            "-0.0399951107486604 entre 0.0410191107486604"

## [1] 2099 1056

##                         Valores de 200 muestras                       
## parametro               "0"                                           
## prob_estimada_1_muestra "-0.01"                                       
## media_muestras          "-0.000324"                                   
## diferencia_media        "0.009676"                                    
## sd                      "0.02744077"                                  
## variabilidad            "-0.0277647657168058 entre 0.0271167657168058"

## [1] 2273 4435

##                         Valores de 500 muestras                       
## parametro               "0"                                           
## prob_estimada_1_muestra "-0.006"                                      
## media_muestras          "7.2e-06"                                     
## diferencia_media        "0.0060072"                                   
## sd                      "0.01460102"                                  
## variabilidad            "-0.0145938200368749 entre 0.0146082200368749"

## [1]  174 2741

Descriptivos	Análisis
¿Considera que es más probable concluir que existen diferencias entre los tratamientos con muestras grandes que pequeñas, es decir, cuál considera usted que es el efecto del tamaño de muestra en el caso de la comparación de proporciones?	Como se observa en las graficas y en las tablas acompañadas a medida que se aumenta el tamaño de la muestra la desviación estándar es más pequeña y por ende es más fácil identificar si existen diferencia entre las muestras de los dos lotes, al reducir el rango de variabilidad de las muestras es posible identificar diferencias que estén por encima o por debajo de ese rango y esto se logra a medida que n aumenta.

¿Considera que es más probable concluir que existen diferencias entre los tratamientos con muestras grandes que pequeñas, es decir, cuál considera usted que es el efecto del tamaño de muestra en el caso de la comparación de proporciones?

Como se observa en las graficas y en las tablas acompañadas a medida que se aumenta el tamaño de la muestra la desviación estándar es más pequeña y por ende es más fácil identificar si existen diferencia entre las muestras de los dos lotes, al reducir el rango de variabilidad de las muestras es posible identificar diferencias que estén por encima o por debajo de ese rango y esto se logra a medida que n aumenta.

D. Ahora realice nuevamente los puntos a-d bajo un escenario con dos lotes, pero de proporciones de enfermos diferentes (P1=0.1 y P2=0.15), es decir, el tratamiento del lote 1 si presentó un mejor desempeño reduciendo en un 5% el porcentaje de enfermos. Bajo este nuevo escenario compare la distribución de estas diferencias (p1-p2) con las observadas bajo igualdad de condiciones en los lotes. ¿Qué puede concluir? ¿Existen puntos en los cuales es posible que se observen diferencias de p1- p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2: diferencia de 5%)?

loteA=c(rep(x = 1,100),rep(x = 0,900))
loteB=c(rep(x = 1,225),rep(x = 0,1275))
parametro=-0.05

Punto A y C n=50

prob_hipo_multiple_50=sapply(rep(50,5000), calcular_estimador_lote_diferencias)
prob_estimado1=calcular_estimador_lote_diferencias(50)
generar_graficos(prob_hipo_multiple_5,50,parametro,prob_estimado1)

##                         Valores de 50 muestras                      
## parametro               "-0.05"                                     
## prob_estimada_1_muestra "-0.02"                                     
## media_muestras          "0.00128"                                   
## diferencia_media        "0.02128"                                   
## sd                      "0.1908026"                                 
## variabilidad            "-0.189522627677256 entre 0.192082627677256"

## [1] 2133 3703

Puntos A y C n1=n2=5, 10, 15, 20, 30, 50, 60, 100, 200, 500

##                         Valores de 5 muestras                       
## parametro               "-0.05"                                     
## prob_estimada_1_muestra "0"                                         
## media_muestras          "-0.04796"                                  
## diferencia_media        "-0.04796"                                  
## sd                      "0.207433"                                  
## variabilidad            "-0.255392986983309 entre 0.159472986983309"

## [1] 2280  454

##                         Valores de 10 muestras                      
## parametro               "-0.05"                                     
## prob_estimada_1_muestra "-0.2"                                      
## media_muestras          "-0.05032"                                  
## diferencia_media        "0.14968"                                   
## sd                      "0.1494937"                                 
## variabilidad            "-0.19981370312309 entre 0.0991737031230904"

## [1] 2359 1547

##                         Valores de 20 muestras                      
## parametro               "-0.05"                                     
## prob_estimada_1_muestra "0.05"                                      
## media_muestras          "-0.04857"                                  
## diferencia_media        "-0.09857"                                  
## sd                      "0.1041903"                                 
## variabilidad            "-0.152760336525251 entre 0.055620336525251"

## [1] 1914 4902

##                         Valores de 30 muestras                       
## parametro               "-0.05"                                      
## prob_estimada_1_muestra "0.03333333"                                 
## media_muestras          "-0.05094667"                                
## diferencia_media        "-0.08428"                                   
## sd                      "0.08374602"                                 
## variabilidad            "-0.134692683826823 entre 0.0327993504934894"

## [1] 4319  687

##                         Valores de 50 muestras                       
## parametro               "-0.05"                                      
## prob_estimada_1_muestra "-0.16"                                      
## media_muestras          "-0.048412"                                  
## diferencia_media        "0.111588"                                   
## sd                      "0.06400045"                                 
## variabilidad            "-0.112412448963218 entre 0.0155884489632182"

## [1] 4061 1851

##                         Valores de 60 muestras                        
## parametro               "-0.05"                                       
## prob_estimada_1_muestra "-0.15"                                       
## media_muestras          "-0.04954"                                    
## diferencia_media        "0.10046"                                     
## sd                      "0.05830687"                                  
## variabilidad            "-0.107846865464834 entre 0.00876686546483432"

## [1] 4660  244

##                         Valores de 100 muestras                         
## parametro               "-0.05"                                         
## prob_estimada_1_muestra "0.92"                                          
## media_muestras          "-0.048104"                                     
## diferencia_media        "-0.968104"                                     
## sd                      "0.04474333"                                    
## variabilidad            "-0.0928473299734767 entre -0.00336067002652325"

## [1] 5000 2824

##                         Valores de 200 muestras                        
## parametro               "-0.05"                                        
## prob_estimada_1_muestra "-0.075"                                       
## media_muestras          "-0.050458"                                    
## diferencia_media        "0.024542"                                     
## sd                      "0.03019458"                                   
## variabilidad            "-0.0806525786278879 entre -0.0202634213721121"

## [1] 3849 2717

##                         Valores de 500 muestras                        
## parametro               "-0.05"                                        
## prob_estimada_1_muestra "-0.054"                                       
## media_muestras          "-0.0498316"                                   
## diferencia_media        "0.0041684"                                    
## sd                      "0.01627513"                                   
## variabilidad            "-0.0661067287983684 entre -0.0335564712016316"

## [1] 1205 1850

Descriptivos	Análisis
¿Qué puede concluir? ¿Existen puntos en los cuales es posible que se observen diferencias de p1- p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2: diferencia de 5%)?	Los datos gráficamente muestran simetría a nivel de distribución por encima o por debajo de la media la cual a medida que n aumenta esta se centra en la diferencia de 5%, para n menores a
Normalidad de la simulación	Como se muestra en la grafica QQ de normalidad los datos siguen la línea diagonal, con algunas variaciones, pero en general la tienden a la normalidad como se sustenta en el teorema de limite central.
Conclusiones	La resta de las probabilidades p1-p2 de las muestras tienden a el valor de la diferencia para muestras grandes Al tratarce de un estimidador elegido de una muestra aleatoria se presentan diferencias en los valores de p1 y p2 para los escenarios P1=P2 y P1>P2 (5%) Una muestra aleatoria suficientemente grande de la población, la distribución de las medias muestrales seguirá una distribución normal Es posible predecir el valor de P de una muestra aleatoria teniendo encuenta el intervalo de confianza y el margen de error a traves del teorema de limite central con muestras grandes.

Punto 3

Con base a los artículos “Statistical Errors: P values, the gold standard of statistical validity, are not as reliable as many scientists assume” & “Statisticians issue warning on P values: Statement aims to halt missteps in the quest for certainty” escriba un resumen (máximo 2 páginas) sobre ambos artículos e incluya en este sus opiniones en cuanto al uso del valor p como criterio de decisión en inferencia estadística.

Taller de simulación en R

Miguel Velandia Feria

22/3/2022

Desarrollo

Punto 1

Teorema del limite central

A. Realice una simulación en la cual genere una población de N=1000 (Lote) y además que el porcentaje de individuos (plantas) enfermas sea del 50%.

B. Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n.

C.Repita el escenario anterior (b) 5000 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores. ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?

C. Realice los ejercicios completos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad)

Pruebas de bondad y ajuste con nivel de significancia: 0.05 (Hipotético)

D. Repita toda la simulación (puntos a – d) pero ahora con lotes con 10% y 90% de plantas enfermas. Concluya todo el ejercicio.

D1. Calcule el estimador de la proporción muestral para un tamaño de muestra dado n.

D2. Repita el escenario anterior (b) 5000 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores. ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?

D3. Realice los ejercicios completos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad)

Pruebas de bondad y ajuste con nivel de significancia: 0.05 (Hipotético)

Punto 2

B. Genere una función que permita obtener una muestra aleatoria de los lotes y calcule el estimador de la proporción muestral para cada lote (p1 y p2) para un tamaño de muestra dado n1=n2. Calcule la diferencia entre los estimadores p1-p2.

C.Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores (diferencias p1-p2).

Punto A y C n=50

Puntos A y C n1=n2=5, 10, 15, 20, 30, 50, 60, 100, 200, 500

Punto 3