Desarrollo

Punto 1

Teorema del limite central

A. Realice una simulación en la cual genere una población de N=1000 (Lote) y ademÔs que el porcentaje de individuos (plantas) enfermas sea del 50%.

lote=c(rep(x = 1,500),rep(x = 0,500))
parametro=0.5

B. Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n.

calcular_estimador_lote=function(n){
return(sum(sample(lote,size = n))/n)
}

prob_estimado1=calcular_estimador_lote(30)
prob_estimado1
## [1] 0.4333333

C.Repita el escenario anterior (b) 5000 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores. ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?

prob_estimado_multiple=sapply(rep(30,5000), calcular_estimador_lote)
generar_graficos=function(prob_estimado_multiple,cantidad_muestras,parametro,prob_estimado1){
  
summary(prob_estimado_multiple)
media=mean(prob_estimado_multiple)
dst=sd(prob_estimado_multiple)

variabilidad=data.frame(
  "parametro"=parametro,
  "prob_estimada_1_muestra"=prob_estimado1,
  "media_muestras"=media,
  "diferencia_media"=media-prob_estimado1,
  "sd"=dst,
  "variabilidad"=str_c(media-dst," entre ",media+dst)
  )
nombre_col=str_c('Valores de ',cantidad_muestras," muestras")
rownames(variabilidad)=c(nombre_col)

print(t(variabilidad))

par(mfrow=c(1,2))
hist(prob_estimado_multiple,main=str_c("Hist medias muestrales ",cantidad_muestras," muestras"))
abline(v=parametro,col="red",lwd=4)
abline(v=media,col="blue",lwd=4)
abline(v=prob_estimado1,col="green",lwd=4)  

qqPlot(prob_estimado_multiple, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales", las=1,main="Distribución medias muestrales")

}
generar_graficos(prob_estimado_multiple,30,parametro,prob_estimado1)
##                         Valores de 30 muestras                     
## parametro               "0.5"                                      
## prob_estimada_1_muestra "0.4333333"                                
## media_muestras          "0.4988267"                                
## diferencia_media        "0.06549333"                               
## sd                      "0.08834381"                               
## variabilidad            "0.410482857268016 entre 0.587170476065317"

## [1] 3808  456
Descriptivos AnƔlisis
¿Qué tan simétricos son los datos?
¿Son sesgados y qué pasa en cuanto a variabilidad?

Como se puede observar en el histograma los datos son simétricos dado que oscilan entre 0,3 y 0,7 con una desviación estÔndar de 0,091, donde se observa que hay una mayor concentración de valores por encima del parÔmetro 0,5 pero la diferencia no es muy grande.

Si comparamos la línea verde que representa el estimador de una sola muestra de 30 con valor 0,33 y el valor de la media de 500 muestras azul 0,4965 se puede observar que estÔ lejos del parÔmetro rojo y representa un sesgo significativo.

Sim embargo se comprueba el teorema de limite central con la selección de 5000 muestras de 30 dado que las medias muestrales siguen una distribución muestral normal y el estimador azul 0,4965 se acerca al parÔmetro rojo 0,5 con una variabilidad 0.405 entre 0.587 

Ā 

Ā 

C. Realice los ejercicios completos b y c para tamaƱos de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y mƩtodos grƔficos (grafico qq de normalidad)

prob_estimado_multiple_5=sapply(rep(5,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(5)
generar_graficos(prob_estimado_multiple_5,5,parametro,prob_estimado1)
##                         Valores de 5 muestras                      
## parametro               "0.5"                                      
## prob_estimada_1_muestra "0.4"                                      
## media_muestras          "0.49872"                                  
## diferencia_media        "0.09872"                                  
## sd                      "0.2237328"                                
## variabilidad            "0.274987184180382 entre 0.722452815819618"

## [1] 11 26
prob_estimado_multiple_10=sapply(rep(10,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(10)
generar_graficos(prob_estimado_multiple_10,10,parametro,prob_estimado1)
##                         Valores de 10 muestras                     
## parametro               "0.5"                                      
## prob_estimada_1_muestra "0.7"                                      
## media_muestras          "0.50428"                                  
## diferencia_media        "-0.19572"                                 
## sd                      "0.1563412"                                
## variabilidad            "0.347938802249622 entre 0.660621197750378"

## [1] 2935 3443
prob_estimado_multiple_20=sapply(rep(20,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(20)
generar_graficos(prob_estimado_multiple_20,20,parametro,prob_estimado1)
##                         Valores de 20 muestras                     
## parametro               "0.5"                                      
## prob_estimada_1_muestra "0.4"                                      
## media_muestras          "0.49921"                                  
## diferencia_media        "0.09921"                                  
## sd                      "0.1118722"                                
## variabilidad            "0.387337845395759 entre 0.611082154604241"

## [1] 726 762
prob_estimado_multiple_30=sapply(rep(30,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(30)
generar_graficos(prob_estimado_multiple_30,30,parametro,prob_estimado1)
##                         Valores de 30 muestras                     
## parametro               "0.5"                                      
## prob_estimada_1_muestra "0.5666667"                                
## media_muestras          "0.50018"                                  
## diferencia_media        "-0.06648667"                              
## sd                      "0.09079681"                               
## variabilidad            "0.409383189171559 entre 0.590976810828441"

## [1] 2095 2637
prob_estimado_multiple_50=sapply(rep(50,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(50)
generar_graficos(prob_estimado_multiple_50,50,parametro,prob_estimado1)
##                         Valores de 50 muestras                     
## parametro               "0.5"                                      
## prob_estimada_1_muestra "0.52"                                     
## media_muestras          "0.500524"                                 
## diferencia_media        "-0.019476"                                
## sd                      "0.06892631"                               
## variabilidad            "0.431597694491013 entre 0.569450305508987"

## [1] 4106  230
prob_estimado_multiple_60=sapply(rep(60,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(60)
generar_graficos(prob_estimado_multiple_60,60,parametro,prob_estimado1)
##                         Valores de 60 muestras                     
## parametro               "0.5"                                      
## prob_estimada_1_muestra "0.5166667"                                
## media_muestras          "0.50028"                                  
## diferencia_media        "-0.01638667"                              
## sd                      "0.06158113"                               
## variabilidad            "0.438698869751554 entre 0.561861130248446"

## [1] 3507 3426
prob_estimado_multiple_100=sapply(rep(100,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(100)
generar_graficos(prob_estimado_multiple_100,100,parametro,prob_estimado1)
##                         Valores de 100 muestras                  
## parametro               "0.5"                                    
## prob_estimada_1_muestra "0.48"                                   
## media_muestras          "0.49972"                                
## diferencia_media        "0.01972"                                
## sd                      "0.04726995"                             
## variabilidad            "0.45245004665014 entre 0.54698995334986"

## [1] 4651 1642
prob_estimado_multiple_200=sapply(rep(200,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(200)
generar_graficos(prob_estimado_multiple_200,200,parametro,prob_estimado1)
##                         Valores de 200 muestras                    
## parametro               "0.5"                                      
## prob_estimada_1_muestra "0.475"                                    
## media_muestras          "0.500345"                                 
## diferencia_media        "0.025345"                                 
## sd                      "0.03131632"                               
## variabilidad            "0.469028676502126 entre 0.531661323497874"

## [1] 1429 3845
prob_estimado_multiple_500=sapply(rep(500,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(500)
generar_graficos(prob_estimado_multiple_500,500,parametro,prob_estimado1)
##                         Valores de 500 muestras                    
## parametro               "0.5"                                      
## prob_estimada_1_muestra "0.542"                                    
## media_muestras          "0.5003388"                                
## diferencia_media        "-0.0416612"                               
## sd                      "0.0157237"                                
## variabilidad            "0.484615102550217 entre 0.516062497449782"

## [1] 2176  484

Pruebas de bondad y ajuste con nivel de significancia: 0.05 (HipotƩtico)

vector_prob = data.frame("pe1"=prob_estimado_multiple_5,"pe2"=prob_estimado_multiple_10,"pe3"=prob_estimado_multiple_20,"pe3"=prob_estimado_multiple_30,"pe4"=prob_estimado_multiple_50,"pe5"=prob_estimado_multiple_60,"pe6"=prob_estimado_multiple_100,"pe7"=prob_estimado_multiple_100,"pe8"=prob_estimado_multiple_200,"pe9"=prob_estimado_multiple_200)

calcular_pruebas_bondad_ajuste=function(prob_estimada){
nom_col=colnames(prob_estimada)
appendedDf=data.frame()

for (i in 1:length(nom_col)) {
  ajuste=fitdistr(prob_estimada[[nom_col[i]]], "normal")
  Ksn=ks.test(prob_estimada[[nom_col[i]]], "pnorm", mean =ajuste$estimate[1], sd= ajuste$estimate[2])
  Adn=ad.test(prob_estimada[[nom_col[i]]], "pnorm", mean =ajuste$estimate[1], sd= ajuste$estimate[2])
  Swn=shapiro.test(prob_estimada[[nom_col[i]]])
  df1=data.frame(mean =ajuste$estimate[1], sd= ajuste$estimate[2],ksnp_value=Ksn$p.value,adnp_value=Adn$p.value,Swnp_value=Swn$p.value)
  appendedDf =rbind(appendedDf,df1)
}

  return(appendedDf)
}
calcular_pruebas_bondad_ajuste(vector_prob)
mean sd ksnp_value adnp_value Swnp_value
mean 0.498720 0.2237104 0.0e+00 0.0000001 0e+00
mean1 0.504280 0.1563256 0.0e+00 0.0000001 0e+00
mean2 0.499210 0.1118610 0.0e+00 0.0000001 0e+00
mean3 0.500180 0.0907877 0.0e+00 0.0000001 0e+00
mean4 0.500524 0.0689194 0.0e+00 0.0000001 0e+00
mean5 0.500280 0.0615750 0.0e+00 0.0000001 0e+00
mean6 0.499720 0.0472652 0.0e+00 0.0000163 0e+00
mean7 0.499720 0.0472652 0.0e+00 0.0000163 0e+00
mean8 0.500345 0.0313132 7.5e-06 0.0020633 5e-07
mean9 0.500345 0.0313132 7.5e-06 0.0020633 5e-07

D. Repita toda la simulación (puntos a – d) pero ahora con lotes con 10% y 90% de plantas enfermas. Concluya todo el ejercicio.

lote=c(rep(x = 1,900),rep(x = 0,100))
parametro=0.9

D1. Calcule el estimador de la proporción muestral para un tamaño de muestra dado n.

prob_estimado1=calcular_estimador_lote(30)
prob_estimado1
## [1] 1

D2. Repita el escenario anterior (b) 5000 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores. ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?

prob_estimado_multiple=sapply(rep(30,5000), calcular_estimador_lote)
generar_graficos(prob_estimado_multiple,30,parametro,prob_estimado1)
##                         Valores de 30 muestras                     
## parametro               "0.9"                                      
## prob_estimada_1_muestra "1"                                        
## media_muestras          "0.9015067"                                
## diferencia_media        "-0.09849333"                              
## sd                      "0.05405021"                               
## variabilidad            "0.847456455272658 entre 0.955556878060675"

## [1] 207 700

D3. Realice los ejercicios completos b y c para tamaƱos de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y mƩtodos grƔficos (grafico qq de normalidad)

prob_estimado_multiple_5=sapply(rep(5,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(5)
generar_graficos(prob_estimado_multiple_5,5,parametro,prob_estimado1)
##                         Valores de 5 muestras                     
## parametro               "0.9"                                     
## prob_estimada_1_muestra "1"                                       
## media_muestras          "0.89792"                                 
## diferencia_media        "-0.10208"                                
## sd                      "0.1364676"                               
## variabilidad            "0.761452427735905 entre 1.03438757226409"

## [1] 1442 1919
prob_estimado_multiple_10=sapply(rep(10,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(10)
generar_graficos(prob_estimado_multiple_10,10,parametro,prob_estimado1)
##                         Valores de 10 muestras                     
## parametro               "0.9"                                      
## prob_estimada_1_muestra "0.6"                                      
## media_muestras          "0.89902"                                  
## diferencia_media        "0.29902"                                  
## sd                      "0.09553463"                               
## variabilidad            "0.803485372911208 entre 0.994554627088792"

## [1] 1859  935
prob_estimado_multiple_20=sapply(rep(20,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(20)
generar_graficos(prob_estimado_multiple_20,20,parametro,prob_estimado1)
##                         Valores de 20 muestras                     
## parametro               "0.9"                                      
## prob_estimada_1_muestra "0.9"                                      
## media_muestras          "0.90176"                                  
## diferencia_media        "0.00176"                                  
## sd                      "0.0651978"                                
## variabilidad            "0.836562204404519 entre 0.966957795595481"

## [1] 544 596
prob_estimado_multiple_30=sapply(rep(30,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(30)
generar_graficos(prob_estimado_multiple_30,30,parametro,prob_estimado1)
##                         Valores de 30 muestras                     
## parametro               "0.9"                                      
## prob_estimada_1_muestra "0.9333333"                                
## media_muestras          "0.9001933"                                
## diferencia_media        "-0.03314"                                 
## sd                      "0.05387526"                               
## variabilidad            "0.846318078059243 entre 0.954068588607424"

## [1] 1771 2018
prob_estimado_multiple_50=sapply(rep(50,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(50)
generar_graficos(prob_estimado_multiple_50,50,parametro,prob_estimado1)
##                         Valores de 50 muestras                     
## parametro               "0.9"                                      
## prob_estimada_1_muestra "0.88"                                     
## media_muestras          "0.899128"                                 
## diferencia_media        "0.019128"                                 
## sd                      "0.04151993"                               
## variabilidad            "0.857608072291978 entre 0.940647927708022"

## [1] 1102 2402
prob_estimado_multiple_60=sapply(rep(60,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(60)
generar_graficos(prob_estimado_multiple_60,60,parametro,prob_estimado1)
##                         Valores de 60 muestras                     
## parametro               "0.9"                                      
## prob_estimada_1_muestra "0.8833333"                                
## media_muestras          "0.9007967"                                
## diferencia_media        "0.01746333"                               
## sd                      "0.03755785"                               
## variabilidad            "0.863238819483373 entre 0.938354513849961"

## [1] 2309 2410
prob_estimado_multiple_100=sapply(rep(100,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(100)
generar_graficos(prob_estimado_multiple_100,100,parametro,prob_estimado1)
##                         Valores de 100 muestras                    
## parametro               "0.9"                                      
## prob_estimada_1_muestra "0.87"                                     
## media_muestras          "0.900194"                                 
## diferencia_media        "0.030194"                                 
## sd                      "0.02846936"                               
## variabilidad            "0.871724639893159 entre 0.928663360106841"

## [1] 2543 3632
prob_estimado_multiple_200=sapply(rep(200,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(200)
generar_graficos(prob_estimado_multiple_200,200,parametro,prob_estimado1)
##                         Valores de 200 muestras                    
## parametro               "0.9"                                      
## prob_estimada_1_muestra "0.895"                                    
## media_muestras          "0.900138"                                 
## diferencia_media        "0.005138"                                 
## sd                      "0.0191751"                                
## variabilidad            "0.880962899142414 entre 0.919313100857586"

## [1] 1821  414
prob_estimado_multiple_500=sapply(rep(500,5000), calcular_estimador_lote)
prob_estimado1=calcular_estimador_lote(500)
generar_graficos(prob_estimado_multiple_500,500,parametro,prob_estimado1)
##                         Valores de 500 muestras                    
## parametro               "0.9"                                      
## prob_estimada_1_muestra "0.91"                                     
## media_muestras          "0.9000632"                                
## diferencia_media        "-0.0099368"                               
## sd                      "0.009453861"                              
## variabilidad            "0.890609339367636 entre 0.909517060632365"

## [1] 2920 4499

Pruebas de bondad y ajuste con nivel de significancia: 0.05 (HipotƩtico)

vector_prob = data.frame("pe1"=prob_estimado_multiple_5,"pe2"=prob_estimado_multiple_10,"pe3"=prob_estimado_multiple_20,"pe3"=prob_estimado_multiple_30,"pe4"=prob_estimado_multiple_50,"pe5"=prob_estimado_multiple_60,"pe6"=prob_estimado_multiple_100,"pe7"=prob_estimado_multiple_100,"pe8"=prob_estimado_multiple_200,"pe9"=prob_estimado_multiple_200)
calcular_pruebas_bondad_ajuste(vector_prob)
mean sd ksnp_value adnp_value Swnp_value
mean 0.8979200 0.1364539 0 1e-07 0
mean1 0.8990200 0.0955251 0 1e-07 0
mean2 0.9017600 0.0651913 0 1e-07 0
mean3 0.9001933 0.0538699 0 1e-07 0
mean4 0.8991280 0.0415158 0 1e-07 0
mean5 0.9007967 0.0375541 0 1e-07 0
mean6 0.9001940 0.0284665 0 1e-07 0
mean7 0.9001940 0.0284665 0 1e-07 0
mean8 0.9001380 0.0191732 0 1e-07 0
mean9 0.9001380 0.0191732 0 1e-07 0
Descriptivos AnƔlisis
¿Qué tan simétricos son los datos?
¿Son sesgados y qué pasa en cuanto a variabilidad?

Como se muestra en las grĆ”ficas para muestras menores a 30 la lĆ­nea verde que representa el estimador de una sola muestra y el valor de diferencia con respecto a la media de lasĀ nĀ muestras es mayor, esto comprueba que para n<40 no hay un buen nivel de ajuste, sim embargo se mantiene la simetrĆ­a de los datos y se cumple el teorema del lĆ­mite central ā€œDada una muestra aleatoria suficientemente grande de la población, la distribución de las medias muestrales seguirĆ” una distribución normalā€.

Para valores de muestra > 40 se observa que la línea verde (estimador 1 muestra) y la línea azul (medias de n muestras)  se ajusta mÔs al valor del parÔmetro línea roja con valor 0.5 y 0.9

Normalidad de la simulación

Para reforzar el anÔlisis se realizan pruebas de bondad de ajuste donde se calcula parÔmetros de la distribución hipotética en este caso la normal y se realizan tres pruebas de bondad y de ajuste Kolmogorov Smirnov, Anderson Darling y Shapiro Wilk.   pero estas no comprueban normalidad en este ejercicio debido a la exactitud de las mismas.

Se observa que la media y la desviación estÔndar se ajustan mÔs al parÔmetro 0.5 y 0.9 A Y B en la medida que n >40 lo cual significa que los estimadores agrupados de la simulación siguen una distribución normal

Conclusiones Sin importar la distribución de la muestra con n>40 se cumple el teorema de limite central

Punto 2

La comparación de tratamientos es una prÔctica fundamental en las ciencias agropecuarias y para esto a nivel estadístico se cuenta con algunas herramientas para apoyar el proceso de toma de decisiones y lograr concluir con algún grado de confianza que los resultados observados en una muestra son representativos y se pueden asociar a los tratamientos y no se deben únicamente al azar. Por medio una simulación validemos algunos de estos resultados.

A. Suponga un escenario en el cual usted aplicó tratamientos diferentes a dos lotes y desea analizar si alguno de los dos presenta un mejor desempeño en el control de una plaga presente en ambos al momento inicial. Para ello utilizarÔ como criterio de desempeño el tratamiento que menor % de plantas enfermas presente después de un tiempo de aplicación (es decir, si se presentan o no diferencias en las proporciones de enfermos P1 y P2). Realice una simulación en la cual genere dos poblaciones de N1=1000 (Lote1) y N2=1500 (Lote2), ademÔs asuma que el porcentaje de individuos (plantas) enfermas en ambos lotes sea la misma 10% (es decir, sin diferencias entre los tratamientos).

loteA=c(rep(x = 1,100),rep(x = 0,900))
loteB=c(rep(x = 1,150),rep(x = 0,1350))
parametro=0.0

B. Genere una función que permita obtener una muestra aleatoria de los lotes y calcule el estimador de la proporción muestral para cada lote (p1 y p2) para un tamaño de muestra dado n1=n2. Calcule la diferencia entre los estimadores p1-p2.

calcular_estimador_loteAB=function(n,lote){
return(sum(sample(lote,size = n))/n)
}

prob_estimado1A=calcular_estimador_loteAB(200,loteA)
prob_estimado1A
## [1] 0.075
prob_estimado1B=calcular_estimador_loteAB(200,loteB)
prob_estimado1B
## [1] 0.11
diferenciaAB=data.frame("prob_estimadorA"=prob_estimado1A,
                        "prob_estimadorB"=prob_estimado1B,
                         "Diferencia p1-p2"=(prob_estimado1A-prob_estimado1B))
diferenciaAB
prob_estimadorA prob_estimadorB Diferencia.p1.p2
0.075 0.11 -0.035

C.Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores (diferencias p1-p2).

igualdadAB=TRUE
get_loteA=function(){
  return(loteA)
}
get_loteB=function(){
  return(loteB)
}

get_igualdadAB=function()
{
  return(igualdadAB)
}
calcular_estimador_lote_diferencias=function(n){
prob_estimado1A=calcular_estimador_loteAB(n,get_loteA())
prob_estimado1B=calcular_estimador_loteAB(n,get_loteB())
return(prob_estimado1A-prob_estimado1B)
}

calcular_estimador_lote_diferencias2=function(n){

prob_estimado1A=calcular_estimador_loteAB(n,get_loteA())
prob_estimado1B=calcular_estimador_loteAB(n,get_loteB())
cantA=round(prob_estimado1A*n, digits = 0)
cantB=round(prob_estimado1B*n, digits = 0) 

 if(get_igualdadAB()){
   if(prob_estimado1B!=0){
     hipAB=prop.test(x=cantA,n=n, conf.level = 0.95,p=prob_estimado1B , alternative = "two.sided")
    return(hipAB$p.value) 
    }else{return(0)}
    
  }else{
     if(prob_estimado1A!=0){
    hipBA=prop.test(x=cantB,n=n, conf.level = 0.95,p=prob_estimado1A , alternative = "two.sided")
    return(hipBA$p.value)
    }else{return(0)}
  }

}
prob_hipo_multiple_60=sapply(rep(60,5000), calcular_estimador_lote_diferencias)
prob_estimado1=calcular_estimador_lote_diferencias(60)
generar_graficos(prob_hipo_multiple_60,60,parametro,prob_estimado1)
##                         Valores de 60 muestras                        
## parametro               "0"                                           
## prob_estimada_1_muestra "0.03333333"                                  
## media_muestras          "0.0009866667"                                
## diferencia_media        "-0.03234667"                                 
## sd                      "0.05455435"                                  
## variabilidad            "-0.0535676849462013 entre 0.0555410182795346"

## [1] 1681 2112
Descriptivos AnƔlisis
¿Qué tan simétricos son los datos? ¿Son siempre cero las diferencias? Los datos grÔficamente muestran simetría a nivel de distribución por encima o por debajo de la media, se observa que estos se distribuyen como se ve en la tabla con una variabilidad de 5% y en la grÔfica. Por lo tanto las diferencias de los dos estimadores de las dos muestras aleatorias no siempre son ceros.

D.Realice los puntos b y c para tamaños de muestra n1=n2=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores (p1-p2) en cuanto a la normalidad. También analice el comportamiento de las diferencias y evalúe. ¿Considera que es mÔs probable concluir que existen diferencias entre los tratamientos con muestras grandes que pequeñas, es decir, cuÔl considera usted que es el efecto del tamaño de muestra en el caso de la comparación de proporciones?

##                         Valores de 5 muestras                       
## parametro               "0"                                         
## prob_estimada_1_muestra "-0.2"                                      
## media_muestras          "0.00128"                                   
## diferencia_media        "0.20128"                                   
## sd                      "0.1908026"                                 
## variabilidad            "-0.189522627677256 entre 0.192082627677256"

## [1] 2133 3703
##                         Valores de 10 muestras                      
## parametro               "0"                                         
## prob_estimada_1_muestra "0"                                         
## media_muestras          "-0.00102"                                  
## diferencia_media        "-0.00102"                                  
## sd                      "0.1353833"                                 
## variabilidad            "-0.136403253488255 entre 0.134363253488255"

## [1] 3854 1101
##                         Valores de 20 muestras                        
## parametro               "0"                                           
## prob_estimada_1_muestra "-0.1"                                        
## media_muestras          "0.00181"                                     
## diferencia_media        "0.10181"                                     
## sd                      "0.09446697"                                  
## variabilidad            "-0.0926569714860191 entre 0.0962769714860191"

## [1] 2517 4824
##                         Valores de 30 muestras                        
## parametro               "0"                                           
## prob_estimada_1_muestra "-0.06666667"                                 
## media_muestras          "-1e-04"                                      
## diferencia_media        "0.06656667"                                  
## sd                      "0.0757835"                                   
## variabilidad            "-0.0758834983866907 entre 0.0756834983866907"

## [1] 1480 1626
##                         Valores de 50 muestras                        
## parametro               "0"                                           
## prob_estimada_1_muestra "0.06"                                        
## media_muestras          "0.000496"                                    
## diferencia_media        "-0.059504"                                   
## sd                      "0.05840373"                                  
## variabilidad            "-0.0579077343261255 entre 0.0588997343261255"

## [1] 3990 1510
##                         Valores de 60 muestras                        
## parametro               "0"                                           
## prob_estimada_1_muestra "0.05"                                        
## media_muestras          "-1.333333e-05"                               
## diferencia_media        "-0.05001333"                                 
## sd                      "0.05476657"                                  
## variabilidad            "-0.0547799059437779 entre 0.0547532392771113"

## [1]  279 1310
##                         Valores de 100 muestras                       
## parametro               "0"                                           
## prob_estimada_1_muestra "0.87"                                        
## media_muestras          "0.000512"                                    
## diferencia_media        "-0.869488"                                   
## sd                      "0.04050711"                                  
## variabilidad            "-0.0399951107486604 entre 0.0410191107486604"

## [1] 2099 1056
##                         Valores de 200 muestras                       
## parametro               "0"                                           
## prob_estimada_1_muestra "-0.01"                                       
## media_muestras          "-0.000324"                                   
## diferencia_media        "0.009676"                                    
## sd                      "0.02744077"                                  
## variabilidad            "-0.0277647657168058 entre 0.0271167657168058"

## [1] 2273 4435
##                         Valores de 500 muestras                       
## parametro               "0"                                           
## prob_estimada_1_muestra "-0.006"                                      
## media_muestras          "7.2e-06"                                     
## diferencia_media        "0.0060072"                                   
## sd                      "0.01460102"                                  
## variabilidad            "-0.0145938200368749 entre 0.0146082200368749"

## [1]  174 2741
Descriptivos AnƔlisis
¿Considera que es mÔs probable concluir que existen diferencias entre los tratamientos con muestras grandes que pequeñas, es decir, cuÔl considera usted que es el efecto del tamaño de muestra en el caso de la comparación de proporciones? Como se observa en las graficas y en las tablas acompañadas a medida que se aumenta el tamaño de la muestra la desviación estÔndar es mÔs pequeña y por ende es mÔs fÔcil identificar si existen diferencia entre las muestras de los dos lotes, al reducir el rango de variabilidad de las muestras es posible identificar diferencias que estén por encima o por debajo de ese rango y esto se logra a medida que n aumenta.

D. Ahora realice nuevamente los puntos a-d bajo un escenario con dos lotes, pero de proporciones de enfermos diferentes (P1=0.1 y P2=0.15), es decir, el tratamiento del lote 1 si presentó un mejor desempeño reduciendo en un 5% el porcentaje de enfermos. Bajo este nuevo escenario compare la distribución de estas diferencias (p1-p2) con las observadas bajo igualdad de condiciones en los lotes. ¿Qué puede concluir? ¿Existen puntos en los cuales es posible que se observen diferencias de p1- p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2: diferencia de 5%)?

loteA=c(rep(x = 1,100),rep(x = 0,900))
loteB=c(rep(x = 1,225),rep(x = 0,1275))
parametro=-0.05

Punto A y C n=50

prob_hipo_multiple_50=sapply(rep(50,5000), calcular_estimador_lote_diferencias)
prob_estimado1=calcular_estimador_lote_diferencias(50)
generar_graficos(prob_hipo_multiple_5,50,parametro,prob_estimado1)
##                         Valores de 50 muestras                      
## parametro               "-0.05"                                     
## prob_estimada_1_muestra "-0.02"                                     
## media_muestras          "0.00128"                                   
## diferencia_media        "0.02128"                                   
## sd                      "0.1908026"                                 
## variabilidad            "-0.189522627677256 entre 0.192082627677256"

## [1] 2133 3703

Puntos A y C n1=n2=5, 10, 15, 20, 30, 50, 60, 100, 200, 500

##                         Valores de 5 muestras                       
## parametro               "-0.05"                                     
## prob_estimada_1_muestra "0"                                         
## media_muestras          "-0.04796"                                  
## diferencia_media        "-0.04796"                                  
## sd                      "0.207433"                                  
## variabilidad            "-0.255392986983309 entre 0.159472986983309"

## [1] 2280  454
##                         Valores de 10 muestras                      
## parametro               "-0.05"                                     
## prob_estimada_1_muestra "-0.2"                                      
## media_muestras          "-0.05032"                                  
## diferencia_media        "0.14968"                                   
## sd                      "0.1494937"                                 
## variabilidad            "-0.19981370312309 entre 0.0991737031230904"

## [1] 2359 1547
##                         Valores de 20 muestras                      
## parametro               "-0.05"                                     
## prob_estimada_1_muestra "0.05"                                      
## media_muestras          "-0.04857"                                  
## diferencia_media        "-0.09857"                                  
## sd                      "0.1041903"                                 
## variabilidad            "-0.152760336525251 entre 0.055620336525251"

## [1] 1914 4902
##                         Valores de 30 muestras                       
## parametro               "-0.05"                                      
## prob_estimada_1_muestra "0.03333333"                                 
## media_muestras          "-0.05094667"                                
## diferencia_media        "-0.08428"                                   
## sd                      "0.08374602"                                 
## variabilidad            "-0.134692683826823 entre 0.0327993504934894"

## [1] 4319  687
##                         Valores de 50 muestras                       
## parametro               "-0.05"                                      
## prob_estimada_1_muestra "-0.16"                                      
## media_muestras          "-0.048412"                                  
## diferencia_media        "0.111588"                                   
## sd                      "0.06400045"                                 
## variabilidad            "-0.112412448963218 entre 0.0155884489632182"

## [1] 4061 1851
##                         Valores de 60 muestras                        
## parametro               "-0.05"                                       
## prob_estimada_1_muestra "-0.15"                                       
## media_muestras          "-0.04954"                                    
## diferencia_media        "0.10046"                                     
## sd                      "0.05830687"                                  
## variabilidad            "-0.107846865464834 entre 0.00876686546483432"

## [1] 4660  244
##                         Valores de 100 muestras                         
## parametro               "-0.05"                                         
## prob_estimada_1_muestra "0.92"                                          
## media_muestras          "-0.048104"                                     
## diferencia_media        "-0.968104"                                     
## sd                      "0.04474333"                                    
## variabilidad            "-0.0928473299734767 entre -0.00336067002652325"

## [1] 5000 2824
##                         Valores de 200 muestras                        
## parametro               "-0.05"                                        
## prob_estimada_1_muestra "-0.075"                                       
## media_muestras          "-0.050458"                                    
## diferencia_media        "0.024542"                                     
## sd                      "0.03019458"                                   
## variabilidad            "-0.0806525786278879 entre -0.0202634213721121"

## [1] 3849 2717
##                         Valores de 500 muestras                        
## parametro               "-0.05"                                        
## prob_estimada_1_muestra "-0.054"                                       
## media_muestras          "-0.0498316"                                   
## diferencia_media        "0.0041684"                                    
## sd                      "0.01627513"                                   
## variabilidad            "-0.0661067287983684 entre -0.0335564712016316"

## [1] 1205 1850
Descriptivos AnƔlisis
¿Qué puede concluir? ¿Existen puntos en los cuales es posible que se observen diferencias de p1- p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2: diferencia de 5%)? Los datos grÔficamente muestran simetría a nivel de distribución por encima o por debajo de la media la cual a medida que n aumenta esta se centra en la diferencia de 5%, para n menores a
Normalidad de la simulación Como se muestra en la grafica QQ de normalidad los datos siguen la línea diagonal, con algunas variaciones, pero en general la tienden a la normalidad como se sustenta en el teorema de limite central.
Conclusiones
  • La resta de las probabilidades p1-p2 de las muestras tienden a el valor de la diferencia para muestras grandes
  • Al tratarce de un estimidador elegido de una muestra aleatoria se presentan diferencias en los valores de p1 y p2 para los escenarios P1=P2 y P1>P2 (5%)
  • Una muestra aleatoria suficientemente grande de la población, la distribución de las medias muestrales seguirĆ” una distribución normal
  • Es posible predecir el valor de P de una muestra aleatoria teniendo encuenta el intervalo de confianza y el margen de error a traves del teorema de limite central con muestras grandes.

Punto 3

Con base a los artĆ­culos ā€œStatistical Errors: P values, the gold standard of statistical validity, are not as reliable as many scientists assumeā€ & ā€œStatisticians issue warning on P values: Statement aims to halt missteps in the quest for certaintyā€ escriba un resumen (mĆ”ximo 2 pĆ”ginas) sobre ambos artĆ­culos e incluya en este sus opiniones en cuanto al uso del valor p como criterio de decisión en inferencia estadĆ­stica.