1. Realice una simulación en la cual genere una población de N=1000 (Lote) y además que el porcentaje de individuos (plantas) enfermas sea del 50%.
lote_plantas=c(rep("Enferma",500),rep("Sana",500))
  1. Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n.
estimador_muestral = function(n){
  m_lote=sample(lote_plantas,size = n) # Se guarda en la variable m_lote la muestra de tamañano n
  p_gorro = sum(m_lote=="Sana")/n     # la muestra de devide en la cantidad de n para que se visualice la proporción

return(p_gorro) # Retorna el valor la proporción
}

estimador_muestral(30) #Tamaño de muestra seleccionada = 30
## [1] 0.3666667
  1. Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores.

¿Qué tan simétricos son los datos?

  1. Para el tamaño de muestra seleccionado \(n=30\), se puede evidenciar la simetria de los datos al parecer en forma de campana lo cual podria reflejar que se trata de una distribución de tipo normal. (El comportamiento de los estimadores para la muestra de tamaño \(n=30\) y repitiendo este proceso \(500\) veces )

  2. Por otro lado, este comportamiento tiene una mediana de \(0,50\) y media de \(0,49\) lo cual nos indica que los datos con una muestra de \(n=30\) tienen simetria sobresaliente.

¿Son sesgados y qué pasa en cuanto a variabilidad?

  1. Respesto a la variabilidad del proceso de repetir \(500\) veces para una muestras de \(30\), podemos evidenciar un comportamiento de manera simetrica. Por otro lado, identificando el comportamiento decoeficiente de variación de este \(17.79\) el cual nos puede indicar que nuestra medida de variabilidad no estan alta.
comport_est=sapply(rep(30,500), estimador_muestral)
summary(comport_est)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2667  0.4333  0.5000  0.4996  0.5667  0.8000
hist(comport_est)# Distribución muestral

#ggplot(mapping = aes(comport_est)) + geom_histogram()
shapiro.test(comport_est)
## 
##  Shapiro-Wilk normality test
## 
## data:  comport_est
## W = 0.98635, p-value = 0.0001238
promedio_estimador = mean(comport_est)
mediana_estimador = median(comport_est)
max_estimador = max(comport_est)
min_estimador = min(comport_est)
des_estimador = sd(comport_est)
cv_estimador = (des_estimador/promedio_estimador)*100 # Coefienciente de variación

#Visualiaación de las estadisticas descriptivas del estimador
data.frame(promedio_estimador, mediana_estimador, max_estimador, min_estimador, des_estimador, cv_estimador)
##   promedio_estimador mediana_estimador max_estimador min_estimador
## 1             0.4996               0.5           0.8     0.2666667
##   des_estimador cv_estimador
## 1    0.08837996     17.69014

d. Realice los ejercicios completos b y c para tamaños de muestra \(n= {5,10,15,20,30,50,60,100,200,500}\) compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad).

Pruebas de bondad y ajuste: La prueba se basa en el nivel de ajuste que existe entre la frecuencia de ocurrencia de las observaciones en una muestra observada y las frecuencias esperadas que se obtienen a partir de la distribución hipotética.Una prueba de la bondad de ajuste entre las frecuencias observadas y esperadas se basa en la cantidad.

Gráficos Q-Q Los gráficos Q-Q (cuantil-cuantil) comparan dos distribuciones de probabilidad mediante el trazado de sus cuantiles uno contra el otro. Un gráfico Q-Q se utiliza para comparar las formas de las distribuciones, proporcionando una vista gráfica de cómo las propiedades, como la ubicación, la escala y la asimetría, son similares o diferentes en las dos distribuciones.

#############################################################
# Función para calculo de muestras y Pruebas Shapiro wilks###
#############################################################
require(patchwork)
require(ggplot2)
require(plotly)
require(ggpubr)
require(qqplotr)
require(CGPfunctions)


Prueba_funcion_formalidad = function(v){
comport_est=sapply(rep(v,500), estimador_muestral) # identifica tamaño de muestra y repite el proceso 500 veces
test=shapiro.test(comport_est) # prueba de bondad y ajuste (shapiro wilks) 

## g1 grafico qq de normalidad 
g1 = ggplot(mapping = aes(sample = comport_est)) + stat_qq_point(size = 2) + stat_qq_line(col="red", size = .5) + ggtitle("Valor-p prueba de shapiro   =",round(test$p.value,3)) +labs(x = "Theoretical Quantiles", y = "Sample Quantiles") + theme_bw()

## Grafico para la identificación de la Distribución muestral
g2 = ggplot(mapping = aes(comport_est)) + geom_histogram(colour="white", fill="coral3") + labs(x="Comportamiento del estimador de la muestra",y= "Frecuencia") + ggtitle("Valor-p prueba de shapiro =",round(test$p.value,3)) + theme_bw()

## Grafico Boxplot para ver el comportamiento de la media
g3 = ggplot(mapping = aes(comport_est), fill = comport_est)+geom_boxplot()+theme_bw()+ ggtitle("Valor-p prueba de shapiro =",round(test$p.value,3)) 

result = ggarrange(g1,g2,g3,common.legend = TRUE,nrow = 2,ncol = 2) ## Variable en la que se unen las graficas para la visualización

return(result)
}

Muestras seleccionadas \(n= {5,15,45,135,405}\)

e. Repita toda la simulación (puntos a – d) pero ahora con lotes con 10% y 90% de plantas enfermas. Concluya todo el ejercicio.

Lote de plantas con el \(10\)% de enfermas Muestras seleccionadas \(n= {5,15,45,135,405}\)

Lote de plantas con el \(90\)% enfermas Muestras seleccionadas \(n= {5,15,45,135,405}\)

( - ) Al tomar muestras de tamaño \(n\) cada vez más grandes, se logra evidenciar que el comportamiento gaussiano de la distribución tiende a la reducción o encogimiento, en donde podríamos determinar que el comportamiento tiende al valor del parámetro ya que entre más grande la muestra este capta mayor información sin embargo, este proceso debe manejarse con especial atención ya que podríamos identificar cambios muy mínimos y generar resultados equívocos para ello, es fundamental tener en cuenta los procesos descriptivos y exploratorios para tener una visión más amplia y bases fundamentadas que me permitan tomar mejores decisiones.

( - ) Los gráficos Q-Q permiten evidenciar visualmente la asimetría a la distribución normal y para este caso la evidencia es más clara cuando el tamaño de muestra aumenta. Esto refuerza lo anteriormente mencionado ya que es importante determinar con que cantidad de muestras puedo identificar la normalidad dentro de los datos.

Punto 2

a. Generación de los lotes N1=1000 (Lote1) y N2=1500 (Lote2) además se debe asumir que el porcentaje de individuos (plantas) enfermas en ambos lotes sea la misma 10%.

lote1 = c(rep("enfermas",100),rep("sanas",900))
lote2 = c(rep("enfermas",150),rep("sanas",1350))

b. Genere una función que permita obtener una muestra aleatoria de los lotes y calcule el estimador de la proporción muestral para cada lote (p1 y p2) para un tamaño de muestra dado n1=n2. Calcule la diferencia entre los estimadores p1-p2.

calc_dif_p=function(n1){

  n2=n1
  muestra1=sample(lote1, n1)
  p1=sum(muestra1=="enfermas")/n1

  muestra2=sample(lote2, n2)
  p2=sum(muestra2=="enfermas")/n2
  
dif_p=p1-p2

return(dif_p)
}

c. Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores (diferencias p1-p2).

dif_p=sapply(rep(60,10000), calc_dif_p)
summary(dif_p)
##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
## -0.200000 -0.033333  0.000000 -0.000345  0.033333  0.200000
hist(dif_p)

¿Qué tan simétricos son los datos? Como se puede apreciar para una muestra de \(n=60\) los datos son simétricos.

¿Son siempre cero las diferencias? No necesariamente, como se puede evidenciar en el summary se evidencia la existencia de diferencias para la muestra seleccionada, dondeme la mediana es \(0\) promedio \(-0.00056\) Max \(0.20\) y Min \(-0.18\).

d. Realice los puntos b y c para tamaños de muestra n1=n2= 5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores (p1-p2) en cuanto a la normalidad. También analice el comportamiento de las diferencias y evalúe.

Comportamiento para una muestra seleccionadas \(n1=n2= 5, 10, 15, 20, 30, 50, 60, 100, 200, 500\)

¿Considera que es más probable concluir que existen diferencias entre los tratamientos con muestras grandes que pequeñas, es decir, cuál considera usted que es el efecto del tamaño de muestra en el caso de la comparación de proporciones?

( - ) Al tener en cuenta cada una de las muestras seleccionadas y visualizar su comportamiento a través de un histograma y los gráficos Q-Q al igual que el diagrama de caja logramos rápidamente identificar que el incremento en la cantidad de muestras seleccionadas las diferencias comienzan a reducirse para los dos estimadores.

( - ) Al asumir un \(10%\) de la población enferma dentro de los dos grupos, se demuestra que para muestras más pequeñas como para los ejemplos de \(n = {5, 15, 30.50}\), no son concluyentes las diferencias dentro de los tratamientos, sin embargo al aumentar la cantidad de muestras seleccionadas podemos evidenciar cambios más notables detectando más fácilmente estas diferencias.

e. Ahora realice nuevamente los puntos a-d bajo un escenario con dos lotes, pero de proporciones de enfermos diferentes \((P1=0.1 y P2=0.15)\), es decir, el tratamiento del lote 1 si presentó un mejor desempeño reduciendo en un 5% el porcentaje de enfermos. Bajo este nuevo escenario compare la distribución de estas diferencias \((p1- p2)\) con las observadas bajo igualdad de condiciones en los lotes.

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.31667 -0.08333 -0.05000 -0.05033 -0.01667  0.18333

Comportamiento de las muestras con tamaños \(n1=n2= 5, 15, 30, 50, 100, 500\)

¿Qué puede concluir?,¿Existen puntos en los cuales es posible que se observen diferencias de p1- p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2: diferencia de 5%)?

( - ) Por otro lado al visualizar el comportamiento del porcentaje de plantas enfermas dentro de los dos grupos \(10\)% y \(90\)% respectivamente, podemos determinar que este tiende a la media de los datos y desde allí se puede evidenciar comportamiento respecto a la sensibilidad en los cambios a la hora de tomar diversas muestras. Si bien en el ejercicio podemos visualizar la relación entre el número de muestras y este comportamiento, la especificidad y la tendencia al parámetro son aspectos claves y relevantes, para ello las pruebas de bondad y ajuste, gráficos Q-Q y el valor-p nos aportan evidencia sobre la significancia y evidencia sobre las principales conclusiones, sin embargo, hasta este punto es aspecto clave es comparar estos resultados con la etapa descriptiva de los datos. En el escenario sin deferencias, no siempre van ha ser cero las diferencias sin embargo la media de los datos si pueden tener este valor es necesario tener mas contexto sobre los datos como por ejemplos la desviación estándar, valor-p y las pruebas de hipótesis, para las que presentan diferencias podemos ver que el comportamiento del valor-p no nos muestra resultados, los gráficos Q-Q por otro lado se ven con gran acople a la distribución normal.

  1. Con base a los artículos “Statistical Errors: P values, the gold standard of statistical validity, are not as reliable as many scientists assume” & “Statisticians issue warning on P values: Statement aims to halt missteps in the quest for certainty” escriba un resumen (máximo 2 páginas) sobre ambos artículos e incluya en este sus opiniones en cuanto al uso del valor p como criterio de decisión en inferencia estadística.

Valor-p como criterio de decisión en inferencia estadística