#Taller Inferencia Estadística y Simulación

1. El Teorema del límite Central:

Es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral N>30.

a. Generar simulación de una población N=1000

Realice una simulación en la cual genere una población de N=1000 (Lote) y además que el porcentaje de individuos (plantas) enfermas es del 50%.

Sim = function(Tot = 1000, Enf = 0.5, San = 0.5) {
  E = round(Tot * Enf, 0) 
  S = round(Tot * San, 0)
  Poblacion = c(rep("Enfermo", E), rep("Sana",S))
  print(paste("Lote gnerado N=: ", Tot, " Enfermos: ",E,"Sanos: ",S))
  return(Poblacion)
}

Lote = Sim(Tot = 1000, Enf = 0.5, San = 0.5)
## [1] "Lote gnerado N=:  1000  Enfermos:  500 Sanos:  500"

A través de la función SIM se genera un lote de tamaño de muestra N= 1000 y en porcentajes equivalente del 50% y 50% de plantas enfermas y plantas sanas.

b. Generar función

Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n.

print(paste("Para una muestra de tamaño n=", n, "se obtuvo una proporción muestral =",muestra))
## [1] "Para una muestra de tamaño n= 1000 se obtuvo una proporción muestral = 0.5"
n = 200
muestra = MuestraAle (Pob = Lote, Tam = n, Con = "Enfermo")

print(paste("Para una muestra de", n, "datos, se obtuvo un estimador de proporción de",muestra))
## [1] "Para una muestra de 200 datos, se obtuvo un estimador de proporción de 0.51"

c. Repetir escenario 500 veces

Repita el escenario anterior (b) 500 veces y analice los resultados en cuento al comportamiento de los 500 estimadores. ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?.

Gen_Mue_Iter = function(Pob, Tam, Con, Iter) {
  if (Tam<=length(Pob)) {
    mue_iter = array(NA,Iter)
    for (i in 1:Iter) {
      mue_iter[i] = MuestraAle (Pob, Tam, Con)
    }
    return(mue_iter)
  }
  else {
    print("Error: el tamaño de la muestra es superior al tamaño de la población.")
    return(-1)
  }
}


iter = 500
Pmuestra = Gen_Mue_Iter (Pob = Lote, Tam = n, Con = "Enfermo",Iter = iter)

hist(Pmuestra, main ="Histograma de 500 iteraciones",
     xlab="Probabilidad de la muestras", ylab="Frecuencia", las=1,
     font.axis=4)
line = mean(Pmuestra)

abline (v=line, lwd = 4, lty = 2, col="red")

Se puede observar de acuerdo al histograma generado presenta una distribución de datos simetrica, aparantemente con una normalidad en los datos, que a continuación se probará la hipótesis para determinar la distribución de probabilidad en los datos.

min <- min(Pmuestra, na.rm = TRUE)
q1 <- quantile(Pmuestra, probs = 0.25, na.rm = TRUE)
media <- mean.default(Pmuestra, na.rm = TRUE)
mediana <- median.default(Pmuestra, na.rm = TRUE)
var <- var(Pmuestra, na.rm = TRUE)
desvest <- sd(Pmuestra, na.rm = TRUE)
q3 <- quantile(Pmuestra, probs = 0.75, na.rm = TRUE)
max <- max(Pmuestra, na.rm = TRUE)


descrt <- round(as.numeric(c(min, q1, media, mediana,
                                     var, desvest, q3, max)),4)
nombres <- c("Mín", "Quantil1", "Media",  "Mediana", "Varianza", 
             "Desviación", "Quantil3", "Máx", "Simetría", "Curtosis")
descr2 <- as.data.frame(rbind(nombres,descrt))
## Warning in rbind(nombres, descrt): number of columns of result is not a multiple
## of vector length (arg 2)
descr2
##          V1       V2     V3      V4       V5         V6       V7    V8       V9
## nombres Mín Quantil1  Media Mediana Varianza Desviación Quantil3   Máx Simetría
## descrt  0.4    0.475 0.4994     0.5   0.0011     0.0331     0.52 0.585      0.4
##              V10
## nombres Curtosis
## descrt     0.475

Al obtener la información inferencia, se determina que el comportamiento de los 500 estimadores tienen un promedio cercano al parámetro del 50%. Los datos son simétricos, la media= 0.5016 y la mediana de 0.5, con coeficiente de simetría 0.38. En La gráfica del histograma se observa que es prácticamente simétrica. De otro lado se observa la similitud de los datos, dado que la varianza prácticamente es igual a cero.

d. Replicar para tamaños de muestra de n= 5 a n= 500, con de acuerdo a los puntos b y c del taller.

Replicar el ejercicio para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad).

## [1] "Para una muestra de tamaño:  10"
## 
##  Shapiro-Wilk normality test
## 
## data:  Pmuestra
## W = 0.96367, p-value = 8.86e-10

## [1] "Para una muestra de tamaño:  15"
## 
##  Shapiro-Wilk normality test
## 
## data:  Pmuestra
## W = 0.97548, p-value = 1.97e-07

## [1] "Para una muestra de tamaño:  20"
## 
##  Shapiro-Wilk normality test
## 
## data:  Pmuestra
## W = 0.98031, p-value = 2.751e-06

## [1] "Para una muestra de tamaño:  30"
## 
##  Shapiro-Wilk normality test
## 
## data:  Pmuestra
## W = 0.98525, p-value = 5.881e-05

## [1] "Para una muestra de tamaño:  50"
## 
##  Shapiro-Wilk normality test
## 
## data:  Pmuestra
## W = 0.99075, p-value = 0.003172

## [1] "Para una muestra de tamaño:  60"
## 
##  Shapiro-Wilk normality test
## 
## data:  Pmuestra
## W = 0.9899, p-value = 0.001642

## [1] "Para una muestra de tamaño:  100"
## 
##  Shapiro-Wilk normality test
## 
## data:  Pmuestra
## W = 0.99432, p-value = 0.06001

## [1] "Para una muestra de tamaño:  200"
## 
##  Shapiro-Wilk normality test
## 
## data:  Pmuestra
## W = 0.99367, p-value = 0.03475

## [1] "Para una muestra de tamaño:  500"
## 
##  Shapiro-Wilk normality test
## 
## data:  Pmuestra
## W = 0.99708, p-value = 0.5179

Conclusiones punto d

Es importante observar el comportamiento de los datos, y que su variabilidad depende directamente del tamaño de la muestra, mostrando que los estimadores están muy cerca del valor del parámetro P= 0.5 con una muestra igual a 500, importante mencionar que al incrementar los datos el error tiende a disminuir, asi mismo, se observa como la varianza de la muestra con n=500 es cada vez menor. Se observa simetría en el histograma, así como en el gráfico de densidad, en la gráfica de cuantiles se evidencia que los valores generados son similares a la media debido a su ajuste en y=x.

PUNTO E

Repita toda la simulación (puntos a – d) pero ahora con lotes con 10% y 90% de plantas enfermas. Concluya todo el ejercicio.

Se genera lote con 10% de plantas enfermas

Lote2 = Sim(Tot = 1000, Enf = 0.1, San = 0.9)
## [1] "Lote gnerado N=:  1000  Enfermos:  100 Sanos:  900"
n2 = 200
muestra = MuestraAle (Pob = Lote2, Tam = n2, Con = "Enfermo")

print(paste("Para una muestra de tamaño:", n2, "un estimador de la proporción =",muestra))
## [1] "Para una muestra de tamaño: 200 un estimador de la proporción = 0.085"
Gen_Mue_Iter = function(Pob, Tam, Con, Iter) {
  if (Tam<=length(Pob)) {
    mue_iter = array(NA,Iter)
    for (i in 1:Iter) {
      mue_iter[i] = MuestraAle (Pob, Tam, Con)
    }
    return(mue_iter)
  }
  else {
    print("Error: el tamaño de la muestra es superior al tamaño de la población.")
    return(-1)
  }
}


iter = 500
Pmuestras2 = Gen_Mue_Iter (Pob = Lote2, Tam = n2, Con = "Enfermo",Iter = iter)

hist(Pmuestras2, main ="Histograma  de 500 iteraciones",
     xlab="Probabilidad de las muestras", ylab="Frecuencia", las=1,
     font.axis=4)
line = mean(Pmuestras2)

abline (v=line, lwd = 4, lty = 2, col="darkblue")

Se puede observar de acuerdo al histograma generado presenta una distribución de datos simetrica, aparantemente con una normalidad en los datos, que a continuación se probará la hipótesis para determinar la distribución de probabilidad en los datos.

min <- min(Pmuestras2, na.rm = TRUE)
q1 <- quantile(Pmuestras2, probs = 0.25, na.rm = TRUE)
media <- mean.default(Pmuestras2, na.rm = TRUE)
mediana <- median.default(Pmuestras2, na.rm = TRUE)
var <- var(Pmuestras2, na.rm = TRUE)
desvest <- sd(Pmuestras2, na.rm = TRUE)
q3 <- quantile(Pmuestras2, probs = 0.75, na.rm = TRUE)
max <- max(Pmuestras2, na.rm = TRUE)


descrt <- round(as.numeric(c(min, q1, media, mediana,
                                     var, desvest, q3, max)),4)
nombres <- c("Mín", "Q1", "Media",  "Mediana", "Varianza", 
             "Desviación", "Q3", "Máx", "Simetría", "Curtosis")
descr2 <- as.data.frame(rbind(nombres,descrt))
## Warning in rbind(nombres, descrt): number of columns of result is not a multiple
## of vector length (arg 2)
descr2
##           V1   V2     V3      V4       V5         V6   V7   V8       V9
## nombres  Mín   Q1  Media Mediana Varianza Desviación   Q3  Máx Simetría
## descrt  0.03 0.09 0.1002     0.1    3e-04     0.0182 0.11 0.15     0.03
##              V10
## nombres Curtosis
## descrt      0.09

Al obtener la información inferencia, se determina que el comportamiento de los 500 estimadores tienen un promedio cercano a la media del 10% de plantas enfermas. Los datos son simétricos, la media= 0.1 y la mediana de 0.1, con coeficiente de simetría 0.045, En La gráfica del histograma se observa que es prácticamente simétrica. De otro lado se observa la similitud de los datos, dado que la varianza prácticamente es igual a cero.

## [1] "Para una muestra de tamaño:  10"
## 
##  Shapiro-Wilk normality test
## 
## data:  Pmuestras2
## W = 0.84903, p-value < 2.2e-16

## [1] "Para una muestra de tamaño:  15"
## 
##  Shapiro-Wilk normality test
## 
## data:  Pmuestras2
## W = 0.89418, p-value < 2.2e-16

## [1] "Para una muestra de tamaño:  20"
## 
##  Shapiro-Wilk normality test
## 
## data:  Pmuestras2
## W = 0.91342, p-value = 2.64e-16

## [1] "Para una muestra de tamaño:  30"
## 
##  Shapiro-Wilk normality test
## 
## data:  Pmuestras2
## W = 0.94446, p-value = 9.788e-13

## [1] "Para una muestra de tamaño:  50"
## 
##  Shapiro-Wilk normality test
## 
## data:  Pmuestras2
## W = 0.96527, p-value = 1.72e-09

## [1] "Para una muestra de tamaño:  60"
## 
##  Shapiro-Wilk normality test
## 
## data:  Pmuestras2
## W = 0.97554, p-value = 2.028e-07

## [1] "Para una muestra de tamaño:  100"
## 
##  Shapiro-Wilk normality test
## 
## data:  Pmuestras2
## W = 0.97415, p-value = 1.004e-07

## [1] "Para una muestra de tamaño:  200"
## 
##  Shapiro-Wilk normality test
## 
## data:  Pmuestras2
## W = 0.99138, p-value = 0.005229

## [1] "Para una muestra de tamaño:  500"
## 
##  Shapiro-Wilk normality test
## 
## data:  Pmuestras2
## W = 0.99299, p-value = 0.01953

Conclusiones punto muestra 10% plantas enfermas

Es importante observar el comportamiento de los datos, y que su variabilidad depende directamente del tamaño de la muestra, mostrando que los estimadores están muy cerca del valor del parámetro P= 0.5 con una muestra igual a 500, importante mencionar que al incrementar los datos el error tiende a disminuir, asi mismo, se observa como la varianza de la muestra con n=500 es cada vez menor. Se observa simetría en el histograma, en el gráfico de densidad se observa simetría, en la gráfica de cuantiles se evidencia que los valores generados son similares a la media debido a su ajuste en y=x.

Se genera lote con 90% de plantas enfermas

Lote3 = Sim(Tot = 1000, Enf = 0.9, San = 0.1)
## [1] "Lote gnerado N=:  1000  Enfermos:  900 Sanos:  100"
n3 = 200
muestra = MuestraAle (Pob = Lote3, Tam = n3, Con = "Enfermo")

print(paste("Para una muestra de tamaño:", n3, "un estimador de la proporción =",muestra))
## [1] "Para una muestra de tamaño: 200 un estimador de la proporción = 0.92"
Gen_Mue_Iter = function(Pob, Tam, Con, Iter) {
  if (Tam<=length(Pob)) {
    mue_iter = array(NA,Iter)
    for (i in 1:Iter) {
      mue_iter[i] = MuestraAle (Pob, Tam, Con)
    }
    return(mue_iter)
  }
  else {
    print("Error: el tamaño de la muestra es superior al tamaño de la población.")
    return(-1)
  }
}


iter = 500
Pmuestras3 = Gen_Mue_Iter (Pob = Lote3, Tam = n3, Con = "Enfermo",Iter = iter)

hist(Pmuestras3, main ="Histograma 500 iteraciones",
     xlab="Probabilidad de las muestras", ylab="Frecuencia", las=1,
     font.axis=4)
line = mean(Pmuestras3)

abline (v=line, lwd = 4, lty = 2, col="darkblue")

Se puede observar de acuerdo al histograma generado presenta una distribución de datos con un sesgo en la izquierda, aparantemente con una normalidad en los datos, que a continuación se probará la hipótesis para determinar la distribución de probabilidad en los datos.

min <- min(Pmuestras3, na.rm = TRUE)
q1 <- quantile(Pmuestras3, probs = 0.25, na.rm = TRUE)
media <- mean.default(Pmuestras3, na.rm = TRUE)
mediana <- median.default(Pmuestras3, na.rm = TRUE)
var <- var(Pmuestras3, na.rm = TRUE)
desvest <- sd(Pmuestras3, na.rm = TRUE)
q3 <- quantile(Pmuestras3, probs = 0.75, na.rm = TRUE)
max <- max(Pmuestras3, na.rm = TRUE)


descrt <- round(as.numeric(c(min, q1, media, mediana,
                                     var, desvest, q3, max)),4)
nombres <- c("Mín", "Q1", "Media",  "Mediana", "Varianza", 
             "Desviación", "Q3", "Máx", "Simetría", "Curtosis")
descr2 <- as.data.frame(rbind(nombres,descrt))
## Warning in rbind(nombres, descrt): number of columns of result is not a multiple
## of vector length (arg 2)
descr2
##            V1   V2     V3      V4       V5         V6    V7    V8       V9
## nombres   Mín   Q1  Media Mediana Varianza Desviación    Q3   Máx Simetría
## descrt  0.845 0.89 0.9004     0.9    3e-04     0.0185 0.915 0.955    0.845
##              V10
## nombres Curtosis
## descrt      0.89

Al obtener la información inferencia, se determina que el comportamiento de los 500 estimadores tienen un promedio cercano a la media del 90% de plantas enfermas. Los datos son simétricos, la media= 0.8989 y la mediana de 0.9, con coeficiente de simetría 0.84, En La gráfica del histograma se observa que tiene un sesgo a la izquierda pero prácticamente simétrica. De otro lado se observa la similitud de los datos, dado que la varianza prácticamente es igual a cero.

## [1] "Para una muestra de tamaño:  10"
## 
##  Shapiro-Wilk normality test
## 
## data:  Pmuestras3
## W = 0.83447, p-value < 2.2e-16

## [1] "Para una muestra de tamaño:  15"
## 
##  Shapiro-Wilk normality test
## 
## data:  Pmuestras3
## W = 0.88846, p-value < 2.2e-16

## [1] "Para una muestra de tamaño:  20"
## 
##  Shapiro-Wilk normality test
## 
## data:  Pmuestras3
## W = 0.92002, p-value = 1.244e-15

## [1] "Para una muestra de tamaño:  30"
## 
##  Shapiro-Wilk normality test
## 
## data:  Pmuestras3
## W = 0.94416, p-value = 8.908e-13

## [1] "Para una muestra de tamaño:  50"
## 
##  Shapiro-Wilk normality test
## 
## data:  Pmuestras3
## W = 0.97028, p-value = 1.563e-08

## [1] "Para una muestra de tamaño:  60"
## 
##  Shapiro-Wilk normality test
## 
## data:  Pmuestras3
## W = 0.97689, p-value = 4.118e-07

## [1] "Para una muestra de tamaño:  100"
## 
##  Shapiro-Wilk normality test
## 
## data:  Pmuestras3
## W = 0.98469, p-value = 4.079e-05

## [1] "Para una muestra de tamaño:  200"
## 
##  Shapiro-Wilk normality test
## 
## data:  Pmuestras3
## W = 0.99331, p-value = 0.02559

## [1] "Para una muestra de tamaño:  500"
## 
##  Shapiro-Wilk normality test
## 
## data:  Pmuestras3
## W = 0.99161, p-value = 0.006295

Al realizar las pruebas con lotes de 10% de plantas enfermas y el 90% de las plantas enferma, se puede concluir que los valores de los párametros generados son cercanos a p= 0.1 y p=0.9, las gráficas de densidad y cuantiles muestran que a medida que el tamaño de la muestra va aumentando, tiende a tener un comportamiento como una función de distribución normal, la campana de Gauss es simétrica a medida que aumento el n, así mismo las gráficas de cuantiles se ajustan a medida que aumenta el tamaño de la muestra.

PUNTO 2 TALLER DE INFERENCIA ESTADÍSTICA

La comparación de tratamientos es una práctica fundamental en las ciencias agropecuarias y para esto a nivel estadístico se cuenta con algunas herramientas para apoyar el proceso de toma de decisiones y lograr concluir con algún grado de confianza que los resultados observados en una muestra son representativos y se pueden asociar a los tratamientos y no se deben únicamente al azar. Por mediouna simulación validemos algunos de estos resultados:

A. Suposición de escenarios

Suponga un escenario en el cual usted aplicó tratamientos diferentes a dos lotes y desea analizar si alguno de los dos presenta un mejor desempeño en el control de una plaga presente en ambos al momento inicial. Para ello utilizara como criterio de desempeño el tratamiento que menor % de plantas enfermas presente después de un tiempo de aplicación (es decir si se presentan o no diferencias en las proporciones de enfermos P1 y P2). Realice una simulación en la cual genere dos poblaciones de N1=1000 (Lote1) y N2=1500 (Lote2) además asuma que el porcentaje de individuos (plantas) enfermas en ambos lotessea la misma 10% (es decir sin diferencias entre los tratamientos).

Lote 10% plantas enfermas lote de 1000 plantas

Lote01 <- Sim(Tot = 1000, Enf = 0.1, San = 0.9)
## [1] "Lote gnerado N=:  1000  Enfermos:  100 Sanos:  900"

Lote 10% plantas enfermas lote de 1500 plantas

Lote02 <- Sim(Tot = 1500, Enf = 0.1, San = 0.9)
## [1] "Lote gnerado N=:  1500  Enfermos:  150 Sanos:  1350"

b. Genere una función que permita obtener una muestra aleatoria de los lotes

Calcule es estimador de la proporción muestral para cada lote (P1 y P2) para tamaño de muestra dado n1=n2. Calcule la diferencia entre los estimadores p1-p2.

Muealeatoria2 = function(Pob, Tam, Con) {
  if (Tam<=length(Pob)) {
    muestra = sample(x = Pob, size = Tam)
    Pobmuestra = sum(muestra == Con)/Tam
    return(Pobmuestra)
  }
  else {
    print("Error: el tamaño de la muestra es superior al tamaño de la población.")
    return(-1)
  }
}

n=1000
muestra = Muealeatoria2 (Pob= Lote01, Tam = n, Con = "Enfermo")

print(paste("Para una muestra de tamaño n=", n, "se obtuvo una proporción muestral =",muestra))
## [1] "Para una muestra de tamaño n= 1000 se obtuvo una proporción muestral = 0.1"
n = 200
muestra = Muealeatoria2 (Pob = Lote01, Tam = n, Con = "Enfermo")

print(paste("Para una muestra de tamaño:", n, "un estimador de la proporción =",muestra))
## [1] "Para una muestra de tamaño: 200 un estimador de la proporción = 0.115"
Gen_Mue_Iter = function(Pob, Tam, Con, Iter) {
  if (Tam<=length(Pob)) {
    mue_iter = array(NA,Iter)
    for (i in 1:Iter) {
      mue_iter[i] = Muealeatoria2 (Pob, Tam, Con)
    }
    return(mue_iter)
  }
  else {
    print("Error: el tamaño de la muestra es superior al tamaño de la población.")
    return(-1)
  }
}


iter = 500

Pobmuestras = Gen_Mue_Iter (Pob = (Lote01), Tam = n, Con = "Enfermo",Iter = iter)
Pobmuestras2 = Gen_Mue_Iter (Pob = (Lote02), Tam = n, Con = "Enfermo",Iter = iter)

PTotal=Pobmuestras-Pobmuestras2


hist(PTotal, main ="Histograma 500 iteraciones",
     xlab="Probabilidad de las muestras", ylab="Frecuencia", las=1,
     font.axis=4)
line = mean(PTotal)

abline (v=line, lwd = 4, lty = 2, col="darkblue")

Se puede observar de acuerdo al histograma generado presenta una distribución de datos simetrica, aparantemente con una normalidad en los datos, que a continuación se probará la hipótesis para determinar la distribución de probabilidad en los datos.

min <- min(PTotal, na.rm = TRUE)
q1 <- quantile(PTotal, probs = 0.25, na.rm = TRUE)
media <- mean.default(PTotal, na.rm = TRUE)
mediana <- median.default(PTotal, na.rm = TRUE)
var <- var(PTotal, na.rm = TRUE)
desvest <- sd(PTotal, na.rm = TRUE)
q3 <- quantile(PTotal, probs = 0.75, na.rm = TRUE)
max <- max(PTotal, na.rm = TRUE)


descrt <- round(as.numeric(c(min, q1, media, mediana,
                                     var, desvest, q3, max)),4)
nombres <- c("Mín", "Q1", "Media",  "Mediana", "Varianza", 
             "Desviación", "Q3", "Máx", "Simetría", "Curtosis")
descr2 <- as.data.frame(rbind(nombres,descrt))
## Warning in rbind(nombres, descrt): number of columns of result is not a multiple
## of vector length (arg 2)
descr2
##             V1    V2     V3      V4       V5         V6   V7    V8       V9
## nombres    Mín    Q1  Media Mediana Varianza Desviación   Q3   Máx Simetría
## descrt  -0.075 -0.02 -4e-04       0    7e-04     0.0267 0.02 0.075   -0.075
##              V10
## nombres Curtosis
## descrt     -0.02

Al obtener la información de inferencia estadística, se determina que el comportamiento de los 500 estimadores tienen un promedio cercano a la media del 0% de plantas enfermas. Los datos son simétricos, la media= 0.0009 y la mediana de 0, con coeficiente de simetría negativo, La gráfica del histograma se observa simétrica. De otro lado se observa la similitud de los datos, dado que la varianza prácticamente es igual a cero.

## [1] "Para una muestra de tamaño:  10"
## 
##  Shapiro-Wilk normality test
## 
## data:  PTotal
## W = 0.84548, p-value < 2.2e-16

## [1] "Para una muestra de tamaño:  15"
## 
##  Shapiro-Wilk normality test
## 
## data:  PTotal
## W = 0.89255, p-value < 2.2e-16

## [1] "Para una muestra de tamaño:  20"
## 
##  Shapiro-Wilk normality test
## 
## data:  PTotal
## W = 0.92165, p-value = 1.848e-15

## [1] "Para una muestra de tamaño:  30"
## 
##  Shapiro-Wilk normality test
## 
## data:  PTotal
## W = 0.9569, p-value = 6.477e-11

## [1] "Para una muestra de tamaño:  50"
## 
##  Shapiro-Wilk normality test
## 
## data:  PTotal
## W = 0.96547, p-value = 1.874e-09

## [1] "Para una muestra de tamaño:  60"
## 
##  Shapiro-Wilk normality test
## 
## data:  PTotal
## W = 0.97605, p-value = 2.639e-07

## [1] "Para una muestra de tamaño:  100"
## 
##  Shapiro-Wilk normality test
## 
## data:  PTotal
## W = 0.98568, p-value = 7.863e-05

## [1] "Para una muestra de tamaño:  200"
## 
##  Shapiro-Wilk normality test
## 
## data:  PTotal
## W = 0.99002, p-value = 0.001793

## [1] "Para una muestra de tamaño:  500"
## 
##  Shapiro-Wilk normality test
## 
## data:  PTotal
## W = 0.99442, p-value = 0.06481

Al realizar las pruebas con lotes de tamaño 1000 y 1500 los valores son cercanos al 10% de plantas enfermas , se puede concluir que los valores de los párametros generados son cercanos a p= 0.1 , las gráficas de densidad y cuantiles muestran que a medida que el tamaño de la muestra va aumentando, tiende a tener un comportamiento como una función de distribución normal, la campana de Gauss es simétrica a medida que aumento el n, así mismo las gráficas de cuantiles se ajustan a medida que aumenta el tamaño de la muestra.

PUNTO 2 - e

  1. Ahora realice nuevamente los puntos a-d bajo un escenario con dos lotes pero de proporciones de enfermos diferentes (P1=0.1 y P2=0.15), es decir el tratamiento del lote 1 si presento un mejor desempeño reduciendo en un 5% el porcentaje de enfermos. Bajo este nuevo escenario compare la distribución de estas diferencias (p1-p2) con las observadas bajo igualdad de condiciones en los lotes. ¿Qué puede concluir? ¿Existen puntos en los cuales es posible que se observen diferencias de p1- p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2: diferencia de 5%)?.

LOTE 1

Lote01_e <- Sim(Tot = 1000, Enf = 0.1, San = 0.9)
## [1] "Lote gnerado N=:  1000  Enfermos:  100 Sanos:  900"

LOTE 2

Lote02_e <- Sim(Tot = 1500, Enf = 0.15, San = 0.85)
## [1] "Lote gnerado N=:  1500  Enfermos:  225 Sanos:  1275"
n = 200
muestra_P1P2 =  Muealeatoria2 (Pob = Lote01_e, Tam = n, Con = "Enfermo")

print(paste("Para una muestra de tamaño:", n, "de los lostes 1 y 2, un estimador de la proporción =",muestra_P1P2))
## [1] "Para una muestra de tamaño: 200 de los lostes 1 y 2, un estimador de la proporción = 0.11"
Gen_Mue_Iter = function(Pob, Tam, Con, Iter) {
  if (Tam<=length(Pob)) {
    mue_iter = array(NA,Iter)
    for (i in 1:Iter) {
      mue_iter[i] = Muealeatoria2 (Pob, Tam, Con)
    }
    return(mue_iter)
  }
  else {
    print("Error: el tamaño de la muestra supera el tamaño de la población.")
    return(-1)
  }
}


iter = 500

Pobmuestras_e = Gen_Mue_Iter (Pob = (Lote01_e), Tam = n, Con = "Enfermo",Iter = iter)
Pobmuestras2_e = Gen_Mue_Iter (Pob = (Lote02_e), Tam = n, Con = "Enfermo",Iter = iter)

PTotal_e=Pobmuestras_e-Pobmuestras2_e


hist(PTotal_e, main ="Histograma de 500 iteraciones",
     xlab="Probabilidad de las muestras", ylab="Frecuencia", las=1,
     font.axis=4)
line = mean(PTotal_e)

abline (v=line, lwd = 4, lty = 2, col="darkblue")

Se puede observar de acuerdo al histograma generado presenta una distribución de datos simetrica, aparantemente con una normalidad en los datos, que a continuación se probará la hipótesis para determinar la distribución de probabilidad en los datos.

min <- min(PTotal_e, na.rm = TRUE)
q1 <- quantile(PTotal_e, probs = 0.25, na.rm = TRUE)
media <- mean.default(PTotal_e, na.rm = TRUE)
mediana <- median.default(PTotal_e, na.rm = TRUE)
var <- var(PTotal_e, na.rm = TRUE)
desvest <- sd(PTotal_e, na.rm = TRUE)
q3 <- quantile(PTotal_e, probs = 0.75, na.rm = TRUE)
max <- max(PTotal_e, na.rm = TRUE)


descrt <- round(as.numeric(c(min, q1, media, mediana,
                                     var, desvest, q3, max)),4)
nombres <- c("Mín", "Q1", "Media",  "Mediana", "Varianza", 
             "Desviación", "Q3", "Máx", "Simetría", "Curtosis")
descr2 <- as.data.frame(rbind(nombres,descrt))
## Warning in rbind(nombres, descrt): number of columns of result is not a multiple
## of vector length (arg 2)
descr2
##            V1     V2      V3      V4       V5         V6    V7   V8       V9
## nombres   Mín     Q1   Media Mediana Varianza Desviación    Q3  Máx Simetría
## descrt  -0.15 -0.075 -0.0522  -0.055    9e-04     0.0306 -0.03 0.02    -0.15
##              V10
## nombres Curtosis
## descrt    -0.075

Al obtener la información de inferencia estadística, se determina que el comportamiento de los 500 estimadores tienen un promedio se redujo en un 5% el promedio de plantas enfermas. Los datos son simétricos, la media está 5% por debajo del promedio al igual que la mediana de 0, con coeficiente de simetría negativo, La gráfica del histograma se observa simétrica. De otro lado se observa la similitud de los datos, dado que la varianza prácticamente es igual a cero.

## [1] "Para una muestra de tamaño:  10"
## 
##  Shapiro-Wilk normality test
## 
## data:  PTotal_e
## W = 0.90089, p-value < 2.2e-16

## [1] "Para una muestra de tamaño:  15"
## 
##  Shapiro-Wilk normality test
## 
## data:  PTotal_e
## W = 0.89895, p-value < 2.2e-16

## [1] "Para una muestra de tamaño:  20"
## 
##  Shapiro-Wilk normality test
## 
## data:  PTotal_e
## W = 0.90151, p-value < 2.2e-16

## [1] "Para una muestra de tamaño:  30"
## 
##  Shapiro-Wilk normality test
## 
## data:  PTotal_e
## W = 0.89485, p-value < 2.2e-16

## [1] "Para una muestra de tamaño:  50"
## 
##  Shapiro-Wilk normality test
## 
## data:  PTotal_e
## W = 0.90756, p-value < 2.2e-16

## [1] "Para una muestra de tamaño:  60"
## 
##  Shapiro-Wilk normality test
## 
## data:  PTotal_e
## W = 0.89519, p-value < 2.2e-16

## [1] "Para una muestra de tamaño:  100"
## 
##  Shapiro-Wilk normality test
## 
## data:  PTotal_e
## W = 0.8993, p-value < 2.2e-16

## [1] "Para una muestra de tamaño:  200"
## 
##  Shapiro-Wilk normality test
## 
## data:  PTotal_e
## W = 0.89967, p-value < 2.2e-16

## [1] "Para una muestra de tamaño:  500"
## 
##  Shapiro-Wilk normality test
## 
## data:  PTotal_e
## W = 0.90102, p-value < 2.2e-16

Se observa una diferencia notable en el comportamiento de los datos sin diferencia p1 y p2 vs los datos con una diferencia del 5%, los datos de % no reflejan un comportamiento normal en su distribución.

#3. Con base al articulo

“Statistical Errors:P values, the gold standar of statistical validity, are not as reliable as many scientists assume”

Escriba un resumen (máximo 2 páginas) sobre el artículo e incluya en este sus opiniones en cuanto al uso del valor p como criterio de decisión en inferencia estadística.

La controversia por el uso de criterios estadísticos que permiten evaluar la “calidad” de los datos, ha llevado a grandes científicos a través de la historia, y a profesionales de todas las disciplinas, que realizan proyectos que impliquen analizar información, a cuestionarse sobre los métodos actualmente establecidos para evaluar la calidad de los datos; El valor P, como criterio que ha sido impartido en la academia, es usado para determinar qué tan significativo es un conjunto de datos, y saber que el nivel de confiabilidad de la información.

En un estudio realizado por Motyl, estudiante del doctorado en Psicología de la Universidad de Virgina en Charlottesville, luego de analizados 2000 datos de políticos extremistas de derecha e izquierda, se concluyó que estos veían los tonos grises con menor precisión que aquellos políticos sin convicciones tan marcadas. Motyl describió que la evaluación logró una “hipótesis sexy” y que los datos impactaron para generar las mejores conclusiones, con un valor P de 0,01 que generalmente se interpretaba como muy significativo, sin embargo, Motyl y su asesor decidieron replicar el estudio con datos adicionales, arrojando un valor p de los datos de 0.59, ni siquiera cerca de un valor convencional, lo que generó cuestionamientos acerca del valor p.

El problema no estaba en los análisis de Moty, según Ziliak economista de la universidad de Roosevelt, los valores P no eran significativos para generar fiabilidad en la información, y lo preocupante era que muchos estudios estaban realizados con valores falsos, lo que conllevó a científicos a repensar en cómo evaluar los resultados. Parte de estos avances buscan mejores formas para evaluar información, con el fin de ayudar a la comunidad científica a evitar perder información o actuar ante falsos datos. Los valores P, han generado siempre controversia y fuertes críticas, asimilándolos a modo de analogía al traje del nuevo emperador (cargado de problemas evidentes, que la gente de alrededor decide ignorar). Ronald Fisher, cuándo introdujo el valor P, lo pensó sencillamente como una forma de evaluar si los datos eran significativos, y con la posibilidad de que los valores sean revisados cuántas veces sea necesario.

Pese a toda la aparente precisión del valor P que parecía tener fuerza en la comunidad, Fisher pretendía que fuera solo una parte de un proceso que combinara datos y conocimientos previos para llegar a conclusiones científicas, Pero pronto se convirtió en un movimiento para hacer que la toma de decisiones basada en evidencia sea lo más rigurosa y objetiva posible. Otros científicos refutaron o complementaron los estudios estadísticos del valor P realizados, aplaudiendo los avances o criticando los mismos. Es importante demostrar que un valor P de 0.01 corresponde a una probabilidad de falsa alarma en los datos, a diferencia de un valor p de 0.05 que demostraría la confiabilidad de los mismos, de ahí nace la hipótesis nula y alternativa con un valor p de 0.05.

En un análisis se encontró evidencia de que muchos artículos de psicología publicados, reportan valores de P que se agrupan sospechosamente alrededor de 0.05, tal como si los investigadores buscaran que los valores se acomodaran intencionalmente. Lo anterior es una afirmación que puede implicar que los estudios muchas veces pueden ser falsos. Es por lo anterior, que los estadísticos han contribuido para abordar una serie de medidas que podrían ayudar a identificar “datos falsos”, para evitar la trampa de pensar en los resultados como significativos o no significativos, por ejemplo, Cumming cree que los investigadores siempre deben informar los tamaños de la muestra y los intervalos de confianza, estos transmiten lo que un valor P no. Los estadísticos incentivan a reemplazar el valor P con métodos como la regla de Bayes o múltiples métodos para el mismo conjunto de datos y aunque Stephen Senn afirma que cualquier método de análisis de datos eventualmente tendrá cuestionamientos, deben emplearse diversos métodos que arrojen diferentes respuestas, afirmando que es una sugerencia para ser más creativos y tratar de averiguar el porqué de los resultados, lo que debería conducir a una mejor comprensión de la realidad subyacente.

Simonsohn alienta a los autores a calificar sus artículos como ‘P-certificado, o P-hackeado’ e incluir el cómo se determina el tamaño de la muestra, todas las exclusiones de datos (si las hay), todas las manipulaciones y todas las medidas adoptadas para el estudio, así mismo, traer a los análisis elementos de juicio sobre las limitaciones que normalmente se presentan en un estudio de datos y que son generadores de discusión ante los resultados. Para los estudios científicos o que requieran uso de datos, Richard Royall afirma siempre cuestionarse estás tres importantes preguntas “¿Cuál es la evidencia?” ‘¿Qué debo creer?’ y ’¿Qué debo hacer?“.