Taller 2

Recordando probabilidad y Conteos

En un estudio médico los pacientes se clasifican de 8 formas de acuerdo con su tipo sanguíneo: AB+,AB-, A+, A-,B+,B- , O+ u O- ; y también de acuerdo con su presión sanguínea: baja, normal o alta. Encuentre el número de formas en las que se puede clasificar a un paciente por estos dos criterios. \[Nc = Rh\ \times\ Pre\]

Nc: Número de clasificasiones posibles.

Rh: Número de clasificasiones segun tipo sanguineo.

Pre: Número de clasificasiones segun su presión.

\[Nc = 8\ \times\ 3\]

## [1] "Nc = 24"

## [1] "el número de formas en las que se puede clasificar a un paciente por estos dos criterios son  24"

¿Cuántas permutaciones distintas se pueden hacer con las letras de la palabra AGRONOMIA?

## [[1]]
## [1] "A" "G" "R" "O" "N" "O" "M" "I" "A"
## 
## [[2]]
## [1] "A" "G" "R" "O" "N" "O" "M" "A" "I"
## 
## [[3]]
## [1] "A" "G" "R" "O" "N" "O" "A" "M" "I"
## 
## [[4]]
## [1] "A" "G" "R" "O" "N" "A" "O" "M" "I"
## 
## [[5]]
## [1] "A" "G" "R" "O" "A" "N" "O" "M" "I"
## 
## [[6]]
## [1] "A" "G" "R" "A" "O" "N" "O" "M" "I"

## [1] "se pueden hacer 362880 permutaciones distintas con las letras de la palabra AGRONOMIA"

La probabilidad de que un AGRÓNOMO diagnostique de manera correcta una enfermedad específica es 0.7. Dado que el AGRÓNOMO hace un diagnóstico incorrecto, la probabilidad de que el dueño del cultivo le entable una demanda legal es 0.9. ¿Cuál es la probabilidad de que el Agrónomo haga un diagnóstico incorrecto y sea demandado?

\[PID = PIN \times PD\] PID = probabilidad de un diagnóstico incorrecto y ser demandado.

PIN = probabilidad de un diagnóstico incorrecto.

PD = probabilidad de ser demandado. \[PID = 0.3\ \ \times\ \ 0.9 \]

## [1] "PID =  0.27"

## [1] "la probabilidad de que el Agrónomo haga un diagnóstico incorrecto y sea demandado es de  0.27"

De cuántas maneras se pueden plantar 5 árboles diferentes en un círculo manteniendo la misma distancia entre ellos? ¿ de cuantas formas en una línea?

\[PCn = (n - 1)!\]

PCn: permutaciones circuales n: número de elementos \[PCn = (5 - 1)!\]

## [1] "PCn = 24"

## [1] "Se pueden sembrar de 24 formas diferentes manteniendo la misma distacioa dentro de un circulo."

\[Pn = n!\] Pn: permutaciones n: número de elementos \[Pn = 5!\]

## [1] "Pn =  120"

## [1] "Se pueden sembrar de 120 formas diferentes manteniendo la misma distacia dentro de una linea."

Pruebas de hipotesis

Punto 1

Una muestra aleatoria de 64 bolsas con fibra de coco para cultivo de Arándanos (de una capacidad de 20 lit) pesan en promedio 4.5 kg. Genere los datos de la muestra usando rnorm(64;4.35;0.15) fijando su semilla con su número de cédula y pruebe la hipótesis de que el peso es inferior a 4.5 kg. Utilice un α=0.05. Concluya desde un punto de vista agronómico y explique una razón por la cual un peso inferior puede ser un problema desde un punto de vista del riego o dosificación de agroquímicos.

Establecemos la hipótesis nula y alterna

\[H0:\mu=4.5 Kg \] \[Ha:\mu\neq 4.5 Kg \]

set.seed(1003540900)
datos<-rnorm(n=64,mean=4.35,sd=0.15)%>% round (2)
datos<-as.vector(datos)
Test<-t.test(datos)
Test

## 
##  One Sample t-test
## 
## data:  datos
## t = 247.71, df = 63, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  4.326221 4.396591
## sample estimates:
## mean of x 
##  4.361406

Punto 2

Se supone que una máquina mezcla granos partidos de arroz con granos completos en bolsas de 1/4 Kg a razón de 1:24. Se observa que una bolsa contiene 6000 granos enteros y 350 granos partidos. A un nivel de significancia de significancia de 0.05 pruebe la hipótesis de que la máquina mezcladora de granos está excediendo la cantidad de granos partidos y por ende no se está manteniendo la razón 1:24.

\[H_0:\alpha \leq granos partidos\ 1:24 \\ Ha:\alpha > granos partidos\ 1:24\]

Ent=6000
par =350 
## 1 partido 23 completos 
total = 6350
proporcion_1=6350/24
proporcion_1

## [1] 264.5833

granos = c(6000, 350)
proporciones_gr=c(23/24,1/24)
prue2 = chisq.test(granos,proporciones_gr)

## Warning in chisq.test(granos, proporciones_gr): Chi-squared approximation may be
## incorrect

ifelse(prue2$p.value<0.05, 'No rechazo', 'Rechazo la hipótesis nula')

## [1] "Rechazo la hipótesis nula"

Al rechazar la hipótesis nula podemos afirmar con respaldo estadístico que la maquina no cuenta con una correcta calibración, por lo cual está proporcionando mas granos partidos de los que debería para cada bolsa, por consiguiente se hace la recomendación de calibrar la máquina para solucionar este error de proporciones.

Punto 3

Las muestras de agua se toman del agua utilizada para refrigeración cuando se vierte desde una central eléctrica a un río. Se ha determinado que la temperatura media del agua descargada sea como máximo de 65° C para que no haya efectos negativos en el ecosistema del río. Para investigar si la central cumple la normativa que prohíbe una temperatura media del agua superior a este valor los investigadores tomarán 50 muestras de agua según un protocolo de muestreo y registrarán la temperatura de cada muestra. Los datos resultantes se utilizarán para probar las hipótesis H0:µ=65 contra Ha: H0:µ>65. En el contexto de este ejemplo, describa los errores de tipo I y Tipo II. ¿Qué tipo de error consideraría más grave? Explique. Genere con rnorm (50;65.8;0.3) los datos de la muestra con una semilla asociada a su cédula. Contraste las hipótesis antes formuladas usando α=0.05.

\[H0:\mu=65 \\ Ha:\mu>65 \] Error tipo I

Un error de tipo I se produce si el investigador rechaza la hipótesis nula y concluye que la temperatura media del agua descargada es mayor a 65°C, cuando, en realidad, no lo es. En este caso este error es muy grave, ya que, se concluiría que el agua que vierte la central eléctrica al río genera efectos negativos en el ecosistema y esta empresa sería sancionada.

Error tipo II

Se produce un error de tipo II, si el investigador no rechaza la hipótesis nula cuando debe rechazarla. Es decir, el investigador concluye que la temperatura media del agua descargada es igual a 65°C cuando en realidad es diferente. Este error puede poner en riesgo al ecosistema del río.

Considero que el error más grave es el tipo II, puesto que se ponen en riesgo vidas marinas, lo que puede generar la extinción de especies, mientras que el error tipo I, a lo mucho generará un cobro monetario, que equivale menos a la contaminación de un ambiente marino.

set.seed(1003540900)
d_2<-rnorm(n=50,mean=65.8,sd=0.3)
d_2

##  [1] 65.85567 65.56245 65.68058 66.08596 65.83417 65.77056 65.48423 66.17661
##  [9] 65.68456 65.94982 65.32452 65.88706 65.80583 66.03888 65.70810 65.73981
## [17] 65.94254 65.58220 65.35699 65.64020 65.72643 66.08488 66.00413 65.93942
## [25] 65.73284 65.98618 65.87190 65.94439 65.74436 65.94044 66.10771 65.66031
## [33] 65.62757 66.01568 65.88221 66.00354 65.45133 65.69402 65.77886 65.63429
## [41] 65.54898 66.07272 65.52028 65.60784 66.61725 65.52877 66.27430 65.63416
## [49] 65.49778 65.81670

t.test(d_2)

## 
##  One Sample t-test
## 
## data:  d_2
## t = 1880.3, df = 49, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  65.73088 65.87152
## sample estimates:
## mean of x 
##   65.8012

Se tiene evidencia estadística para rechazar H0, puesto que p valor < 0.05, por lo que se puede afirmar que la temperatura media del agua descargada por la central eléctrica es mayor a 65°C

Punto 4

Un agricultor afirma que el rendimiento medio del maíz de la variedad Local supera el rendimiento medio de la variedad alóctona en al menos 0.5 ton/ha. Para comprobar esta afirmación, se plantan 2 hectáreas de cada variedad y se cultivan en condiciones similares. La variedad Local produjo en promedio 5.8 ton/ha con una desviación estándar de 0,58 ton/ha, mientras que la otra variedad rindió en promedio 5.1ton/ha con una desviación estándar de 0.45 ton/ha. Prueba la afirmación del agricultor utilizando un nivel de significación de 0,05. Con los datos dados genere con rnorm de R las muestras de tamaño según la densidad de siembra que considere según la literatura para las 5 hectáreas. Aunque las medidas y las desviaciones obtenidas de las simulaciones pueden diferir de los datos, use los datos simulados para el contraste de hipótesis para un α=0.05.

Planteamos las hipótesis \[H0:\mu(v.local)>\mu(v.alóctona) \\ Ha:\mu(v.local)<\mu(v.alóctona) \] - Según la literatura encontrada, se plantan 7 plantas de maíz por metro cuadrado, así que, se realiza una regla de tres para poder hallar la cantidad de plantas en las 5 hectáreas, teniendo en cuenta que una hectárea equivale a 10000 metros. Entonces, se tiene que en 5 ha, se sembrarán 350000 plantas de maíz.

V.L<-rnorm(n=350000,mean=5.8,sd=0.58)
V.A<-rnorm(n=350000,mean=5.1,sd=0.51)
t.test(V.L,V.A)

## 
##  Welch Two Sample t-test
## 
## data:  V.L and V.A
## t = 537.88, df = 688636, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  0.6997602 0.7048785
## sample estimates:
## mean of x mean of y 
##  5.800548  5.098228

Se tiene evidencia estadística para rechazar H0, puesto que p valor < 0.05, por lo que el rendimiento medio del maíz de la variedad Local no supera el rendimiento medio de la variedad alóctona en al menos 0.5 ton/ha

Punto 5

La porosidad a granel se define como el porcentaje de volumen del espacio intergranular respecto al volumen total de grano a granel. El porcentaje de espacio vacío de los diferentes granos a granel suele ser necesario en los estudios de secado, estudios de flujo de aire y flujo de calor de los granos. La porosidad depende de (a) la forma, (b) las dimensiones y (c) la rugosidad de la superficie del grano. En maíz se conoce una porosidad media de 42.5% (medido con el método de desplazamiento del mercurio). Se toman 30 muestras y se obtiene una media y una desviación estándar de la muestra para una semilla dada por su número de cédula(CC) de mean(rnorm (30;45;2)) y sd(rnorm (30;45;2)). Use un α=0.05 para probar la hipótesis de que la porosidad es mayor al valor conocido históricamente para el cultivo de una variedad específica.

\[H0:\mu=42.5 \\ Ha:\mu\neq 42.5 \]

set.seed(1003540900)
dato<-rnorm(n=30,mean = 45,sd=2)
Media<-mean(rnorm(dato)) 
Desv<-sd(rnorm(dato))
Media

## [1] -0.05323072

Desv

## [1] 1.090903

Porosidad = rnorm(n = 30, mean = Media, sd = Desv)
t.test(dato)

## 
##  One Sample t-test
## 
## data:  dato
## t = 177.25, df = 29, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  44.49959 45.53850
## sample estimates:
## mean of x 
##  45.01905

Se tiene evidencia estadística para rechazar H0, puesto que p valor < 0.05, por lo que se puede afirmar que la porosidad es mayor al valor conocido históricamente para el cultivo de una variedad específica.

Punto 6

Con la función expand.grid de R cree una rejilla de 10 filas y 12 columnas y con grid cierre la cuadrícula para que se perciban las 120 celdas. Genere unos datos con la función round(runif(120,0,1.2),0) genere el estado de unas plantas que caen un por celda. El cero representa las sanas y el 1 las enfermas. Pinte un color para cada caso diferente de modo que en la imagen se perciban sanas y enfermas. Asuma la prevalencia total de la enfermedad como la medida de referencia inicial (parámetro) para comparar con los muestreos. Tome muestras aleatorias de tamaño 10:80 y estime la prevalencia en cada caso ( use sample de R). Grafique la prevalencia contra tamaño de muestra y muestre el alejamiento de cada prevalencia con el verdadero valor conocido inicialmente. Haga una nueva rejilla enfermando un 10% adicional a las que estaban enfermas inicialmente asumiendo que ninguna enferma pasa al estado sana, solo sanas pasan a enfermas. Una vez tenga las dos rejillas, calcule para los mismos tamaños de muestra la nueva prevalencia y estime las incidencias asumiendo que cada imagen tiene una separación de 12 días. Haga los gráficos respectivos. Saque las conclusiones respecto del tamaño de muestra.Suponga que muestrear una planta tiene un costo de 20 mil pesos y se tiene un presupuesto de a lo sumo un millón de pesos para cada muestreo. Una vez tenga todos los resultados haga un muestro hipercubo-latino condicionado con la librería clhs de R y ponga como tamaño de muestra el que queda definido por el presupuesto. Muestre en las rejillas en todos los casos las plantas muestreadas de forma aleatoria y espacial. Estime todas las prevalencias e incidencias con este muestreo. Compare ambos resultados y comente las diferencias encontradas y diga la razón que tiene para seleccionar uno de estos como el más conveniente.

set.seed(1003540900)
rej = expand.grid(x = 1:12,
                     y = 1:10)
estado = round(runif(120,0,1.2))
enfermas = ifelse(estado==0, 'Sana', 'Enferma');enfermas

##   [1] "Enferma" "Sana"    "Sana"    "Enferma" "Sana"    "Enferma" "Enferma"
##   [8] "Sana"    "Enferma" "Enferma" "Enferma" "Sana"    "Sana"    "Sana"   
##  [15] "Enferma" "Enferma" "Sana"    "Enferma" "Enferma" "Enferma" "Sana"   
##  [22] "Enferma" "Enferma" "Sana"    "Enferma" "Sana"    "Enferma" "Sana"   
##  [29] "Sana"    "Sana"    "Enferma" "Sana"    "Enferma" "Enferma" "Sana"   
##  [36] "Sana"    "Sana"    "Enferma" "Sana"    "Sana"    "Sana"    "Enferma"
##  [43] "Enferma" "Enferma" "Enferma" "Enferma" "Enferma" "Enferma" "Sana"   
##  [50] "Enferma" "Enferma" "Enferma" "Enferma" "Sana"    "Enferma" "Enferma"
##  [57] "Enferma" "Sana"    "Enferma" "Sana"    "Enferma" "Sana"    "Sana"   
##  [64] "Enferma" "Sana"    "Enferma" "Enferma" "Sana"    "Enferma" "Enferma"
##  [71] "Enferma" "Sana"    "Sana"    "Enferma" "Sana"    "Enferma" "Enferma"
##  [78] "Enferma" "Sana"    "Enferma" "Sana"    "Enferma" "Enferma" "Enferma"
##  [85] "Sana"    "Enferma" "Sana"    "Enferma" "Enferma" "Enferma" "Sana"   
##  [92] "Enferma" "Enferma" "Enferma" "Sana"    "Enferma" "Sana"    "Sana"   
##  [99] "Enferma" "Enferma" "Enferma" "Sana"    "Enferma" "Enferma" "Sana"   
## [106] "Enferma" "Sana"    "Enferma" "Enferma" "Enferma" "Sana"    "Enferma"
## [113] "Sana"    "Enferma" "Enferma" "Sana"    "Enferma" "Sana"    "Enferma"
## [120] "Sana"

color_estado = ifelse(estado==0, 'green', 'red')

total_enfermas = 0
for (i in enfermas){
  if (i == 'Enferma'){
    total_enfermas = total_enfermas + 1
  }else{
    next
  }
}

porcentaje = round(total_enfermas *0.1)

prevalencia = round(100* total_enfermas/length(estado),2);prevalencia

## [1] 60

plot(rej,
     col = color_estado)
grid(nx = 12,
     ny = 10,
     lty = 2,
     col = 'blue',
     equilogs = T)

muestra = sample(estado, size = 48)
enfermas_muestra = 0
for (i in muestra){
  if (i == 1){
    enfermas_muestra = enfermas_muestra + 1
  }else{
    next
  }
}

prevalencia_2 = round(100* enfermas_muestra/length(muestra),2);prevalencia_2

## [1] 60.42

enfermas_2 = enfermas
color_estado2 = color_estado
set.seed(1003540900)
random = round(runif(20,1,120));random

##  [1]  69  15  26  90  42  54 100  15  66  77  56  34  18  16 108  72  43  92  83
## [20]  80

cuenta1 = 0
for (i in random){
  if (cuenta1 != porcentaje){
    if(enfermas_2[i] == "Sana"){
      cuenta1 = cuenta1 + 1
      enfermas_2[i] = 'Enferma'
    }else{
      next
    }
  }else{
    break
  }
}

cuenta2 = 0
for (i in random){
  if (cuenta2 != porcentaje){
    if(color_estado2[i] == 'green'){
      cuenta2 = cuenta2 + 1
      color_estado2[i] = 'red'
    }else{
      next
    }
  }else{
    break
  }
}

plot(rej,
     col = color_estado2)
grid(nx = 12,
     ny = 10,
     lty = 2,
     col = 'blue',
     equilogs = T)

colo = c("green", "red")
hist(estado, col=colo)

por.planta = ((1000000 / 20000)*100)/120 
N_lote = 120
n_muestras = ceiling(N_lote * seq(0.05,0.42,0.02))
muestras = lapply(n_muestras, clhs, x = rej)

set.seed(1003540900)
enf_m = NULL
for (i in n_muestras){
  muestra = clhs(x = rej, size = i)
  enf_m = c(enf_m, table(enfermas[muestra])['Enferma']/i)
  prev_i = table(enfermas[muestra])/i
  cat('\n n_muestra', i, '\n')
 print(prev_i)
}

## 
##  n_muestra 6 
## 
##   Enferma      Sana 
## 0.6666667 0.3333333 
## 
##  n_muestra 9 
## 
##   Enferma      Sana 
## 0.7777778 0.2222222 
## 
##  n_muestra 11 
## 
##   Enferma      Sana 
## 0.6363636 0.3636364 
## 
##  n_muestra 14 
## 
##   Enferma      Sana 
## 0.4285714 0.5714286 
## 
##  n_muestra 16 
## 
## Enferma    Sana 
##   0.875   0.125 
## 
##  n_muestra 19 
## 
##   Enferma      Sana 
## 0.5263158 0.4736842 
## 
##  n_muestra 21 
## 
##   Enferma      Sana 
## 0.5238095 0.4761905 
## 
##  n_muestra 23 
## 
##   Enferma      Sana 
## 0.5652174 0.4347826 
## 
##  n_muestra 26 
## 
##   Enferma      Sana 
## 0.5769231 0.4230769 
## 
##  n_muestra 28 
## 
##   Enferma      Sana 
## 0.6428571 0.3571429 
## 
##  n_muestra 30 
## 
## Enferma    Sana 
##     0.6     0.4 
## 
##  n_muestra 33 
## 
##   Enferma      Sana 
## 0.6060606 0.3939394 
## 
##  n_muestra 35 
## 
##   Enferma      Sana 
## 0.6285714 0.3714286 
## 
##  n_muestra 38 
## 
##   Enferma      Sana 
## 0.7368421 0.2631579 
## 
##  n_muestra 40 
## 
## Enferma    Sana 
##     0.6     0.4 
## 
##  n_muestra 42 
## 
##   Enferma      Sana 
## 0.6666667 0.3333333 
## 
##  n_muestra 45 
## 
##   Enferma      Sana 
## 0.5333333 0.4666667 
## 
##  n_muestra 47 
## 
##   Enferma      Sana 
## 0.6382979 0.3617021 
## 
##  n_muestra 50 
## 
## Enferma    Sana 
##    0.56    0.44

plot(n_muestras, enf_m, pch = 16)
text(n_muestras, enf_m, n_muestras, pos = 4, cex = 0.9)
abline(h = table(enfermas)['Enferma']/120, col = 'red')

\[H_0: \pi \leq 0.6\\ H_a: \pi > 0.6\]

set.seed(1003540900)
est_50 = estado[clhs(x = rej, size = 50)]

prueba_1 = binom.test(x = sum(est_50, na.rm=T),n = 120,p = 0.5,alternative = "g")
pvalor = prueba_1$p.value

ifelse(pvalor < 0.05, 'No rechazo', 'Rechazo')

## [1] "Rechazo"

set.seed(1003540900)
est_26 = estado[clhs(x = rej, size = 26)]

prueba_2 = binom.test(x = sum(est_26, na.rm=T),n = 120,p = 0.5,alternative = "g")
pvalor = prueba_2$p.value

ifelse(pvalor < 0.05, 'No rechazo', 'Rechazo')

## [1] "Rechazo"

\[H_0: \pi \leq 0.6\\ H_a: \pi > 0.6\]

prueba_1p = prop.test(x = sum(est_50, na.rm = T), n = 50, p = 0.6, alternative = 'g', correct = F)
ifelse(prueba_1p$p.value<0.05, 'No rechazo', 'Rechazo')

## [1] "Rechazo"

prueba_2p = prop.test(x = sum(est_26, na.rm = T), n = 26, p = 0.6, alternative = 'g', correct = F)
ifelse(prueba_2p$p.value<0.05, 'No rechazo', 'Rechazo')

## [1] "Rechazo"

al tomar un tamaño de muestra 50 o 26 plantas, los datos no proporcionan evidencia estadística significativa que demuestre una diferencia existente al tomar un tamaño u otro, por lo que se asume que un muestreo que se encuentre dentro del rango de 26 a 50 plantas va a comportarse estadísticamente de la misma manera, se recomienda tomar un valor medio para el tamaño de la muestra ya que de esta manera al tener un valor mayor a 26 vamos a tener un resultado más similar a la realidad y al ser menor que 50 vamos a reducir costos pero sin afectar los resultados.

Taller 2

Johan Rojas Ch.

14/12/2021

Recordando probabilidad y Conteos

Pruebas de hipotesis

Punto 1

Punto 2

Punto 3

Punto 4

Punto 5

Punto 6