1 Bibliotecas

library(tidyverse)
library(janitor)
library(infer)
library(ggplot2)
library(ggpubr)
library(car)

2 Punto 1

En una encuesta realizada en Colombia a 128 sistemas de producción de aguacate, se encontró que 47 de ellos usan fertilización orgánica y el restante utilizan fertilización química. Construya un intervalo de confianza del 99% para la proporción del uso de fertilizante orgánico en este tipo de sistemas de producción. Interprete sus resultados.

  • x = proporción que usa fertilizante orgánico
  • n = número total de encuestados
  • nc = nivel de confianza
  • xgorro = porcentaje de proporcion
  • se = error estandar
  • f = valor establecido para un nc de 99%
  • Icprop = vector que contiene los intervalos de confianza
Icprop = function(x,n,nc = 0.99)
  { xgorro = x/n 
se = sqrt((xgorro * (1 - xgorro))/n)
f = qnorm((1 + nc)/2)
Icprop = c(xgorro - (f * se), xgorro, xgorro + (f*se))
return(Icprop)
}
x = 47
n = 128
nc = 0.99
Icprop(x,n,nc)
## [1] 0.2574403 0.3671875 0.4769347

2.1 Interpretación

Según la encuesta la proporción que usaba fertilizante orgánico era de un 36.7% osea 47 sistemas, pero en realidad la proporción real se encuentra dentro de un intervalo de 25.7% a 47.7% del total de sistemas.

3 Punto 2

  • Ingrediente de interés = Buffel - Cenchrus ciliaris - Hoja, Tallo
  • Departamentos = Antioquia y Cesar
  • Variable respuesta de interés = edad de corte
alimentro <- read_csv("Alimentro-Depurada.csv")
alimentro %>% head

3.1 Datos punto 2

datosp2 <- alimentro %>% 
  filter(ingrediente == "Buffel - Cenchrus ciliaris - Hoja, Tallo") %>% 
  filter(departamento %in% c("Antioquia","Cesar"))

3.2 Exploratorio

3.2.1 Promedio

datosp2 %>% 
group_by(ingrediente, departamento) %>%
  summarise(promedio = mean(edad_corte_d))

3.3 Juego de hipótesis

\[H_0: edad \ corte \ Antioquia = edad \ corte \ Cesar \\ H_1 : edad \ corte \ Antioquia \neq edad\ corte\ Cesar\]

3.3.1 Nivel de significancia

En este caso usaremos un nivel de significancia del 5% (0.05)

3.4 Prueba de shapiro wilk

shapiro.test(x = datosp2$edad_corte_d) 
## 
##  Shapiro-Wilk normality test
## 
## data:  datosp2$edad_corte_d
## W = 0.73847, p-value < 2.2e-16

3.5 Solución

  • Vamos a usar la función var.test() con los siguientes argumentos:
    • formula: y ~ x. En este caso “y” es la variable edad de corte y el “x” es el departamento.
    • ratio: es el resultado del cociente de las dos varianzas. En este caso asumimos en la hipótesis nula el valor de “1”.
    • alternative: tipo de prueba. En este es bilateral (“two.sided”)
    • conf.level: nivel de confianza. En este caso es 0.95 (1 - 0.5)
  var.test(datosp2$edad_corte_d ~ datosp2$departamento,
         ratio = 1,
         alternative = "two.sided",
         conf.level = 0.95)
## 
##  F test to compare two variances
## 
## data:  datosp2$edad_corte_d by datosp2$departamento
## F = 9.5607, num df = 189, denom df = 993, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##   7.733251 12.019476
## sample estimates:
## ratio of variances 
##            9.56071

3.6 Conclusión

  • Como el valor p (2.2e-16) es menor que el nivel de significancia (0.05), si existe evidencia para rechazar la hipótesis, es decir, que el promedio de la edad de corte del departamento de Antioquia es diferente al promedio de la edad de corte del departamento del Cesar.
  • Como el intervalo de confianza (LI: 7.733251, LS: 12.019476) no contiene el valor de referencia (“1”), si existe evidencia para rechazar la hipótesis.

4 Punto 3

Usted fue asignado (a) para probar a través de métodos estadísticos si en promedio la grasa dorsal (mm) de dos líneas genéticas de porcinos presentan diferencias estadísticas y ¿cuál sería el rango de valores esperados para la diferencia de esas dos líneas genéticas? ¿Cuál línea genética recomendaría?

linea_a <- c(13.94, 15.30, 16.92, 14.89, 17.34, 17.43, 16.83, 15.61,
             16.95, 17.69, 15.16, 16.53, 17.22, 15.17, 16.63)

linea_b <-c(15.62, 13.84, 14.25, 12.79, 17.01, 16.92, 11.13, 13.72,
            14.26, 14.55, 14.11, 18.04, 12.17, 13.59, 13.81)

4.1 Juego de hipótesis

\[H_0: promedio \ grasa \ dorsal \ linea \ a = promedio \ grasa \ dorsal \ linea \ b \\ H_1 : promedio \ grasa \ dorsal \ linea \ a \neq promedio \ grasa \ dorsal \ linea \ b \]

4.1.1 Nivel de significancia

En este caso usaremos un nivel de significancia del 5% (0.05)

4.2 Diferencia de medias

diferencia <- linea_a - linea_b
diferencia
##  [1] -1.68  1.46  2.67  2.10  0.33  0.51  5.70  1.89  2.69  3.14  1.05 -1.51
## [13]  5.05  1.58  2.82

4.3 Normalidad

Gráfico

ggqqplot(data = diferencia)

  • Podemos concluir que si se cumple la normalidad, ya que los datos se encuentran dentro de la banda de confianza

4.4 Igualdad de varianza

var.test(x = linea_a, y = linea_b,
         ratio = 1, alternative = "two.sided")
## 
##  F test to compare two variances
## 
## data:  linea_a and linea_b
## F = 0.37318, num df = 14, denom df = 14, p-value = 0.07551
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.125286 1.111535
## sample estimates:
## ratio of variances 
##          0.3731753

4.5 Prueba t-student

t.test(x = linea_a, y = linea_b,
       alternative = "two.sided",
       conf.level = 0.95,
       paired = TRUE,
       var.equal = TRUE)
## 
##  Paired t-test
## 
## data:  linea_a and linea_b
## t = 3.5317, df = 14, p-value = 0.003319
## alternative hypothesis: true mean difference is not equal to 0
## 95 percent confidence interval:
##  0.7278099 2.9788568
## sample estimates:
## mean difference 
##        1.853333

4.6 Conclusion

  • Como el valor p (0.0003319) es menor que el nivel de significancia, existe evidencia para rechazar la hipótesis nula, es decir, que el promedio de la “linea a” es diferente al promedio para de la “linea b”.
  • Como el intervalo de confianza no contiene al cero ([0.7278099, 2.9788568]), existe evidencia para rechazar la hipótesis nula. Además, el promedio de la “linea a” podría estar desde 0.72 hasta 2.97 puntos por encima dela “linea b”

4.7 ¿Cuál sería el rango de valores esperados para la diferencia de esas dos líneas genéticas?

  • El rango de diferencia que podemos esperar esta entre (0.7278099 - 2.9788568)

4.8 ¿Cuál línea genética recomendaría?

  • Nosotras recomendaríamos la línea genética A, porque está por encima de la linea b, y es recomendable que los cerdos tengan un mayor porcentaje de grasa dorsal ya que es un indicador importante para una buena productividad.

5 Punto 4

Con la misma base de datos ALIMENTRO del punto 2 y usando la misma información (ingrediente de interés, departamentos y variable respuesta), responda lo siguiente:

5.1 ¿Cuál de los dos departamentos presenta mayor variabilidad para la variable de interés?

5.1.1 Densidades

datosp2 %>% 
  ggplot(aes(x = edad_corte_d, color = departamento)) +
  geom_density() +
  scale_x_log10()

5.1.2 Respuesta

Presenta mayor variabilidad el departamento del Cesar con respecto a la edad de corte del pasto Buffel - Cenchrus ciliaris, puesto que al analizar el grafico de densidad podemos observar que presenta mas oscilaciones, esto debido a que el departamento del Cesar presenta mas datos para este pasto

5.2 ¿Es diferente estadísticamente la variabilidad de ambos departamentos?

Si la prueba estadística se lo permite, construya un intervalo de confianza del 95% para complementar sus respuestas.

5.2.1 Normalidad

ggqqplot(data = datosp2$edad_corte_d)

  • De este gráfico podemos inferir que la distribucción no es normal, puestos que los datos de la variedad estan alejados de la diagonal y se salen de la banda de confianza

5.2.2 Prueba de Levene

leveneTest(datosp2$edad_corte_d ~ datosp2$departamento)

5.2.3 Respuesta

Como el valor P (< 2.2e-16) es inferior a nuestro nivel de significancia (0.05) podemos concluir que si existe una diferencia significativa entre las varianzas de los dos departamentos comparados.

6 Punto 5

Se realizaron 30 experimentos independientes en donde se evaluó la afección de una plaga en hojas de cítricos, en cada uno de ellos se calculó el promedio del área afectada (en porcentaje) de las hojas bajo análisis. Utilizando técnicas de Bootstrapping construya un intervalo de confianza (com ambos métodos: error estándar y percentil) del 95% para el promedio del área afectada.

area <- c(29.2, 17.0, 28.9, 17.3, 13.8, 5.8, 27.5, 18.2, 27.6, 30.9,
          32.8, 22.6, 15.3, 23.3, 12.4, 30.0, 19.5, 17.0, 18.7, 20.4,
          18.6, 44.1, 17.9, 17.9, 30.0, 25.1, 24.3, 22.1, 21.8, 21.9)

6.1 Promedio muestra

promedio_area <- mean(area)
promedio_area
## [1] 22.39667

6.2 Remuestreo

datosp5 <- data.frame(area) 
set.seed(2022)
remuestreo_p5 <- datosp5 %>% 
  specify(response = area) %>% 
  generate(reps = 1000, type = "bootstrap") %>% 
  calculate(stat = "mean")

remuestreo_p5

6.2.1 media del remuestreo

promedio_remuestreo <- remuestreo_p5$stat %>% mean()
promedio_remuestreo
## [1] 22.37907

6.2.2 Gráfico de remuestreo

remuestreo_p5 %>% 
  visualize()

6.3 Intervalo de confianza con percentiles (95%):

ic_p5_percentil <-
  remuestreo_p5 %>%
  get_confidence_interval(level = 0.95, type = "percentile")
ic_p5_percentil

6.3.1 Graficamos los intervalos de confianza con el método de percentiles

remuestreo_p5 %>% 
  visualize() +
  shade_confidence_interval(endpoints = ic_p5_percentil)

6.4 Calculamos el intervalo de confianza por el método de error estándar:

proporcion_muestral <-
  prop.table(table(area))

ic_errorestandar <- remuestreo_p5 %>%
  get_confidence_interval(level = 0.95,
                          type = "se",
                          point_estimate = promedio_area)

ic_errorestandar

6.4.1 Graficamos los intervalos de confianza con el método de error estándar

remuestreo_p5 %>% 
  visualize() +
  shade_confidence_interval(endpoints = ic_errorestandar)

6.5 Gráfico de los dos intervalos de confianza

remuestreo_p5 %>%
  visualize() +
  shade_confidence_interval(endpoints = ic_p5_percentil,
                            color = "forestgreen",
                            fill = "white") +
  shade_confidence_interval(endpoints = ic_errorestandar,
                            color = "dodgerblue",
                            fill = "white") +
  geom_vline(xintercept = promedio_area, color = "red", lty = 2, size = 1.5) +
  geom_vline(xintercept = promedio_remuestreo, color = "black", lty = 2, size = 1.5) 

6.6 Conclusión

  • Podemos concluir que el promedio del remuestreo es casi igual al de la muestra inicial, lo que quiere decir que si hacemos nuevos remuestreos obtendremos los mismos intervalos de confianza.
  • También podemos concluir que con ambos métodos el intervalo de confianza va a incluir el valor real del promedio del área afectada
