Diseño_Experimental

Taller_2

Author

Natalia_Herrera

Published

Invalid Date

library(tidyverse)
library(readxl)
library(janitor)
library(skimr)
library(hrbrthemes)
library(viridis)
library(ggpubr)
library(broom)
library(knitr)
library(corrplot)
library(car)
library(infer)

Punto 2

Con la base de datos ALIMENTRO haga lo siguiente: - Seleccione un ingrediente de interés - Seleccione dos departamentos para el ingrediente elegido - Seleccione una variable respuesta de interés (numérica) - Realice el análisis descriptivo y exploratorio que considere necesario - Escriba el juego de hipótesis y elija el nivel de significancia - Compare si los promedios de la variable seleccionada son diferentes estadísticamente para los dos departamentos elegidos en el ingrediente de interés. Nota: valide los supuestos necesarios. - Construya un intervalo de confianza para la diferencia de promedios. Nota: importante que interprete todos sus resultados.

Solución

Datos

datos <- read_csv("Alimentro-Depurada.csv")
datos %>% 
  head()
# A tibble: 6 × 25
  ingrediente    depar…¹ munic…² topog…³ textu…⁴ epoca…⁵ altur…⁶ altur…⁷ edad_…⁸
  <chr>          <chr>   <chr>   <chr>   <chr>   <chr>     <dbl>   <dbl>   <dbl>
1 Ryegrass pere… Putuma… Sibund… Plana   ND      Transi…       5      25      35
2 Ryegrass pere… Putuma… Sibund… Plana   ND      Transi…       5      25      35
3 Ryegrass pere… Cundin… Mosque… Plana   Franco… Lluvia       10      48      77
4 Ryegrass pere… Cundin… Mosque… Plana   Franco… Lluvia       10      48      77
5 Ryegrass pere… Cundin… Mosque… Plana   Franco… Lluvia       10      48      77
6 Ryegrass pere… Cundin… Mosque… Plana   Franco… Lluvia       10      48      77
# … with 16 more variables: proteina <dbl>, ceniza <dbl>,
#   extracto_etereo <dbl>, FDN <dbl>, FDA <dbl>, lignina <dbl>,
#   hemicelulosa <dbl>, almidon <dbl>, carbohidratos_noes <dbl>,
#   carbohidratos_solubles <dbl>, digestibilidad_ms <dbl>,
#   energia_digestible <dbl>, energia_metabolizable <dbl>,
#   energia_neta_manten <dbl>, energia_neta_ganancia <dbl>,
#   energia_neta_lactancia <dbl>, and abbreviated variable names …

Tipo de datos:

datos %>% 
  glimpse()
Rows: 17,472
Columns: 25
$ ingrediente            <chr> "Ryegrass perenne - Lolium perenne - Hoja, Tall…
$ departamento           <chr> "Putumayo", "Putumayo", "Cundinamarca", "Cundin…
$ municipio              <chr> "Sibundoy", "Sibundoy", "Mosquera", "Mosquera",…
$ topografia             <chr> "Plana", "Plana", "Plana", "Plana", "Plana", "P…
$ textura_de_suelo       <chr> "ND", "ND", "Franco arcilloso", "Franco arcillo…
$ epoca_recoleccion      <chr> "Transición sequía a lluvia", "Transición sequí…
$ altura_corte_cm        <dbl> 5, 5, 10, 10, 10, 10, 5, 5, 5, 5, 5, 5, 5, 5, 5…
$ altura_planta_cm       <dbl> 25, 25, 48, 48, 48, 48, 12, 12, 12, 10, 10, 10,…
$ edad_corte_d           <dbl> 35, 35, 77, 77, 77, 77, 42, 42, 42, 35, 35, 35,…
$ proteina               <dbl> 18.35, 26.80, 12.36, 12.08, 11.67, 11.68, 13.01…
$ ceniza                 <dbl> 9.62, 10.69, 10.00, 10.06, 9.74, 9.56, 11.10, 9…
$ extracto_etereo        <dbl> 3.14, 3.26, 2.80, 2.77, 2.67, 2.85, 2.71, 2.65,…
$ FDN                    <dbl> 50.45, 46.55, 62.84, 62.87, 62.80, 63.75, 49.16…
$ FDA                    <dbl> 26.37, 26.22, 33.34, 34.29, 34.07, 34.22, 28.65…
$ lignina                <dbl> 5.15, 5.14, 8.03, 8.04, 8.33, 8.18, 5.72, 5.00,…
$ hemicelulosa           <dbl> 24.08, 20.33, 29.50, 28.58, 28.73, 29.53, 20.51…
$ almidon                <dbl> 8.78, 8.28, 5.79, 5.85, 6.18, 6.11, 5.25, 5.18,…
$ carbohidratos_noes     <dbl> 13.57, 11.76, 9.05, 9.83, 10.14, 10.27, 12.23, …
$ carbohidratos_solubles <dbl> 4.80, 3.48, 3.27, 3.98, 3.97, 4.16, 6.99, 7.22,…
$ digestibilidad_ms      <dbl> 65.85, 72.62, 58.88, 58.35, 58.10, 58.06, 60.87…
$ energia_digestible     <dbl> 2.76, 3.12, 2.46, 2.43, 2.41, 2.42, 2.50, 2.56,…
$ energia_metabolizable  <dbl> 2.21, 2.48, 1.92, 1.90, 1.89, 1.89, 2.00, 2.05,…
$ energia_neta_manten    <dbl> 1.34, 1.59, 1.08, 1.06, 1.05, 1.05, 1.16, 1.20,…
$ energia_neta_ganancia  <dbl> 0.77, 0.99, 0.52, 0.50, 0.49, 0.49, 0.59, 0.63,…
$ energia_neta_lactancia <dbl> 1.36, 1.51, 1.20, 1.19, 1.18, 1.18, 1.24, 1.27,…

Data frame con 17,472 filas y 25 columnas: 6 variables categóricas (character) y 19 numéricas (doubles)

Variables a escoger:

datos %>% 
  count(ingrediente)
# A tibble: 5 × 2
  ingrediente                                                         n
  <chr>                                                           <int>
1 Buffel - Cenchrus ciliaris - Hoja, Tallo                         2121
2 Kikuyo - Cenchrus clandestinus - Hoja, Tallo                     4613
3 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo  5956
4 Rhodes - Chloris gayana - Hoja, Tallo                            1764
5 Ryegrass perenne - Lolium perenne - Hoja, Tallo                  3018

Selecciono el ingrediente: Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo

datos %>% 
  count(departamento)
# A tibble: 18 × 2
   departamento           n
   <chr>              <int>
 1 Antioquia           2858
 2 Arauca                 3
 3 Atlántico              1
 4 Bogotá                 6
 5 Boyacá              1613
 6 Caldas                25
 7 Cauca                  1
 8 Cesar               2062
 9 Córdoba             2254
10 Cundinamarca        4514
11 Meta                 249
12 Nariño               967
13 Norte de Santander    42
14 Putumayo               6
15 Quindio                4
16 Risaralda              1
17 Santander            212
18 Tolima              2654

Selecciono en departamento las entradas Antioquia y Tolima

Descriptivo y exploratorio General

datos %>% 
  skim()
Data summary
Name Piped data
Number of rows 17472
Number of columns 25
_______________________
Column type frequency:
character 6
numeric 19
________________________
Group variables None

Variable type: character

skim_variable n_missing complete_rate min max empty n_unique whitespace
ingrediente 0 1 37 63 0 5 0
departamento 0 1 4 18 0 18 0
municipio 0 1 3 27 0 174 0
topografia 0 1 2 9 0 4 0
textura_de_suelo 0 1 2 16 0 9 0
epoca_recoleccion 0 1 6 26 0 4 0

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
altura_corte_cm 0 1 10.58 11.31 0.00 0.00 8.00 20.00 50.00 ▇▃▂▁▁
altura_planta_cm 0 1 48.58 30.54 0.00 26.50 46.40 66.70 330.00 ▇▃▁▁▁
edad_corte_d 0 1 37.31 17.16 0.00 28.00 35.00 42.00 147.00 ▇▇▂▁▁
proteina 0 1 13.20 5.29 2.87 8.92 12.08 17.13 32.87 ▅▇▅▂▁
ceniza 0 1 11.33 1.98 4.07 10.02 11.16 12.47 19.45 ▁▃▇▂▁
extracto_etereo 0 1 2.07 0.41 0.55 1.79 2.04 2.31 4.54 ▁▇▅▁▁
FDN 0 1 59.93 7.26 26.77 54.94 61.72 65.34 80.98 ▁▁▅▇▁
FDA 0 1 33.31 4.58 13.78 30.42 33.61 36.32 49.85 ▁▂▇▅▁
lignina 0 1 7.14 1.54 1.37 6.09 7.32 8.26 11.93 ▁▃▇▇▁
hemicelulosa 0 1 26.63 4.09 7.71 24.16 27.47 29.56 42.15 ▁▂▇▆▁
almidon 0 1 5.22 2.17 0.01 3.75 5.29 6.77 16.85 ▃▇▃▁▁
carbohidratos_noes 0 1 7.68 3.23 0.02 5.39 7.36 9.65 22.46 ▂▇▃▁▁
carbohidratos_solubles 0 1 2.47 1.90 0.01 1.07 1.98 3.39 15.63 ▇▂▁▁▁
digestibilidad_ms 0 1 59.55 5.28 46.29 55.43 58.58 63.63 77.68 ▁▇▆▃▁
energia_digestible 0 1 2.45 0.26 1.86 2.24 2.40 2.64 3.37 ▂▇▆▂▁
energia_metabolizable 0 1 1.95 0.22 1.41 1.78 1.91 2.12 2.69 ▁▇▆▃▁
energia_neta_manten 0 1 1.10 0.20 0.57 0.94 1.07 1.26 1.77 ▁▇▆▃▁
energia_neta_ganancia 0 1 0.54 0.19 0.04 0.40 0.51 0.69 1.15 ▁▇▆▅▁
energia_neta_lactancia 0 1 1.21 0.12 0.91 1.12 1.19 1.31 1.63 ▁▇▆▃▁

Selecciono entre las variables numéricas la entrada Fibra detergente neutra (FDN)

Promedio general

promedio_FDN<- datos %>%
  pull (FDN) %>% 
  mean (na.rm = TRUE) 
promedio_FDN
[1] 59.93407
ggqqplot(datos$FDN)

datos %>% 
  ggplot(aes(x = FDN)) +
  geom_density()+
  geom_vline(xintercept = promedio_FDN, color="red")

Gráficos General:

datos %>% 
  ggplot(aes(x = FDN, fill = ingrediente)) +
  geom_density(alpha = 0.5) +
  geom_vline(xintercept = promedio_FDN, color="red")+
  ggtitle("Gráfico densidad de la FDN")

qplot(FDN, data = datos, geom = "density", color = ingrediente,  facets = ingrediente ~. ) 

Los datos se encuentran entre 26.77% y 80.98% de FDN

datos %>% 
  group_by(ingrediente) %>%
  summarise( 
    pro_FDN = mean(FDN),
    des_FDN = sd(FDN)
  ) %>% 
  
  ungroup() %>% 
  ggplot (aes(
    x = ingrediente,
    y = pro_FDN,
    ymin = pro_FDN  - des_FDN,
    ymax = pro_FDN  + des_FDN
   )) + 
  geom_point() +
  geom_errorbar(width = 0.2) +
  theme(axis.text = element_text(angle = 15))+
  geom_hline (yintercept = promedio_FDN, lty = 2, color = "pink")

Las medias de los ingredientes Buffel,vKikuyo y Megathyrsus maximus sp., superan el promedio general, mientras que Rhodes y Ryegrass perenne son mas bajas, para la variable objetivo FDN kikuyo y rygrass perenne son las categorías con más desviación estándar

Nueva data frame:

datos_2 <- datos %>% 
  select (c(ingrediente, departamento, FDN))
datos_2 %>% 
  head()
# A tibble: 6 × 3
  ingrediente                                     departamento   FDN
  <chr>                                           <chr>        <dbl>
1 Ryegrass perenne - Lolium perenne - Hoja, Tallo Putumayo      50.4
2 Ryegrass perenne - Lolium perenne - Hoja, Tallo Putumayo      46.6
3 Ryegrass perenne - Lolium perenne - Hoja, Tallo Cundinamarca  62.8
4 Ryegrass perenne - Lolium perenne - Hoja, Tallo Cundinamarca  62.9
5 Ryegrass perenne - Lolium perenne - Hoja, Tallo Cundinamarca  62.8
6 Ryegrass perenne - Lolium perenne - Hoja, Tallo Cundinamarca  63.8
datos_sel <- datos_2 %>% 
  filter(departamento %in% c("Antioquia", "Tolima") & ingrediente == "Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo")
datos_sel 
# A tibble: 4,065 × 3
   ingrediente                                                     depar…¹   FDN
   <chr>                                                           <chr>   <dbl>
 1 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq…  71.8
 2 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq…  69.1
 3 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq…  66.4
 4 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq…  71.9
 5 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq…  69.7
 6 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq…  70.4
 7 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq…  70.4
 8 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq…  73.1
 9 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq…  70.4
10 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq…  68.1
# … with 4,055 more rows, and abbreviated variable name ¹​departamento

Existen relación entre las variables y categorías escogidas

Descriptivo y exploratorio datos escogidos

datos_sel %>% 
  count(departamento)
# A tibble: 2 × 2
  departamento     n
  <chr>        <int>
1 Antioquia     2196
2 Tolima        1869
datos_sel %>% 
  glimpse()
Rows: 4,065
Columns: 3
$ ingrediente  <chr> "Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja…
$ departamento <chr> "Antioquia", "Antioquia", "Antioquia", "Antioquia", "Anti…
$ FDN          <dbl> 71.80, 69.09, 66.38, 71.87, 69.67, 70.40, 70.43, 73.11, 7…

nuevo data frame de 4,065 filas y 3 columnas

datos_sel %>% 
  skim()
Data summary
Name Piped data
Number of rows 4065
Number of columns 3
_______________________
Column type frequency:
character 2
numeric 1
________________________
Group variables None

Variable type: character

skim_variable n_missing complete_rate min max empty n_unique whitespace
ingrediente 0 1 63 63 0 1 0
departamento 0 1 6 9 0 2 0

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
FDN 0 1 63.89 2.78 53.79 62.06 63.84 65.67 76.52 ▁▅▇▂▁

Resumen estadístico de la variable (numérica) de interés, FDN: Con media_63,88, desviación estandar_2,78, y cuartiles: p0_53.79%, p25_62.06%, P50_63.84%, p75_65.67% y p100_76.52% (el p50_coincide con la mediana, lo que indica que el 50% de los datos para FDN se encuentran por debajo y encima de 63.84, p0 con el mínimo y p100 con el máximo)

Promedio escogidos:

promedio_FDN_sel<- datos_sel %>%
  pull (FDN) %>% 
  mean (na.rm = TRUE) 
promedio_FDN_sel
[1] 63.88502

Grafico escogidos:

datos_sel %>% 
  ggplot(aes(x = FDN, fill = departamento)) +
  geom_density(alpha = 0.5) +
  geom_vline(xintercept = promedio_FDN_sel, color="red")+
  ggtitle("Gráfico densidad de la FDN")

datos_sel %>% 
  group_by(departamento) %>%
  summarise( 
    pro_FDN = mean(FDN),
    des_FDN = sd(FDN)
  ) %>% 
  
  ungroup() %>% 
  ggplot (aes(
    x = departamento,
    y = pro_FDN,
    ymin = pro_FDN  - des_FDN,
    ymax = pro_FDN  + des_FDN
   )) + 
  geom_point() +
  geom_errorbar(width = 0.2) +
  theme(axis.text = element_text(angle = 15))+
  geom_hline (yintercept = promedio_FDN_sel, lty = 2, color = "pink")

El promedio de Antioquia para la FDN es más alto que el del Tolima

ggqqplot(datos_sel$FDN)

datos_sel %>% 
  ggplot(aes(x = FDN)) +
  geom_density()+
  geom_vline(xintercept = promedio_FDN_sel, color="red")

  • Shapiro Wilk:
shapiro.test(datos_sel$FDN)

    Shapiro-Wilk normality test

data:  datos_sel$FDN
W = 0.99847, p-value = 0.0006417

como el valor p (0.0006417) es menor que el nivel de significancia (0.05) existe evidencia para rechazar la hipótesis nula, es decir, que la variable FDN No se distribuye de forma normal.

Juego de hipótesis

\[H_0: \mu FDN Antioquia = \mu FDN Tolima\]

\[H_0: \mu FDN Antioquia \neq \mu FDN Tolima\]

  • Nivel de significancia: 0.05(\(\alpha = 0.05\))
t.test(x = datos_sel$FDN,
       alternative = "two.sided",
       conf.level = 0.95,
       mu = 63.88502)

    One Sample t-test

data:  datos_sel$FDN
t = 7.7233e-05, df = 4064, p-value = 0.9999
alternative hypothesis: true mean is not equal to 63.88502
95 percent confidence interval:
 63.79947 63.97058
sample estimates:
mean of x 
 63.88502 
prueba_t1 <- t.test(x = datos_sel$FDN,
       alternative = "two.sided",
       conf.level = 0.95,
       mu = 63.88502
       )
prueba_t1 %>% tidy()
# A tibble: 1 × 8
  estimate statistic p.value parameter conf.low conf.high method         alter…¹
     <dbl>     <dbl>   <dbl>     <dbl>    <dbl>     <dbl> <chr>          <chr>  
1     63.9 0.0000772    1.00      4064     63.8      64.0 One Sample t-… two.si…
# … with abbreviated variable name ¹​alternative

Conclusión: - Como el valor p (0.9999384) es mayor que el nivel de significancia (0.05), no existe evidencia para rechazar la hipótesis nula, es decir, las medias de los departamentos de Antioquia y Tolima para la FDN son iguales. - Son valores altos para la FDN, se dice que por encima de 53% la pastura pierde calidad y afecta digestibilidad

Punto 3

Usted fue asignada (o) para probar a través de métodos estadísticos si en promedio la grasa dorsal (mm) de dos líneas genéticas de porcinos presentan diferencias estadísticas y ¿cuál sería el rango de valores esperados para la diferencia de esas dos líneas genéticas? ¿Cuál línea genética recomendaría?

linea_a <- c(13.94, 15.30, 16.92, 14.89, 17.34, 17.43, 16.83, 15.61,
             16.95, 17.69, 15.16, 16.53, 17.22, 15.17, 16.63)

linea_b <-c(15.62, 13.84, 14.25, 12.79, 17.01, 16.92, 11.13, 13.72,
            14.26, 14.55, 14.11, 18.04, 12.17, 13.59, 13.81)

Data_frame:

datos_gd <- data.frame(linea_a, linea_b)
datos_gd 
   linea_a linea_b
1    13.94   15.62
2    15.30   13.84
3    16.92   14.25
4    14.89   12.79
5    17.34   17.01
6    17.43   16.92
7    16.83   11.13
8    15.61   13.72
9    16.95   14.26
10   17.69   14.55
11   15.16   14.11
12   16.53   18.04
13   17.22   12.17
14   15.17   13.59
15   16.63   13.81

Inferencia Estadística:

####juesgo de hipótesis:

\[H_0: \mu \hspace{0,1cm} linea_a = \mu \hspace{0,1cm} linea_b\]

\[H_0: \mu \hspace{0,1cm} linea_a \neq \mu \hspace{0,1cm} linea_b\]

  • Nivel de significancia: 0.05(\(\alpha = 0.05\))

Normalidad

  • Para línea_a
ggqqplot(linea_a)

  • shapiro Wilk
shapiro.test(linea_a)

    Shapiro-Wilk normality test

data:  linea_a
W = 0.91484, p-value = 0.1606
  • Para linea_b
ggqqplot(linea_b)

shapiro.test(linea_b)

    Shapiro-Wilk normality test

data:  linea_b
W = 0.94462, p-value = 0.444

Los valores de plinea_a(0.1606) y plinea_b(0.444) son mayores que el nivel de significancia (0.05) No existe evidencia para rechazar la hipótesis nula, es decir, que las lineas se distribuye de forma normal.

  • Para diferencia:
diferencia <- datos_gd$linea_a - datos_gd$linea_b
ggqqplot(data = diferencia)

shapiro.test(diferencia)

    Shapiro-Wilk normality test

data:  diferencia
W = 0.96138, p-value = 0.7164

No existe evidencia para rechazar la hipótesis nula

datos_piv <- datos_gd %>% 
  select(linea_a, linea_b) %>%  
  gather(lineas, grasa_dorsal_mm)
datos_piv %>% 
  head()
   lineas grasa_dorsal_mm
1 linea_a           13.94
2 linea_a           15.30
3 linea_a           16.92
4 linea_a           14.89
5 linea_a           17.34
6 linea_a           17.43
t.test(datos_piv$grasa_dorsal_mm ~ datos_piv$lineas,
       alternative = "two.sided",
       conf.level = 0.95,
       var.equal = FALSE)

    Welch Two Sample t-test

data:  datos_piv$grasa_dorsal_mm by datos_piv$lineas
t = 3.3052, df = 23.172, p-value = 0.00307
alternative hypothesis: true difference in means between group linea_a and group linea_b is not equal to 0
95 percent confidence interval:
 0.6938399 3.0128267
sample estimates:
mean in group linea_a mean in group linea_b 
             16.24067              14.38733 

Los valores de p (0.00307) aon menores que el nivel de significancia (0.05), existe evidencia estadística para rechazar la hipótesis nula, es decir, que las medias de lineas a y b no son iguales Los intervalos de confianza no contienen el cero, existe evidencia para rechazar que las líneas rindan igual en grasa dorsal. Además, como el intervalo está al lado derecho del cero, podemos afirmar que la grasa dorsal de la linea_a es mayor que la de la líea_b Si lo que se busca es mayor proporción de grasa dorsal, recomendaría la linea_a

Punto 4

Con la misma base de datos ALIMENTRO del punto 2 y usando la misma información (ingrediente de interés, departamentos y variable respuesta), responda lo siguiente:

  • ¿Cuál de los dos departamentos presenta mayor variabilidad para la variable de interés?
  • ¿Es diferente estadísticamente la variabilidad de ambos departamentos?
  • Si la prueba estadística se lo permite, construya un intervalo de confianza del 95% para complementar sus respuestas.
datos_sel %>% head()
# A tibble: 6 × 3
  ingrediente                                                     depart…¹   FDN
  <chr>                                                           <chr>    <dbl>
1 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioqu…  71.8
2 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioqu…  69.1
3 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioqu…  66.4
4 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioqu…  71.9
5 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioqu…  69.7
6 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioqu…  70.4
# … with abbreviated variable name ¹​departamento

Gráficos

  • A través de graficos se observa la distribución de las variable FDN para el ingerdiente Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo en los departamentos de Antioquia y Tolima

  • Filtro datos para Antioquia

datos_sel_Antioquia <- datos_sel %>% 
  filter(departamento == "Antioquia")
datos_sel_Antioquia
# A tibble: 2,196 × 3
   ingrediente                                                     depar…¹   FDN
   <chr>                                                           <chr>   <dbl>
 1 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq…  71.8
 2 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq…  69.1
 3 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq…  66.4
 4 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq…  71.9
 5 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq…  69.7
 6 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq…  70.4
 7 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq…  70.4
 8 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq…  73.1
 9 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq…  70.4
10 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq…  68.1
# … with 2,186 more rows, and abbreviated variable name ¹​departamento
datos_sel_Antioquia %>% 
  glimpse()
Rows: 2,196
Columns: 3
$ ingrediente  <chr> "Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja…
$ departamento <chr> "Antioquia", "Antioquia", "Antioquia", "Antioquia", "Anti…
$ FDN          <dbl> 71.80, 69.09, 66.38, 71.87, 69.67, 70.40, 70.43, 73.11, 7…
  • Filtro datos para Antioquia
 datos_sel_Tolima <- datos_sel %>% 
  filter(departamento == "Tolima")
datos_sel_Tolima
# A tibble: 1,869 × 3
   ingrediente                                                     depar…¹   FDN
   <chr>                                                           <chr>   <dbl>
 1 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Tolima   63.7
 2 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Tolima   68  
 3 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Tolima   69.0
 4 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Tolima   66.4
 5 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Tolima   60.4
 6 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Tolima   66.1
 7 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Tolima   65.5
 8 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Tolima   64.6
 9 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Tolima   66.2
10 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Tolima   64.2
# … with 1,859 more rows, and abbreviated variable name ¹​departamento
datos_sel_Tolima %>% 
  glimpse()
Rows: 1,869
Columns: 3
$ ingrediente  <chr> "Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja…
$ departamento <chr> "Tolima", "Tolima", "Tolima", "Tolima", "Tolima", "Tolima…
$ FDN          <dbl> 63.74, 68.00, 69.05, 66.38, 60.41, 66.06, 65.51, 64.55, 6…
  • De dispersión:

  • Para Antioquia:

qqPlot(x = datos_sel_Antioquia$FDN)

[1]   99 2018
  • Para Tolima:
qqPlot(x = datos_sel_Tolima$FDN)

[1] 660 644
  • De Violin:
datos_sel %>% 
ggplot(aes(x = departamento, y = FDN, fill = departamento)) +
  geom_violin(alpha = 0.5) +
    geom_point()+
  geom_hline(yintercept = promedio_FDN_sel, color="red")+
  theme(legend.position = "none")+
   geom_boxplot(width = 0.2)+
   stat_summary(fun = "mean",
            geom = "point",
            color = "red") +
stat_summary(fun = "median",
               geom = "point",color = "green")+
      ggtitle("FDN por departamento") 

La variable FDN para los dos departamentos, parece, se distribuye de manera normal, con una densidad más amplia para Antioquia, estándo en el Tolima más condensada

  • con pruebas estadísticas:

Juego de hipótesis:

\[H_0: X \thicksim N (\mu, \sigma) \] \[H_0: X \nsim N (\mu, \sigma) \] - Nivel de significancia: 0.05(\(\alpha = 0.05\))

shapiro.test(x = datos_sel_Antioquia$FDN) 

    Shapiro-Wilk normality test

data:  datos_sel_Antioquia$FDN
W = 0.99664, p-value = 8.994e-05

Como el valor p ( 8.994e-05) es menor que el nivel de significancia (0.05), existe evidencia para rechazar la hipótesis nula, es decir, la variable FDN no se distribuye de manera normal para el departamento de Antioquia.

Juego hipótesis Media Intervalos:

\[La \hspace{0,1cm} localización \hspace{0,1cm} del\hspace{0,1cm} promedio = 63.88502\]

\[La \hspace{0,1cm} localización \hspace{0,1cm} del\hspace{0,1cm} promedio \neq 63.88502\] * No paramétrica para Antioquia

wilcox.test(x = datos_sel_Antioquia$FDN,
            alternative = "two.sided",
            conf.level = 0.95,
            mu = promedio_FDN_sel,
            conf.int = TRUE)

    Wilcoxon signed rank test with continuity correction

data:  datos_sel_Antioquia$FDN
V = 1644268, p-value < 2.2e-16
alternative hypothesis: true location is not equal to 63.88502
95 percent confidence interval:
 64.63503 64.86001
sample estimates:
(pseudo)median 
      64.74999 

Como el valor p (2.2e-16) es menor que el nivel de significancia (0.05), existe evidencia para rechazar la hipótesis nula, es decir, que el promedio del FDN no está localizado en 63.88502 para el departamento de Antioquia. Como el intervalo de confianza no contiene el valor de referencia (63.88502 ), existe evidencia para rechazar la hipótesis nula.

shapiro.test(x = datos_sel_Tolima$FDN) 

    Shapiro-Wilk normality test

data:  datos_sel_Tolima$FDN
W = 0.99855, p-value = 0.112

Como el valor p ( 0.112) es menor que el nivel de significancia (0.05), existe evidencia para no rechazar la hipótesis nula, es decir, la variable FDN se distribuye de manera normal para el departamento del Tolima.

t.test(x = datos_sel_Tolima$FDN,
       alternative = "two.sided",
       conf.level = 0.95,
       mu = 63.88502 )

    One Sample t-test

data:  datos_sel_Tolima$FDN
t = -18.272, df = 1868, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 63.88502
95 percent confidence interval:
 62.70570 62.93433
sample estimates:
mean of x 
 62.82002 

Como el valor p (2.2e-16) es menor que el nivel de significancia (0.05), existe evidencia para rechazar la hipótesis nula, es decir, que el promedio del FDN no está localizado en 63.88502 para el departamento dEL Tolima. Como el intervalo de confianza no contiene el valor de referencia (63.88502 ), existe evidencia para rechazar la hipótesis nula.

Conclusión: - La realción estadística de la media de FDN, para el ingrediente “Megathyrsus maximus sp. - Megathyrsus maximus sp., con los dos departamentos es muy similar, ninguno la contiene entre sus intervalos de confianza. Los datos para Antioquia no se distribuyen de forma normal

Punto 5

Se realizaron 30 experimentos independientes en donde se evaluó la afección de una plaga en hojas de cítricos, en cada uno de ellos se calculó el promedio del área afectada (en porcentaje) de las hojas bajo análisis.

  • Utilizando técnicas de Bootstrapping construya un intervalo de confianza (com ambos métodos: error estándar y percentil) del 95% para el promedio del área afectada.

Datos

area_hc <- data.frame(area = c(29.2, 17.0, 28.9, 17.3, 13.8, 5.8, 27.5, 18.2, 27.6, 30.9,
          32.8, 22.6, 15.3, 23.3, 12.4, 30.0, 19.5, 17.0, 18.7, 20.4,
          18.6, 44.1, 17.9, 17.9, 30.0, 25.1, 24.3, 22.1, 21.8, 21.9))

area_hc %>% 
  head()
  area
1 29.2
2 17.0
3 28.9
4 17.3
5 13.8
6  5.8

Muestras:

  • muestra del 0,4:
set.seed(2023)
muestra_a <- area_hc %>% 
  rep_sample_n(size = 12, reps = 1)
muestra_a
# A tibble: 12 × 2
# Groups:   replicate [1]
   replicate  area
       <int> <dbl>
 1         1  18.6
 2         1  30  
 3         1  12.4
 4         1  27.6
 5         1  18.2
 6         1  18.7
 7         1  22.6
 8         1  17  
 9         1  19.5
10         1  29.2
11         1  44.1
12         1  20.4
  • remuestreo:
set.seed(2023)

rmuestra_a <- muestra_a %>% 
  specify(response = area) %>%
  generate(reps = 1000, type = "bootstrap") %>%
  calculate(stat = "mean")

rmuestra_a
Response: area (numeric)
# A tibble: 1,000 × 2
   replicate  stat
       <int> <dbl>
 1         1  19.9
 2         2  20.9
 3         3  21.2
 4         4  22.6
 5         5  23.5
 6         6  26.7
 7         7  24.4
 8         8  23.1
 9         9  23.7
10        10  20.0
# … with 990 more rows
  • promedio
mean_rmuestra_a <- rmuestra_a$stat %>% 
  mean()
mean_rmuestra_a
[1] 23.21895

Gráfica:

rmuestra_a %>% 
  visualize()

Intervalos

  • percentiles:
ic_percen <- rmuestra_a %>%
  get_confidence_interval(level = 0.95, type = "percentile")
ic_percen
# A tibble: 1 × 2
  lower_ci upper_ci
     <dbl>    <dbl>
1     19.1     28.4
rmuestra_a %>% 
  visualize() +
  shade_confidence_interval(endpoints = ic_percen)

  • Error estándar:
ic_err_es <- rmuestra_a %>%
  get_confidence_interval(level = 0.95,
                          type = "se",
                          point_estimate = mean_rmuestra_a)

ic_err_es
# A tibble: 1 × 2
  lower_ci upper_ci
     <dbl>    <dbl>
1     18.5     28.0

Gráfica:

rmuestra_a %>%
  visualize() +
  shade_confidence_interval(endpoints = ic_percen,
                            color = "forestgreen",
                            fill = "white") +
  shade_confidence_interval(endpoints = ic_err_es,
                            color = "dodgerblue",
                            fill = "white") +
  geom_vline(xintercept = mean_rmuestra_a, color = "red", lty = 2, size = 1.5) 

Se realizó remuestreo con la técnica bootstraping obteniendo parámetros estadísticos (con respaldo de normalidad) como la media (23.21895) de la proporción del área consumida por los insectos, así como los intervalos de confianza 19.06583 - 28.37812 para método de percentil y 18.47772 - 27.96018 para error estándar