library(tidyverse)
library(readxl)
library(janitor)
library(skimr)
library(hrbrthemes)
library(viridis)
library(ggpubr)
library(broom)
library(knitr)
library(corrplot)
library(car)
library(infer)Diseño_Experimental
Taller_2
Punto 2
Con la base de datos ALIMENTRO haga lo siguiente: - Seleccione un ingrediente de interés - Seleccione dos departamentos para el ingrediente elegido - Seleccione una variable respuesta de interés (numérica) - Realice el análisis descriptivo y exploratorio que considere necesario - Escriba el juego de hipótesis y elija el nivel de significancia - Compare si los promedios de la variable seleccionada son diferentes estadísticamente para los dos departamentos elegidos en el ingrediente de interés. Nota: valide los supuestos necesarios. - Construya un intervalo de confianza para la diferencia de promedios. Nota: importante que interprete todos sus resultados.
Solución
Datos
datos <- read_csv("Alimentro-Depurada.csv")
datos %>%
head()# A tibble: 6 × 25
ingrediente depar…¹ munic…² topog…³ textu…⁴ epoca…⁵ altur…⁶ altur…⁷ edad_…⁸
<chr> <chr> <chr> <chr> <chr> <chr> <dbl> <dbl> <dbl>
1 Ryegrass pere… Putuma… Sibund… Plana ND Transi… 5 25 35
2 Ryegrass pere… Putuma… Sibund… Plana ND Transi… 5 25 35
3 Ryegrass pere… Cundin… Mosque… Plana Franco… Lluvia 10 48 77
4 Ryegrass pere… Cundin… Mosque… Plana Franco… Lluvia 10 48 77
5 Ryegrass pere… Cundin… Mosque… Plana Franco… Lluvia 10 48 77
6 Ryegrass pere… Cundin… Mosque… Plana Franco… Lluvia 10 48 77
# … with 16 more variables: proteina <dbl>, ceniza <dbl>,
# extracto_etereo <dbl>, FDN <dbl>, FDA <dbl>, lignina <dbl>,
# hemicelulosa <dbl>, almidon <dbl>, carbohidratos_noes <dbl>,
# carbohidratos_solubles <dbl>, digestibilidad_ms <dbl>,
# energia_digestible <dbl>, energia_metabolizable <dbl>,
# energia_neta_manten <dbl>, energia_neta_ganancia <dbl>,
# energia_neta_lactancia <dbl>, and abbreviated variable names …
Tipo de datos:
datos %>%
glimpse()Rows: 17,472
Columns: 25
$ ingrediente <chr> "Ryegrass perenne - Lolium perenne - Hoja, Tall…
$ departamento <chr> "Putumayo", "Putumayo", "Cundinamarca", "Cundin…
$ municipio <chr> "Sibundoy", "Sibundoy", "Mosquera", "Mosquera",…
$ topografia <chr> "Plana", "Plana", "Plana", "Plana", "Plana", "P…
$ textura_de_suelo <chr> "ND", "ND", "Franco arcilloso", "Franco arcillo…
$ epoca_recoleccion <chr> "Transición sequía a lluvia", "Transición sequí…
$ altura_corte_cm <dbl> 5, 5, 10, 10, 10, 10, 5, 5, 5, 5, 5, 5, 5, 5, 5…
$ altura_planta_cm <dbl> 25, 25, 48, 48, 48, 48, 12, 12, 12, 10, 10, 10,…
$ edad_corte_d <dbl> 35, 35, 77, 77, 77, 77, 42, 42, 42, 35, 35, 35,…
$ proteina <dbl> 18.35, 26.80, 12.36, 12.08, 11.67, 11.68, 13.01…
$ ceniza <dbl> 9.62, 10.69, 10.00, 10.06, 9.74, 9.56, 11.10, 9…
$ extracto_etereo <dbl> 3.14, 3.26, 2.80, 2.77, 2.67, 2.85, 2.71, 2.65,…
$ FDN <dbl> 50.45, 46.55, 62.84, 62.87, 62.80, 63.75, 49.16…
$ FDA <dbl> 26.37, 26.22, 33.34, 34.29, 34.07, 34.22, 28.65…
$ lignina <dbl> 5.15, 5.14, 8.03, 8.04, 8.33, 8.18, 5.72, 5.00,…
$ hemicelulosa <dbl> 24.08, 20.33, 29.50, 28.58, 28.73, 29.53, 20.51…
$ almidon <dbl> 8.78, 8.28, 5.79, 5.85, 6.18, 6.11, 5.25, 5.18,…
$ carbohidratos_noes <dbl> 13.57, 11.76, 9.05, 9.83, 10.14, 10.27, 12.23, …
$ carbohidratos_solubles <dbl> 4.80, 3.48, 3.27, 3.98, 3.97, 4.16, 6.99, 7.22,…
$ digestibilidad_ms <dbl> 65.85, 72.62, 58.88, 58.35, 58.10, 58.06, 60.87…
$ energia_digestible <dbl> 2.76, 3.12, 2.46, 2.43, 2.41, 2.42, 2.50, 2.56,…
$ energia_metabolizable <dbl> 2.21, 2.48, 1.92, 1.90, 1.89, 1.89, 2.00, 2.05,…
$ energia_neta_manten <dbl> 1.34, 1.59, 1.08, 1.06, 1.05, 1.05, 1.16, 1.20,…
$ energia_neta_ganancia <dbl> 0.77, 0.99, 0.52, 0.50, 0.49, 0.49, 0.59, 0.63,…
$ energia_neta_lactancia <dbl> 1.36, 1.51, 1.20, 1.19, 1.18, 1.18, 1.24, 1.27,…
Data frame con 17,472 filas y 25 columnas: 6 variables categóricas (character) y 19 numéricas (doubles)
Variables a escoger:
datos %>%
count(ingrediente)# A tibble: 5 × 2
ingrediente n
<chr> <int>
1 Buffel - Cenchrus ciliaris - Hoja, Tallo 2121
2 Kikuyo - Cenchrus clandestinus - Hoja, Tallo 4613
3 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo 5956
4 Rhodes - Chloris gayana - Hoja, Tallo 1764
5 Ryegrass perenne - Lolium perenne - Hoja, Tallo 3018
Selecciono el ingrediente: Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo
datos %>%
count(departamento)# A tibble: 18 × 2
departamento n
<chr> <int>
1 Antioquia 2858
2 Arauca 3
3 Atlántico 1
4 Bogotá 6
5 Boyacá 1613
6 Caldas 25
7 Cauca 1
8 Cesar 2062
9 Córdoba 2254
10 Cundinamarca 4514
11 Meta 249
12 Nariño 967
13 Norte de Santander 42
14 Putumayo 6
15 Quindio 4
16 Risaralda 1
17 Santander 212
18 Tolima 2654
Selecciono en departamento las entradas Antioquia y Tolima
Descriptivo y exploratorio General
datos %>%
skim()| Name | Piped data |
| Number of rows | 17472 |
| Number of columns | 25 |
| _______________________ | |
| Column type frequency: | |
| character | 6 |
| numeric | 19 |
| ________________________ | |
| Group variables | None |
Variable type: character
| skim_variable | n_missing | complete_rate | min | max | empty | n_unique | whitespace |
|---|---|---|---|---|---|---|---|
| ingrediente | 0 | 1 | 37 | 63 | 0 | 5 | 0 |
| departamento | 0 | 1 | 4 | 18 | 0 | 18 | 0 |
| municipio | 0 | 1 | 3 | 27 | 0 | 174 | 0 |
| topografia | 0 | 1 | 2 | 9 | 0 | 4 | 0 |
| textura_de_suelo | 0 | 1 | 2 | 16 | 0 | 9 | 0 |
| epoca_recoleccion | 0 | 1 | 6 | 26 | 0 | 4 | 0 |
Variable type: numeric
| skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
|---|---|---|---|---|---|---|---|---|---|---|
| altura_corte_cm | 0 | 1 | 10.58 | 11.31 | 0.00 | 0.00 | 8.00 | 20.00 | 50.00 | ▇▃▂▁▁ |
| altura_planta_cm | 0 | 1 | 48.58 | 30.54 | 0.00 | 26.50 | 46.40 | 66.70 | 330.00 | ▇▃▁▁▁ |
| edad_corte_d | 0 | 1 | 37.31 | 17.16 | 0.00 | 28.00 | 35.00 | 42.00 | 147.00 | ▇▇▂▁▁ |
| proteina | 0 | 1 | 13.20 | 5.29 | 2.87 | 8.92 | 12.08 | 17.13 | 32.87 | ▅▇▅▂▁ |
| ceniza | 0 | 1 | 11.33 | 1.98 | 4.07 | 10.02 | 11.16 | 12.47 | 19.45 | ▁▃▇▂▁ |
| extracto_etereo | 0 | 1 | 2.07 | 0.41 | 0.55 | 1.79 | 2.04 | 2.31 | 4.54 | ▁▇▅▁▁ |
| FDN | 0 | 1 | 59.93 | 7.26 | 26.77 | 54.94 | 61.72 | 65.34 | 80.98 | ▁▁▅▇▁ |
| FDA | 0 | 1 | 33.31 | 4.58 | 13.78 | 30.42 | 33.61 | 36.32 | 49.85 | ▁▂▇▅▁ |
| lignina | 0 | 1 | 7.14 | 1.54 | 1.37 | 6.09 | 7.32 | 8.26 | 11.93 | ▁▃▇▇▁ |
| hemicelulosa | 0 | 1 | 26.63 | 4.09 | 7.71 | 24.16 | 27.47 | 29.56 | 42.15 | ▁▂▇▆▁ |
| almidon | 0 | 1 | 5.22 | 2.17 | 0.01 | 3.75 | 5.29 | 6.77 | 16.85 | ▃▇▃▁▁ |
| carbohidratos_noes | 0 | 1 | 7.68 | 3.23 | 0.02 | 5.39 | 7.36 | 9.65 | 22.46 | ▂▇▃▁▁ |
| carbohidratos_solubles | 0 | 1 | 2.47 | 1.90 | 0.01 | 1.07 | 1.98 | 3.39 | 15.63 | ▇▂▁▁▁ |
| digestibilidad_ms | 0 | 1 | 59.55 | 5.28 | 46.29 | 55.43 | 58.58 | 63.63 | 77.68 | ▁▇▆▃▁ |
| energia_digestible | 0 | 1 | 2.45 | 0.26 | 1.86 | 2.24 | 2.40 | 2.64 | 3.37 | ▂▇▆▂▁ |
| energia_metabolizable | 0 | 1 | 1.95 | 0.22 | 1.41 | 1.78 | 1.91 | 2.12 | 2.69 | ▁▇▆▃▁ |
| energia_neta_manten | 0 | 1 | 1.10 | 0.20 | 0.57 | 0.94 | 1.07 | 1.26 | 1.77 | ▁▇▆▃▁ |
| energia_neta_ganancia | 0 | 1 | 0.54 | 0.19 | 0.04 | 0.40 | 0.51 | 0.69 | 1.15 | ▁▇▆▅▁ |
| energia_neta_lactancia | 0 | 1 | 1.21 | 0.12 | 0.91 | 1.12 | 1.19 | 1.31 | 1.63 | ▁▇▆▃▁ |
Selecciono entre las variables numéricas la entrada Fibra detergente neutra (FDN)
Promedio general
promedio_FDN<- datos %>%
pull (FDN) %>%
mean (na.rm = TRUE)
promedio_FDN[1] 59.93407
ggqqplot(datos$FDN)datos %>%
ggplot(aes(x = FDN)) +
geom_density()+
geom_vline(xintercept = promedio_FDN, color="red")Gráficos General:
datos %>%
ggplot(aes(x = FDN, fill = ingrediente)) +
geom_density(alpha = 0.5) +
geom_vline(xintercept = promedio_FDN, color="red")+
ggtitle("Gráfico densidad de la FDN")qplot(FDN, data = datos, geom = "density", color = ingrediente, facets = ingrediente ~. ) Los datos se encuentran entre 26.77% y 80.98% de FDN
datos %>%
group_by(ingrediente) %>%
summarise(
pro_FDN = mean(FDN),
des_FDN = sd(FDN)
) %>%
ungroup() %>%
ggplot (aes(
x = ingrediente,
y = pro_FDN,
ymin = pro_FDN - des_FDN,
ymax = pro_FDN + des_FDN
)) +
geom_point() +
geom_errorbar(width = 0.2) +
theme(axis.text = element_text(angle = 15))+
geom_hline (yintercept = promedio_FDN, lty = 2, color = "pink")Las medias de los ingredientes Buffel,vKikuyo y Megathyrsus maximus sp., superan el promedio general, mientras que Rhodes y Ryegrass perenne son mas bajas, para la variable objetivo FDN kikuyo y rygrass perenne son las categorías con más desviación estándar
Nueva data frame:
datos_2 <- datos %>%
select (c(ingrediente, departamento, FDN))
datos_2 %>%
head()# A tibble: 6 × 3
ingrediente departamento FDN
<chr> <chr> <dbl>
1 Ryegrass perenne - Lolium perenne - Hoja, Tallo Putumayo 50.4
2 Ryegrass perenne - Lolium perenne - Hoja, Tallo Putumayo 46.6
3 Ryegrass perenne - Lolium perenne - Hoja, Tallo Cundinamarca 62.8
4 Ryegrass perenne - Lolium perenne - Hoja, Tallo Cundinamarca 62.9
5 Ryegrass perenne - Lolium perenne - Hoja, Tallo Cundinamarca 62.8
6 Ryegrass perenne - Lolium perenne - Hoja, Tallo Cundinamarca 63.8
datos_sel <- datos_2 %>%
filter(departamento %in% c("Antioquia", "Tolima") & ingrediente == "Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo")
datos_sel # A tibble: 4,065 × 3
ingrediente depar…¹ FDN
<chr> <chr> <dbl>
1 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq… 71.8
2 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq… 69.1
3 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq… 66.4
4 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq… 71.9
5 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq… 69.7
6 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq… 70.4
7 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq… 70.4
8 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq… 73.1
9 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq… 70.4
10 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq… 68.1
# … with 4,055 more rows, and abbreviated variable name ¹departamento
Existen relación entre las variables y categorías escogidas
Descriptivo y exploratorio datos escogidos
datos_sel %>%
count(departamento)# A tibble: 2 × 2
departamento n
<chr> <int>
1 Antioquia 2196
2 Tolima 1869
datos_sel %>%
glimpse()Rows: 4,065
Columns: 3
$ ingrediente <chr> "Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja…
$ departamento <chr> "Antioquia", "Antioquia", "Antioquia", "Antioquia", "Anti…
$ FDN <dbl> 71.80, 69.09, 66.38, 71.87, 69.67, 70.40, 70.43, 73.11, 7…
nuevo data frame de 4,065 filas y 3 columnas
datos_sel %>%
skim()| Name | Piped data |
| Number of rows | 4065 |
| Number of columns | 3 |
| _______________________ | |
| Column type frequency: | |
| character | 2 |
| numeric | 1 |
| ________________________ | |
| Group variables | None |
Variable type: character
| skim_variable | n_missing | complete_rate | min | max | empty | n_unique | whitespace |
|---|---|---|---|---|---|---|---|
| ingrediente | 0 | 1 | 63 | 63 | 0 | 1 | 0 |
| departamento | 0 | 1 | 6 | 9 | 0 | 2 | 0 |
Variable type: numeric
| skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
|---|---|---|---|---|---|---|---|---|---|---|
| FDN | 0 | 1 | 63.89 | 2.78 | 53.79 | 62.06 | 63.84 | 65.67 | 76.52 | ▁▅▇▂▁ |
Resumen estadístico de la variable (numérica) de interés, FDN: Con media_63,88, desviación estandar_2,78, y cuartiles: p0_53.79%, p25_62.06%, P50_63.84%, p75_65.67% y p100_76.52% (el p50_coincide con la mediana, lo que indica que el 50% de los datos para FDN se encuentran por debajo y encima de 63.84, p0 con el mínimo y p100 con el máximo)
Promedio escogidos:
promedio_FDN_sel<- datos_sel %>%
pull (FDN) %>%
mean (na.rm = TRUE)
promedio_FDN_sel[1] 63.88502
Grafico escogidos:
datos_sel %>%
ggplot(aes(x = FDN, fill = departamento)) +
geom_density(alpha = 0.5) +
geom_vline(xintercept = promedio_FDN_sel, color="red")+
ggtitle("Gráfico densidad de la FDN")datos_sel %>%
group_by(departamento) %>%
summarise(
pro_FDN = mean(FDN),
des_FDN = sd(FDN)
) %>%
ungroup() %>%
ggplot (aes(
x = departamento,
y = pro_FDN,
ymin = pro_FDN - des_FDN,
ymax = pro_FDN + des_FDN
)) +
geom_point() +
geom_errorbar(width = 0.2) +
theme(axis.text = element_text(angle = 15))+
geom_hline (yintercept = promedio_FDN_sel, lty = 2, color = "pink")El promedio de Antioquia para la FDN es más alto que el del Tolima
ggqqplot(datos_sel$FDN)datos_sel %>%
ggplot(aes(x = FDN)) +
geom_density()+
geom_vline(xintercept = promedio_FDN_sel, color="red")- Shapiro Wilk:
shapiro.test(datos_sel$FDN)
Shapiro-Wilk normality test
data: datos_sel$FDN
W = 0.99847, p-value = 0.0006417
como el valor p (0.0006417) es menor que el nivel de significancia (0.05) existe evidencia para rechazar la hipótesis nula, es decir, que la variable FDN No se distribuye de forma normal.
Juego de hipótesis
\[H_0: \mu FDN Antioquia = \mu FDN Tolima\]
\[H_0: \mu FDN Antioquia \neq \mu FDN Tolima\]
- Nivel de significancia: 0.05(\(\alpha = 0.05\))
t.test(x = datos_sel$FDN,
alternative = "two.sided",
conf.level = 0.95,
mu = 63.88502)
One Sample t-test
data: datos_sel$FDN
t = 7.7233e-05, df = 4064, p-value = 0.9999
alternative hypothesis: true mean is not equal to 63.88502
95 percent confidence interval:
63.79947 63.97058
sample estimates:
mean of x
63.88502
prueba_t1 <- t.test(x = datos_sel$FDN,
alternative = "two.sided",
conf.level = 0.95,
mu = 63.88502
)
prueba_t1 %>% tidy()# A tibble: 1 × 8
estimate statistic p.value parameter conf.low conf.high method alter…¹
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <chr> <chr>
1 63.9 0.0000772 1.00 4064 63.8 64.0 One Sample t-… two.si…
# … with abbreviated variable name ¹alternative
Conclusión: - Como el valor p (0.9999384) es mayor que el nivel de significancia (0.05), no existe evidencia para rechazar la hipótesis nula, es decir, las medias de los departamentos de Antioquia y Tolima para la FDN son iguales. - Son valores altos para la FDN, se dice que por encima de 53% la pastura pierde calidad y afecta digestibilidad
Punto 3
Usted fue asignada (o) para probar a través de métodos estadísticos si en promedio la grasa dorsal (mm) de dos líneas genéticas de porcinos presentan diferencias estadísticas y ¿cuál sería el rango de valores esperados para la diferencia de esas dos líneas genéticas? ¿Cuál línea genética recomendaría?
linea_a <- c(13.94, 15.30, 16.92, 14.89, 17.34, 17.43, 16.83, 15.61,
16.95, 17.69, 15.16, 16.53, 17.22, 15.17, 16.63)
linea_b <-c(15.62, 13.84, 14.25, 12.79, 17.01, 16.92, 11.13, 13.72,
14.26, 14.55, 14.11, 18.04, 12.17, 13.59, 13.81)Data_frame:
datos_gd <- data.frame(linea_a, linea_b)
datos_gd linea_a linea_b
1 13.94 15.62
2 15.30 13.84
3 16.92 14.25
4 14.89 12.79
5 17.34 17.01
6 17.43 16.92
7 16.83 11.13
8 15.61 13.72
9 16.95 14.26
10 17.69 14.55
11 15.16 14.11
12 16.53 18.04
13 17.22 12.17
14 15.17 13.59
15 16.63 13.81
Inferencia Estadística:
####juesgo de hipótesis:
\[H_0: \mu \hspace{0,1cm} linea_a = \mu \hspace{0,1cm} linea_b\]
\[H_0: \mu \hspace{0,1cm} linea_a \neq \mu \hspace{0,1cm} linea_b\]
- Nivel de significancia: 0.05(\(\alpha = 0.05\))
Normalidad
- Para línea_a
ggqqplot(linea_a)- shapiro Wilk
shapiro.test(linea_a)
Shapiro-Wilk normality test
data: linea_a
W = 0.91484, p-value = 0.1606
- Para linea_b
ggqqplot(linea_b)shapiro.test(linea_b)
Shapiro-Wilk normality test
data: linea_b
W = 0.94462, p-value = 0.444
Los valores de plinea_a(0.1606) y plinea_b(0.444) son mayores que el nivel de significancia (0.05) No existe evidencia para rechazar la hipótesis nula, es decir, que las lineas se distribuye de forma normal.
- Para diferencia:
diferencia <- datos_gd$linea_a - datos_gd$linea_b
ggqqplot(data = diferencia)shapiro.test(diferencia)
Shapiro-Wilk normality test
data: diferencia
W = 0.96138, p-value = 0.7164
No existe evidencia para rechazar la hipótesis nula
datos_piv <- datos_gd %>%
select(linea_a, linea_b) %>%
gather(lineas, grasa_dorsal_mm)
datos_piv %>%
head() lineas grasa_dorsal_mm
1 linea_a 13.94
2 linea_a 15.30
3 linea_a 16.92
4 linea_a 14.89
5 linea_a 17.34
6 linea_a 17.43
t.test(datos_piv$grasa_dorsal_mm ~ datos_piv$lineas,
alternative = "two.sided",
conf.level = 0.95,
var.equal = FALSE)
Welch Two Sample t-test
data: datos_piv$grasa_dorsal_mm by datos_piv$lineas
t = 3.3052, df = 23.172, p-value = 0.00307
alternative hypothesis: true difference in means between group linea_a and group linea_b is not equal to 0
95 percent confidence interval:
0.6938399 3.0128267
sample estimates:
mean in group linea_a mean in group linea_b
16.24067 14.38733
Los valores de p (0.00307) aon menores que el nivel de significancia (0.05), existe evidencia estadística para rechazar la hipótesis nula, es decir, que las medias de lineas a y b no son iguales Los intervalos de confianza no contienen el cero, existe evidencia para rechazar que las líneas rindan igual en grasa dorsal. Además, como el intervalo está al lado derecho del cero, podemos afirmar que la grasa dorsal de la linea_a es mayor que la de la líea_b Si lo que se busca es mayor proporción de grasa dorsal, recomendaría la linea_a
Punto 4
Con la misma base de datos ALIMENTRO del punto 2 y usando la misma información (ingrediente de interés, departamentos y variable respuesta), responda lo siguiente:
- ¿Cuál de los dos departamentos presenta mayor variabilidad para la variable de interés?
- ¿Es diferente estadísticamente la variabilidad de ambos departamentos?
- Si la prueba estadística se lo permite, construya un intervalo de confianza del 95% para complementar sus respuestas.
datos_sel %>% head()# A tibble: 6 × 3
ingrediente depart…¹ FDN
<chr> <chr> <dbl>
1 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioqu… 71.8
2 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioqu… 69.1
3 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioqu… 66.4
4 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioqu… 71.9
5 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioqu… 69.7
6 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioqu… 70.4
# … with abbreviated variable name ¹departamento
Gráficos
A través de graficos se observa la distribución de las variable FDN para el ingerdiente Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo en los departamentos de Antioquia y Tolima
Filtro datos para Antioquia
datos_sel_Antioquia <- datos_sel %>%
filter(departamento == "Antioquia")
datos_sel_Antioquia# A tibble: 2,196 × 3
ingrediente depar…¹ FDN
<chr> <chr> <dbl>
1 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq… 71.8
2 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq… 69.1
3 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq… 66.4
4 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq… 71.9
5 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq… 69.7
6 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq… 70.4
7 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq… 70.4
8 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq… 73.1
9 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq… 70.4
10 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Antioq… 68.1
# … with 2,186 more rows, and abbreviated variable name ¹departamento
datos_sel_Antioquia %>%
glimpse()Rows: 2,196
Columns: 3
$ ingrediente <chr> "Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja…
$ departamento <chr> "Antioquia", "Antioquia", "Antioquia", "Antioquia", "Anti…
$ FDN <dbl> 71.80, 69.09, 66.38, 71.87, 69.67, 70.40, 70.43, 73.11, 7…
- Filtro datos para Antioquia
datos_sel_Tolima <- datos_sel %>%
filter(departamento == "Tolima")
datos_sel_Tolima# A tibble: 1,869 × 3
ingrediente depar…¹ FDN
<chr> <chr> <dbl>
1 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Tolima 63.7
2 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Tolima 68
3 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Tolima 69.0
4 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Tolima 66.4
5 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Tolima 60.4
6 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Tolima 66.1
7 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Tolima 65.5
8 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Tolima 64.6
9 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Tolima 66.2
10 Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja, Tallo Tolima 64.2
# … with 1,859 more rows, and abbreviated variable name ¹departamento
datos_sel_Tolima %>%
glimpse()Rows: 1,869
Columns: 3
$ ingrediente <chr> "Megathyrsus maximus sp. - Megathyrsus maximus sp. - Hoja…
$ departamento <chr> "Tolima", "Tolima", "Tolima", "Tolima", "Tolima", "Tolima…
$ FDN <dbl> 63.74, 68.00, 69.05, 66.38, 60.41, 66.06, 65.51, 64.55, 6…
De dispersión:
Para Antioquia:
qqPlot(x = datos_sel_Antioquia$FDN)[1] 99 2018
- Para Tolima:
qqPlot(x = datos_sel_Tolima$FDN)[1] 660 644
- De Violin:
datos_sel %>%
ggplot(aes(x = departamento, y = FDN, fill = departamento)) +
geom_violin(alpha = 0.5) +
geom_point()+
geom_hline(yintercept = promedio_FDN_sel, color="red")+
theme(legend.position = "none")+
geom_boxplot(width = 0.2)+
stat_summary(fun = "mean",
geom = "point",
color = "red") +
stat_summary(fun = "median",
geom = "point",color = "green")+
ggtitle("FDN por departamento") La variable FDN para los dos departamentos, parece, se distribuye de manera normal, con una densidad más amplia para Antioquia, estándo en el Tolima más condensada
- con pruebas estadísticas:
Juego de hipótesis:
\[H_0: X \thicksim N (\mu, \sigma) \] \[H_0: X \nsim N (\mu, \sigma) \] - Nivel de significancia: 0.05(\(\alpha = 0.05\))
shapiro.test(x = datos_sel_Antioquia$FDN)
Shapiro-Wilk normality test
data: datos_sel_Antioquia$FDN
W = 0.99664, p-value = 8.994e-05
Como el valor p ( 8.994e-05) es menor que el nivel de significancia (0.05), existe evidencia para rechazar la hipótesis nula, es decir, la variable FDN no se distribuye de manera normal para el departamento de Antioquia.
Juego hipótesis Media Intervalos:
\[La \hspace{0,1cm} localización \hspace{0,1cm} del\hspace{0,1cm} promedio = 63.88502\]
\[La \hspace{0,1cm} localización \hspace{0,1cm} del\hspace{0,1cm} promedio \neq 63.88502\] * No paramétrica para Antioquia
wilcox.test(x = datos_sel_Antioquia$FDN,
alternative = "two.sided",
conf.level = 0.95,
mu = promedio_FDN_sel,
conf.int = TRUE)
Wilcoxon signed rank test with continuity correction
data: datos_sel_Antioquia$FDN
V = 1644268, p-value < 2.2e-16
alternative hypothesis: true location is not equal to 63.88502
95 percent confidence interval:
64.63503 64.86001
sample estimates:
(pseudo)median
64.74999
Como el valor p (2.2e-16) es menor que el nivel de significancia (0.05), existe evidencia para rechazar la hipótesis nula, es decir, que el promedio del FDN no está localizado en 63.88502 para el departamento de Antioquia. Como el intervalo de confianza no contiene el valor de referencia (63.88502 ), existe evidencia para rechazar la hipótesis nula.
shapiro.test(x = datos_sel_Tolima$FDN)
Shapiro-Wilk normality test
data: datos_sel_Tolima$FDN
W = 0.99855, p-value = 0.112
Como el valor p ( 0.112) es menor que el nivel de significancia (0.05), existe evidencia para no rechazar la hipótesis nula, es decir, la variable FDN se distribuye de manera normal para el departamento del Tolima.
t.test(x = datos_sel_Tolima$FDN,
alternative = "two.sided",
conf.level = 0.95,
mu = 63.88502 )
One Sample t-test
data: datos_sel_Tolima$FDN
t = -18.272, df = 1868, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 63.88502
95 percent confidence interval:
62.70570 62.93433
sample estimates:
mean of x
62.82002
Como el valor p (2.2e-16) es menor que el nivel de significancia (0.05), existe evidencia para rechazar la hipótesis nula, es decir, que el promedio del FDN no está localizado en 63.88502 para el departamento dEL Tolima. Como el intervalo de confianza no contiene el valor de referencia (63.88502 ), existe evidencia para rechazar la hipótesis nula.
Conclusión: - La realción estadística de la media de FDN, para el ingrediente “Megathyrsus maximus sp. - Megathyrsus maximus sp., con los dos departamentos es muy similar, ninguno la contiene entre sus intervalos de confianza. Los datos para Antioquia no se distribuyen de forma normal
Punto 5
Se realizaron 30 experimentos independientes en donde se evaluó la afección de una plaga en hojas de cítricos, en cada uno de ellos se calculó el promedio del área afectada (en porcentaje) de las hojas bajo análisis.
- Utilizando técnicas de Bootstrapping construya un intervalo de confianza (com ambos métodos: error estándar y percentil) del 95% para el promedio del área afectada.
Datos
area_hc <- data.frame(area = c(29.2, 17.0, 28.9, 17.3, 13.8, 5.8, 27.5, 18.2, 27.6, 30.9,
32.8, 22.6, 15.3, 23.3, 12.4, 30.0, 19.5, 17.0, 18.7, 20.4,
18.6, 44.1, 17.9, 17.9, 30.0, 25.1, 24.3, 22.1, 21.8, 21.9))
area_hc %>%
head() area
1 29.2
2 17.0
3 28.9
4 17.3
5 13.8
6 5.8
Muestras:
- muestra del 0,4:
set.seed(2023)
muestra_a <- area_hc %>%
rep_sample_n(size = 12, reps = 1)
muestra_a# A tibble: 12 × 2
# Groups: replicate [1]
replicate area
<int> <dbl>
1 1 18.6
2 1 30
3 1 12.4
4 1 27.6
5 1 18.2
6 1 18.7
7 1 22.6
8 1 17
9 1 19.5
10 1 29.2
11 1 44.1
12 1 20.4
- remuestreo:
set.seed(2023)
rmuestra_a <- muestra_a %>%
specify(response = area) %>%
generate(reps = 1000, type = "bootstrap") %>%
calculate(stat = "mean")
rmuestra_aResponse: area (numeric)
# A tibble: 1,000 × 2
replicate stat
<int> <dbl>
1 1 19.9
2 2 20.9
3 3 21.2
4 4 22.6
5 5 23.5
6 6 26.7
7 7 24.4
8 8 23.1
9 9 23.7
10 10 20.0
# … with 990 more rows
- promedio
mean_rmuestra_a <- rmuestra_a$stat %>%
mean()
mean_rmuestra_a[1] 23.21895
Gráfica:
rmuestra_a %>%
visualize()Intervalos
- percentiles:
ic_percen <- rmuestra_a %>%
get_confidence_interval(level = 0.95, type = "percentile")
ic_percen# A tibble: 1 × 2
lower_ci upper_ci
<dbl> <dbl>
1 19.1 28.4
rmuestra_a %>%
visualize() +
shade_confidence_interval(endpoints = ic_percen)- Error estándar:
ic_err_es <- rmuestra_a %>%
get_confidence_interval(level = 0.95,
type = "se",
point_estimate = mean_rmuestra_a)
ic_err_es# A tibble: 1 × 2
lower_ci upper_ci
<dbl> <dbl>
1 18.5 28.0
Gráfica:
rmuestra_a %>%
visualize() +
shade_confidence_interval(endpoints = ic_percen,
color = "forestgreen",
fill = "white") +
shade_confidence_interval(endpoints = ic_err_es,
color = "dodgerblue",
fill = "white") +
geom_vline(xintercept = mean_rmuestra_a, color = "red", lty = 2, size = 1.5) Se realizó remuestreo con la técnica bootstraping obteniendo parámetros estadísticos (con respaldo de normalidad) como la media (23.21895) de la proporción del área consumida por los insectos, así como los intervalos de confianza 19.06583 - 28.37812 para método de percentil y 18.47772 - 27.96018 para error estándar