Comparar la emisión de metano por día (methane_g_day) para las dos razas y los dos tipos de dietas.
En cada comparación, comprobar el supuesto de normalidad a través de gráficos y prueba analítica.
En cada comparación, comprobar el supuesto de homocedasticidad a través de gráficos y prueba analítica.
Ejecute la prueba estadística que considere pertinente basado en el resultado de los numerales anteriores. Interprete los resultados obtenidos.

library(readxl); library(tidyverse); library(janitor)

## -- Attaching packages --------------------------------------------------- tidyverse 1.3.0 --

## v ggplot2 3.3.2     v purrr   0.3.4
## v tibble  3.0.3     v dplyr   1.0.2
## v tidyr   1.1.2     v stringr 1.4.0
## v readr   1.4.0     v forcats 0.5.0

## -- Conflicts ------------------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()

## Warning: package 'janitor' was built under R version 4.0.3

## 
## Attaching package: 'janitor'

## The following objects are masked from 'package:stats':
## 
##     chisq.test, fisher.test

datos <- read_excel("S1 Dataset.xlsx", skip = 1) %>% 
  clean_names()
head(datos, n = 3L)

library(tidyverse)
library(emmeans)

## Warning: package 'emmeans' was built under R version 4.0.3

datos2 <- datos %>% 
  mutate(breed = as.factor(breed),
         diet = as.factor(diet),
         sire = as.factor(sire))
datos2

Comparar la emisión de metano por día (methane_g_day) para las dos razas y los dos tipos de dietas.
comparar la emision de metano por dia para las dos razas y las dos dietas.

Prueba t-student

verificando la normalidad

metano_dietacon <- datos2 %>% filter(diet == "CON")
metano_dietafor <- datos2 %>% filter(diet == "FOR")

library(ggpubr)

## Warning: package 'ggpubr' was built under R version 4.0.3

ggqqplot(metano_dietacon$methane_g_day) + labs(title = "Dieta concentrado ")

ggqqplot(metano_dietafor$methane_g_day) + labs(title = "Dieta forraje ")

- prueba de chapiro wilk con la dieta con concentrado

shapiro.test(metano_dietacon$methane_g_day)

## 
##  Shapiro-Wilk normality test
## 
## data:  metano_dietacon$methane_g_day
## W = 0.96273, p-value = 0.2916

no existe evidencia para rechazar la hipotesis nula de que exista normalidad por lo tanto el metano gramos dia se distrubye de forma normal para la dieta concentrado.
prueba de chapiro wilk con dieta con forraje.

shapiro.test(metano_dietafor$methane_g_day)

## 
##  Shapiro-Wilk normality test
## 
## data:  metano_dietafor$methane_g_day
## W = 0.89366, p-value = 0.003132

no se distribuye de forma normal el metano gramos dia para la variable de la dieta con forraje.

car::leveneTest(datos2$methane_g_day~datos2$diet)

no se rechaza la ipotesis de la homocedasticidad ya que el valor p es mayor por lo tanto en teoria si se cumple la homocedasticidad

se evidencio que no se cumplio la normalidad en un parametro entonces se ejecuta una prueba no parametrica.

test de wilcoxon

wilcox.test(datos2$methane_g_day ~ datos2$diet)

## Warning in wilcox.test.default(x = c(151, 174, 189, 110, 170, 100, 206, : cannot
## compute exact p-value with ties

## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  datos2$methane_g_day by datos2$diet
## W = 142.5, p-value = 9.503e-08
## alternative hypothesis: true location shift is not equal to 0

el valor p es menor que el nivel de significancia por lo tanto existe evidencia para manifestar que la emicion de metano gramos dia es difente en las dietas de concentrado y dietas con forroje. lo que quiere dicir que en los dos grupos de las dos dietas son estadisticamente diferente.

comparacion raza emicion metano gramos dia

metano_razaAA <- datos2 %>% filter(breed == "AA")
metano_razaLIM <- datos2 %>% filter(breed == "LIM")

library(ggpubr)
ggqqplot(metano_razaAA$methane_g_day) + labs(title = "raza AA ")

ggqqplot(metano_razaLIM$methane_g_day) + labs(title = "raza LIM ")

prueba de chapiro wilk con la raza AA

shapiro.test(metano_razaAA$methane_g_day)

## 
##  Shapiro-Wilk normality test
## 
## data:  metano_razaAA$methane_g_day
## W = 0.97769, p-value = 0.6828

el valor p es mayor que el valor de significancia por lo tanto se distribuye de forma normal.
prueba de chapiro wilk con la raza LIM

shapiro.test(metano_razaLIM$methane_g_day)

## 
##  Shapiro-Wilk normality test
## 
## data:  metano_razaLIM$methane_g_day
## W = 0.95678, p-value = 0.2093

este parametro cumple con la distribucion normal ya que el valor p es mayor que la significancia

homcedasticidad

bartlett.test(datos2$methane_g_day ~ datos2$breed)

## 
##  Bartlett test of homogeneity of variances
## 
## data:  datos2$methane_g_day by datos2$breed
## Bartlett's K-squared = 0.44302, df = 1, p-value = 0.5057

el valor p es mayor que el nivel de significancia por lo tanto existe evidencia para manifestar que la emicion de metano gramos dia se distribuye de forma normal en las dos razas lo que quiere dicir que en los dos grupos de las dos razas son estadisticamente iguales.

parte 2

Ejercicio 1

Un Ingeniero Agrónomo está interesado en conocer si los valores de pH en el suelo son diferentes estadísticamente para dos zonas específicas. Le ha entregado los siguientes datos codificados en R y es su deber ejecutar una prueba estadística adecuada para dar respuesta a la inquietud del profesional. Nota: recuerde validar los supuestos matemáticos antes de decidir ejecutar una u otra prueba.

library(readxl); library(tidyverse); library(janitor)
datos_suelo <- read_excel("Suelos.xlsx") %>% 
  clean_names()
datos_suelo

datos_suelo <- data.frame(Zona = c(rep("Zona1", 13), rep("Zona2", 13)),
                    pH = c(4.44, 3.80, 4.60, 4.62, 3.80, 4.45, 4.65, 4.1, 4.59, 5.47, 5.00, 5.25, 4.96, 4.94, 5.00, 5.03, 5.27, 5.19, 4.90, 4.99, 4.80, 5.09, 4.76, 5.55, 4.8, 5.25))
datos_suelo

verificacion de normalidad

zona1_ph <- datos_suelo %>% filter(Zona == "Zona1")
zona2_ph <- datos_suelo %>% filter(Zona == "Zona2")

library(ggpubr)
ggqqplot(zona1_ph$pH) + labs(title = "zona 1 ph ")

ggqqplot(zona2_ph$pH) + labs(title = "zona 2 ph ")

prueba de chapiro wilk con la zona1

shapiro.test(zona1_ph$pH)

## 
##  Shapiro-Wilk normality test
## 
## data:  zona1_ph$pH
## W = 0.95479, p-value = 0.6723

el valor p es mayor que el valor de significancia por lo tanto no rechazamos la ipotesis nula por falta de evidencia entnoces tiene distribucion normal la variable zona 1 respecto a la varible ph.
prueba de chapiro wilk con la zona2

shapiro.test(zona2_ph$pH)

## 
##  Shapiro-Wilk normality test
## 
## data:  zona2_ph$pH
## W = 0.93863, p-value = 0.4394

el valor p es mayor que el valor de significancia por lo tanto no rechazamos la ipotesis nula por falta de evidencia entnoces tiene distribucion normal la variable zona 1 respecto a la varible ph.

homocedasticidad

por medio de una prueba parametrica ya que cumple los parametros para evaluar la.

bartlett.test(datos_suelo$pH ~ datos_suelo$Zona)

## 
##  Bartlett test of homogeneity of variances
## 
## data:  datos_suelo$pH by datos_suelo$Zona
## Bartlett's K-squared = 6.7793, df = 1, p-value = 0.009222

el valor p es menor que el valor de significacia por lo tanto las dos zonas no tienen una misma distribucion estadistica. no HAY homocedasticidad

prueba t - studen

las varianzas no son iguales se cumple normalidad y la homocesticidad no por tal manera se va a utilizar una prueba t-studen con varianzas diferentes.

t.test(datos_suelo$pH ~ datos_suelo$Zona,
       alternative = "two.sided",
       var.equal = FALSE,
       conf.level = 0.95)

## 
##  Welch Two Sample t-test
## 
## data:  datos_suelo$pH by datos_suelo$Zona
## t = -2.9332, df = 16.611, p-value = 0.009455
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.7729293 -0.1255323
## sample estimates:
## mean in group Zona1 mean in group Zona2 
##            4.594615            5.043846

la media del ph en la zona 1 y en la zona 2 son diferentes estadisticamente, podemos ver tambien el intervalo de confianza es de -o.77 y -o.12 lo que quiere dicir que la media de la zona 1 esta por debajo de la zona 2 entre 0.77 y 0.12 en ph.

correlacion

datos_suelocor <- read_excel("Suelos.xlsx")
datos_suelocor

calidacion de las variables

validacion si son normales las variables sobre cada uno de los elementos para saber que elemento estadistico utilizar mas adelante si el metodo de spearman o el de pearson.

shapiro.test(datos_suelocor$pH )

## 
##  Shapiro-Wilk normality test
## 
## data:  datos_suelocor$pH
## W = 0.94558, p-value = 0.1672

el ph presenta un valor p mayor lo que indica que cumple la normalidad.

shapiro.test(datos_suelocor$P )

## 
##  Shapiro-Wilk normality test
## 
## data:  datos_suelocor$P
## W = 0.51565, p-value = 2.437e-08

el p presenta un valor p menor lo que indica que no cumple con la normalidad.

shapiro.test(datos_suelocor$K )

## 
##  Shapiro-Wilk normality test
## 
## data:  datos_suelocor$K
## W = 0.91741, p-value = 0.0342

el k presenta un valor menor lo que indica que no cumple con la normalidad.

shapiro.test(datos_suelocor$`Ca2+` )

## 
##  Shapiro-Wilk normality test
## 
## data:  datos_suelocor$`Ca2+`
## W = 0.89479, p-value = 0.01019

el calcio presenta un valor menor lo que indica que no cumple con la normalidad.

shapiro.test(datos_suelocor$`Mg2+` )

## 
##  Shapiro-Wilk normality test
## 
## data:  datos_suelocor$`Mg2+`
## W = 0.92745, p-value = 0.05985

el magnecio presenta un valor menor lo que indica que no cumple con la normalidad.

shapiro.test(datos_suelocor$OM )

## 
##  Shapiro-Wilk normality test
## 
## data:  datos_suelocor$OM
## W = 0.90364, p-value = 0.01622

la materia organica presenta un valor menor lo que indica que no cumple con la normalidad.
conclucion todas las variables no cumplen con la normalidad por eso se debe de emplear un metodo no parametrico como es el de spearman para las variables que no presentan normalidad y para el ph que presento normalidad se emplea el metodo spearman.

cor test

cor.test(datos_suelocor$pH,datos_suelocor$`Mg2+`, 
         method = "spearman",
         alternative = "two.sided",
         conf.level = 0.95)

## Warning in cor.test.default(datos_suelocor$pH, datos_suelocor$`Mg2+`, method =
## "spearman", : Cannot compute exact p-value with ties

## 
##  Spearman's rank correlation rho
## 
## data:  datos_suelocor$pH and datos_suelocor$`Mg2+`
## S = 1031.4, p-value = 8.036e-05
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.6851769

esta correlacion nos un valor positivo lo que indica que es una relacion significativa pero tiene un valor p menor entonces no hay una correlacion entre estos dos valores.

cor.test(datos_suelocor$pH,datos_suelocor$OM, 
         method = "pearson",
         alternative = "two.sided",
         conf.level = 0.95)

## 
##  Pearson's product-moment correlation
## 
## data:  datos_suelocor$pH and datos_suelocor$OM
## t = -1.1207, df = 25, p-value = 0.2731
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.5527829  0.1759227
## sample estimates:
##        cor 
## -0.2187129

no es significativa la relacion y presenta una correlacion negativa entre el ph y la MO.

cor.test(datos_suelocor$pH,datos_suelocor$P, 
         method = "spearman",
         alternative = "two.sided",
         conf.level = 0.95)

## Warning in cor.test.default(datos_suelocor$pH, datos_suelocor$P, method =
## "spearman", : Cannot compute exact p-value with ties

## 
##  Spearman's rank correlation rho
## 
## data:  datos_suelocor$pH and datos_suelocor$P
## S = 2280.9, p-value = 0.1235
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.3037433

preseta una correlacion positiva lo que indica que es una relacion significativa y un valor p mayor indica.

cor.test(datos_suelocor$pH,datos_suelocor$K, 
         method = "spearman",
         alternative = "two.sided",
         conf.level = 0.95)

## Warning in cor.test.default(datos_suelocor$pH, datos_suelocor$K, method =
## "spearman", : Cannot compute exact p-value with ties

## 
##  Spearman's rank correlation rho
## 
## data:  datos_suelocor$pH and datos_suelocor$K
## S = 1257.8, p-value = 0.0006235
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.6160428

-presenta una correlacion positiva y un valor p menor lo cual significa que no es una varible significativa.

cor.test(datos_suelocor$pH,datos_suelocor$`Ca2+`, 
         method = "spearman",
         alternative = "two.sided",
         conf.level = 0.95)

## Warning in cor.test.default(datos_suelocor$pH, datos_suelocor$`Ca2+`, method =
## "spearman", : Cannot compute exact p-value with ties

## 
##  Spearman's rank correlation rho
## 
## data:  datos_suelocor$pH and datos_suelocor$`Ca2+`
## S = 784.58, p-value = 4.15e-06
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.7605074

-es una relacion significativa ya que el valor p es mucho menor y preseta una correlacion positiva.

library(corrplot)

## Warning: package 'corrplot' was built under R version 4.0.3

## corrplot 0.84 loaded

datos_suelocor %>% 
  cor(method = "spearman") %>% 
  corrplot(diag = FALSE, type = "lower", tl.col = "black", tl.srt = 1,
           method = "pie", order = "hclust")

- entre que variables hay asociacion: las variables que presentan mayor asociacion son el magnecio y el calcio, el calcio y el ph, el ph y el magnecio, el potacio y el ph, estas tiene una relacion positiva o se que a mayor cantidad de un elemento hay una proporcion equitativa con el otro elemento. la Mo es la unica que tiene una relacion inversamente proporcional con los elemento la unica con la que es mas baja es con el ph.

cuales son significativas: las variables significativas son el ph y la materia organica esto quiere decir que si se volviera a tomar una muestra de suelo tendria otra vez relacion.

ultima actividad

juan camilo gil - manuela henao - angelica restrepo

31/1/2021