Complete el código en cada espacio (chunk) según se le solicita en el texto:
Incluya en el chunk de setup todos los paquetes que va a requerir.
Escriba el código para (a) definir el directorio de trabajo en la carpeta en que está el archivo .Rmd (automáticamente), (b) importar el archivo datos_fertilizante.csv. [Recuerde que tanto el archivo .Rmd como el archivo .csv deben estar en la misma carpeta.] Incluya en su código instrucciones para borrar cualquier otro objeto que no sea el data frame.
setwd(dirname(rstudioapi::getActiveDocumentContext()$path))
datos <- read.csv2("datos_fertilizante.csv")
datos$fertilizer <- as.factor(datos$fertilizer)
datos$yield <- as.numeric(as.character(datos$yield))
rm(list = setdiff(ls(), "datos"))
str(datos)
## 'data.frame': 96 obs. of 2 variables:
## $ fertilizer: Factor w/ 3 levels "1","2","3": 1 1 1 1 1 1 1 1 1 1 ...
## $ yield : num 177 177 176 177 176 ...
head(datos)
## fertilizer yield
## 1 1 177.23
## 2 1 177.13
## 3 1 176.27
## 4 1 177.48
## 5 1 176.11
## 6 1 176.24
rm(list = setdiff(ls(), "datos"))
head(datos)
## fertilizer yield
## 1 1 177.23
## 2 1 177.13
## 3 1 176.27
## 4 1 177.48
## 5 1 176.11
## 6 1 176.24
El data frame* que ha creado consta de dos variables, fertilizer y yield. Cada registro (fila) corresponde a una planta. fertilizer es una variable categórica, codificada como un número, que identifica el fertilizante aplicado a cada planta y yield es la cosecha de esa planta.
En el siguiente chunk: (a) verifique que la cantidad de registros para cada uno de los tres grupos de fertilizantes es la misma y (b) construya un diagrama de cajas en que compare la distribución de yield para cada grupo de fertilizer.
ggplot(datos, aes(x = fertilizer, y = yield)) +
geom_boxplot(fill = "lightblue") +
labs(
title = "Yield por fertilizante",
x = "Fertilizante",
y = "Yield"
)
Para esta sección:
Pregunta 1: A partir del diagrama de cajas que realizó, ¿espera Ud. que las medias de las muestras A y B sean iguales o diferentes ?
Diferentes, estan ubicadas en lugares diferentes.
Pregunta 2: En el siguiente chunk, incluya código para desarrollar la prueba de hipótesis de que las medias de ambas muestras (A y B) son diferentes entre sí, suponiendo varianzas desconocidas. Escriba un párrafo después del chunk en que interprete el resultado (diga si en efecto la diferencia es significativa o no y justifique su respuesta).
A <- subset(datos, fertilizer == 1)$yield
B <- subset(datos, fertilizer == 2)$yield
t.test(A, B, var.equal = FALSE)
##
## Welch Two Sample t-test
##
## data: A and B
## t = -1.1132, df = 60.158, p-value = 0.27
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.4920571 0.1401821
## sample estimates:
## mean of x mean of y
## 176.7572 176.9331
De la prueba se obtiene p-value = 0.27 es superior a 0,05 por lo tanto no se rechaza la hipótesis nula y se concluye que no existe una diferencia significativa. Para la diferencia de medias incluye el valor 0 (-0.4920571 a 0.1401821), lo cual confirma que la diferencia observada.
Pregunta 3: En el siguiente chunk, incluya código para desarrollar la prueba de hipótesis de que las medias de ambas muestras (A y B) son diferentes entre sí, suponiendo varianzas desconocidas y que las muestras son pareadas. Escriba un párrafo después del chunk en que describa las diferencias con el resultado de la pregunta 2.
t.test(A, B, paired = TRUE)
##
## Paired t-test
##
## data: A and B
## t = -1.1515, df = 31, p-value = 0.2583
## alternative hypothesis: true mean difference is not equal to 0
## 95 percent confidence interval:
## -0.4875463 0.1356713
## sample estimates:
## mean difference
## -0.1759375
De la prueba se obtiene p-value = 0.2583 es superior a 0,05 por lo tanto no se rechaza la hipótesis nula y se concluye que no existe una diferencia significativa. Para la diferencia de medias incluye el valor 0 (-0.4875463 0.1356713)
Pregunta 4: En el siguiente chunk, incluya código para desarrollar la prueba de hipótesis de que las varianzas de ambas muestras (A y B) son diferentes entre sí. Escriba un párrafo después del chunk en que interprete el resultado (diga si en efecto la diferencia es significativa o no y justifique su respuesta).
var.test(A, B)
##
## F test to compare two variances
##
## data: A and B
## F = 1.4242, num df = 31, denom df = 31, p-value = 0.33
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.6952305 2.9176655
## sample estimates:
## ratio of variances
## 1.424237
De la prueba se obtiene p-value = 0.33 es superior a 0,05 por lo tanto no se rechaza la hipótesis nula y se concluye que no existe una diferencia significativa. Para la diferencia de medias incluye el valor 0 ( 0.6952305 2.9176655)