Ejercicio de sesión 8

Complete el código en cada espacio (chunk) según se le solicita en el texto:

Incluya en el chunk de setup todos los paquetes que va a requerir.

1. Importar datos

Escriba el código para (a) definir el directorio de trabajo en la carpeta en que está el archivo .Rmd (automáticamente), (b) importar el archivo datos_fertilizante.csv. [Recuerde que tanto el archivo .Rmd como el archivo .csv deben estar en la misma carpeta.] Incluya en su código instrucciones para borrar cualquier otro objeto que no sea el data frame.

setwd(dirname(rstudioapi::getActiveDocumentContext()$path))

datos <- read.csv2("datos_fertilizante.csv")


datos$fertilizer <- as.factor(datos$fertilizer)
datos$yield <- as.numeric(as.character(datos$yield))

rm(list = setdiff(ls(), "datos"))


str(datos)

## 'data.frame':    96 obs. of  2 variables:
##  $ fertilizer: Factor w/ 3 levels "1","2","3": 1 1 1 1 1 1 1 1 1 1 ...
##  $ yield     : num  177 177 176 177 176 ...

head(datos)

##   fertilizer  yield
## 1          1 177.23
## 2          1 177.13
## 3          1 176.27
## 4          1 177.48
## 5          1 176.11
## 6          1 176.24

rm(list = setdiff(ls(), "datos"))

head(datos)

##   fertilizer  yield
## 1          1 177.23
## 2          1 177.13
## 3          1 176.27
## 4          1 177.48
## 5          1 176.11
## 6          1 176.24

2. Exploración inicial de datos

El data frame* que ha creado consta de dos variables, fertilizer y yield. Cada registro (fila) corresponde a una planta. fertilizer es una variable categórica, codificada como un número, que identifica el fertilizante aplicado a cada planta y yield es la cosecha de esa planta.

En el siguiente chunk: (a) verifique que la cantidad de registros para cada uno de los tres grupos de fertilizantes es la misma y (b) construya un diagrama de cajas en que compare la distribución de yield para cada grupo de fertilizer.

ggplot(datos, aes(x = fertilizer, y = yield)) +
  geom_boxplot(fill = "lightblue") +
  labs(
    title = "Yield por fertilizante",
    x = "Fertilizante",
    y = "Yield"
  )

3. Prueba de hipótesis de diferencia entre medias

Para esta sección:

Si la segunda letra de su primer apellido es O ó I, la muestra A está definida por fertilizante=1 y la muestra B por fertilizante=2.
Si la segunda letra de su primer apellido es E, U, P ó L, la muestra A está definida por fertilizante=1 y la muestra B por fertilizante=3.
Si la segunda letra de su primera apellido es otra (distinta de los puntos anteriores), la muestra A está definida por fertilizante=2 y la muestra B por fertilizante=3.

Pregunta 1: A partir del diagrama de cajas que realizó, ¿espera Ud. que las medias de las muestras A y B sean iguales o diferentes ?

Diferentes, estan ubicadas en lugares diferentes.

Pregunta 2: En el siguiente chunk, incluya código para desarrollar la prueba de hipótesis de que las medias de ambas muestras (A y B) son diferentes entre sí, suponiendo varianzas desconocidas. Escriba un párrafo después del chunk en que interprete el resultado (diga si en efecto la diferencia es significativa o no y justifique su respuesta).

A <- subset(datos, fertilizer == 1)$yield
B <- subset(datos, fertilizer == 2)$yield


t.test(A, B, var.equal = FALSE)

## 
##  Welch Two Sample t-test
## 
## data:  A and B
## t = -1.1132, df = 60.158, p-value = 0.27
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.4920571  0.1401821
## sample estimates:
## mean of x mean of y 
##  176.7572  176.9331

De la prueba se obtiene p-value = 0.27 es superior a 0,05 por lo tanto no se rechaza la hipótesis nula y se concluye que no existe una diferencia significativa. Para la diferencia de medias incluye el valor 0 (-0.4920571 a 0.1401821), lo cual confirma que la diferencia observada.

Pregunta 3: En el siguiente chunk, incluya código para desarrollar la prueba de hipótesis de que las medias de ambas muestras (A y B) son diferentes entre sí, suponiendo varianzas desconocidas y que las muestras son pareadas. Escriba un párrafo después del chunk en que describa las diferencias con el resultado de la pregunta 2.

t.test(A, B, paired = TRUE)

## 
##  Paired t-test
## 
## data:  A and B
## t = -1.1515, df = 31, p-value = 0.2583
## alternative hypothesis: true mean difference is not equal to 0
## 95 percent confidence interval:
##  -0.4875463  0.1356713
## sample estimates:
## mean difference 
##      -0.1759375

De la prueba se obtiene p-value = 0.2583 es superior a 0,05 por lo tanto no se rechaza la hipótesis nula y se concluye que no existe una diferencia significativa. Para la diferencia de medias incluye el valor 0 (-0.4875463 0.1356713)

Pregunta 4: En el siguiente chunk, incluya código para desarrollar la prueba de hipótesis de que las varianzas de ambas muestras (A y B) son diferentes entre sí. Escriba un párrafo después del chunk en que interprete el resultado (diga si en efecto la diferencia es significativa o no y justifique su respuesta).

var.test(A, B)

## 
##  F test to compare two variances
## 
## data:  A and B
## F = 1.4242, num df = 31, denom df = 31, p-value = 0.33
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.6952305 2.9176655
## sample estimates:
## ratio of variances 
##           1.424237

De la prueba se obtiene p-value = 0.33 es superior a 0,05 por lo tanto no se rechaza la hipótesis nula y se concluye que no existe una diferencia significativa. Para la diferencia de medias incluye el valor 0 ( 0.6952305 2.9176655)

Ejercicio de sesión 8

Lázaro Naranjo Monge

2023-10-10

1. Importar datos

2. Exploración inicial de datos

3. Prueba de hipótesis de diferencia entre medias