En este análisis, se realizará una prueba de hipótesis para determinar si existe una diferencia significativa en la masa corporal entre dos especies de pingüinos: Adelie y Gentoo. El dataset de palmerpenguins proporciona información sobre características físicas de varias especies de pingüinos, lo cual nos permite explorar estas diferencias de manera cuantitativa.
El objetivo de este análisis es utilizar una prueba estadística para comparar las medias de la masa corporal de las dos especies seleccionadas.
El análisis se enfocará en las siguientes hipótesis:
Hipótesis nula (\(H_0\)): No existe una diferencia significativa en la masa corporal promedio entre las especies Adelie y Gentoo. Es decir, las medias de la masa corporal son iguales para ambas especies.
\[ H_0: \mu_{Adelie} = \mu_{Gentoo} \]
Hipótesis alternativa (\(H_A\)): Existe una diferencia significativa en la masa corporal promedio entre las especies Adelie y Gentoo. Es decir, las medias de la masa corporal no son iguales para ambas especies.
\[ H_A: \mu_{Adelie} \neq \mu_{Gentoo} \]
A través de este análisis, se realizará una prueba t para comparar las medias de masa corporal de ambas especies y determinar si la diferencia observada es estadísticamente significativa.
En este análisis, utilizamos una prueba t de dos muestras para comparar las medias de la masa corporal entre las especies de pingüinos Adelie y Gentoo. La prueba t es una prueba estadística comúnmente utilizada cuando se quiere comparar las medias de dos grupos independientes y verificar si las diferencias observadas entre ellas son significativas o podrían haber ocurrido por azar.
Comparación de medias: La prueba t es adecuada cuando queremos comparar la media de una variable (en este caso, la masa corporal) entre dos grupos (especies de pingüinos). La prueba nos permite inferir si las diferencias observadas entre las medias de los grupos son significativas.
Supuestos de normalidad: La prueba t se basa en el supuesto de que los datos siguen una distribución aproximadamente normal, o al menos que las muestras son lo suficientemente grandes para que la distribución de las medias siga una distribución normal (teorema del límite central). Esto lo verificamos mediante gráficos de normalidad como los gráficos Q-Q y con pruebas de normalidad como la prueba de Shapiro-Wilk.
Varianzas iguales: Existen dos versiones de la prueba t: una que asume varianzas iguales entre los grupos y otra que no lo hace. En este análisis, usamos la versión que asume varianzas iguales (prueba t de Student) porque no tenemos razones iniciales para creer que las varianzas son muy diferentes entre las dos especies. No obstante, podríamos realizar una prueba de igualdad de varianzas (como la prueba de Levene) para corroborar este supuesto.
Muestras independientes: Las dos especies de pingüinos representan grupos independientes, lo que significa que los datos de una especie no influyen en los de la otra. La prueba t es ideal para este tipo de comparación entre dos grupos independientes.
El estadístico t se calcula comparando la diferencia entre las medias de los dos grupos en relación con la variabilidad dentro de cada grupo. Un valor de t más grande indica que la diferencia entre las medias es mayor en comparación con la variabilidad dentro de los grupos, lo que sugiere que es menos probable que la diferencia observada sea debida al azar.
library(dplyr)
library(tidyr)
library(palmerpenguins)
library(writexl)
library(janitor)
library(knitr)
library(rmarkdown)
library(ggplot2)
body_mass_g
.# Cargar el dataset de pingüinos
data("penguins")
# Limpiar el dataset, eliminando NA
penguins_clean <- penguins %>%
filter(species %in% c("Adelie", "Gentoo")) %>%
drop_na(body_mass_g)
# Mostrar las primeras filas de los datos limpios
head(penguins_clean)
## # A tibble: 6 × 8
## species island bill_length_mm bill_depth_mm flipper_length_mm body_mass_g
## <fct> <fct> <dbl> <dbl> <int> <int>
## 1 Adelie Torgersen 39.1 18.7 181 3750
## 2 Adelie Torgersen 39.5 17.4 186 3800
## 3 Adelie Torgersen 40.3 18 195 3250
## 4 Adelie Torgersen 36.7 19.3 193 3450
## 5 Adelie Torgersen 39.3 20.6 190 3650
## 6 Adelie Torgersen 38.9 17.8 181 3625
## # ℹ 2 more variables: sex <fct>, year <int>
# Visualizar la distribución de la masa corporal por especie
ggplot(penguins_clean, aes(x = species, y = body_mass_g, fill = species)) +
geom_boxplot() +
labs(title = "Distribución de Masa Corporal por Especie",
x = "Especie", y = "Masa Corporal (g)") +
theme_minimal()
# Filtrar datos por especie
adelie <- penguins_clean %>%
filter(species == "Adelie") %>%
pull(body_mass_g)
gentoo <- penguins_clean %>%
filter(species == "Gentoo") %>%
pull(body_mass_g)
# Realizar la prueba t
t_test_result <- t.test(adelie, gentoo, var.equal = TRUE)
# Mostrar los resultados de la prueba t
t_test_result
##
## Two Sample t-test
##
## data: adelie and gentoo
## t = -23.614, df = 272, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -1490.021 -1260.687
## sample estimates:
## mean of x mean of y
## 3700.662 5076.016
# Verificar el valor p y las conclusiones
if (t_test_result$p.value < 0.05) {
print("Rechazamos la hipótesis nula: Hay una diferencia significativa en la masa corporal entre las dos especies.")
} else {
print("No se rechaza la hipótesis nula: No hay evidencia suficiente para afirmar que la masa corporal difiere entre las dos especies.")
}
## [1] "Rechazamos la hipótesis nula: Hay una diferencia significativa en la masa corporal entre las dos especies."
# Gráfico Q-Q para la especie Adelie usando ggplot2
ggplot(penguins_clean %>% filter(species == "Adelie"), aes(sample = body_mass_g)) +
stat_qq() +
stat_qq_line() +
labs(title = "Gráfico Q-Q para la Especie Adelie", x = "Cuantiles Teóricos", y = "Cuantiles Muestrales") +
theme_minimal()
# Gráfico Q-Q para la especie Gentoo usando ggplot2
ggplot(penguins_clean %>% filter(species == "Gentoo"), aes(sample = body_mass_g)) +
stat_qq() +
stat_qq_line() +
labs(title = "Gráfico Q-Q para la Especie Gentoo", x = "Cuantiles Teóricos", y = "Cuantiles Muestrales") +
theme_minimal()
La prueba de Shapiro-Wilk es una prueba estadística utilizada para evaluar si una muestra proviene de una distribución normal. Esta prueba produce dos resultados clave:
# Prueba de normalidad Shapiro-Wilk para ambas especies
shapiro_adelie <- shapiro.test(adelie)
shapiro_gentoo <- shapiro.test(gentoo)
shapiro_adelie
##
## Shapiro-Wilk normality test
##
## data: adelie
## W = 0.98071, p-value = 0.0324
shapiro_gentoo
##
## Shapiro-Wilk normality test
##
## data: gentoo
## W = 0.98593, p-value = 0.2336