Introducción

En este análisis, se realizará una prueba de hipótesis para determinar si existe una diferencia significativa en la masa corporal entre dos especies de pingüinos: Adelie y Gentoo. El dataset de palmerpenguins proporciona información sobre características físicas de varias especies de pingüinos, lo cual nos permite explorar estas diferencias de manera cuantitativa.

El objetivo de este análisis es utilizar una prueba estadística para comparar las medias de la masa corporal de las dos especies seleccionadas.

Planteamiento de las Hipótesis

El análisis se enfocará en las siguientes hipótesis:

  • Hipótesis nula (\(H_0\)): No existe una diferencia significativa en la masa corporal promedio entre las especies Adelie y Gentoo. Es decir, las medias de la masa corporal son iguales para ambas especies.

    \[ H_0: \mu_{Adelie} = \mu_{Gentoo} \]

  • Hipótesis alternativa (\(H_A\)): Existe una diferencia significativa en la masa corporal promedio entre las especies Adelie y Gentoo. Es decir, las medias de la masa corporal no son iguales para ambas especies.

    \[ H_A: \mu_{Adelie} \neq \mu_{Gentoo} \]

A través de este análisis, se realizará una prueba t para comparar las medias de masa corporal de ambas especies y determinar si la diferencia observada es estadísticamente significativa.

¿Por qué utilizamos el estadístico t?

En este análisis, utilizamos una prueba t de dos muestras para comparar las medias de la masa corporal entre las especies de pingüinos Adelie y Gentoo. La prueba t es una prueba estadística comúnmente utilizada cuando se quiere comparar las medias de dos grupos independientes y verificar si las diferencias observadas entre ellas son significativas o podrían haber ocurrido por azar.

Razones para utilizar el estadístico t:

  1. Comparación de medias: La prueba t es adecuada cuando queremos comparar la media de una variable (en este caso, la masa corporal) entre dos grupos (especies de pingüinos). La prueba nos permite inferir si las diferencias observadas entre las medias de los grupos son significativas.

  2. Supuestos de normalidad: La prueba t se basa en el supuesto de que los datos siguen una distribución aproximadamente normal, o al menos que las muestras son lo suficientemente grandes para que la distribución de las medias siga una distribución normal (teorema del límite central). Esto lo verificamos mediante gráficos de normalidad como los gráficos Q-Q y con pruebas de normalidad como la prueba de Shapiro-Wilk.

  3. Varianzas iguales: Existen dos versiones de la prueba t: una que asume varianzas iguales entre los grupos y otra que no lo hace. En este análisis, usamos la versión que asume varianzas iguales (prueba t de Student) porque no tenemos razones iniciales para creer que las varianzas son muy diferentes entre las dos especies. No obstante, podríamos realizar una prueba de igualdad de varianzas (como la prueba de Levene) para corroborar este supuesto.

  4. Muestras independientes: Las dos especies de pingüinos representan grupos independientes, lo que significa que los datos de una especie no influyen en los de la otra. La prueba t es ideal para este tipo de comparación entre dos grupos independientes.

Interpretación del estadístico t:

El estadístico t se calcula comparando la diferencia entre las medias de los dos grupos en relación con la variabilidad dentro de cada grupo. Un valor de t más grande indica que la diferencia entre las medias es mayor en comparación con la variabilidad dentro de los grupos, lo que sugiere que es menos probable que la diferencia observada sea debida al azar.

  • Valor p: El valor p asociado con el estadístico t nos dice cuán probable es observar una diferencia tan grande (o mayor) entre las medias simplemente por azar. Si el valor p es menor que un nivel de significancia predefinido (por ejemplo, 0.05), podemos rechazar la hipótesis nula y concluir que la diferencia entre las medias es significativa.

Paso 1: Cargar los Paquetes y Datos

  • Primero, cargamos los paquetes y el dataset de pingüinos. Luego
library(dplyr)
library(tidyr)
library(palmerpenguins)
library(writexl)
library(janitor)
library(knitr)
library(rmarkdown)
library(ggplot2)
  • Limpiamos los datos eliminando valores faltantes en la columna body_mass_g.
# Cargar el dataset de pingüinos
data("penguins")

# Limpiar el dataset, eliminando NA
penguins_clean <- penguins %>%
  filter(species %in% c("Adelie", "Gentoo")) %>%
  drop_na(body_mass_g)

# Mostrar las primeras filas de los datos limpios
head(penguins_clean)
## # A tibble: 6 × 8
##   species island    bill_length_mm bill_depth_mm flipper_length_mm body_mass_g
##   <fct>   <fct>              <dbl>         <dbl>             <int>       <int>
## 1 Adelie  Torgersen           39.1          18.7               181        3750
## 2 Adelie  Torgersen           39.5          17.4               186        3800
## 3 Adelie  Torgersen           40.3          18                 195        3250
## 4 Adelie  Torgersen           36.7          19.3               193        3450
## 5 Adelie  Torgersen           39.3          20.6               190        3650
## 6 Adelie  Torgersen           38.9          17.8               181        3625
## # ℹ 2 more variables: sex <fct>, year <int>

Paso 2: Visualización Preliminar

  • Antes de realizar la prueba de hipótesis, visualizamos la distribución de la masa corporal por especie.
# Visualizar la distribución de la masa corporal por especie
ggplot(penguins_clean, aes(x = species, y = body_mass_g, fill = species)) +
  geom_boxplot() +
  labs(title = "Distribución de Masa Corporal por Especie", 
       x = "Especie", y = "Masa Corporal (g)") +
  theme_minimal()

Paso 3: Prueba t de Dos Muestras

  • Realizamos una prueba t de dos muestras para comparar las medias de la masa corporal entre Adelie y Gentoo.
# Filtrar datos por especie
adelie <- penguins_clean %>% 
  filter(species == "Adelie") %>% 
  pull(body_mass_g)

gentoo <- penguins_clean %>%
  filter(species == "Gentoo") %>% 
  pull(body_mass_g)

# Realizar la prueba t
t_test_result <- t.test(adelie, gentoo, var.equal = TRUE)

# Mostrar los resultados de la prueba t
t_test_result
## 
##  Two Sample t-test
## 
## data:  adelie and gentoo
## t = -23.614, df = 272, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -1490.021 -1260.687
## sample estimates:
## mean of x mean of y 
##  3700.662  5076.016

Paso 4: Interpretación de los Resultados

  • Interpretamos los resultados en función del valor p obtenido en la prueba t.
# Verificar el valor p y las conclusiones
if (t_test_result$p.value < 0.05) {
  print("Rechazamos la hipótesis nula: Hay una diferencia significativa en la masa corporal entre las dos especies.")
} else {
  print("No se rechaza la hipótesis nula: No hay evidencia suficiente para afirmar que la masa corporal difiere entre las dos especies.")
}
## [1] "Rechazamos la hipótesis nula: Hay una diferencia significativa en la masa corporal entre las dos especies."

Paso 5: Gráfico Q-Q para Verificar la Normalidad

# Gráfico Q-Q para la especie Adelie usando ggplot2
ggplot(penguins_clean %>% filter(species == "Adelie"), aes(sample = body_mass_g)) +
  stat_qq() +
  stat_qq_line() +
  labs(title = "Gráfico Q-Q para la Especie Adelie", x = "Cuantiles Teóricos", y = "Cuantiles Muestrales") +
  theme_minimal()

# Gráfico Q-Q para la especie Gentoo usando ggplot2
ggplot(penguins_clean %>% filter(species == "Gentoo"), aes(sample = body_mass_g)) +
  stat_qq() +
  stat_qq_line() +
  labs(title = "Gráfico Q-Q para la Especie Gentoo", x = "Cuantiles Teóricos", y = "Cuantiles Muestrales") +
  theme_minimal()

Paso 6: Prueba de Normalidad

  • Para asegurarnos de que las distribuciones sean normales, realizamos una prueba de Shapiro-Wilk para ambas especies.

Interpretación de los Resultados de la Prueba Shapiro-Wilk

La prueba de Shapiro-Wilk es una prueba estadística utilizada para evaluar si una muestra proviene de una distribución normal. Esta prueba produce dos resultados clave:

  • W: El estadístico de la prueba Shapiro-Wilk. Es un valor entre 0 y 1, donde los valores cercanos a 1 indican que la muestra sigue más de cerca una distribución normal.
  • p-valor: Indica si rechazamos o no la hipótesis nula de que los datos provienen de una distribución normal.

Hipótesis:

  1. Hipótesis nula (\(H_0\)): Los datos provienen de una distribución normal.
  2. Hipótesis alternativa (\(H_A\)): Los datos no provienen de una distribución normal.
# Prueba de normalidad Shapiro-Wilk para ambas especies
shapiro_adelie <- shapiro.test(adelie)
shapiro_gentoo <- shapiro.test(gentoo)

shapiro_adelie
## 
##  Shapiro-Wilk normality test
## 
## data:  adelie
## W = 0.98071, p-value = 0.0324
shapiro_gentoo
## 
##  Shapiro-Wilk normality test
## 
## data:  gentoo
## W = 0.98593, p-value = 0.2336