Nazwa uczelni: Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie

Kierunek: Geoinformacja II rok

Przedmiot: Przetwarzanie danych środowiskowych


1. Dane


Dane pobrano z biblioteki palmerpenguins i zawieraja informacje na temat trzech różnych gatunków pingwinów - Adelie, Chinstrap i Gentoo. Wybrany zestaw danych zawiera 8 zmiennych, w tej analizie skupiamy się na długości płetwy i gatunku.

datatable(penguins, caption = "Dane o pingwinkach", options = list(scrollX = TRUE))
dat <- penguins[, c("species", "flipper_length_mm")]

dat <- as.data.frame(dat)

Podstawowe informacje na temat danych:

summary(dat)
##       species    flipper_length_mm
##  Adelie   :152   Min.   :172.0    
##  Chinstrap: 68   1st Qu.:190.0    
##  Gentoo   :124   Median :197.0    
##                  Mean   :200.9    
##                  3rd Qu.:213.0    
##                  Max.   :231.0    
##                  NA's   :2
stats <- data.frame(round(mean(dat$flipper_length_mm, na.rm = T),1), round(median(dat$flipper_length_mm, na.rm = T),1), round(var(dat$flipper_length_mm, na.rm = T),1), round(sd(dat$flipper_length_mm, na.rm = T),1), round(kurtosis(dat$flipper_length_mm, na.rm = T),1),round(skewness(dat$flipper_length_mm, na.rm = T),1))
colnames(stats) <- c("Srednia","Mediana","Wariancja","Odchylenie","Kurtoza","Skosnosc")
stats
##   Srednia Mediana Wariancja Odchylenie Kurtoza Skosnosc
## 1   200.9     197     197.7       14.1       2      0.3

2. Testy statystyczne


Test normalnosci

Do testu Shapiro-Wilka przyjmujemy:
H0: dane pochodzą z rozkładu normalnego
H1: dane nie pochodzą z rozkładu normalnego

res_aov <- aov(flipper_length_mm ~ species,
  data = dat
)
shapiro.test(res_aov$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  res_aov$residuals
## W = 0.99452, p-value = 0.2609

P-value jest większe niż zwykły poziom istotności α=0.05, więc przyjeto hipotezę zerową, czyli wykres jest podobny do rozkładu normalnego.


Test homogeniczności wariancji

H0: jest zachowana homogeniczność wariancji
H1: nie jest zachowana homogeniczność wariancji

Test Levene’a

levene.test(dat$flipper_length_mm, dat$species)
## 
##  Modified robust Brown-Forsythe Levene-type test based on the absolute
##  deviations from the median
## 
## data:  dat$flipper_length_mm
## Test Statistic = 0.46379, p-value = 0.4964

Test Bartletta

bartlett.test(dat$flipper_length_mm, dat$specie)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  dat$flipper_length_mm and dat$specie
## Bartlett's K-squared = 0.91722, df = 2, p-value = 0.6322

W obu testach p-value jest większe od 0.05, zatem przyjeto hipotezę zerową, czyli jest zachowana homogeniczność wariancji.


3. ANOVA


W dalszej czesci użyto ANOVY, czyli analizy wariancji, w celu odpowiedzenia na pytanie ‘Czy długość płetw jest różna dla 3 gatunków pingwinów?’

Zalozono hipoteze zerowa i alternatywna:
H0: 3 gatunki są równe pod względem długości płetw
H1: co najmniej jeden gatunek różni się od pozostałych 2 gatunków pod względem długości płetwy

res_aov <- aov(flipper_length_mm ~ species,
               data = dat)

summary(res_aov)
##              Df Sum Sq Mean Sq F value Pr(>F)    
## species       2  52473   26237   594.8 <2e-16 ***
## Residuals   339  14953      44                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 2 observations deleted due to missingness

P-value jest mniejsze od 0.05, czyli przyjeto hipotezę alternatywną - co najmniej jedna z grup różni się od pozostałych.


4. Test Tukey’a


TukeyHSD(res_aov)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = flipper_length_mm ~ species, data = dat)
## 
## $species
##                       diff       lwr       upr p adj
## Chinstrap-Adelie  5.869887  3.586583  8.153191     0
## Gentoo-Adelie    27.233349 25.334376 29.132323     0
## Gentoo-Chinstrap 21.363462 19.000841 23.726084     0
test_t <- glht(res_aov,
                  linfct = mcp(species = "Tukey")
)
summary(test_t)
## 
##   Simultaneous Tests for General Linear Hypotheses
## 
## Multiple Comparisons of Means: Tukey Contrasts
## 
## 
## Fit: aov(formula = flipper_length_mm ~ species, data = dat)
## 
## Linear Hypotheses:
##                         Estimate Std. Error t value Pr(>|t|)    
## Chinstrap - Adelie == 0   5.8699     0.9699   6.052   <1e-08 ***
## Gentoo - Adelie == 0     27.2333     0.8067  33.760   <1e-08 ***
## Gentoo - Chinstrap == 0  21.3635     1.0036  21.286   <1e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## (Adjusted p values reported -- single-step method)

We wszystkich przypadkach p-value jest mniejsze niż 0,05, więc odrzucono hipotezę zerową dla wszystkich porównań, co oznacza, że analizowane gatunki różnią się znacząco pod względem długości płetw.


4. Wykresy


boxplot

ggplot(dat, aes(x=species, y=flipper_length_mm, fill=species))+
  geom_boxplot()

jitter

ggplot(dat) +
  aes(x = species, y = flipper_length_mm, color = species) +
  geom_jitter() +
  theme(legend.position = "none")

Na wykresach widać, że dlugosci płetw roznia sie w zaleznosci od gatunku pingwinów. Najbardziej odstajace wartosci mozna zaobserwowac dla Gentoo - sa najwieksze. Najkrótsze pletwy charakteryzuja Adelie.