Nazwa uczelni: Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie
Kierunek: Geoinformacja II rok
Przedmiot: Przetwarzanie danych środowiskowych
Dane pobrano z biblioteki palmerpenguins i zawieraja informacje na temat trzech różnych gatunków pingwinów - Adelie, Chinstrap i Gentoo. Wybrany zestaw danych zawiera 8 zmiennych, w tej analizie skupiamy się na długości płetwy i gatunku.
datatable(penguins, caption = "Dane o pingwinkach", options = list(scrollX = TRUE))dat <- penguins[, c("species", "flipper_length_mm")]
dat <- as.data.frame(dat)Podstawowe informacje na temat danych:
summary(dat)## species flipper_length_mm
## Adelie :152 Min. :172.0
## Chinstrap: 68 1st Qu.:190.0
## Gentoo :124 Median :197.0
## Mean :200.9
## 3rd Qu.:213.0
## Max. :231.0
## NA's :2
stats <- data.frame(round(mean(dat$flipper_length_mm, na.rm = T),1), round(median(dat$flipper_length_mm, na.rm = T),1), round(var(dat$flipper_length_mm, na.rm = T),1), round(sd(dat$flipper_length_mm, na.rm = T),1), round(kurtosis(dat$flipper_length_mm, na.rm = T),1),round(skewness(dat$flipper_length_mm, na.rm = T),1))
colnames(stats) <- c("Srednia","Mediana","Wariancja","Odchylenie","Kurtoza","Skosnosc")
stats## Srednia Mediana Wariancja Odchylenie Kurtoza Skosnosc
## 1 200.9 197 197.7 14.1 2 0.3
Do testu Shapiro-Wilka przyjmujemy:
H0: dane pochodzą z rozkładu normalnego
H1: dane nie pochodzą z rozkładu normalnego
res_aov <- aov(flipper_length_mm ~ species,
data = dat
)
shapiro.test(res_aov$residuals)##
## Shapiro-Wilk normality test
##
## data: res_aov$residuals
## W = 0.99452, p-value = 0.2609
P-value jest większe niż zwykły poziom istotności α=0.05, więc przyjeto hipotezę zerową, czyli wykres jest podobny do rozkładu normalnego.
H0: jest zachowana homogeniczność wariancji
H1: nie jest zachowana homogeniczność wariancji
Test Levene’a
levene.test(dat$flipper_length_mm, dat$species)##
## Modified robust Brown-Forsythe Levene-type test based on the absolute
## deviations from the median
##
## data: dat$flipper_length_mm
## Test Statistic = 0.46379, p-value = 0.4964
Test Bartletta
bartlett.test(dat$flipper_length_mm, dat$specie)##
## Bartlett test of homogeneity of variances
##
## data: dat$flipper_length_mm and dat$specie
## Bartlett's K-squared = 0.91722, df = 2, p-value = 0.6322
W obu testach p-value jest większe od 0.05, zatem przyjeto hipotezę zerową, czyli jest zachowana homogeniczność wariancji.
W dalszej czesci użyto ANOVY, czyli analizy wariancji, w celu odpowiedzenia na pytanie ‘Czy długość płetw jest różna dla 3 gatunków pingwinów?’
Zalozono hipoteze zerowa i alternatywna:
H0: 3 gatunki są równe pod względem długości płetw
H1: co najmniej jeden gatunek różni się od pozostałych 2 gatunków pod względem długości płetwy
res_aov <- aov(flipper_length_mm ~ species,
data = dat)
summary(res_aov)## Df Sum Sq Mean Sq F value Pr(>F)
## species 2 52473 26237 594.8 <2e-16 ***
## Residuals 339 14953 44
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 2 observations deleted due to missingness
P-value jest mniejsze od 0.05, czyli przyjeto hipotezę alternatywną - co najmniej jedna z grup różni się od pozostałych.
TukeyHSD(res_aov)## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = flipper_length_mm ~ species, data = dat)
##
## $species
## diff lwr upr p adj
## Chinstrap-Adelie 5.869887 3.586583 8.153191 0
## Gentoo-Adelie 27.233349 25.334376 29.132323 0
## Gentoo-Chinstrap 21.363462 19.000841 23.726084 0
test_t <- glht(res_aov,
linfct = mcp(species = "Tukey")
)
summary(test_t)##
## Simultaneous Tests for General Linear Hypotheses
##
## Multiple Comparisons of Means: Tukey Contrasts
##
##
## Fit: aov(formula = flipper_length_mm ~ species, data = dat)
##
## Linear Hypotheses:
## Estimate Std. Error t value Pr(>|t|)
## Chinstrap - Adelie == 0 5.8699 0.9699 6.052 <1e-08 ***
## Gentoo - Adelie == 0 27.2333 0.8067 33.760 <1e-08 ***
## Gentoo - Chinstrap == 0 21.3635 1.0036 21.286 <1e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## (Adjusted p values reported -- single-step method)
We wszystkich przypadkach p-value jest mniejsze niż 0,05, więc odrzucono hipotezę zerową dla wszystkich porównań, co oznacza, że analizowane gatunki różnią się znacząco pod względem długości płetw.
ggplot(dat, aes(x=species, y=flipper_length_mm, fill=species))+
geom_boxplot()ggplot(dat) +
aes(x = species, y = flipper_length_mm, color = species) +
geom_jitter() +
theme(legend.position = "none")Na wykresach widać, że dlugosci płetw roznia sie w zaleznosci od gatunku pingwinów. Najbardziej odstajace wartosci mozna zaobserwowac dla Gentoo - sa najwieksze. Najkrótsze pletwy charakteryzuja Adelie.