Bu raporun amacı, Palmer Penguins veri setini kullanarak penguen türlerinin fiziksel özellikleri arasındaki ilişkileri İstatistiksel Görselleştirme teknikleriyle analiz etmektir.
penguins <- read.csv("C:/Users/meryembakir/Downloads/penguins.csv")
penguins_clean <- na.omit(penguins)
summary(penguins_clean)
## id species island bill_length_mm
## Min. : 0.00 Length:342 Length:342 Min. :32.10
## 1st Qu.: 86.25 Class :character Class :character 1st Qu.:39.23
## Median :171.50 Mode :character Mode :character Median :44.45
## Mean :171.70 Mean :43.92
## 3rd Qu.:256.75 3rd Qu.:48.50
## Max. :343.00 Max. :59.60
## bill_depth_mm flipper_length_mm body_mass_g sex
## Min. :13.10 Min. :172.0 Min. :2700 Length:342
## 1st Qu.:15.60 1st Qu.:190.0 1st Qu.:3550 Class :character
## Median :17.30 Median :197.0 Median :4050 Mode :character
## Mean :17.15 Mean :200.9 Mean :4202
## 3rd Qu.:18.70 3rd Qu.:213.0 3rd Qu.:4750
## Max. :21.50 Max. :231.0 Max. :6300
## year
## Min. :2007
## 1st Qu.:2007
## Median :2008
## Mean :2008
## 3rd Qu.:2009
## Max. :2009
Elimizde 3 farklı tür (Species) var: Adelie, Chinstrap ve Gentoo.
3 farklı ada (Island) var.
Penguenlerin kiloları (body_mass_g) ve gaga ölçüleri gibi sayısal veriler var.
library(ggplot2)
ggplot(data = penguins_clean, aes(x = species, fill = species)) +
geom_bar() +
labs(title = "Penguen Türlerinin Dağılımı",
x = "Turler",
y = "Penguen Sayisi",
fill = "Turler") +
theme_minimal()
library(GGally)
library(ggplot2)
veriler_ozet <- penguins_clean[, c("species", "island", "bill_length_mm", "bill_depth_mm", "flipper_length_mm", "body_mass_g")]
ggpairs(veriler_ozet,
aes(color = species, alpha = 0.5), # Renge gore ayir
title = "Penguen Veri Seti - Geniş Analiz Matrisi")
# İstatistiksel Test: Gaga uzunluğu türlere göre gerçekten farklı mı?
# ANOVA Testi uyguluyoruz
anova_sonuc <- aov(bill_length_mm ~ species, data = penguins_clean)
summary(anova_sonuc)
## Df Sum Sq Mean Sq F value Pr(>F)
## species 2 7194 3597 410.6 <2e-16 ***
## Residuals 339 2970 9
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Farkın hangi türler arasında olduğunu görmek için Tukey Testi
TukeyHSD(anova_sonuc)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = bill_length_mm ~ species, data = penguins_clean)
##
## $species
## diff lwr upr p adj
## Chinstrap-Adelie 10.042433 9.024859 11.0600064 0.0000000
## Gentoo-Adelie 8.713487 7.867194 9.5597807 0.0000000
## Gentoo-Chinstrap -1.328945 -2.381868 -0.2760231 0.0088993
Görsel analizde fark edilen türler arası gaga uzunluğu farkı, yapılan tek yönlü varyans analizi (ANOVA) ile test edilmiş ve istatistiksel olarak anlamlı bulunmuştur. Tukey testi sonucunda her üç türün de birbiriden anlamlı derecede farklı olduğu kanıtlanmıştır
library(plotly)
##
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
##
## last_plot
## The following object is masked from 'package:stats':
##
## filter
## The following object is masked from 'package:graphics':
##
## layout
g <- ggplot(data = penguins_clean, aes(x = flipper_length_mm, y = body_mass_g, color = species)) +
geom_point(alpha = 0.7) +
labs(title = "İnteraktif Analiz: Yüzgeç ve Kilo İlişkisi") +
theme_minimal()
ggplotly(g)
Bu interaktif saçılım grafiği, yüzgeç uzunluğu ile vücut ağırlığı arasındaki güçlü pozitif korelasyonu doğrulamaktadır. Grafikteki noktaların üzerine gelindiğinde şu detaylar dikkat çekmektedir:
Tür Ayrımı: Veri setinin sağ üst köşesinde kümelenen (hem en ağır hem en uzun yüzgeçli) penguenlerin tamamının Gentoo türüne ait olduğu netleşmiştir.
Veri Keşfi: Statik grafiklerde gözden kaçabilen detaylar (örneğin; Adelie türü içinde beklenmedik şekilde ağır olan bireyler veya aykırı değerler) bu interaktif yapı sayesinde tek tek incelenebilmektedir.