penguen veri kümesinde veri analizi

Proje Özeti

Bu raporun amacı, Palmer Penguins veri setini kullanarak penguen türlerinin fiziksel özellikleri arasındaki ilişkileri İstatistiksel Görselleştirme teknikleriyle analiz etmektir.

penguins <- read.csv("C:/Users/meryembakir/Downloads/penguins.csv")

penguins_clean <- na.omit(penguins)

summary(penguins_clean)
##        id           species             island          bill_length_mm 
##  Min.   :  0.00   Length:342         Length:342         Min.   :32.10  
##  1st Qu.: 86.25   Class :character   Class :character   1st Qu.:39.23  
##  Median :171.50   Mode  :character   Mode  :character   Median :44.45  
##  Mean   :171.70                                         Mean   :43.92  
##  3rd Qu.:256.75                                         3rd Qu.:48.50  
##  Max.   :343.00                                         Max.   :59.60  
##  bill_depth_mm   flipper_length_mm  body_mass_g       sex           
##  Min.   :13.10   Min.   :172.0     Min.   :2700   Length:342        
##  1st Qu.:15.60   1st Qu.:190.0     1st Qu.:3550   Class :character  
##  Median :17.30   Median :197.0     Median :4050   Mode  :character  
##  Mean   :17.15   Mean   :200.9     Mean   :4202                     
##  3rd Qu.:18.70   3rd Qu.:213.0     3rd Qu.:4750                     
##  Max.   :21.50   Max.   :231.0     Max.   :6300                     
##       year     
##  Min.   :2007  
##  1st Qu.:2007  
##  Median :2008  
##  Mean   :2008  
##  3rd Qu.:2009  
##  Max.   :2009

Elimizde 3 farklı tür (Species) var: Adelie, Chinstrap ve Gentoo.

3 farklı ada (Island) var.

Penguenlerin kiloları (body_mass_g) ve gaga ölçüleri gibi sayısal veriler var.

library(ggplot2)

ggplot(data = penguins_clean, aes(x = species, fill = species)) +
  geom_bar() +
  labs(title = "Penguen Türlerinin Dağılımı",
       x = "Turler",
       y = "Penguen Sayisi",
       fill = "Turler") +
  theme_minimal()

library(GGally)
library(ggplot2)

veriler_ozet <- penguins_clean[, c("species", "island", "bill_length_mm", "bill_depth_mm", "flipper_length_mm", "body_mass_g")]


ggpairs(veriler_ozet, 
        aes(color = species, alpha = 0.5), # Renge gore ayir
        title = "Penguen Veri Seti - Geniş Analiz Matrisi")

# İstatistiksel Test: Gaga uzunluğu türlere göre gerçekten farklı mı?
# ANOVA Testi uyguluyoruz
anova_sonuc <- aov(bill_length_mm ~ species, data = penguins_clean)
summary(anova_sonuc)
##              Df Sum Sq Mean Sq F value Pr(>F)    
## species       2   7194    3597   410.6 <2e-16 ***
## Residuals   339   2970       9                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Farkın hangi türler arasında olduğunu görmek için Tukey Testi
TukeyHSD(anova_sonuc)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = bill_length_mm ~ species, data = penguins_clean)
## 
## $species
##                       diff       lwr        upr     p adj
## Chinstrap-Adelie 10.042433  9.024859 11.0600064 0.0000000
## Gentoo-Adelie     8.713487  7.867194  9.5597807 0.0000000
## Gentoo-Chinstrap -1.328945 -2.381868 -0.2760231 0.0088993

Görsel analizde fark edilen türler arası gaga uzunluğu farkı, yapılan tek yönlü varyans analizi (ANOVA) ile test edilmiş ve istatistiksel olarak anlamlı bulunmuştur. Tukey testi sonucunda her üç türün de birbiriden anlamlı derecede farklı olduğu kanıtlanmıştır

library(plotly)
## 
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
## 
##     last_plot
## The following object is masked from 'package:stats':
## 
##     filter
## The following object is masked from 'package:graphics':
## 
##     layout
g <- ggplot(data = penguins_clean, aes(x = flipper_length_mm, y = body_mass_g, color = species)) +
  geom_point(alpha = 0.7) +
  labs(title = "İnteraktif Analiz: Yüzgeç ve Kilo İlişkisi") +
  theme_minimal()


ggplotly(g)

Bu interaktif saçılım grafiği, yüzgeç uzunluğu ile vücut ağırlığı arasındaki güçlü pozitif korelasyonu doğrulamaktadır. Grafikteki noktaların üzerine gelindiğinde şu detaylar dikkat çekmektedir:

Tür Ayrımı: Veri setinin sağ üst köşesinde kümelenen (hem en ağır hem en uzun yüzgeçli) penguenlerin tamamının Gentoo türüne ait olduğu netleşmiştir.

Veri Keşfi: Statik grafiklerde gözden kaçabilen detaylar (örneğin; Adelie türü içinde beklenmedik şekilde ağır olan bireyler veya aykırı değerler) bu interaktif yapı sayesinde tek tek incelenebilmektedir.