Ön Hazırlık

#Bu bölüm 6 alt başlıktan oluşmaktadır.

1.Gerekli kütüphane ve data setinin yüklenmesi

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(openintro)
## Loading required package: airports
## Loading required package: cherryblossom
## Loading required package: usdata
library(palmerpenguins)
## 
## Attaching package: 'palmerpenguins'
## The following objects are masked from 'package:datasets':
## 
##     penguins, penguins_raw
data(penguins)

2.Değişken İsimlerinin Türkçe Yapılması

head (penguins)
## # A tibble: 6 × 8
##   species island    bill_length_mm bill_depth_mm flipper_length_mm body_mass_g
##   <fct>   <fct>              <dbl>         <dbl>             <int>       <int>
## 1 Adelie  Torgersen           39.1          18.7               181        3750
## 2 Adelie  Torgersen           39.5          17.4               186        3800
## 3 Adelie  Torgersen           40.3          18                 195        3250
## 4 Adelie  Torgersen           NA            NA                  NA          NA
## 5 Adelie  Torgersen           36.7          19.3               193        3450
## 6 Adelie  Torgersen           39.3          20.6               190        3650
## # ℹ 2 more variables: sex <fct>, year <int>
penguins_temiz <- penguins %>% 
  rename ("Gaga Uzunlugu"=bill_length_mm, 
          "Gaga Derinligi"=bill_depth_mm, 
          "Yuzgec Uzunlugu"=flipper_length_mm,
          "Vucut Kutlesi"=body_mass_g,
          "Tur"=species,
          "Cinsiyet"=sex,
          "Yil"=year)

3.Eksik Verilerin Silinmesi

glimpse(penguins_temiz)
## Rows: 344
## Columns: 8
## $ Tur               <fct> Adelie, Adelie, Adelie, Adelie, Adelie, Adelie, Adel…
## $ island            <fct> Torgersen, Torgersen, Torgersen, Torgersen, Torgerse…
## $ `Gaga Uzunlugu`   <dbl> 39.1, 39.5, 40.3, NA, 36.7, 39.3, 38.9, 39.2, 34.1, …
## $ `Gaga Derinligi`  <dbl> 18.7, 17.4, 18.0, NA, 19.3, 20.6, 17.8, 19.6, 18.1, …
## $ `Yuzgec Uzunlugu` <int> 181, 186, 195, NA, 193, 190, 181, 195, 193, 190, 186…
## $ `Vucut Kutlesi`   <int> 3750, 3800, 3250, NA, 3450, 3650, 3625, 4675, 3475, …
## $ Cinsiyet          <fct> male, female, female, NA, female, male, female, male…
## $ Yil               <int> 2007, 2007, 2007, 2007, 2007, 2007, 2007, 2007, 2007…

Eksik veriler silinmeden önce 344 satır, 8 sütun mevcut.

sum(is.na(penguins_temiz)) #Eksik mi diye sorar.
## [1] 19

19 adet eksik veri mevcut.

penguins_temiz <- na.omit(penguins_temiz)
glimpse (penguins)
## Rows: 344
## Columns: 8
## $ species           <fct> Adelie, Adelie, Adelie, Adelie, Adelie, Adelie, Adel…
## $ island            <fct> Torgersen, Torgersen, Torgersen, Torgersen, Torgerse…
## $ bill_length_mm    <dbl> 39.1, 39.5, 40.3, NA, 36.7, 39.3, 38.9, 39.2, 34.1, …
## $ bill_depth_mm     <dbl> 18.7, 17.4, 18.0, NA, 19.3, 20.6, 17.8, 19.6, 18.1, …
## $ flipper_length_mm <int> 181, 186, 195, NA, 193, 190, 181, 195, 193, 190, 186…
## $ body_mass_g       <int> 3750, 3800, 3250, NA, 3450, 3650, 3625, 4675, 3475, …
## $ sex               <fct> male, female, female, NA, female, male, female, male…
## $ year              <int> 2007, 2007, 2007, 2007, 2007, 2007, 2007, 2007, 2007…

Eksik veriler silindikten sonra toplam 333 satır, 8 sütun mevcut.

4.Yeni Bir Değişken Oluşturma

names(penguins_temiz)
## [1] "Tur"             "island"          "Gaga Uzunlugu"   "Gaga Derinligi" 
## [5] "Yuzgec Uzunlugu" "Vucut Kutlesi"   "Cinsiyet"        "Yil"
penguins_temiz %>% 
  mutate (bmi = `Vucut Kutlesi` / `Yuzgec Uzunlugu`)
## # A tibble: 333 × 9
##    Tur    island    `Gaga Uzunlugu` `Gaga Derinligi` `Yuzgec Uzunlugu`
##    <fct>  <fct>               <dbl>            <dbl>             <int>
##  1 Adelie Torgersen            39.1             18.7               181
##  2 Adelie Torgersen            39.5             17.4               186
##  3 Adelie Torgersen            40.3             18                 195
##  4 Adelie Torgersen            36.7             19.3               193
##  5 Adelie Torgersen            39.3             20.6               190
##  6 Adelie Torgersen            38.9             17.8               181
##  7 Adelie Torgersen            39.2             19.6               195
##  8 Adelie Torgersen            41.1             17.6               182
##  9 Adelie Torgersen            38.6             21.2               191
## 10 Adelie Torgersen            34.6             21.1               198
## # ℹ 323 more rows
## # ℹ 4 more variables: `Vucut Kutlesi` <int>, Cinsiyet <fct>, Yil <int>,
## #   bmi <dbl>

5.Değişkenin Türlere Göre Ortalamasını, Standart Sapmasını, Minimum ve Maksimum Değerlerini Hesaplama

bmi_betimsel_analiz <- penguins_temiz %>%
  mutate(bmi = `Vucut Kutlesi` / `Yuzgec Uzunlugu`) %>%
  group_by(Tur) %>%
  summarise(
    Ortalama = mean(bmi),
    Standart_Sapma = sd(bmi),
    Minimum = min(bmi),
    Maksimum = max(bmi)
  )
print(bmi_betimsel_analiz)
## # A tibble: 3 × 5
##   Tur       Ortalama Standart_Sapma Minimum Maksimum
##   <fct>        <dbl>          <dbl>   <dbl>    <dbl>
## 1 Adelie        19.5           2.18    15.2     25.3
## 2 Chinstrap     19.0           1.60    14.1     22.9
## 3 Gentoo        23.4           1.88    19.0     28.5

6.Grafik Hazırlama ve Yorumlama

library(ggplot2)
penguins_temiz %>% 
  mutate (bmi = `Vucut Kutlesi` / `Yuzgec Uzunlugu`) %>% 
ggplot(aes(x=Tur, y=bmi, fill=Tur)) +
  geom_boxplot()+
  labs(
    title ="Turlere Gore Vucut Kitle Oranı Betimsel Analizi",
    x="Tur",
    y="BMI"
  )+
  theme_light()

Grafiğe bakıldığında penguen türlerinin BMI değerleri arasında fark olduğu görülmektedir. Gentoo türünün BMI değerinin diğer iki türe göre daha yüksek olduğu söylenebilir. Bunun yanında Chinstrap türündeki BMI değerlerinin varyansının daha küçük olduğu söylenebilir.

Görev 1: Toplam Düzeyde Analiz

#Bu bölümde grafik oluşturulmuş, regresyon doğrusu üzerinden yorum yapılmıştır.

1.1. Grafik Oluşturma

penguins_temiz %>% 
  count(`Gaga Uzunlugu`, `Gaga Derinligi`) %>% 
  group_by(`Gaga Uzunlugu`)
## # A tibble: 329 × 3
## # Groups:   Gaga Uzunlugu [163]
##    `Gaga Uzunlugu` `Gaga Derinligi`     n
##              <dbl>            <dbl> <int>
##  1            32.1             15.5     1
##  2            33.1             16.1     1
##  3            33.5             19       1
##  4            34               17.1     1
##  5            34.4             18.4     1
##  6            34.5             18.1     1
##  7            34.6             17.2     1
##  8            34.6             21.1     1
##  9            35               17.9     2
## 10            35.1             19.4     1
## # ℹ 319 more rows
library(ggplot2)
names(penguins_temiz)
## [1] "Tur"             "island"          "Gaga Uzunlugu"   "Gaga Derinligi" 
## [5] "Yuzgec Uzunlugu" "Vucut Kutlesi"   "Cinsiyet"        "Yil"
penguins_temiz %>% 
ggplot(aes(x=`Gaga Uzunlugu`, y=`Gaga Derinligi`, color = Tur)) +
  geom_point()+
  labs(
    title ="Gaga Uzunlugu ile Gaga Derinligi Arasindaki İliski",
    x="Gaga Uzunlugu",
    y="Gaga Derinligi",
    color="Tur"
  )+
  theme_minimal()

1.2. Regresyon Doğrusu ve Yorumlama

library(ggplot2)
names(penguins_temiz)
## [1] "Tur"             "island"          "Gaga Uzunlugu"   "Gaga Derinligi" 
## [5] "Yuzgec Uzunlugu" "Vucut Kutlesi"   "Cinsiyet"        "Yil"
penguins_temiz %>% 
ggplot(aes(x=`Gaga Uzunlugu`, y=`Gaga Derinligi`, color = Tur)) +
  geom_point()+
  geom_smooth(method="lm", color="black")
## `geom_smooth()` using formula = 'y ~ x'

  labs(
    title ="Gaga Uzunlugu ile Gaga Derinligi Arasindaki İliski",
    x="Gaga Uzunlugu",
    y="Gaga Derinligi",
    color="Tur"
  )+
  theme_minimal()
## NULL

Grafik incelendiğinde “Gaga Uzunluğu” ile “Gaga Derinliği” arasında negatif yönde anlamlı bir ilişki olduğu söylenebilir.

Görev 2: Tür Bazında Analiz

#Bu bölümde üç farklı penguen türüne göre analiz yapılmış ve veriler uygun şekilde yorumlanmıştır.

2.1. Veriyi Türlere Göre Ayırma

penguins_temiz %>%
  group_by(Tur) 
## # A tibble: 333 × 8
## # Groups:   Tur [3]
##    Tur    island    `Gaga Uzunlugu` `Gaga Derinligi` `Yuzgec Uzunlugu`
##    <fct>  <fct>               <dbl>            <dbl>             <int>
##  1 Adelie Torgersen            39.1             18.7               181
##  2 Adelie Torgersen            39.5             17.4               186
##  3 Adelie Torgersen            40.3             18                 195
##  4 Adelie Torgersen            36.7             19.3               193
##  5 Adelie Torgersen            39.3             20.6               190
##  6 Adelie Torgersen            38.9             17.8               181
##  7 Adelie Torgersen            39.2             19.6               195
##  8 Adelie Torgersen            41.1             17.6               182
##  9 Adelie Torgersen            38.6             21.2               191
## 10 Adelie Torgersen            34.6             21.1               198
## # ℹ 323 more rows
## # ℹ 3 more variables: `Vucut Kutlesi` <int>, Cinsiyet <fct>, Yil <int>

2.2. Her Tür İçin Scatter Plot Oluşturma

penguins_temiz %>% 
ggplot(aes(x = `Gaga Uzunlugu`, y = `Gaga Derinligi`, color = Tur)) +
  geom_point() +
  geom_smooth(method="lm", color = "black") +
  facet_wrap(~Tur) +
  labs(
    title = "Tür Bazında Gaga Uzunluğu ve Gaga Derinliği İlişkisi",
    x = "Gaga Uzunlugu",
    y = "Gaga Derinligi"
  ) +
  theme_linedraw()
## `geom_smooth()` using formula = 'y ~ x'

Grafikler incelendiğinde her üç türde de “Gaga Uzunluğu” ile “Gaga Derinliği” arasında pozitif yönde anlamlı bir ilişki olduğu söylenebilir.

Görev 3: Yorum ve Tartışma

Toplam düzeyde analiz kapsamında tüm türler bir arada analiz edildiğinde “Gaga Uzunluğu” ile “Gaga Derinliği” arasında negatif yönlü bir ilişki bulunmuştur. Bunun nedeni, türlerin bir araya geldiğinde, genel bir eğilim ortaya çıkarmasıdır. Ancak tür her bir tür kendi içinde incelendiğinde “Gaga Uzunluğu” ile “Gaga Derinliği” arasında pozitif yönlü bir ilişki olduğu görülmüştür. Böylece, her türde gaga uzadıkça derinliğin de arttığı belirlenmiştir. Bu durum, Simpson Paradoksu’nun bir örneğidir. Örnekte de görüldüğü gibi gruplar birleştirildiğinde gözlemlenen ilişkinin yönünün, alt gruplarda tam tersine döndüğü durumlar bu paradoks ile açıklanabilir. Dolayısıyla, verinin yalnızca bütününe bakılması yanıltıcı sonuçlara sebep olabilir. Verilerin alt gruplar düzeyinde incelenmesi ise istatistiksel yorumların doğruluğu açısından büyük önem taşımaktadır.