SSB 201 – Sosyal Bilimler İçin İstatistik I

Final Sınavı

library (gapminder)
## Warning: package 'gapminder' was built under R version 4.5.2
library (dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library (ggplot2)

Soru 1 – Veri Setini İnceleme ve Düzenleme

1.a) gapminder veri setindeki değişken isimlerini ve veri türlerini inceleyiniz.

data("gapminder")
names(gapminder)
## [1] "country"   "continent" "year"      "lifeExp"   "pop"       "gdpPercap"
glimpse(penguins)
## Rows: 344
## Columns: 8
## $ species     <fct> Adelie, Adelie, Adelie, Adelie, Adelie, Adelie, Adelie, Ad…
## $ island      <fct> Torgersen, Torgersen, Torgersen, Torgersen, Torgersen, Tor…
## $ bill_len    <dbl> 39.1, 39.5, 40.3, NA, 36.7, 39.3, 38.9, 39.2, 34.1, 42.0, …
## $ bill_dep    <dbl> 18.7, 17.4, 18.0, NA, 19.3, 20.6, 17.8, 19.6, 18.1, 20.2, …
## $ flipper_len <int> 181, 186, 195, NA, 193, 190, 181, 195, 193, 190, 186, 180,…
## $ body_mass   <int> 3750, 3800, 3250, NA, 3450, 3650, 3625, 4675, 3475, 4250, …
## $ sex         <fct> male, female, female, NA, female, male, female, male, NA, …
## $ year        <int> 2007, 2007, 2007, 2007, 2007, 2007, 2007, 2007, 2007, 2007…

1.b) Aşağıdaki değişkenleri seçerek gapminder_tr isimli yeni bir veri seti oluşturunuz:

  • ulke (country)

  • yil (year)

  • yasam_beklentisi (lifeExp)

  • kisi_basi_gelir (gdpPercap)

  • kita (continent)

gapminder_tr<-gapminder %>%
  rename(
    ulke = country,
    yil = year,
    yasam_beklentisi = lifeExp,
    kisi_basi_gelir = gdpPercap,
    kita = continent
  )

Soru 2 – Betimsel İstatistikler

2.a) gapminder_tr veri seti için summary() fonksiyonunu kullanarak genel özeti elde ediniz.

na.omit(gapminder_tr)
## # A tibble: 1,704 × 6
##    ulke        kita    yil yasam_beklentisi      pop kisi_basi_gelir
##    <fct>       <fct> <int>            <dbl>    <int>           <dbl>
##  1 Afghanistan Asia   1952             28.8  8425333            779.
##  2 Afghanistan Asia   1957             30.3  9240934            821.
##  3 Afghanistan Asia   1962             32.0 10267083            853.
##  4 Afghanistan Asia   1967             34.0 11537966            836.
##  5 Afghanistan Asia   1972             36.1 13079460            740.
##  6 Afghanistan Asia   1977             38.4 14880372            786.
##  7 Afghanistan Asia   1982             39.9 12881816            978.
##  8 Afghanistan Asia   1987             40.8 13867957            852.
##  9 Afghanistan Asia   1992             41.7 16317921            649.
## 10 Afghanistan Asia   1997             41.8 22227415            635.
## # ℹ 1,694 more rows
summary(gapminder_tr)
##           ulke            kita          yil       yasam_beklentisi
##  Afghanistan:  12   Africa  :624   Min.   :1952   Min.   :23.60   
##  Albania    :  12   Americas:300   1st Qu.:1966   1st Qu.:48.20   
##  Algeria    :  12   Asia    :396   Median :1980   Median :60.71   
##  Angola     :  12   Europe  :360   Mean   :1980   Mean   :59.47   
##  Argentina  :  12   Oceania : 24   3rd Qu.:1993   3rd Qu.:70.85   
##  Australia  :  12                  Max.   :2007   Max.   :82.60   
##  (Other)    :1632                                                 
##       pop            kisi_basi_gelir   
##  Min.   :6.001e+04   Min.   :   241.2  
##  1st Qu.:2.794e+06   1st Qu.:  1202.1  
##  Median :7.024e+06   Median :  3531.8  
##  Mean   :2.960e+07   Mean   :  7215.3  
##  3rd Qu.:1.959e+07   3rd Qu.:  9325.5  
##  Max.   :1.319e+09   Max.   :113523.1  
## 

2.b) Yaşam beklentisi değişkeninin ortalama, medyan ve ranj değerlerini açıklayınız.

mean(gapminder_tr$yasam_beklentisi)
## [1] 59.47444
median(gapminder_tr$yasam_beklentisi)
## [1] 60.7125
range(gapminder_tr$yasam_beklentisi)
## [1] 23.599 82.603

Soru 3 – Frekans ve Yüzde Tablosu

Not: Aşağıdaki soruları gapminder_tr veri setini kullanarak yanıtlayın.

3.a) Kıta (continent) değişkenine ait frekans tablosunu oluşturunuz.

table(gapminder_tr$kita)
## 
##   Africa Americas     Asia   Europe  Oceania 
##      624      300      396      360       24
prop.table(table(gapminder_tr$kita))
## 
##     Africa   Americas       Asia     Europe    Oceania 
## 0.36619718 0.17605634 0.23239437 0.21126761 0.01408451

3.b) Aynı değişken için yüzde (%) dağılımını hesaplayınız.

gapminder_tr %>% 
  count(kita) %>% 
  mutate(yuzde = round((n/ sum(n))*100, 2))
## # A tibble: 5 × 3
##   kita         n yuzde
##   <fct>    <int> <dbl>
## 1 Africa     624 36.6 
## 2 Americas   300 17.6 
## 3 Asia       396 23.2 
## 4 Europe     360 21.1 
## 5 Oceania     24  1.41

Soru 4 – Saçılım Diyagramı ve Korelasyon

4.a) Yaşam beklentisi (lifeExp) ile kişi başına düşen gelir (gdpPercap) arasındaki ilişkiyi gösteren bir saçılım diyagramı oluşturunuz. Eksen adlarını ve grafiğin başlığını ekleyiniz.

gapminder_tr<- gapminder_tr|>
  select(yasam_beklentisi, kisi_basi_gelir) |>
  na.omit(gapminder_tr)

ggplot(gapminder_tr, aes(x = yasam_beklentisi, y = kisi_basi_gelir)) + geom_point() +
  labs (x = "Yaşam beklentisi ",
        y = "Kişi başına düşen gelir ",
        title = "Yaşam Beklentisi ile Kişi Başına Düşen Gelir"
      )

4.b) Bu iki değişken arasındaki korelasyon katsayısını hesaplayınız ve korelasyon katsayısını yorumlayınız.

Soru 5 – Basit Doğrusal Regresyon

5.a) Kişi başına düşen gelirin (gdpPercap), yaşam beklentisini (lifeExp) yordayıp yordamadığını test eden bir basit doğrusal regresyon modeli kurunuz.

gap_mod<- lm(kisi_basi_gelir~ yasam_beklentisi, data = gapminder_tr)
summary(gap_mod)
## 
## Call:
## lm(formula = kisi_basi_gelir ~ yasam_beklentisi, data = gapminder_tr)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -11483  -4539  -1223   2482 106950 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      -19277.25     914.09  -21.09   <2e-16 ***
## yasam_beklentisi    445.44      15.02   29.66   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8006 on 1702 degrees of freedom
## Multiple R-squared:  0.3407, Adjusted R-squared:  0.3403 
## F-statistic: 879.6 on 1 and 1702 DF,  p-value: < 2.2e-16

5.b) Regresyon çıktısından aşağıdaki bilgileri bulunuz ve yorumlayınız:

coef(gap_mod)
##      (Intercept) yasam_beklentisi 
##      -19277.2490         445.4447
  • eğim (β₁) yaşam beklentisi yani 445.4447’dir. Yaşam kalitesi arttığında, kişi başı gelir de artar pozitif bir ilişki vardır.

  • kesişim (β₀) = yaşam kalitesi olmasaydı kişi başı gelirde olmazdı.

  • R-kare (R²) = 0.3407 kişi başı gelirdeki değişimin yaşam kalitesi üzerindeki yüzdesi

5.c) Yaşam beklentisi (yasam_beklentisi) ile kişi başına düşen gelir (kisi_basi_gelir) arasındaki ilişkiyi gösteren bir saçılım diyagramı oluşturunuz. Grafiğe uygun eksen adlarını ve bir başlık ekleyiniz. Bu grafiğin üzerine basit doğrusal regresyon çizgisini ekleyiniz.

ggplot(gapminder_tr,aes(x = yasam_beklentisi, y = kisi_basi_gelir))+ geom_point() +
  geom_smooth(method = "lm", se= FALSE, color= "red") +
  labs(x = "Yaşam Beklentisi",
       y= "Kişi Başına Düşen Gelir",
      title = "Yaşam Beklentisi ile Kişi Başına Düşen Gelir" )
## `geom_smooth()` using formula = 'y ~ x'

Soru 6 - geom_jitter fonksiyonunun kullanım amacı nedir?

değişkenlerin özelliklerini yazarken kullanırız.