SSB 201 – Sosyal Bilimler İçin İstatistik I

Final Sınavı

library (gapminder)
## Warning: package 'gapminder' was built under R version 4.5.2
library (dplyr)
## Warning: package 'dplyr' was built under R version 4.5.2
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library (ggplot2)
## Warning: package 'ggplot2' was built under R version 4.5.2
data("gapminder")
names(gapminder)
## [1] "country"   "continent" "year"      "lifeExp"   "pop"       "gdpPercap"

Soru 1 – Veri Setini İnceleme ve Düzenleme

1.a) gapminder veri setindeki değişken isimlerini ve veri türlerini inceleyiniz.

glimpse(gapminder)
## Rows: 1,704
## Columns: 6
## $ country   <fct> "Afghanistan", "Afghanistan", "Afghanistan", "Afghanistan", …
## $ continent <fct> Asia, Asia, Asia, Asia, Asia, Asia, Asia, Asia, Asia, Asia, …
## $ year      <int> 1952, 1957, 1962, 1967, 1972, 1977, 1982, 1987, 1992, 1997, …
## $ lifeExp   <dbl> 28.801, 30.332, 31.997, 34.020, 36.088, 38.438, 39.854, 40.8…
## $ pop       <int> 8425333, 9240934, 10267083, 11537966, 13079460, 14880372, 12…
## $ gdpPercap <dbl> 779.4453, 820.8530, 853.1007, 836.1971, 739.9811, 786.1134, …

1.b) Aşağıdaki değişkenleri seçerek gapminder_tr isimli yeni bir veri seti oluşturunuz:

  • ulke (country)

  • yil (year)

  • yasam_beklentisi (lifeExp)

  • kisi_basi_gelir (gdpPercap)

  • kita (continent)

gapminder_tr<-gapminder %>% dplyr::select(country, year, lifeExp, gdpPercap, continent)
head(gapminder_tr)
## # A tibble: 6 × 5
##   country      year lifeExp gdpPercap continent
##   <fct>       <int>   <dbl>     <dbl> <fct>    
## 1 Afghanistan  1952    28.8      779. Asia     
## 2 Afghanistan  1957    30.3      821. Asia     
## 3 Afghanistan  1962    32.0      853. Asia     
## 4 Afghanistan  1967    34.0      836. Asia     
## 5 Afghanistan  1972    36.1      740. Asia     
## 6 Afghanistan  1977    38.4      786. Asia

1.c) Bu yeni veri setindeki değişken adlarını Türkçeleştiriniz ve gapminder_tr üzerine kaydediniz.

gapminder_tr<-gapminder %>% rename( ulke = country, yıl = year, yaşam_beklentisi = lifeExp, kisi_basi_gelir = gdpPercap, kıta = continent ) 
head(gapminder_tr)
## # A tibble: 6 × 6
##   ulke        kıta    yıl yaşam_beklentisi      pop kisi_basi_gelir
##   <fct>       <fct> <int>            <dbl>    <int>           <dbl>
## 1 Afghanistan Asia   1952             28.8  8425333            779.
## 2 Afghanistan Asia   1957             30.3  9240934            821.
## 3 Afghanistan Asia   1962             32.0 10267083            853.
## 4 Afghanistan Asia   1967             34.0 11537966            836.
## 5 Afghanistan Asia   1972             36.1 13079460            740.
## 6 Afghanistan Asia   1977             38.4 14880372            786.

Soru 2 – Betimsel İstatistikler

2.a) gapminder_tr veri seti için summary() fonksiyonunu kullanarak genel özeti elde ediniz.

summary(gapminder_tr)
##           ulke            kıta          yıl       yaşam_beklentisi
##  Afghanistan:  12   Africa  :624   Min.   :1952   Min.   :23.60   
##  Albania    :  12   Americas:300   1st Qu.:1966   1st Qu.:48.20   
##  Algeria    :  12   Asia    :396   Median :1980   Median :60.71   
##  Angola     :  12   Europe  :360   Mean   :1980   Mean   :59.47   
##  Argentina  :  12   Oceania : 24   3rd Qu.:1993   3rd Qu.:70.85   
##  Australia  :  12                  Max.   :2007   Max.   :82.60   
##  (Other)    :1632                                                 
##       pop            kisi_basi_gelir   
##  Min.   :6.001e+04   Min.   :   241.2  
##  1st Qu.:2.794e+06   1st Qu.:  1202.1  
##  Median :7.024e+06   Median :  3531.8  
##  Mean   :2.960e+07   Mean   :  7215.3  
##  3rd Qu.:1.959e+07   3rd Qu.:  9325.5  
##  Max.   :1.319e+09   Max.   :113523.1  
## 

2.b) Yaşam beklentisi değişkeninin ortalama, medyan ve ranj değerlerini açıklayınız.

mean(gapminder_tr$yaşam_beklentisi)
## [1] 59.47444
median(gapminder_tr$yaşam_beklentisi)
## [1] 60.7125

# veri setindeki yaşam beklentisi değişkeninin ortalama değerinin (59.47444) medyandan (60.7125) biraz küçüktür. Ranj = max.-min. den 82.60 - 23.60 = 59 dur.

Soru 3 – Frekans ve Yüzde Tablosu

Not: Aşağıdaki soruları gapminder_tr veri setini kullanarak yanıtlayın.

3.a) Kıta (continent) değişkenine ait frekans tablosunu oluşturunuz.

table(gapminder_tr$kıta)
## 
##   Africa Americas     Asia   Europe  Oceania 
##      624      300      396      360       24

3.b) Aynı değişken için yüzde (%) dağılımını hesaplayınız.

prop.table(table(gapminder_tr$kıta))*100
## 
##    Africa  Americas      Asia    Europe   Oceania 
## 36.619718 17.605634 23.239437 21.126761  1.408451

Soru 4 – Saçılım Diyagramı ve Korelasyon

4.a) Yaşam beklentisi (lifeExp) ile kişi başına düşen gelir (gdpPercap) arasındaki ilişkiyi gösteren bir saçılım diyagramı oluşturunuz. Eksen adlarını ve grafiğin başlığını ekleyiniz.

4.b) Bu iki değişken arasındaki korelasyon katsayısını hesaplayınız ve korelasyon katsayısını yorumlayınız.

Soru 5 – Basit Doğrusal Regresyon

5.a) Kişi başına düşen gelirin (gdpPercap), yaşam beklentisini (lifeExp) yordayıp yordamadığını test eden bir basit doğrusal regresyon modeli kurunuz.

5.b) Regresyon çıktısından aşağıdaki bilgileri bulunuz ve yorumlayınız:

  • eğim (β₁)

  • kesişim (β₀)

  • R-kare (R²)

5.c) Yaşam beklentisi (yasam_beklentisi) ile kişi başına düşen gelir (kisi_basi_gelir) arasındaki ilişkiyi gösteren bir saçılım diyagramı oluşturunuz. Grafiğe uygun eksen adlarını ve bir başlık ekleyiniz. Bu grafiğin üzerine basit doğrusal regresyon çizgisini ekleyiniz.

Soru 6 - geom_jitter fonksiyonunun kullanım amacı nedir?

saçılım grafiğinde veriler birbirine yakınsa noktaların üst üste gelmesini engeller.