SSB 201 – Sosyal Bilimler İçin İstatistik I

Final Sınavı

library (gapminder)
## Warning: package 'gapminder' was built under R version 4.5.2
library (dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library (ggplot2)

Soru 1 – Veri Setini İnceleme ve Düzenleme

1.a) gapminder veri setindeki değişken isimlerini ve veri türlerini inceleyiniz.

1.b) Aşağıdaki değişkenleri seçerek gapminder_tr isimli yeni bir veri seti oluşturunuz:

  • ulke (country)

  • yil (year)

  • yasam_beklentisi (lifeExp)

  • kisi_basi_gelir (gdpPercap)

  • kita (continent)

veri1<-gapminder %>% dplyr::select(country, year, lifeExp, gdpPercap, continent)
head(veri1)
## # A tibble: 6 × 5
##   country      year lifeExp gdpPercap continent
##   <fct>       <int>   <dbl>     <dbl> <fct>    
## 1 Afghanistan  1952    28.8      779. Asia     
## 2 Afghanistan  1957    30.3      821. Asia     
## 3 Afghanistan  1962    32.0      853. Asia     
## 4 Afghanistan  1967    34.0      836. Asia     
## 5 Afghanistan  1972    36.1      740. Asia     
## 6 Afghanistan  1977    38.4      786. Asia

1.c) Bu yeni veri setindeki değişken adlarını Türkçeleştiriniz ve gapminder_tr üzerine kaydediniz.

veri2<-veri1 %>% rename(ulke=country, yil=year, yasam_beklentisi=lifeExp, kisi_bası_gelir=gdpPercap, kita=continent)
head(veri2)
## # A tibble: 6 × 5
##   ulke          yil yasam_beklentisi kisi_bası_gelir kita 
##   <fct>       <int>            <dbl>           <dbl> <fct>
## 1 Afghanistan  1952             28.8            779. Asia 
## 2 Afghanistan  1957             30.3            821. Asia 
## 3 Afghanistan  1962             32.0            853. Asia 
## 4 Afghanistan  1967             34.0            836. Asia 
## 5 Afghanistan  1972             36.1            740. Asia 
## 6 Afghanistan  1977             38.4            786. Asia

Soru 2 – Betimsel İstatistikler

2.a) gapminder_tr veri seti için summary() fonksiyonunu kullanarak genel özeti elde ediniz.

summary(veri2)
##           ulke           yil       yasam_beklentisi kisi_bası_gelir   
##  Afghanistan:  12   Min.   :1952   Min.   :23.60    Min.   :   241.2  
##  Albania    :  12   1st Qu.:1966   1st Qu.:48.20    1st Qu.:  1202.1  
##  Algeria    :  12   Median :1980   Median :60.71    Median :  3531.8  
##  Angola     :  12   Mean   :1980   Mean   :59.47    Mean   :  7215.3  
##  Argentina  :  12   3rd Qu.:1993   3rd Qu.:70.85    3rd Qu.:  9325.5  
##  Australia  :  12   Max.   :2007   Max.   :82.60    Max.   :113523.1  
##  (Other)    :1632                                                     
##        kita    
##  Africa  :624  
##  Americas:300  
##  Asia    :396  
##  Europe  :360  
##  Oceania : 24  
##                
## 

2.b) Yaşam beklentisi değişkeninin ortalama, medyan ve ranj değerlerini açıklayınız.

mean(veri2$yasam_beklentisi)
## [1] 59.47444
median(veri2$yasam_beklentisi)
## [1] 60.7125
library(lsr)
## Warning: package 'lsr' was built under R version 4.5.2
modeOf(veri2$yasam_beklentisi)
## [1] 69.39

Soru 3 – Frekans ve Yüzde Tablosu

Not: Aşağıdaki soruları gapminder_tr veri setini kullanarak yanıtlayın.

3.a) Kıta (continent) değişkenine ait frekans tablosunu oluşturunuz.

3.b) Aynı değişken için yüzde (%) dağılımını hesaplayınız.

Soru 4 – Saçılım Diyagramı ve Korelasyon

4.a) Yaşam beklentisi (lifeExp) ile kişi başına düşen gelir (gdpPercap) arasındaki ilişkiyi gösteren bir saçılım diyagramı oluşturunuz. Eksen adlarını ve grafiğin başlığını ekleyiniz.

4.b) Bu iki değişken arasındaki korelasyon katsayısını hesaplayınız ve korelasyon katsayısını yorumlayınız.

Soru 5 – Basit Doğrusal Regresyon

5.a) Kişi başına düşen gelirin (gdpPercap), yaşam beklentisini (lifeExp) yordayıp yordamadığını test eden bir basit doğrusal regresyon modeli kurunuz.

#ggplot(gapminder,aes(x = kisi_basi_gelir, y = yasam_beklentisi)) + 
 # geom_point()+ 
  #labs(x = "kisi basi gelir", y = "yasam beklentisi",title = "kisi basi gelir ile yasam beklentisi"

5.b) Regresyon çıktısından aşağıdaki bilgileri bulunuz ve yorumlayınız:

  • eğim (β₁)

  • kesişim (β₀)

  • R-kare (R²)

coef(gapminder)
## Warning: Unknown or uninitialised column: `coefficients`.
## NULL

5.c) Yaşam beklentisi (yasam_beklentisi) ile kişi başına düşen gelir (kisi_basi_gelir) arasındaki ilişkiyi gösteren bir saçılım diyagramı oluşturunuz. Grafiğe uygun eksen adlarını ve bir başlık ekleyiniz. Bu grafiğin üzerine basit doğrusal regresyon çizgisini ekleyiniz.

#ggplot(gapminder,aes(x = yasam_beklentisi, y = kisi_basi-gelir)) + geom_point() + geom_smooth(method = "lm", se = FALSE, color = "red") + labs(x = #"Yaşam Beklentisi",y = "Kişi Başı Gelir", title = "Basit Doğrusal Regresyon Çizgisi")

Soru 6 - geom_jitter fonksiyonunun kullanım amacı nedir?