SSB 201 – Sosyal Bilimler İçin İstatistik I

Final Sınavı

library(MASS)
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.5.2
## 
## Attaching package: 'dplyr'
## The following object is masked from 'package:MASS':
## 
##     select
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(ggplot2)

Soru 1 – Veri Setini İnceleme ve Düzenleme

1.a) Boston veri setindeki değişken isimlerini ve veri türlerini inceleyiniz.

data("Boston")

1.b) Aşağıdaki değişkenleri seçerek boston_tr isimli yeni bir veri seti oluşturunuz:

  • konut_degeri (medv)
  • oda_sayisi (rm)
  • dusuk_sosyoek (lstat)
  • nehir_kenari (chas)
  • emlak_vergisi (tax)
boston_tr <- Boston %>% dplyr::select(medv,rm,lstat,chas,tax)

1.c) Bu yeni veri setindeki değişken adlarını Türkçeleştiriniz ve boston_tr üzerine kaydediniz.

boston2 <- boston_tr %>%  rename( konut_degeri=medv,
                                  oda_sayisi=rm,
                                  dusuk_sosyoek=lstat,
                                  nehir_kenari=chas,
                                  emlak_vergisi=tax)
names(boston2)
## [1] "konut_degeri"  "oda_sayisi"    "dusuk_sosyoek" "nehir_kenari" 
## [5] "emlak_vergisi"

Soru 2 – Betimsel İstatistikler

2.a) boston_tr veri seti için summary() fonksiyonunu kullanarak genel özeti elde ediniz.

summary(boston2)
##   konut_degeri     oda_sayisi    dusuk_sosyoek    nehir_kenari    
##  Min.   : 5.00   Min.   :3.561   Min.   : 1.73   Min.   :0.00000  
##  1st Qu.:17.02   1st Qu.:5.886   1st Qu.: 6.95   1st Qu.:0.00000  
##  Median :21.20   Median :6.208   Median :11.36   Median :0.00000  
##  Mean   :22.53   Mean   :6.285   Mean   :12.65   Mean   :0.06917  
##  3rd Qu.:25.00   3rd Qu.:6.623   3rd Qu.:16.95   3rd Qu.:0.00000  
##  Max.   :50.00   Max.   :8.780   Max.   :37.97   Max.   :1.00000  
##  emlak_vergisi  
##  Min.   :187.0  
##  1st Qu.:279.0  
##  Median :330.0  
##  Mean   :408.2  
##  3rd Qu.:666.0  
##  Max.   :711.0

2.b) Konut değeri değişkeninin ortalama, medyan ve ranj değerlerini açıklayınız.

median(boston2$konut_degeri)
## [1] 21.2
range(boston2$konut_degeri)
## [1]  5 50
mean(boston2$konut_degeri)
## [1] 22.53281
##Oluşturduğum tabloda boston2 adlı veri tabanımdaki konut değerinin medyanı 21.2, ranjı 5 50 ve ortalaması 22.53281 dir.

Soru 3 – Frekans ve Yüzde Tablosu

Not: Aşağıdaki soruları boston_tr veri setini kullanarak yanıtlayın.

3.a) Nehir kenarı (chas) değişkenine ait frekans tablosunu oluşturunuz.

table(boston2$nehir_kenari)
## 
##   0   1 
## 471  35

3.b) Aynı değişken için yüzde (%) dağılımını hesaplayınız.

prop.table(table(boston2$nehir_kenari))*100
## 
##         0         1 
## 93.083004  6.916996

Soru 4 – Saçılım Diyagramı ve Korelasyon

4.a) Oda sayısı (rm) ile konut değeri (medv) arasındaki ilişkiyi gösteren bir saçılım diyagramı oluşturunuz. Eksen adlarını ve grafiğin başlığını ekleyiniz.

 ggplot(data=boston2,
       aes(x=oda_sayisi, y=konut_degeri)
)+
  geom_point()+
  labs(
  x="oda_sayisi",
       y="konut_degeri",
       title="Oda Sayısı ile Konut Değeri Arasındaki İlişki"
)

4.b) Bu iki değişken arasındaki korelasyon katsayısını hesaplayınız ve korelasyon katsayısını yorumlayınız.

cor(
  boston2$oda_sayisi,
  boston2$konut_degeri,
  use = "pairwise.complete.obs"
)
## [1] 0.6953599
### Oda sayısı ile konut değeri değişkenlerinin aralarındaki korelasyon katsayısı 0.6953599 dur. Bu pozitif korelasyon olduğundan, aralarındaki ilişki şöyle açıklanabilir:
### konut sayısı artışı oldukça, oda sayısı artışı da olur.

Soru 5 – Basit Doğrusal Regresyon

5.a) Oda sayısı değişkeninin konut değeri değişkenini yordayıp yordamadığını test eden bir basit doğrusal regresyon modeli kurunuz.

5.b) Regresyon çıktısından aşağıdaki bilgileri bulunuz ve yorumlayınız:

  • eğim (β₁)

  • kesişim (β₀)

  • R-kare (R²)

5.c) Oda sayısı (oda_sayisi) ile konut değeri (konut_degeri) arasındaki ilişkiyi gösteren bir saçılım diyagramı oluşturunuz. Grafiğe uygun eksen adlarını ve bir başlık ekleyiniz. Bu grafiğin üzerine basit doğrusal regresyon çizgisini ekleyiniz.

Soru 6 - geom_jitter fonksiyonunun kullanım amacı nedir?

geom_jitter(data = boston2,
            aes(x=oda_sayisi, y=konut_degeri)
)
## mapping: x = ~oda_sayisi, y = ~konut_degeri 
## geom_point: na.rm = FALSE
## stat_identity: na.rm = FALSE
## position_jitter
### üst üste binen noktaların aşağı yukarı gitmesini sağlar..