R Markdown

data("survey")
## Warning in data("survey"): data set 'survey' not found
library(MASS)
library(lsr)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following object is masked from 'package:MASS':
## 
##     select
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
names("survey")
## NULL

Soru 1: Bu veri setini etkinleştirerek Sex (cinsiyet)“,”Age (yaş)“,”Pulse (nabiz)” ve “Exer (egzersiz)”, “Height (boy)”, “Smoke (sigara) değişkenlerini seçin. Seçtiğiniz bu değişkenlerden oluşan veri setini veri_1 olarak isimlendirin

veri_1<-survey %>% 
dplyr::select(Sex,Age,Smoke,Height,Exer,Pulse)

Soru 1.1: veri_1 veri setindeki değişkenlerin isimlerini Türkçeleştirin ve bu veri setini veri_2 olarak isimlendirin.

veri_2<-veri_1 %>% 
  rename(yas=Age,cinsiyet=Sex,sigara=Smoke,nabizz=Pulse,egzersiz=Exer,boy=Height)

Soru 1.2: veri_2’nin ilk 10 satırını görüntüleyin.

head(veri_2,10)
##    cinsiyet    yas sigara    boy egzersiz nabizz
## 1    Female 18.250  Never 173.00     Some     92
## 2      Male 17.583  Regul 177.80     None    104
## 3      Male 16.917  Occas     NA     None     87
## 4      Male 20.333  Never 160.00     None     NA
## 5      Male 23.667  Never 165.00     Some     35
## 6    Female 21.000  Never 172.72     Some     64
## 7      Male 18.833  Never 182.88     Freq     83
## 8    Female 35.833  Never 157.00     Freq     74
## 9      Male 19.000  Never 175.00     Some     72
## 10     Male 22.333  Never 167.00     Some     90

Soru 2: veri_2 veri setindeki kategorik değişkenlerin etiketlerini (örn. never, some, heavy) Türkçeleştirin ve bu veri setini veri_3 olarak isimlendirin.

veri_3<-veri_2 %>% 
  mutate(
    cinsiyet=recode(cinsiyet,
                    "Female"="Kadin",
                    "Male"="Erkek"),
    egzersiz=recode(egzersiz,
                    "None"="Yok",
                    "Some"="Bazen",
                    "Freq"="Sik"),
    sigara=recode(sigara,
                  "Never"="Hic",
                  "Occas"="Ara Sira",
                  "Regul"="Düzenli",
                  "Heavy"="Fazla"))

Soru 3: veri_3 veri setindeki eksik değerleri sorgulayın. Eksik değer varsa çıkarın ve gözlem sayısındaki farkı açıklayın. Veri setinin son halini veri_son olarak isimlendirin.

any(is.na(veri_3))
## [1] TRUE
colSums(is.na(veri_3))
## cinsiyet      yas   sigara      boy egzersiz   nabizz 
##        1        0        1       28        0       45
veri_son<-na.omit(veri_3)

Soru 4: veri_son için yas, nabiz ve boy değişkenlerinin değerlerini açıklayın

summary(veri_son[, c("yas","nabizz","boy")])
##       yas            nabizz            boy       
##  Min.   :16.92   Min.   : 35.00   Min.   :152.0  
##  1st Qu.:17.67   1st Qu.: 66.25   1st Qu.:165.0  
##  Median :18.58   Median : 72.00   Median :171.0  
##  Mean   :20.46   Mean   : 73.92   Mean   :172.5  
##  3rd Qu.:20.17   3rd Qu.: 80.00   3rd Qu.:180.0  
##  Max.   :70.42   Max.   :104.00   Max.   :200.0

Soru 4.1: Egzersiz sıklığına göre ortalama nabzı hesapladığınız bir tablo oluşturun. Bu tablodaki değerlerin açıklamasını yazın.

veri_son %>% 
  group_by(egzersiz) %>% 
  summarise(ortalama_nabizz=round(mean(nabizz),))
## # A tibble: 3 × 2
##   egzersiz ortalama_nabizz
##   <fct>              <dbl>
## 1 Sik                   71
## 2 Yok                   76
## 3 Bazen                 77

Soru 4.2: veri_son için yas değişkenine ait mod, medyan ve aritmetik ortalama değerlerini hesaplayın.

mean(veri_son$yas)
## [1] 20.46377
median(veri_son$yas)
## [1] 18.583
modeOf(veri_son$yas)
## [1] 17.5

Soru 5: Günlük yaşamınızda veri toplayarak analiz etmek isteyebileceğiniz bir durum düşünün (sosyal medya kullanım süresi, kahve tüketimi, sınav kaygısı…). Bu durumu kısaca açıklayın.

Okula gelirken benim veya herkesin başına gelebilecek olay durakta beklemektir.Bazen tam durağa gittiğimizde otobüs gözlerimizin önünden geçer.Bazen de durakta hiç beklememize bile gerek kalmaz.Bazen de tam bir telefon konuşması yapacakken murphy kanunları işler ve tam o anda beklediğimiz toplu taşıma aracı gelir.

Veri Toplama:

Peki kimlerden veri toplayabilirim:

Tabii ki toplu taşıma kullanan yolculardan

Hem yoğun olan duraklarda hem de daha sakin duraklarda bekleyen insanlardan

Farklı yaş ve meslek gruplarından yolcular, böylece farklı yaş ve meslek grubunda olan insanlar ne kadar durakta bekliyormuş bunu öğrenebilirim

Hangi bilgileri alabilirim:

  1. Bekleme süresi: İnsanların durakta ne kadar beklediğini bilmek ana bilgimiz olur.

  2. Toplu taşıma türü: İnsanların otobüs, metro veya minibüs gibi araçlardan hangilerini beklediğini bilmemiz elimizdeki ana bilgimiz olur.

  3. Bekleme zamanı: Sabah işe giderken mi yoksa akşam işten çıkarken mi beklediklerini bilmemiz faydalı bir bilgi olur.

  4. Durak yoğunluğu: Durakta ne kadar insan olduğuna bakmamız da faydalı bir bilgi olur.

  5. Günlük kullanım sıklığı: İnsanların ne sıklıkla toplu taşıma kullanması da daha yararlı bir bilgi olur.

Değişken Türleri:

  1. Bekleme süresi

  2. Toplu taşıma türü (otobüs, metro, tramvay gibi).

  3. Bekleme zamanı: (sabah < öğle < akşam).

  4. Durak yoğunluğu: (yoğun > orta > sakin).

  5. Günlük kullanım sıklığı: (günde kaç kez biniyor).

Frekans Tablosu Oluşturabileceğimiz Üç Tane Değişken Türü:

Toplu taşıma türü → Hangi aracın ne kadar tercih edildiğini görmemiz için

Bekleme zamanı → Yoğun saatlerde bekleme süresini anlamamız için

Durak yoğunluğu → Kalabalık durakların bekleme süresine etkisini görmemiz için

Hesaplamalar Yapabileceğimiz Değişkenler:

Bekleme süresi → Min, max, medyan, ortalama, çeyrekler ve mod hesaplayabiliriz.

Günlük toplu taşıma kullanımı → İnsanların kullanım sıklığını sayısal olarak anlayabiriz.

Belirli bir gün veya haftadaki ortalama bekleme süresi → Haftalık veya günlük ortalamalar çıkararak genel bir değerlendirme yapabiliriz.