R Markdown
data("survey")
## Warning in data("survey"): data set 'survey' not found
library(MASS)
library(lsr)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following object is masked from 'package:MASS':
##
## select
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
names("survey")
## NULL
Soru 1: Bu veri setini etkinleştirerek Sex (cinsiyet)“,”Age
(yaş)“,”Pulse (nabiz)” ve “Exer (egzersiz)”, “Height (boy)”, “Smoke
(sigara) değişkenlerini seçin. Seçtiğiniz bu değişkenlerden oluşan veri
setini veri_1 olarak isimlendirin
veri_1<-survey %>%
dplyr::select(Sex,Age,Smoke,Height,Exer,Pulse)
Soru 1.1: veri_1 veri setindeki değişkenlerin isimlerini
Türkçeleştirin ve bu veri setini veri_2 olarak isimlendirin.
veri_2<-veri_1 %>%
rename(yas=Age,cinsiyet=Sex,sigara=Smoke,nabizz=Pulse,egzersiz=Exer,boy=Height)
Soru 1.2: veri_2’nin ilk 10 satırını görüntüleyin.
head(veri_2,10)
## cinsiyet yas sigara boy egzersiz nabizz
## 1 Female 18.250 Never 173.00 Some 92
## 2 Male 17.583 Regul 177.80 None 104
## 3 Male 16.917 Occas NA None 87
## 4 Male 20.333 Never 160.00 None NA
## 5 Male 23.667 Never 165.00 Some 35
## 6 Female 21.000 Never 172.72 Some 64
## 7 Male 18.833 Never 182.88 Freq 83
## 8 Female 35.833 Never 157.00 Freq 74
## 9 Male 19.000 Never 175.00 Some 72
## 10 Male 22.333 Never 167.00 Some 90
Soru 2: veri_2 veri setindeki kategorik değişkenlerin etiketlerini
(örn. never, some, heavy) Türkçeleştirin ve bu veri setini veri_3 olarak
isimlendirin.
veri_3<-veri_2 %>%
mutate(
cinsiyet=recode(cinsiyet,
"Female"="Kadin",
"Male"="Erkek"),
egzersiz=recode(egzersiz,
"None"="Yok",
"Some"="Bazen",
"Freq"="Sik"),
sigara=recode(sigara,
"Never"="Hic",
"Occas"="Ara Sira",
"Regul"="Düzenli",
"Heavy"="Fazla"))
Soru 3: veri_3 veri setindeki eksik değerleri sorgulayın. Eksik
değer varsa çıkarın ve gözlem sayısındaki farkı açıklayın. Veri setinin
son halini veri_son olarak isimlendirin.
any(is.na(veri_3))
## [1] TRUE
colSums(is.na(veri_3))
## cinsiyet yas sigara boy egzersiz nabizz
## 1 0 1 28 0 45
veri_son<-na.omit(veri_3)
Soru 4: veri_son için yas, nabiz ve boy değişkenlerinin değerlerini
açıklayın
summary(veri_son[, c("yas","nabizz","boy")])
## yas nabizz boy
## Min. :16.92 Min. : 35.00 Min. :152.0
## 1st Qu.:17.67 1st Qu.: 66.25 1st Qu.:165.0
## Median :18.58 Median : 72.00 Median :171.0
## Mean :20.46 Mean : 73.92 Mean :172.5
## 3rd Qu.:20.17 3rd Qu.: 80.00 3rd Qu.:180.0
## Max. :70.42 Max. :104.00 Max. :200.0
Soru 4.1: Egzersiz sıklığına göre ortalama nabzı hesapladığınız bir
tablo oluşturun. Bu tablodaki değerlerin açıklamasını
yazın.
veri_son %>%
group_by(egzersiz) %>%
summarise(ortalama_nabizz=round(mean(nabizz),))
## # A tibble: 3 × 2
## egzersiz ortalama_nabizz
## <fct> <dbl>
## 1 Sik 71
## 2 Yok 76
## 3 Bazen 77
Soru 4.2: veri_son için yas değişkenine ait mod, medyan ve aritmetik
ortalama değerlerini hesaplayın.
mean(veri_son$yas)
## [1] 20.46377
median(veri_son$yas)
## [1] 18.583
modeOf(veri_son$yas)
## [1] 17.5
Soru 5: Günlük yaşamınızda veri toplayarak analiz etmek
isteyebileceğiniz bir durum düşünün (sosyal medya kullanım süresi, kahve
tüketimi, sınav kaygısı…). Bu durumu kısaca açıklayın.
Okula gelirken benim veya herkesin başına gelebilecek olay durakta
beklemektir.Bazen tam durağa gittiğimizde otobüs gözlerimizin önünden
geçer.Bazen de durakta hiç beklememize bile gerek kalmaz.Bazen de tam
bir telefon konuşması yapacakken murphy kanunları işler ve tam o anda
beklediğimiz toplu taşıma aracı gelir.
Veri Toplama:
Peki kimlerden veri toplayabilirim:
Tabii ki toplu taşıma kullanan yolculardan
Hem yoğun olan duraklarda hem de daha sakin duraklarda bekleyen
insanlardan
Farklı yaş ve meslek gruplarından yolcular, böylece farklı yaş ve
meslek grubunda olan insanlar ne kadar durakta bekliyormuş bunu
öğrenebilirim
Hangi bilgileri alabilirim:
Bekleme süresi: İnsanların durakta ne kadar beklediğini bilmek
ana bilgimiz olur.
Toplu taşıma türü: İnsanların otobüs, metro veya minibüs gibi
araçlardan hangilerini beklediğini bilmemiz elimizdeki ana bilgimiz
olur.
Bekleme zamanı: Sabah işe giderken mi yoksa akşam işten çıkarken
mi beklediklerini bilmemiz faydalı bir bilgi olur.
Durak yoğunluğu: Durakta ne kadar insan olduğuna bakmamız da
faydalı bir bilgi olur.
Günlük kullanım sıklığı: İnsanların ne sıklıkla toplu taşıma
kullanması da daha yararlı bir bilgi olur.
Değişken Türleri:
Bekleme süresi
Toplu taşıma türü (otobüs, metro, tramvay gibi).
Bekleme zamanı: (sabah < öğle < akşam).
Durak yoğunluğu: (yoğun > orta > sakin).
Günlük kullanım sıklığı: (günde kaç kez biniyor).
Frekans Tablosu Oluşturabileceğimiz Üç Tane Değişken Türü:
Toplu taşıma türü → Hangi aracın ne kadar tercih edildiğini görmemiz
için
Bekleme zamanı → Yoğun saatlerde bekleme süresini anlamamız için
Durak yoğunluğu → Kalabalık durakların bekleme süresine etkisini
görmemiz için
Hesaplamalar Yapabileceğimiz Değişkenler:
Bekleme süresi → Min, max, medyan, ortalama, çeyrekler ve mod
hesaplayabiliriz.
Günlük toplu taşıma kullanımı → İnsanların kullanım sıklığını sayısal
olarak anlayabiriz.
Belirli bir gün veya haftadaki ortalama bekleme süresi → Haftalık
veya günlük ortalamalar çıkararak genel bir değerlendirme
yapabiliriz.