R Markdown
data("survey")
## Warning in data("survey"): data set 'survey' not found
library(MASS)
library(lsr)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following object is masked from 'package:MASS':
##
## select
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
names("survey")
## NULL
Soru 1: Bu veri setini etkinleştirerek Sex
(cinsiyet)“,”Age (yaş)“,”Pulse (nabiz)” ve
“Exer (egzersiz)”, “Height (boy)”,
“Smoke (sigara) değişkenlerini seçin. Seçtiğiniz bu
değişkenlerden oluşan veri setini veri_1 olarak
isimlendirin.
veri_1<-survey %>%
dplyr::select(Sex,Age,Smoke,Height,Exer,Pulse)
names(veri_1)
## [1] "Sex" "Age" "Smoke" "Height" "Exer" "Pulse"
Soru 1.1: veri_1 veri setindeki değişkenlerin
isimlerini Türkçeleştirin ve bu veri setini veri_2 olarak
isimlendirin.
veri_2<-veri_1 %>%
rename(yaş=Age,cinsiyet=Sex,sigara=Smoke,nabız=Pulse,egsersiz=Exer,boy=Height)
Soru 1.2: veri_2’nin ilk 10 satırını görüntüleyin.
head(veri_2,10)
## cinsiyet yaş sigara boy egsersiz nabız
## 1 Female 18.250 Never 173.00 Some 92
## 2 Male 17.583 Regul 177.80 None 104
## 3 Male 16.917 Occas NA None 87
## 4 Male 20.333 Never 160.00 None NA
## 5 Male 23.667 Never 165.00 Some 35
## 6 Female 21.000 Never 172.72 Some 64
## 7 Male 18.833 Never 182.88 Freq 83
## 8 Female 35.833 Never 157.00 Freq 74
## 9 Male 19.000 Never 175.00 Some 72
## 10 Male 22.333 Never 167.00 Some 90
Soru 2: veri_2 veri setindeki kategorik değişkenlerin
etiketlerini (örn. never, some, heavy) Türkçeleştirin ve bu veri setini
veri_3 olarak isimlendirin.
veri_3<-veri_2 %>%
mutate(
cinsiyet=recode(cinsiyet,
"Female"="Kadin",
"Male"="Erkek"),
egzersiz=recode(egsersiz,
"None"="Yok",
"Some"="Bazen",
"Freq"="Sık"),
sigara=recode(sigara,
"Never"="Hic",
"Occas"="Ara Sıra",
"Regul"="Düzenli",
"Heavy"="Fazla"))
Soru 3: veri_3 veri setindeki eksik değerleri
sorgulayın. Eksik değer varsa çıkarın ve gözlem sayısındaki farkı
açıklayın. Veri setinin son halini veri_son olarak isimlendirin.
any(is.na(veri_3))
## [1] TRUE
colSums(is.na(veri_3))
## cinsiyet yaş sigara boy egsersiz nabız egzersiz
## 1 0 1 28 0 45 0
veri_son<-na.omit(veri_3)
Soru 4: veri_son için yas, nabiz ve boy
değişkenlerinin
summary(veri_son[, c("yaş","nabız","boy")])
## yaş nabız boy
## Min. :16.92 Min. : 35.00 Min. :152.0
## 1st Qu.:17.67 1st Qu.: 66.25 1st Qu.:165.0
## Median :18.58 Median : 72.00 Median :171.0
## Mean :20.46 Mean : 73.92 Mean :172.5
## 3rd Qu.:20.17 3rd Qu.: 80.00 3rd Qu.:180.0
## Max. :70.42 Max. :104.00 Max. :200.0
Soru 4.1: Egzersiz sıklığına göre ortalama nabzı hesapladığınız bir
tablo oluşturun. Bu tablodaki değerlerin açıklamasını
yazın.
veri_son %>%
group_by(egsersiz) %>%
summarise(ortalama_nabız=round(mean(nabız),))
## # A tibble: 3 × 2
## egsersiz ortalama_nabız
## <fct> <dbl>
## 1 Freq 71
## 2 None 76
## 3 Some 77
Soru 4.2: veri_son için yas değişkenine ait mod, medyan
ve aritmetik ortalama değerlerini hesaplayın.
mean(veri_son$yaş)
## [1] 20.46377
median(veri_son$yaş)
## [1] 18.583
modeOf(veri_son$yaş)
## [1] 17.5
Soru 5: Günlük yaşamınızda veri toplayarak analiz etmek
isteyebileceğiniz bir durum düşünün (sosyal medya kullanım süresi, kahve
tüketimi, sınav kaygısı…). Bu durumu kısaca açıklayın.
Bu hafta vize sınavlarım olduğundan dolayı enerjik kalmam
gerektiğinden dolayı günde 4 adet kahve içtim ve bu gece uykularımın
bölünmesine sebep oldu. Ve bende bu konuda araştırma yapmak istedim.
Günlük hayatta fazla kahve içmediğimden dolayı ve stresli bir süreçten
geçtiğim için geceleri uykularımda kesintiler başladı.
Kimlerden veri toplayabilirim?
Bu konuda yalnızca kendimden veri toplayabileceğim gibi, daha geniş
örnekler için:
Üniversitedeki arkadaşlarımdan
Kardeşimin sınıfındaki öğrencilerden
Gündelik rutini benimkine benzeyen kişilerden örneğin okula giden
öğrencilerden
Veriyi tanıdığım bir gruptan toplamak daha kolay olurdu çünkü uyku
düzeni kişisel bir konu ama yine de paylaşması zor olmayan bir
bilgi.
Kişilerden hangi bilgileri almam anlamlı olur?
Uyku düzenini analiz etmek için aşağıdaki bilgiler işime yarar:
Geceleri kaç saat uyudukları
Uykuya dalma saatleri
Uyanma saatleri
Gün içindeki yorgunluk seviyesi (1–10 arası)
Kafein tüketimi
Günlük sosyal medya kullanım süresi (dakika,saat)
Bu bilgiler uyku düzeniyle günlük performans arasındaki ilişkiyi
anlamamda çok işime yarayacak.
Toplanacak bilgilere göre değişken türleri
Değişken Türü
Uyku süresi (saat) Uykuya dalma saati
Uyanma saati
Gün içi yorgunluk (1–10)
Kafein tüketimi Sosyal medya kullanım süresi Günlük verimlilik puanı
Frekans tablosu oluşturabileceğim üç değişken
Bu değişkenler kategorik olduğu için frekans tablosu oluşturmaya
uygundur:
Kafein tüketimi (Hiç / Az / Orta / Çok)
Uykuya dalma aralığı (Erken / Normal / Geç)
Gün içi yorgunluk kategorisi (Düşük / Orta / Yüksek)
Bu şekilde sınıflandırırdım.
Min, max, median, mean, mod, quartiles hesaplanabilecek üç
değişken
Bu değişkenler sayısal olduğu için merkezi eğilim ve dağılım ölçüleri
hesaplanabilir:
Uyku süresi (saat)
Sosyal medya kullanım süresi (dakika)
Kafein tüketimi (adet)
Bu değerleri hesaplayarak örneğin en çok kaç saat uyunmuş,ortalama
uyku süresi kaç, medyanın altında kaç kişi olduğunu öğrenmiş olurum.