R Markdown

data("survey")
## Warning in data("survey"): data set 'survey' not found
library(MASS)
library(lsr)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following object is masked from 'package:MASS':
## 
##     select
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
names("survey")
## NULL

Soru 1: Bu veri setini etkinleştirerek Sex (cinsiyet)“,”Age (yaş)“,”Pulse (nabiz)” ve “Exer (egzersiz)”, “Height (boy)”, “Smoke (sigara) değişkenlerini seçin. Seçtiğiniz bu değişkenlerden oluşan veri setini veri_1 olarak isimlendirin.

veri_1<-survey %>% 
dplyr::select(Sex,Age,Smoke,Height,Exer,Pulse)
names(veri_1)
## [1] "Sex"    "Age"    "Smoke"  "Height" "Exer"   "Pulse"

Soru 1.1: veri_1 veri setindeki değişkenlerin isimlerini Türkçeleştirin ve bu veri setini veri_2 olarak isimlendirin.

veri_2<-veri_1 %>% 
  rename(yaş=Age,cinsiyet=Sex,sigara=Smoke,nabız=Pulse,egsersiz=Exer,boy=Height)

Soru 1.2: veri_2’nin ilk 10 satırını görüntüleyin.

head(veri_2,10)
##    cinsiyet    yaş sigara    boy egsersiz nabız
## 1    Female 18.250  Never 173.00     Some    92
## 2      Male 17.583  Regul 177.80     None   104
## 3      Male 16.917  Occas     NA     None    87
## 4      Male 20.333  Never 160.00     None    NA
## 5      Male 23.667  Never 165.00     Some    35
## 6    Female 21.000  Never 172.72     Some    64
## 7      Male 18.833  Never 182.88     Freq    83
## 8    Female 35.833  Never 157.00     Freq    74
## 9      Male 19.000  Never 175.00     Some    72
## 10     Male 22.333  Never 167.00     Some    90

Soru 2: veri_2 veri setindeki kategorik değişkenlerin etiketlerini (örn. never, some, heavy) Türkçeleştirin ve bu veri setini veri_3 olarak isimlendirin.

veri_3<-veri_2 %>% 
  mutate(
    cinsiyet=recode(cinsiyet,
      "Female"="Kadin",
      "Male"="Erkek"),
      egzersiz=recode(egsersiz,
        "None"="Yok",
        "Some"="Bazen",
        "Freq"="Sık"),
        sigara=recode(sigara,
          "Never"="Hic",
          "Occas"="Ara Sıra",
          "Regul"="Düzenli",
          "Heavy"="Fazla"))

Soru 3: veri_3 veri setindeki eksik değerleri sorgulayın. Eksik değer varsa çıkarın ve gözlem sayısındaki farkı açıklayın. Veri setinin son halini veri_son olarak isimlendirin.

any(is.na(veri_3))
## [1] TRUE
colSums(is.na(veri_3))
## cinsiyet      yaş   sigara      boy egsersiz    nabız egzersiz 
##        1        0        1       28        0       45        0
veri_son<-na.omit(veri_3)

Soru 4: veri_son için yas, nabiz ve boy değişkenlerinin

summary(veri_son[, c("yaş","nabız","boy")])
##       yaş            nabız             boy       
##  Min.   :16.92   Min.   : 35.00   Min.   :152.0  
##  1st Qu.:17.67   1st Qu.: 66.25   1st Qu.:165.0  
##  Median :18.58   Median : 72.00   Median :171.0  
##  Mean   :20.46   Mean   : 73.92   Mean   :172.5  
##  3rd Qu.:20.17   3rd Qu.: 80.00   3rd Qu.:180.0  
##  Max.   :70.42   Max.   :104.00   Max.   :200.0

Soru 4.1: Egzersiz sıklığına göre ortalama nabzı hesapladığınız bir tablo oluşturun. Bu tablodaki değerlerin açıklamasını yazın.

veri_son %>% 
  group_by(egsersiz) %>% 
  summarise(ortalama_nabız=round(mean(nabız),))
## # A tibble: 3 × 2
##   egsersiz ortalama_nabız
##   <fct>             <dbl>
## 1 Freq                 71
## 2 None                 76
## 3 Some                 77

Soru 4.2: veri_son için yas değişkenine ait mod, medyan ve aritmetik ortalama değerlerini hesaplayın.

mean(veri_son$yaş)
## [1] 20.46377
median(veri_son$yaş)
## [1] 18.583
modeOf(veri_son$yaş)
## [1] 17.5

Soru 5: Günlük yaşamınızda veri toplayarak analiz etmek isteyebileceğiniz bir durum düşünün (sosyal medya kullanım süresi, kahve tüketimi, sınav kaygısı…). Bu durumu kısaca açıklayın.

Bu hafta vize sınavlarım olduğundan dolayı enerjik kalmam gerektiğinden dolayı günde 4 adet kahve içtim ve bu gece uykularımın bölünmesine sebep oldu. Ve bende bu konuda araştırma yapmak istedim. Günlük hayatta fazla kahve içmediğimden dolayı ve stresli bir süreçten geçtiğim için geceleri uykularımda kesintiler başladı.

Kimlerden veri toplayabilirim?

Bu konuda yalnızca kendimden veri toplayabileceğim gibi, daha geniş örnekler için:

Üniversitedeki arkadaşlarımdan

Kardeşimin sınıfındaki öğrencilerden

Gündelik rutini benimkine benzeyen kişilerden örneğin okula giden öğrencilerden

Veriyi tanıdığım bir gruptan toplamak daha kolay olurdu çünkü uyku düzeni kişisel bir konu ama yine de paylaşması zor olmayan bir bilgi.

Kişilerden hangi bilgileri almam anlamlı olur?

Uyku düzenini analiz etmek için aşağıdaki bilgiler işime yarar:

Geceleri kaç saat uyudukları

Uykuya dalma saatleri

Uyanma saatleri

Gün içindeki yorgunluk seviyesi (1–10 arası)

Kafein tüketimi

Günlük sosyal medya kullanım süresi (dakika,saat)

Bu bilgiler uyku düzeniyle günlük performans arasındaki ilişkiyi anlamamda çok işime yarayacak.

Toplanacak bilgilere göre değişken türleri

Değişken Türü

Uyku süresi (saat) Uykuya dalma saati
Uyanma saati
Gün içi yorgunluk (1–10)
Kafein tüketimi Sosyal medya kullanım süresi Günlük verimlilik puanı

Frekans tablosu oluşturabileceğim üç değişken

Bu değişkenler kategorik olduğu için frekans tablosu oluşturmaya uygundur:

  1. Kafein tüketimi (Hiç / Az / Orta / Çok)

  2. Uykuya dalma aralığı (Erken / Normal / Geç)

  3. Gün içi yorgunluk kategorisi (Düşük / Orta / Yüksek)

Bu şekilde sınıflandırırdım.

Min, max, median, mean, mod, quartiles hesaplanabilecek üç değişken

Bu değişkenler sayısal olduğu için merkezi eğilim ve dağılım ölçüleri hesaplanabilir:

  1. Uyku süresi (saat)

  2. Sosyal medya kullanım süresi (dakika)

  3. Kafein tüketimi (adet)

Bu değerleri hesaplayarak örneğin en çok kaç saat uyunmuş,ortalama uyku süresi kaç, medyanın altında kaç kişi olduğunu öğrenmiş olurum.