library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(MASS)
##
## Attaching package: 'MASS'
## The following object is masked from 'package:dplyr':
##
## select
library(survey)
## Zorunlu paket yükleniyor: grid
## Zorunlu paket yükleniyor: Matrix
## Zorunlu paket yükleniyor: survival
##
## Attaching package: 'survey'
## The following object is masked from 'package:graphics':
##
## dotchart
library(lsr)
data(survey)
veri_1 <- survey %>% dplyr::select(Sex,Age,Pulse,Exer,Height,Smoke)
head(veri_1)
## Sex Age Pulse Exer Height Smoke
## 1 Female 18.250 92 Some 173.00 Never
## 2 Male 17.583 104 None 177.80 Regul
## 3 Male 16.917 87 None NA Occas
## 4 Male 20.333 NA None 160.00 Never
## 5 Male 23.667 35 Some 165.00 Never
## 6 Female 21.000 64 Some 172.72 Never
veri_2<-veri_1 %>% rename(cinsiyet=Sex,yas=Age,boy=Height,sigara=Smoke,egzersiz=Exer,nabiz=Pulse)
head(veri_2)
## cinsiyet yas nabiz egzersiz boy sigara
## 1 Female 18.250 92 Some 173.00 Never
## 2 Male 17.583 104 None 177.80 Regul
## 3 Male 16.917 87 None NA Occas
## 4 Male 20.333 NA None 160.00 Never
## 5 Male 23.667 35 Some 165.00 Never
## 6 Female 21.000 64 Some 172.72 Never
head(veri_2,10)
## cinsiyet yas nabiz egzersiz boy sigara
## 1 Female 18.250 92 Some 173.00 Never
## 2 Male 17.583 104 None 177.80 Regul
## 3 Male 16.917 87 None NA Occas
## 4 Male 20.333 NA None 160.00 Never
## 5 Male 23.667 35 Some 165.00 Never
## 6 Female 21.000 64 Some 172.72 Never
## 7 Male 18.833 83 Freq 182.88 Never
## 8 Female 35.833 74 Freq 157.00 Never
## 9 Male 19.000 72 Some 175.00 Never
## 10 Male 22.333 90 Some 167.00 Never
veri_3 <- veri_2 %>%
mutate(
cinsiyet = recode(cinsiyet,
"Female" = "kadın",
"Male" = "erkek"),
egzersiz = recode(egzersiz,
"None" = "yok",
"Some" = "bazen",
"Freq" = "sık"),
sigara = recode(sigara,
"Never" = "hic",
"Occas" = "ara sıra",
"Regul" = "duzenli",
"Heavy" = "fazla")
)
head(veri_3)
## cinsiyet yas nabiz egzersiz boy sigara
## 1 kadın 18.250 92 bazen 173.00 hic
## 2 erkek 17.583 104 yok 177.80 duzenli
## 3 erkek 16.917 87 yok NA ara sıra
## 4 erkek 20.333 NA yok 160.00 hic
## 5 erkek 23.667 35 bazen 165.00 hic
## 6 kadın 21.000 64 bazen 172.72 hic
any(is.na(veri_3))
## [1] TRUE
colSums(is.na(veri_3))
## cinsiyet yas nabiz egzersiz boy sigara
## 1 0 45 0 28 1
Yukarıda gördüğünüz gibi cinsiyet değişkeninde 1 kayıp veri, nabızda
45, boyda 28 ve sigara değişkeninde 1 kayıp ver bulunmaktadır. Yaş ve
egzersiz değişkenlerinde kayıp veri bulunmaktadır.
veri_son<-na.omit(veri_3)
summary(veri_son)
## cinsiyet yas nabiz egzersiz boy
## kadın:85 Min. :16.92 Min. : 35.00 sık :86 Min. :152.0
## erkek:85 1st Qu.:17.67 1st Qu.: 66.25 yok :14 1st Qu.:165.0
## Median :18.58 Median : 72.00 bazen:70 Median :171.0
## Mean :20.46 Mean : 73.92 Mean :172.5
## 3rd Qu.:20.17 3rd Qu.: 80.00 3rd Qu.:180.0
## Max. :70.42 Max. :104.00 Max. :200.0
## sigara
## fazla : 7
## hic :136
## ara sıra: 13
## duzenli : 14
##
##
Değerleri incelediğimizde; Yaş için olan tablodaki minimum değer
16.92, maximum değer 70.42 ve ortalama değer ise 20.46’dır. Yaş için
maximum değer ortalama değerin çok üzerindedir. Nabız için değerleri
incelediğimizde tabloda minimum değer 35.00, maximum değer 104.00 ve
ortalama değer 73.92’dir. Boy için olan değerleri incelediğimizde ise
minimum değer 152.0 cm, maximum değer 200.0 cm ve ortalama değer ise
172.5 cm’dir. Nabız ve boy değerlerinin minimum ve maximum değerleri,
yaş değerlerine göre ortalamaya daha yakındır.
veri_son %>%
group_by(egzersiz) %>%
summarise(ortalama_nabiz = mean(nabiz))
## # A tibble: 3 × 2
## egzersiz ortalama_nabiz
## <fct> <dbl>
## 1 sık 71.4
## 2 yok 75.9
## 3 bazen 76.6
Sık egzersiz yapanların ortalama nabzı 71.4 seviyesi ile en düşük
değerdedir. Egzersiz yapmayanların ortalama nabızları ise 75.8
değerindedir. Ara sıra egzersiz yapanların ortalama nabızları ise 76.5
seviyesinde olup en yüksek değere sahiptir.
mean(veri_son$yas)
## [1] 20.46377
median(veri_son$yas)
## [1] 18.583
modeOf(veri_son$yas)
## [1] 17.5
Ben günlük hayatımda kahve içmeyi seven biriyim ve bu konu hakkında
veri toplayıp bunu analiz etmek isterim. Günlük hayatın koşturmacasında,
uykumuzu alamadığımız günlerde ve benim gibi sınav haftasında, uyku
açmak ve odaklanmayı sağlamak için ders çalışırken kahve içen
öğrencilere baktığımızda kahve içmek bazı durumlarda çok kurtarıcı
olabiliyor. Bu sebeple veri toplayacağım kişiler iş insanları ve
öğrenciler olurdu. Veri toplayacağım kişilerden hangi bilgileri almamın
anlamlı olacağına da onlara; saat kaçta kalktıklarını, gece saat kaçta
uyuduklarını, gün içinde kaç saat çalıştıklarını ve gün içinde kaç tane
sınava gireceklerini sorarak bu bilgilere ulaşmaya çalışırdım. Toplamış
olduğum bilgiler kapsamında ise kişilerin işte kaç saat çalıştıkları,
kaç saat ders çalıştıkları, uyku süreleri ve aldıkları kahve/kafein
miktarı göz önünde bulunduracağım değişken türleri olurdu. Frekans
tablosu çıkarmak istediğimde ise verilere bakarak; kişilerin kaç saat
çalıştıklarına (örn:8-10 saat), uyku sürelerine (örn:6-8 saat),yorgunluk
seviyelerine (örn:1’den 10’a kadar) ve kahve içme miktarlarına (örn:2-3
bardak) bakarak rahatlıkla bir frekans tablosu oluşturabilirim.
Topladığımız verilere bakarak ise bu verilerin minimum, maximum,
quarters, mod, median, mean değerlerini hesaplamak için yine kişilerin
çalışma saatleri, uyku saatleri, yorgunluk seviyeleri ve kahve içme
miktarlarını kullanarak bu değerlerle değişken hesaplaması yapabiliriz.
Toplamış olduğum verilere bakarak ise kahve içmeyi tercih eden kişilerin
hangi durumlarda kahveyi daha çok içtiklerini öğrenebilirim.