library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(lsr)
library(MASS)
##
## Attaching package: 'MASS'
## The following object is masked from 'package:dplyr':
##
## select
data(survey)
names(survey)
## [1] "Sex" "Wr.Hnd" "NW.Hnd" "W.Hnd" "Fold" "Pulse" "Clap" "Exer"
## [9] "Smoke" "Height" "M.I" "Age"
veri_1 <- survey %>% dplyr :: select(Sex, Pulse , Age, Exer, Height, Smoke)
veri_2 <- veri_1 %>% rename(cinsiyet=Sex, nabiz=Pulse, yas=Age, egzersiz=Exer, boy=Height,sigara=Smoke)
head(veri_2,10)
## cinsiyet nabiz yas egzersiz boy sigara
## 1 Female 92 18.250 Some 173.00 Never
## 2 Male 104 17.583 None 177.80 Regul
## 3 Male 87 16.917 None NA Occas
## 4 Male NA 20.333 None 160.00 Never
## 5 Male 35 23.667 Some 165.00 Never
## 6 Female 64 21.000 Some 172.72 Never
## 7 Male 83 18.833 Freq 182.88 Never
## 8 Female 74 35.833 Freq 157.00 Never
## 9 Male 72 19.000 Some 175.00 Never
## 10 Male 90 22.333 Some 167.00 Never
veri_3 <- veri_2 %>%
mutate(
cinsiyet = recode(cinsiyet,
"Female" = "Kadin",
"Male" = "Erkek"),
egzersiz = recode(egzersiz,
"None" = "Yok",
"Some" = "Bazen",
"Freq" = "Siklikla"),
sigara = recode(sigara,
"Never" = "Asla",
"Regul" = "Duzenli",
"Occas" = "Ara sira",
"Heavy" = "Fazla")
)
any(is.na(veri_3))
## [1] TRUE
colSums(is.na(veri_3))
## cinsiyet nabiz yas egzersiz boy sigara
## 1 45 0 0 28 1
veri_son <- na.omit(veri_3)
ilk_sayi <- nrow(veri_3)
son_sayi <- nrow(veri_son)
fark <- ilk_sayi - son_sayi
print(paste("Baslangictaki gozlem sayisi:", ilk_sayi))
## [1] "Baslangictaki gozlem sayisi: 237"
print(paste("Temizlendikten sonraki gozlem sayisi:", son_sayi))
## [1] "Temizlendikten sonraki gozlem sayisi: 170"
print(paste("Silinen eksik verili satir sayisi:", fark))
## [1] "Silinen eksik verili satir sayisi: 67"
veri_3 Setinde yapmış olduğum sorgulama sonucunda, eksik değerler
(NA) tespit ettim. Başlangıçta 237 olan gözlem sayısı, bu işlem
sonucunda 170’e düştü. Aradaki fark olan 67 gözlem, eksik veri içerdiği
için analiz dışı bırakıldı ve veri setinin temizlenmiş halini veri_son
olarak kaydettim.
summary(veri_son)
## cinsiyet nabiz yas egzersiz boy
## Kadin:85 Min. : 35.00 Min. :16.92 Siklikla:86 Min. :152.0
## Erkek:85 1st Qu.: 66.25 1st Qu.:17.67 Yok :14 1st Qu.:165.0
## Median : 72.00 Median :18.58 Bazen :70 Median :171.0
## Mean : 73.92 Mean :20.46 Mean :172.5
## 3rd Qu.: 80.00 3rd Qu.:20.17 3rd Qu.:180.0
## Max. :104.00 Max. :70.42 Max. :200.0
## sigara
## Fazla : 7
## Asla :136
## Ara sira: 13
## Duzenli : 14
##
##
Katılımcıların yaşları 16.92 (Min) ile 70.42 (Max) arasında
değişmektedir.Yaş ortalaması (Mean) 20.46, medyan (ortanca) değeri ise
18.58’dir.Katılımcıların %25’i 17.67 yaşından küçüktür (1st Qu.), %75’i
ise 20.17 yaşının altındadır (3rd Qu.). Öğrencilerin dinlenik nabız
değerleri en düşük 35 (Min), en yüksek 104 (Max) olarak ölçülmüştür.
Ortalama nabız 73.92 iken, medyan değeri 72.00’dir. Verinin merkezdeki
%50’lik kısmı (Interquartile range), 66.25 (1. Çeyrek) ile 80.00 (3.
Çeyrek) arasındadır. Boy uzunlukları 152 cm (Min) ile 200 cm (Max)
arasındadır. Ortalama boy 172.5 cm, medyan boy ise 171.0 cm’dir.
veri_son %>%
group_by(egzersiz) %>%
summarise(ortalama_nabiz = round(mean(nabiz), 2))
## # A tibble: 3 × 2
## egzersiz ortalama_nabiz
## <fct> <dbl>
## 1 Siklikla 71.4
## 2 Yok 75.9
## 3 Bazen 76.6
Bu tabloya göre sıklıkla egzersiz yapanlarda ortalama nabız 71.43
iken, bazen yapanlarda 76.59, hiç yapmayanlarda ise 75.86 dır.
mean(veri_son$yas)
## [1] 20.46377
median(veri_son$yas)
## [1] 18.583
modeOf(veri_son$yas)
## [1] 17.5
İlişkisi olan erkeklerin aylık gelir düzeyleri (maddi durumları) ile
partnerlerine aldıkları hediyelerin maddi değeri ve niteliği arasındaki
ilişkiyi incelemek istiyorum. Amacım, gelir seviyesi arttıkça hediye
harcamasının doğru orantılı artıp artmadığını veya hediye tercihinin
değişip değişmediğini analiz etmektir.
Bu durumla ilgili kimlerden veri toplanabilir: Çevremdeki üniversite
öğrencileri, iş arkadaşlarım ve sosyal medya üzerinden ulaşabileceğim,
şu an aktif bir ilişkisi olan 18-40 yaş arası erkeklerden veri
toplayabilirim.
Hangi bilgileri almak anlamlı olur ve Değişken Türleri: Veri
topladığım kişilerden aşağıdaki bilgileri almak analiz için anlamlı
olacaktır:
Aylık Ortalama Gelir: (Örn: 30.000 TL) -> Sayısal
(Sürekli/Oransal)
Son Alınan Hediyenin Fiyatı: (Örn: 2.500 TL) -> Sayısal
(Sürekli/Oransal)
Hediye Türü: (Örn: Çiçek, Teknoloji, Kıyafet, Takı) -> Kategorik
(Nominal)
Hediye Alma Sıklığı: (Örn: Ayda bir, Sadece özel günlerde, Haftada
bir) -> Kategorik (Sıralı/Ordinal)
İlişki Süresi (Ay cinsinden): (Örn: 12 ay) -> Sayısal
(Sürekli)
Meslek Grubu: (Örn: Öğrenci, Özel Sektör, Kamu) -> Kategorik
(Nominal)
Frekans tablosu oluşturulabilecek üç değişken: (Not: Bu kısım için
kategorik yani gruplandırılabilir verileri seçtim.)
Hediye Türü: Hangi hediye kategorisinin (Çiçek, Takı, Kıyafet vb.)
en çok tercih edildiğini görmek için.
Meslek Grubu: Ankete katılanların çoğunluğunun hangi sektörden veya
statüden olduğunu görmek için.
Hediye Alma Sıklığı: Erkeklerin genelde ne sıklıkla hediye aldığının
dağılımını görmek için (Örn: %60’ı “Sadece Özel Günlerde”
diyebilir).