library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(lsr)
library(MASS)
## 
## Attaching package: 'MASS'
## The following object is masked from 'package:dplyr':
## 
##     select
data(survey)
names(survey)
##  [1] "Sex"    "Wr.Hnd" "NW.Hnd" "W.Hnd"  "Fold"   "Pulse"  "Clap"   "Exer"  
##  [9] "Smoke"  "Height" "M.I"    "Age"
  veri_1 <- survey %>% dplyr :: select(Sex, Pulse , Age, Exer, Height, Smoke)
veri_2 <- veri_1 %>% rename(cinsiyet=Sex, nabiz=Pulse, yas=Age, egzersiz=Exer, boy=Height,sigara=Smoke)
head(veri_2,10)
##    cinsiyet nabiz    yas egzersiz    boy sigara
## 1    Female    92 18.250     Some 173.00  Never
## 2      Male   104 17.583     None 177.80  Regul
## 3      Male    87 16.917     None     NA  Occas
## 4      Male    NA 20.333     None 160.00  Never
## 5      Male    35 23.667     Some 165.00  Never
## 6    Female    64 21.000     Some 172.72  Never
## 7      Male    83 18.833     Freq 182.88  Never
## 8    Female    74 35.833     Freq 157.00  Never
## 9      Male    72 19.000     Some 175.00  Never
## 10     Male    90 22.333     Some 167.00  Never
veri_3 <- veri_2 %>% 
  mutate(
    cinsiyet = recode(cinsiyet,
                      "Female" = "Kadin",
                      "Male"  =  "Erkek"),
    egzersiz = recode(egzersiz,
                      "None" = "Yok",
                      "Some" = "Bazen",
                      "Freq" = "Siklikla"),
    sigara = recode(sigara,
                    "Never" = "Asla",
                    "Regul" = "Duzenli",
                    "Occas" = "Ara sira",
                    "Heavy" = "Fazla") 
  )
any(is.na(veri_3))
## [1] TRUE
colSums(is.na(veri_3))
## cinsiyet    nabiz      yas egzersiz      boy   sigara 
##        1       45        0        0       28        1
veri_son <- na.omit(veri_3)
ilk_sayi <- nrow(veri_3)
son_sayi <- nrow(veri_son)
fark <- ilk_sayi - son_sayi
print(paste("Baslangictaki gozlem sayisi:", ilk_sayi))
## [1] "Baslangictaki gozlem sayisi: 237"
print(paste("Temizlendikten sonraki gozlem sayisi:", son_sayi))
## [1] "Temizlendikten sonraki gozlem sayisi: 170"
print(paste("Silinen eksik verili satir sayisi:", fark))
## [1] "Silinen eksik verili satir sayisi: 67"

veri_3 Setinde yapmış olduğum sorgulama sonucunda, eksik değerler (NA) tespit ettim. Başlangıçta 237 olan gözlem sayısı, bu işlem sonucunda 170’e düştü. Aradaki fark olan 67 gözlem, eksik veri içerdiği için analiz dışı bırakıldı ve veri setinin temizlenmiş halini veri_son olarak kaydettim.

summary(veri_son)
##   cinsiyet      nabiz             yas            egzersiz       boy       
##  Kadin:85   Min.   : 35.00   Min.   :16.92   Siklikla:86   Min.   :152.0  
##  Erkek:85   1st Qu.: 66.25   1st Qu.:17.67   Yok     :14   1st Qu.:165.0  
##             Median : 72.00   Median :18.58   Bazen   :70   Median :171.0  
##             Mean   : 73.92   Mean   :20.46                 Mean   :172.5  
##             3rd Qu.: 80.00   3rd Qu.:20.17                 3rd Qu.:180.0  
##             Max.   :104.00   Max.   :70.42                 Max.   :200.0  
##       sigara   
##  Fazla   :  7  
##  Asla    :136  
##  Ara sira: 13  
##  Duzenli : 14  
##                
## 

Katılımcıların yaşları 16.92 (Min) ile 70.42 (Max) arasında değişmektedir.Yaş ortalaması (Mean) 20.46, medyan (ortanca) değeri ise 18.58’dir.Katılımcıların %25’i 17.67 yaşından küçüktür (1st Qu.), %75’i ise 20.17 yaşının altındadır (3rd Qu.). Öğrencilerin dinlenik nabız değerleri en düşük 35 (Min), en yüksek 104 (Max) olarak ölçülmüştür. Ortalama nabız 73.92 iken, medyan değeri 72.00’dir. Verinin merkezdeki %50’lik kısmı (Interquartile range), 66.25 (1. Çeyrek) ile 80.00 (3. Çeyrek) arasındadır. Boy uzunlukları 152 cm (Min) ile 200 cm (Max) arasındadır. Ortalama boy 172.5 cm, medyan boy ise 171.0 cm’dir.

veri_son %>%
  group_by(egzersiz) %>%
  summarise(ortalama_nabiz = round(mean(nabiz), 2))
## # A tibble: 3 × 2
##   egzersiz ortalama_nabiz
##   <fct>             <dbl>
## 1 Siklikla           71.4
## 2 Yok                75.9
## 3 Bazen              76.6

Bu tabloya göre sıklıkla egzersiz yapanlarda ortalama nabız 71.43 iken, bazen yapanlarda 76.59, hiç yapmayanlarda ise 75.86 dır.

mean(veri_son$yas)
## [1] 20.46377
median(veri_son$yas)
## [1] 18.583
modeOf(veri_son$yas)
## [1] 17.5

İlişkisi olan erkeklerin aylık gelir düzeyleri (maddi durumları) ile partnerlerine aldıkları hediyelerin maddi değeri ve niteliği arasındaki ilişkiyi incelemek istiyorum. Amacım, gelir seviyesi arttıkça hediye harcamasının doğru orantılı artıp artmadığını veya hediye tercihinin değişip değişmediğini analiz etmektir.

Bu durumla ilgili kimlerden veri toplanabilir: Çevremdeki üniversite öğrencileri, iş arkadaşlarım ve sosyal medya üzerinden ulaşabileceğim, şu an aktif bir ilişkisi olan 18-40 yaş arası erkeklerden veri toplayabilirim.

Hangi bilgileri almak anlamlı olur ve Değişken Türleri: Veri topladığım kişilerden aşağıdaki bilgileri almak analiz için anlamlı olacaktır:

Aylık Ortalama Gelir: (Örn: 30.000 TL) -> Sayısal (Sürekli/Oransal)

Son Alınan Hediyenin Fiyatı: (Örn: 2.500 TL) -> Sayısal (Sürekli/Oransal)

Hediye Türü: (Örn: Çiçek, Teknoloji, Kıyafet, Takı) -> Kategorik (Nominal)

Hediye Alma Sıklığı: (Örn: Ayda bir, Sadece özel günlerde, Haftada bir) -> Kategorik (Sıralı/Ordinal)

İlişki Süresi (Ay cinsinden): (Örn: 12 ay) -> Sayısal (Sürekli)

Meslek Grubu: (Örn: Öğrenci, Özel Sektör, Kamu) -> Kategorik (Nominal)

Frekans tablosu oluşturulabilecek üç değişken: (Not: Bu kısım için kategorik yani gruplandırılabilir verileri seçtim.)

Hediye Türü: Hangi hediye kategorisinin (Çiçek, Takı, Kıyafet vb.) en çok tercih edildiğini görmek için.

Meslek Grubu: Ankete katılanların çoğunluğunun hangi sektörden veya statüden olduğunu görmek için.

Hediye Alma Sıklığı: Erkeklerin genelde ne sıklıkla hediye aldığının dağılımını görmek için (Örn: %60’ı “Sadece Özel Günlerde” diyebilir).

Min, max, quarters, mod, median, mean değerlerini hesaplayabileceğiniz üç değişken:

Aylık Ortalama Gelir (TL): Katılımcıların ortalama gelirini ve en düşük/en yüksek geliri hesaplamak için.

Son Alınan Hediyenin Fiyatı (TL): Hediyelere ortalama ne kadar harcandığını tespit etmek için.

İlişki Süresi (Ay): Hediye alan kişilerin ilişkilerinin ortalama ne kadar sürdüğünü görmek için.