library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(MASS)
## 
## Attaching package: 'MASS'
## The following object is masked from 'package:dplyr':
## 
##     select
library(lsr)
data(survey)
names(survey)
##  [1] "Sex"    "Wr.Hnd" "NW.Hnd" "W.Hnd"  "Fold"   "Pulse"  "Clap"   "Exer"  
##  [9] "Smoke"  "Height" "M.I"    "Age"
veri1 <- survey %>% dplyr::select(Sex,Age,Pulse,Exer,Height,Smoke)

head(veri1)
##      Sex    Age Pulse Exer Height Smoke
## 1 Female 18.250    92 Some 173.00 Never
## 2   Male 17.583   104 None 177.80 Regul
## 3   Male 16.917    87 None     NA Occas
## 4   Male 20.333    NA None 160.00 Never
## 5   Male 23.667    35 Some 165.00 Never
## 6 Female 21.000    64 Some 172.72 Never
veri_2<- veri1 %>% 
  rename(cinsiyet=Sex,
         yas=Age,
         boy=Height,
         sigara=Smoke,
         egzersiz=Exer,
         nabiz=Pulse)
head(veri_2,10)
##    cinsiyet    yas nabiz egzersiz    boy sigara
## 1    Female 18.250    92     Some 173.00  Never
## 2      Male 17.583   104     None 177.80  Regul
## 3      Male 16.917    87     None     NA  Occas
## 4      Male 20.333    NA     None 160.00  Never
## 5      Male 23.667    35     Some 165.00  Never
## 6    Female 21.000    64     Some 172.72  Never
## 7      Male 18.833    83     Freq 182.88  Never
## 8    Female 35.833    74     Freq 157.00  Never
## 9      Male 19.000    72     Some 175.00  Never
## 10     Male 22.333    90     Some 167.00  Never
names(veri_2)
## [1] "cinsiyet" "yas"      "nabiz"    "egzersiz" "boy"      "sigara"
veri_3<-veri_2 %>% 
  mutate(
    cinsiyet = recode(cinsiyet,
                      "Female" = "kadin",
                      "Male" = "erkek"),
    egzersiz = recode(egzersiz, 
                      "None" = "yok",
                      "Some" = "bazen",
                      "Freq" = "sık"),
    sigara = recode(sigara,
                    "Never" = "hic",
                    "Occas" = "ara sira",
                    "Regul" = "duzenli",
                    "Heavy" = "fazla") 
  )
head(veri_3)
##   cinsiyet    yas nabiz egzersiz    boy   sigara
## 1    kadin 18.250    92    bazen 173.00      hic
## 2    erkek 17.583   104      yok 177.80  duzenli
## 3    erkek 16.917    87      yok     NA ara sira
## 4    erkek 20.333    NA      yok 160.00      hic
## 5    erkek 23.667    35    bazen 165.00      hic
## 6    kadin 21.000    64    bazen 172.72      hic
any(is.na(veri_3))
## [1] TRUE
colSums(is.na(veri_3))
## cinsiyet      yas    nabiz egzersiz      boy   sigara 
##        1        0       45        0       28        1
veri_son <-na.omit(veri_3)

##veri_3 adlı veri setindeki eksik değerler (NA) vardı ve na.omit komutuyla veri dışına alındı. Bu işlem sonucunda başlangıçta 237 olan gözlem sayısı 170’e düşmüştür. Yani 67 gözlem eksik değerler nedeniyle veri setinden çıkarılmış.Veri setinin son halini ise veri_son olarak adlandırdım.

summary(veri_son)
##   cinsiyet       yas            nabiz         egzersiz       boy       
##  kadin:85   Min.   :16.92   Min.   : 35.00   sık  :86   Min.   :152.0  
##  erkek:85   1st Qu.:17.67   1st Qu.: 66.25   yok  :14   1st Qu.:165.0  
##             Median :18.58   Median : 72.00   bazen:70   Median :171.0  
##             Mean   :20.46   Mean   : 73.92              Mean   :172.5  
##             3rd Qu.:20.17   3rd Qu.: 80.00              3rd Qu.:180.0  
##             Max.   :70.42   Max.   :104.00              Max.   :200.0  
##       sigara   
##  fazla   :  7  
##  hic     :136  
##  ara sira: 13  
##  duzenli : 14  
##                
## 

##​Cinsiyet Dengesi: Kadın (85) ve Erkek (85) sayıları eşit ve dengeli.Yaş ortalaması (20.46) ve medyanı (18.58) arasındaki fark, çoğunluğun genç (18-20 yaş civarı) olduğunu ancak birkaç yaşlı katılımcının da bulunduğunu gösteriyor.Ortalama nabız 73.92, değerler 35.00 ile 104.00 arasında değişiyor.Katılımcıların büyük bir kısmı aktif. “Sık” egzersiz yapanlar (86) en büyük grubu oluşturuyor; “yok” diyenler (14) ise çok az kişi.veri, çok düşük sigara kullanım oranına sahip. 136 kişi sigarayı “hiç” kullanmadığını belirtmiş.Veri seti, genç, aktif ve sigara içme oranı düşük, dengeli bir kitleye ait denebilir.

veri_son %>%
  group_by(egzersiz) %>%
  summarise(ortalama_nabiz = round(mean(nabiz), 2))
## # A tibble: 3 × 2
##   egzersiz ortalama_nabiz
##   <fct>             <dbl>
## 1 sık                71.4
## 2 yok                75.9
## 3 bazen              76.6

##sık egzersiz yapanların ortalama nabzı 71.43 egzersiz yapmayanların ortalama nabzı 75.86 ve bazen egzersiz yapanların ortalama nabzı 76.59

mean(veri_son$yas)
## [1] 20.46377
median(veri_son$yas)
## [1] 18.583
modeOf(veri_son$yas)
## [1] 17.5

##yks öğrencilerinin günlük ne kadar süre ders çalıştıklarını inceleyeceğim.burada yks sınavına girecek kişilerden veri alırız.öğrencin çalıştıkları süre bilgisi önemli.Günlük Çalışma Süresi (Sayısal / Oran / Sürekli)Cinsiyet (Kategorik / Nominal)Sınıf Seviyesi (Kategorik / Sıralı)Çalışılan Alan (Kategorik / Nominal)Sınavdan Alınan Puan (Sayısal / Oran / Sürekli) bunları kullanırız.Çalışılan Alan (Nominal):Değerler: Sayısal, Eşit Ağırlık, Sözel, Dil.Neden: Bu, öğrencileri gruplara ayırır ve veri setindeki öğrencilerin kaç tanesinin hangi alanda olduğunu gösteren bir tablo oluşturmayi sağlar.Sınav Hazırlık Durumu (Sıralı/Ordinal):Değerler: 11. Sınıf, 12. Sınıf, Mezun (veya sadece “Okul Durumu”: Devlet Okulu, Özel Okul, Açık Lise).Neden: Sınavın en yoğun olduğu grupların (örneğin 12. Sınıf ve Mezun) frekansını görmenizi sağlar. Sınıf seviyeleri arasında bir sıralama olduğu için kümülatif (yığılmalı) frekans da hesaplanabilir.Çalışma Ortamı Tercihi (Nominal):Değerler: Kendi Odası, Kütüphane, Kurs Merkezi, Kafe.Neden: YKS öğrencilerinin en sık kullandığı ders çalışma mekanının frekansını gösterir.Haftalık Toplam Ders Çalışma Süresi (Saat olarak)Ölçüm Türü: Sürekli Sayısal (Oran)Hesaplanacak Değerler:Min/Max: Öğrenciler arasında en az ve en çok çalışan süre.Mean/Median: Öğrencilerin ortalama ve orta nokta çalışma süresi.Quarters (Çeyreklikler): Öğrenci grubunun çalışma süresi dağılımı (örneğin, öğrencilerin %25’inin kaç saatten az çalıştığı).Mod: En çok tekrarlanan çalışma süresi (örneğin, en çok öğrencinin çalıştığı süre 25 saat ise, mod 25’tir).YKS Denemelerinden Alınan Puan Ortalaması (0-100 Arası)Ölçüm Türü: Sürekli Sayısal (Oran)Hesaplanacak Değerler:Min/Max: En düşük ve en yüksek deneme puanı.Mean/Median: Deneme puanlarının sınıf ortalaması ve orta noktası.Quarters (Çeyreklikler): Öğrencilerin başarı düzeyinin dağılımı.Mod: En sık alınan puan değeri.Haftalık Çözülen Toplam Soru Sayısı (Adet olarak)Ölçüm Türü: Kesikli Sayısal (Oran)Hesaplanacak Değerler:Min/Max: Öğrencilerin en az ve en çok çözdüğü soru sayısı.Mean/Median: Çözülen soru sayısının ortalaması ve orta noktası.Quarters (Çeyreklikler): Soru çözme yoğunluğunun dağılımı.Mod: En çok tekrar eden soru sayısı.