library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(MASS)
##
## Attaching package: 'MASS'
## The following object is masked from 'package:dplyr':
##
## select
library(lsr)
data(survey)
names(survey)
## [1] "Sex" "Wr.Hnd" "NW.Hnd" "W.Hnd" "Fold" "Pulse" "Clap" "Exer"
## [9] "Smoke" "Height" "M.I" "Age"
veri1 <- survey %>% dplyr::select(Sex,Age,Pulse,Exer,Height,Smoke)
head(veri1)
## Sex Age Pulse Exer Height Smoke
## 1 Female 18.250 92 Some 173.00 Never
## 2 Male 17.583 104 None 177.80 Regul
## 3 Male 16.917 87 None NA Occas
## 4 Male 20.333 NA None 160.00 Never
## 5 Male 23.667 35 Some 165.00 Never
## 6 Female 21.000 64 Some 172.72 Never
veri_2<- veri1 %>%
rename(cinsiyet=Sex,
yas=Age,
boy=Height,
sigara=Smoke,
egzersiz=Exer,
nabiz=Pulse)
head(veri_2,10)
## cinsiyet yas nabiz egzersiz boy sigara
## 1 Female 18.250 92 Some 173.00 Never
## 2 Male 17.583 104 None 177.80 Regul
## 3 Male 16.917 87 None NA Occas
## 4 Male 20.333 NA None 160.00 Never
## 5 Male 23.667 35 Some 165.00 Never
## 6 Female 21.000 64 Some 172.72 Never
## 7 Male 18.833 83 Freq 182.88 Never
## 8 Female 35.833 74 Freq 157.00 Never
## 9 Male 19.000 72 Some 175.00 Never
## 10 Male 22.333 90 Some 167.00 Never
names(veri_2)
## [1] "cinsiyet" "yas" "nabiz" "egzersiz" "boy" "sigara"
veri_3<-veri_2 %>%
mutate(
cinsiyet = recode(cinsiyet,
"Female" = "kadin",
"Male" = "erkek"),
egzersiz = recode(egzersiz,
"None" = "yok",
"Some" = "bazen",
"Freq" = "sık"),
sigara = recode(sigara,
"Never" = "hic",
"Occas" = "ara sira",
"Regul" = "duzenli",
"Heavy" = "fazla")
)
head(veri_3)
## cinsiyet yas nabiz egzersiz boy sigara
## 1 kadin 18.250 92 bazen 173.00 hic
## 2 erkek 17.583 104 yok 177.80 duzenli
## 3 erkek 16.917 87 yok NA ara sira
## 4 erkek 20.333 NA yok 160.00 hic
## 5 erkek 23.667 35 bazen 165.00 hic
## 6 kadin 21.000 64 bazen 172.72 hic
any(is.na(veri_3))
## [1] TRUE
colSums(is.na(veri_3))
## cinsiyet yas nabiz egzersiz boy sigara
## 1 0 45 0 28 1
veri_son <-na.omit(veri_3)
##veri_3 adlı veri setindeki eksik değerler (NA) vardı ve na.omit komutuyla veri dışına alındı. Bu işlem sonucunda başlangıçta 237 olan gözlem sayısı 170’e düşmüştür. Yani 67 gözlem eksik değerler nedeniyle veri setinden çıkarılmış.Veri setinin son halini ise veri_son olarak adlandırdım.
summary(veri_son)
## cinsiyet yas nabiz egzersiz boy
## kadin:85 Min. :16.92 Min. : 35.00 sık :86 Min. :152.0
## erkek:85 1st Qu.:17.67 1st Qu.: 66.25 yok :14 1st Qu.:165.0
## Median :18.58 Median : 72.00 bazen:70 Median :171.0
## Mean :20.46 Mean : 73.92 Mean :172.5
## 3rd Qu.:20.17 3rd Qu.: 80.00 3rd Qu.:180.0
## Max. :70.42 Max. :104.00 Max. :200.0
## sigara
## fazla : 7
## hic :136
## ara sira: 13
## duzenli : 14
##
##
##Cinsiyet Dengesi: Kadın (85) ve Erkek (85) sayıları eşit ve dengeli.Yaş ortalaması (20.46) ve medyanı (18.58) arasındaki fark, çoğunluğun genç (18-20 yaş civarı) olduğunu ancak birkaç yaşlı katılımcının da bulunduğunu gösteriyor.Ortalama nabız 73.92, değerler 35.00 ile 104.00 arasında değişiyor.Katılımcıların büyük bir kısmı aktif. “Sık” egzersiz yapanlar (86) en büyük grubu oluşturuyor; “yok” diyenler (14) ise çok az kişi.veri, çok düşük sigara kullanım oranına sahip. 136 kişi sigarayı “hiç” kullanmadığını belirtmiş.Veri seti, genç, aktif ve sigara içme oranı düşük, dengeli bir kitleye ait denebilir.
veri_son %>%
group_by(egzersiz) %>%
summarise(ortalama_nabiz = round(mean(nabiz), 2))
## # A tibble: 3 × 2
## egzersiz ortalama_nabiz
## <fct> <dbl>
## 1 sık 71.4
## 2 yok 75.9
## 3 bazen 76.6
##sık egzersiz yapanların ortalama nabzı 71.43 egzersiz yapmayanların ortalama nabzı 75.86 ve bazen egzersiz yapanların ortalama nabzı 76.59
mean(veri_son$yas)
## [1] 20.46377
median(veri_son$yas)
## [1] 18.583
modeOf(veri_son$yas)
## [1] 17.5
##yks öğrencilerinin günlük ne kadar süre ders çalıştıklarını inceleyeceğim.burada yks sınavına girecek kişilerden veri alırız.öğrencin çalıştıkları süre bilgisi önemli.Günlük Çalışma Süresi (Sayısal / Oran / Sürekli)Cinsiyet (Kategorik / Nominal)Sınıf Seviyesi (Kategorik / Sıralı)Çalışılan Alan (Kategorik / Nominal)Sınavdan Alınan Puan (Sayısal / Oran / Sürekli) bunları kullanırız.Çalışılan Alan (Nominal):Değerler: Sayısal, Eşit Ağırlık, Sözel, Dil.Neden: Bu, öğrencileri gruplara ayırır ve veri setindeki öğrencilerin kaç tanesinin hangi alanda olduğunu gösteren bir tablo oluşturmayi sağlar.Sınav Hazırlık Durumu (Sıralı/Ordinal):Değerler: 11. Sınıf, 12. Sınıf, Mezun (veya sadece “Okul Durumu”: Devlet Okulu, Özel Okul, Açık Lise).Neden: Sınavın en yoğun olduğu grupların (örneğin 12. Sınıf ve Mezun) frekansını görmenizi sağlar. Sınıf seviyeleri arasında bir sıralama olduğu için kümülatif (yığılmalı) frekans da hesaplanabilir.Çalışma Ortamı Tercihi (Nominal):Değerler: Kendi Odası, Kütüphane, Kurs Merkezi, Kafe.Neden: YKS öğrencilerinin en sık kullandığı ders çalışma mekanının frekansını gösterir.Haftalık Toplam Ders Çalışma Süresi (Saat olarak)Ölçüm Türü: Sürekli Sayısal (Oran)Hesaplanacak Değerler:Min/Max: Öğrenciler arasında en az ve en çok çalışan süre.Mean/Median: Öğrencilerin ortalama ve orta nokta çalışma süresi.Quarters (Çeyreklikler): Öğrenci grubunun çalışma süresi dağılımı (örneğin, öğrencilerin %25’inin kaç saatten az çalıştığı).Mod: En çok tekrarlanan çalışma süresi (örneğin, en çok öğrencinin çalıştığı süre 25 saat ise, mod 25’tir).YKS Denemelerinden Alınan Puan Ortalaması (0-100 Arası)Ölçüm Türü: Sürekli Sayısal (Oran)Hesaplanacak Değerler:Min/Max: En düşük ve en yüksek deneme puanı.Mean/Median: Deneme puanlarının sınıf ortalaması ve orta noktası.Quarters (Çeyreklikler): Öğrencilerin başarı düzeyinin dağılımı.Mod: En sık alınan puan değeri.Haftalık Çözülen Toplam Soru Sayısı (Adet olarak)Ölçüm Türü: Kesikli Sayısal (Oran)Hesaplanacak Değerler:Min/Max: Öğrencilerin en az ve en çok çözdüğü soru sayısı.Mean/Median: Çözülen soru sayısının ortalaması ve orta noktası.Quarters (Çeyreklikler): Soru çözme yoğunluğunun dağılımı.Mod: En çok tekrar eden soru sayısı.