library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(MASS)
##
## Attaching package: 'MASS'
## The following object is masked from 'package:dplyr':
##
## select
library(lsr)
## Warning: package 'lsr' was built under R version 4.5.2
# Soru 1
data(survey)
veri_1<-survey %>%
dplyr::select(Sex,Age,Pulse,Exer,Height,Smoke)
names(veri_1)
## [1] "Sex" "Age" "Pulse" "Exer" "Height" "Smoke"
# Soru 1.1
veri_2 <- veri_1 %>%
rename(cinsiyet=Sex,
yas=Age,
nabiz=Pulse,
egzersiz=Exer,
boy=Height,
sigara=Smoke)
# Soru 1.2
head(veri_2,10)
## cinsiyet yas nabiz egzersiz boy sigara
## 1 Female 18.250 92 Some 173.00 Never
## 2 Male 17.583 104 None 177.80 Regul
## 3 Male 16.917 87 None NA Occas
## 4 Male 20.333 NA None 160.00 Never
## 5 Male 23.667 35 Some 165.00 Never
## 6 Female 21.000 64 Some 172.72 Never
## 7 Male 18.833 83 Freq 182.88 Never
## 8 Female 35.833 74 Freq 157.00 Never
## 9 Male 19.000 72 Some 175.00 Never
## 10 Male 22.333 90 Some 167.00 Never
# Soru 2
veri_3 <- veri_2 %>%
mutate(
cinsiyet = recode(cinsiyet,
"Female" = "Kadın",
"Male" = "Erkek"),
egzersiz = recode(egzersiz,
"None" = "Yok",
"Some" = "Bazen",
"Freq" = "Sık"),
sigara = recode(sigara,
"Never" = "Hic",
"Occas" = "Ara Sıra",
"Regul" = "Duzenli",
"Heavy" = "Fazla"))
head(veri_3)
## cinsiyet yas nabiz egzersiz boy sigara
## 1 Kadın 18.250 92 Bazen 173.00 Hic
## 2 Erkek 17.583 104 Yok 177.80 Duzenli
## 3 Erkek 16.917 87 Yok NA Ara Sıra
## 4 Erkek 20.333 NA Yok 160.00 Hic
## 5 Erkek 23.667 35 Bazen 165.00 Hic
## 6 Kadın 21.000 64 Bazen 172.72 Hic
# Soru 3
any(is.na(veri_3))
## [1] TRUE
colSums(is.na(veri_3))
## cinsiyet yas nabiz egzersiz boy sigara
## 1 0 45 0 28 1
dim(veri_3)
## [1] 237 6
veri_son <- na.omit(veri_3)
dim(veri_son)
## [1] 170 6
# veri_3 veri setinde 237 satır 6 sütun bulunuyordu.Eksik değerler(NA) bulunan 67 satır silindikten sonra veri seti 170 satır 6 sütun olarak güncellenmiştir.
# Soru 4
summary(veri_son %>%
dplyr::select(yas,nabiz,boy))
## yas nabiz boy
## Min. :16.92 Min. : 35.00 Min. :152.0
## 1st Qu.:17.67 1st Qu.: 66.25 1st Qu.:165.0
## Median :18.58 Median : 72.00 Median :171.0
## Mean :20.46 Mean : 73.92 Mean :172.5
## 3rd Qu.:20.17 3rd Qu.: 80.00 3rd Qu.:180.0
## Max. :70.42 Max. :104.00 Max. :200.0
# Yaş değişkeni incelendiğinde örneklemdeki bireylerin yaşı 16.92 ile 70.42 arasında değişmektedir. 1. çeyrek (17.67), veri setindeki bireylerin %25’inin bu yaşın altında olduğunu gösterirken, medyan (18.58), yarısının 18.58 yaşından küçük, diğer yarısının büyük olduğunu ortaya koymaktadır. 3. çeyrek (20.17) ise bireylerin %75’inin bu yaşın altında olduğunu gösterir; bu değerler, çoğunluğun genç yaş grubunda toplandığını ve dağılımın sağa doğru hafif çarpık olduğunu göstermektedir. Ortalama yaşın medyandan biraz yüksek olması, veri setinde yaşlı bireylerin varlığını yansıtmaktadır.
# Nabız değişkeni incelendiğinde örneklemdeki bireylerin nabız değerleri 35 ile 104 arasında değişmektedir. 1. çeyrek (66.25), bireylerin %25’inin bu değerin altında olduğunu gösterirken, medyan (72), yarısının 72’nin altında, diğer yarısının üzerinde olduğunu ortaya koymaktadır. 3. çeyrek (80) ise bireylerin %75’inin bu değerin altında olduğunu gösterir; bu dağılım, çoğunluğun normal yetişkin nabzı aralığında toplandığını ve veri içinde daha yüksek nabız değerine sahip birkaç gözlemin ortalamayı biraz yükselttiğini göstermektedir. Ortalama nabız (73.92), medyandan biraz yüksek olup, dağılımın sağa doğru hafif çarpıklık içerdiğini göstermektedir.
# Boy değişkeni incelendiğinde örneklemdeki bireylerin boyu 152 ile 200 cm arasında değişmektedir. 1. çeyrek (165), bireylerin %25’inin bu boyun altında olduğunu gösterirken, medyan (171), yarısının 171 cm’den kısa, diğer yarısının uzun olduğunu ortaya koymaktadır. 3. çeyrek (180), bireylerin %75’inin bu boyun altında olduğunu gösterir; bu değerler, çoğunluğun 165–180 cm aralığında toplandığını göstermektedir. Ortalama boy (172.5), medyana yakın olup, veri içinde bazı çok uzun bireyler bulunmasına rağmen dağılımın genel olarak simetrik olduğunu göstermektedir.
# Soru 4.1
veri_son %>%
group_by(egzersiz) %>%
summarise("ortalama nabiz" = round(mean(nabiz),2))
## # A tibble: 3 × 2
## egzersiz `ortalama nabiz`
## <fct> <dbl>
## 1 Sık 71.4
## 2 Yok 75.9
## 3 Bazen 76.6
# ortalama nabız sık egzersiz yapan bireylerde 71.43, hiç egzersiz yapmayan bireylerde 75.86, bazen egzersiz yapan bireylerde 76.59 olduğu görülmüştür.
# Soru 4.2
modeOf(veri_son$yas)
## [1] 17.5
median(veri_son$yas)
## [1] 18.583
mean(veri_son$yas)
## [1] 20.46377
# Durum: Üniversitede bulunan kişilerin okula geliş şekilleri ve yolda geçirdikleri sürenin analizi.
# Bölümdeki arkadaşlarımdan, kampüsteki öğrencilerden, öğretmenlerden ve çalışanlardan veri toplayabilirim.
# Cinsiyeti, nerede kaldıkları, okula hangi araçla geldikleri, okula gelmenin kaç dakika sürdüğü, okul ile ev arasının kaç kilometre olduğu, aylık ulaşım için harcadıkları para gibi verileri almak anlamlı olacaktır.
# Değişkenlerin Türleri:
# Cinsiyet: Nitel(Kategorik)
# Kaldığı yer: Nitel(Kategorik)
# Ulaşım aracı Nitel(Kategorik)
# Mesafe:Nicel (Sürekli)
# Süre: Nicel (Sürekli)
# Aylık Masrafı: Nicel(Sürekli)
# frekans tablosu oluşturabileceğim üç değişken:
# ulasim_araci: üniversitedeki kişilerin yüzde kaçının metro, otobüs veya şahsi araç kullandığını görmek için.
# kaldigi_yer: üniversitedeki kişilerin barınma dağılımını(KYK, özel yurt, ev) görmek için.
# cinsiyet: ankete katılan kitlenin kadın erkek dağılımını görmek için.
# min, max, quarters, mod, median, mean hesaplayabileceğim üç değişken:
# sure_dk: en kısa ve en uzun yolculuk süresini tespit etmek ve ortalama varış süresini hesaplamak için.
# mesafe_km: üniversitedeki kişilerin ortalama kaç km uzaktan geldiklerini hesaplamak için.
# aylik_masraf: en düşük ve en yüksek harcamayı belirlemek, ortalama harcamayı bulmak ve harcamaların genelde hangi aralıkta olduğunu anlamak için.