📌 Aşağıda 5 soru bulunmaktadır. İlk 4 soruyu ders notlarınızdan faydalanarak yapabilirsiniz. Sadece dosyayı yayınlarken hata aldığınız durumlarda hata kodunu anlamak için yapay zekadan destek alabilirsiniz. Tüm soruları yapay zekaya yaptırdığınız tespit edilirse sınavınız geçersiz sayılacaktır.

📌 Son soru 30 puan değerinde olup kendi deneyimlerinizden yola çıkarak yanıtlayabileceğiniz bir sorudur. Farklı sınav kağıtlarında birbirinin aynısı yanıtlar tespit edilmesi durumunda ilgili öğrencilerin sınavları geçersiz sayılacaktır.

📌 Sınavınızı 29 Kasım 2025 Cumartesi günü saat 11’e kadar Rpubs hesaplarınızda yayınlamanız gerekmektedir. Teslim tarihinden geç yayınlanan dosyalar değerlendirmeye dahil edilmeyecektir.

Soruları yanıtlamak için aşağıdaki paketleri etkinleştirin:

  • dplyr

  • MASS

  • lsr

survey veri seti, bir grup üniversite öğrencisinden toplanmış bilgiler içerir. Değişkenler arasında yaş, cinsiyet, boy, nabız, egzersiz sıklığı gibi psikolojik ve fizyolojik özellikler vardır. Bu veri seti University of Adelaide öğrencilerinden toplanmış bir anket çalışmasından gelir. Veri seti 237 gözlem ve 12 değişkenden oluşur.

Soru 1: Bu veri setini etkinleştirerek Sex (cinsiyet)“,”Age (yaş)“,”Pulse (nabiz)” ve “Exer (egzersiz)”, “Height (boy)”, “Smoke (sigara) değişkenlerini seçin. Seçtiğiniz bu değişkenlerden oluşan veri setini veri_1 olarak isimlendirin.

Soru 1.1: veri_1 veri setindeki değişkenlerin isimlerini Türkçeleştirin ve bu veri setini veri_2 olarak isimlendirin.

Soru 1.2: veri_2’nin ilk 10 satırını görüntüleyin.

Soru 2: veri_2 veri setindeki kategorik değişkenlerin etiketlerini (örn. never, some, heavy) Türkçeleştirin ve bu veri setini veri_3 olarak isimlendirin.

Soru 3: veri_3 veri setindeki eksik değerleri sorgulayın. Eksik değer varsa çıkarın ve gözlem sayısındaki farkı açıklayın. Veri setinin son halini veri_son olarak isimlendirin.

Soru 4: veri_son için yas, nabiz ve boy değişkenlerinin

  • min

  • max

  • 1st quarter

  • 3rd quarter

  • mean

  • median

değerlerini açıklayın.

Soru 4.1: Egzersiz sıklığına göre ortalama nabzı hesapladığınız bir tablo oluşturun. Bu tablodaki değerlerin açıklamasını yazın.

Soru 4.2: veri_son için yas değişkenine ait mod, medyan ve aritmetik ortalama değerlerini hesaplayın.

Soru 5: Günlük yaşamınızda veri toplayarak analiz etmek isteyebileceğiniz bir durum düşünün (sosyal medya kullanım süresi, kahve tüketimi, sınav kaygısı…). Bu durumu kısaca açıklayın.

Bu durumla ilgili

  • kimlerden veri toplayabileceğinizi,

  • veri topladığınız kişilerden hangi bilgileri almanın anlamlı olacağını,

  • toplayacağınız bilgiler kapsamında değişkenlerin türlerini

açıklayın.

  • Topladığınız verileri göz önünde bulundurarak frekans tablosu oluşturabileceğiniz üç değişken tanımlayın.

  • Topladığınız verileri göz önünde bulundurarak min, max, quarters, mod, median, mean değerlerini hesaplayabileceğiniz üç değişken tanımlayın.

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
data("survey")
## Warning in data("survey"): data set 'survey' not found
library(MASS)
## 
## Attaching package: 'MASS'
## The following object is masked from 'package:dplyr':
## 
##     select
veri_1 <- survey %>% dplyr:: select(Sex , Age, Pulse, Exer, Height, Smoke)
veri_2 <- veri_1 %>% rename(cinsiyet = Sex, yas = Age, nabiz = Pulse, egzersiz = Exer, boy = Height, sigara = Smoke )
head(veri_2)
##   cinsiyet    yas nabiz egzersiz    boy sigara
## 1   Female 18.250    92     Some 173.00  Never
## 2     Male 17.583   104     None 177.80  Regul
## 3     Male 16.917    87     None     NA  Occas
## 4     Male 20.333    NA     None 160.00  Never
## 5     Male 23.667    35     Some 165.00  Never
## 6   Female 21.000    64     Some 172.72  Never
veri_3 <- veri_2 %>% dplyr::mutate(cinsiyet = dplyr::recode(cinsiyet,"Female" = "Kadın","Male" = "Erkek"), egzersiz = dplyr::recode(egzersiz,"None"="Yok","Some"="Bazen","Freq"= "Sık"),sigara = dplyr::recode(sigara,"Never"="Hic","Occas"="Ara Sira","Regul"= "Duzenli","Heavy"= "Fazla","Prior"= "Eskiden"))
head(veri_3)
##   cinsiyet    yas nabiz egzersiz    boy   sigara
## 1    Kadın 18.250    92    Bazen 173.00      Hic
## 2    Erkek 17.583   104      Yok 177.80  Duzenli
## 3    Erkek 16.917    87      Yok     NA Ara Sira
## 4    Erkek 20.333    NA      Yok 160.00      Hic
## 5    Erkek 23.667    35    Bazen 165.00      Hic
## 6    Kadın 21.000    64    Bazen 172.72      Hic
any(is.na(veri_3))
## [1] TRUE
colSums(is.na(veri_3))
## cinsiyet      yas    nabiz egzersiz      boy   sigara 
##        1        0       45        0       28        1
veri_son <- na.omit(veri_3)
summary(veri_son)
##   cinsiyet       yas            nabiz         egzersiz       boy       
##  Kadın:85   Min.   :16.92   Min.   : 35.00   Sık  :86   Min.   :152.0  
##  Erkek:85   1st Qu.:17.67   1st Qu.: 66.25   Yok  :14   1st Qu.:165.0  
##             Median :18.58   Median : 72.00   Bazen:70   Median :171.0  
##             Mean   :20.46   Mean   : 73.92              Mean   :172.5  
##             3rd Qu.:20.17   3rd Qu.: 80.00              3rd Qu.:180.0  
##             Max.   :70.42   Max.   :104.00              Max.   :200.0  
##       sigara   
##  Fazla   :  7  
##  Hic     :136  
##  Ara Sira: 13  
##  Duzenli : 14  
##                
## 
min(veri_son$yas)
## [1] 16.917
max(veri_son$yas)
## [1] 70.417
mean(veri_son$yas)
## [1] 20.46377
library(lsr)
modeOf(veri_son$yas)
## [1] 17.5
min(veri_son$yas)
## [1] 16.917
max(veri_son$yas)
## [1] 70.417
mean(veri_son$yas)
## [1] 20.46377
library(lsr)
modeOf(veri_son$yas)
## [1] 17.5
summary(veri_son$yas)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   16.92   17.67   18.58   20.46   20.17   70.42

Yorum: Veri setinde medyan 18.58)ile ortalama (20.46) karşılaştırıldığında, ortalamanın daha büyük olduğu görülmektedir.Bu durum dağılımın sağa çarpık olduğunu ve özellikle maksimum değerin (70.42) diğer değerlerden oldukça yüksek olması nedeniyle uç değerlerin bulunduğunu göstermektedir.

summary(veri_son$nabiz)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   35.00   66.25   72.00   73.92   80.00  104.00

#Yorum: Veri setinde medyan (72.00) ile ortalama (73.92) karşılaştırıldığında, ortalamanın biraz daha büyük olduğu görülmektedir.Bu durum,dağılımın hafif sağa çarpık olduğunu ve özellikle maksimum değerin (104.00) diğer değerlerden oldukça yüksek olması nedeniyle uç değerlerinin bulunduğunu göstermektedir.

summary(veri_son$boy)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   152.0   165.0   171.0   172.5   180.0   200.0

Yorum: Veri setinde medyan(171.0) ile ortalama (172.5) karşılaştırıldığında, ortalamanın biraz daha büyük olduğunu görülmektedir. Bu dağılımın sağa çarpık olduğunu ve maksimum değer (200.0) nedeniyle uç değerlerin bulunduğunu gösterir.

library(dplyr)
veri_son %>% count(egzersiz) %>%
  mutate(yuzde = round((n / sum(n))*100, 2))
##   egzersiz  n yuzde
## 1      Sık 86 50.59
## 2      Yok 14  8.24
## 3    Bazen 70 41.18
veri_son %>% group_by(egzersiz) %>% summarise(ortalama_nabiz = round(mean(nabiz), 2))
## # A tibble: 3 × 2
##   egzersiz ortalama_nabiz
##   <fct>             <dbl>
## 1 Sık                71.4
## 2 Yok                75.9
## 3 Bazen              76.6

#Tabloya göre egzersiz sıklığı arttıkça ortalama nabız değerinin azaldığı görülmektedir. Egzersiz yapanlarda (sık egzersiz) ortalama nabız 71.43 iken , egzersiz yapmayanlarda 75.86 ve arada yani bazen egzersiz yapanlarda 76.59’dur.

mean(veri_son$yas)
## [1] 20.46377
median(veri_son$yas)
## [1] 18.583
library(lsr)
modeOf(veri_son$yas)
## [1] 17.5

#Konu: Öğrencilerin günlük sosyal medya kullanım süreleri Kime: Üniversite Öğrencileri. Hangi Değişkenler: Yas,Cinsiyet,Günlük sosyal medya kullanım süresi,odaklanma süresi

library(dplyr)
data("survey")
library(MASS)
yas <- c(30, 24, 45)
cinsiyet <- c("Erkek", "Kadın", "Erkek")
sosyal_medya_saat <- c(4.7,2.0,1.5)
odaklanma_suresi_dk <- c(60,35,75)

arastirma_verisi <- data_frame(yas = yas, cinsiyet = cinsiyet, sosyal_medya_saat = sosyal_medya_saat, odaklanma_suresi_dk = odaklanma_suresi_dk)
## Warning: `data_frame()` was deprecated in tibble 1.1.0.
## ℹ Please use `tibble()` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
print(arastirma_verisi)
## # A tibble: 3 × 4
##     yas cinsiyet sosyal_medya_saat odaklanma_suresi_dk
##   <dbl> <chr>                <dbl>               <dbl>
## 1    30 Erkek                  4.7                  60
## 2    24 Kadın                  2                    35
## 3    45 Erkek                  1.5                  75
summary(arastirma_verisi)
##       yas         cinsiyet         sosyal_medya_saat odaklanma_suresi_dk
##  Min.   :24.0   Length:3           Min.   :1.500     Min.   :35.00      
##  1st Qu.:27.0   Class :character   1st Qu.:1.750     1st Qu.:47.50      
##  Median :30.0   Mode  :character   Median :2.000     Median :60.00      
##  Mean   :33.0                      Mean   :2.733     Mean   :56.67      
##  3rd Qu.:37.5                      3rd Qu.:3.350     3rd Qu.:67.50      
##  Max.   :45.0                      Max.   :4.700     Max.   :75.00