nomor 6: Cek apakah ada missing value di setiap variabel?

data1 <- data.frame(Titanic)
colSums(is.na(data1))
##    Class      Sex      Age Survived     Freq 
##        0        0        0        0        0

Jawaban: A. Tidak Ada missing value di semua variabel

nomor 7: Berapakah jumlah outliers yang ada di kolom Freq pada data Titanic?

Load data Titanic

data1 <- data.frame(Titanic)

Ambil kolom Freq

freq <- data1$Freq

Hitung Q1, Q3, dan IQR

Q1 <- quantile(freq, 0.25)
Q3 <- quantile(freq, 0.75)
IQR_val <- Q3 - Q1

Tentukan batas bawah dan atas

lower_bound <- Q1 - 1.5 * IQR_val
upper_bound <- Q3 + 1.5 * IQR_val

Temukan nilai yang outlier

outliers <- freq[freq < lower_bound | freq > upper_bound]

Lihat nilai-nilai outlier dan jumlahnya

outliers
## [1] 387 670 192
length(outliers)
## [1] 3

Jadi Jawabannya A. 3

#Nomor 8: Cek berapakah baris yang terduplikat?

data1 <- data.frame(Titanic)
sum(duplicated(data1))
## [1] 0

#Jawabannya A. Tidak Ada Duplikat

#Nomor 9: Hitung rata-rata, median, dan standar deviasi

nilai <- c(70, 75, 80, 85, 85, 90, 95, 100, 60, 75, 77, 85, 
           90, 98, 68, 92, 85, 66, 75, 80, 72, 84, 50, 69, 
           76, 80, 90, 95, 88, 77)
mean(nilai)
## [1] 80.4
median(nilai)
## [1] 80
sd(nilai)
## [1] 11.48792

#Jawaban 80.4, 80, dan 11.48

#Nomor 10: Berapa dimensi data testing dan data training?

library(mlbench)
## Warning: package 'mlbench' was built under R version 4.4.3
data("BreastCancer")
library(caTools)
## Warning: package 'caTools' was built under R version 4.4.3
set.seed(110)

Bersihkan data dari NA

data_bc <- na.omit(BreastCancer)

Split 80% training, 20% testing

split <- sample.split(data_bc$Class, SplitRatio = 0.8)
train_data <- subset(data_bc, split == TRUE)
test_data <- subset(data_bc, split == FALSE)

Cek jumlah baris data testing

nrow(test_data)
## [1] 137

#Jawaban di e ujian: 117 karena tidak ada jawaban sesuai perhitungannya