# Load data Titanic dan ubah jadi data.frame
data1 <- data.frame(Titanic)
# Cek jumlah missing value di setiap kolom
colSums(is.na(data1))
## Class Sex Age Survived Freq
## 0 0 0 0 0
Jadi tidak ada missing value di semua variabel
# Ambil kolom Freq
freq <- data1$Freq
Q1 <- quantile(freq, 0.25)
Q3 <- quantile(freq, 0.75)
IQR <- Q3 - Q1
lower_bound <- Q1 - 1.5 * IQR
upper_bound <- Q3 + 1.5 * IQR
outliers <- freq[freq < lower_bound | freq > upper_bound]
# Hitung jumlah outlier
length(outliers)
## [1] 3
Jadi jumlah outliernya adalah 3
# Menghitung jumlah baris duplikat pada data1
sum(duplicated(data1))
## [1] 0
Berdasarkan output, jumlah duplikat adalah 0, jadi tidk ada duplikat
# Data nilai ujian siswa
nilai <- c(70, 75, 80, 85, 85, 90, 95, 100, 60, 75, 77, 85, 90, 98, 68, 92, 85, 66, 75, 80, 72, 84, 50, 69, 76, 80, 90, 95, 88, 77)
# Hitung rata-rata
mean(nilai)
## [1] 80.4
# Hitung median
median(nilai)
## [1] 80
# Hitung standar deviasi
sd(nilai)
## [1] 11.48792
jadi rata-rata, median, dan std secara beruturt adalah 80.4, 80, dan 11.48
# Load library dan data
library(mlbench)
## Warning: package 'mlbench' was built under R version 4.4.3
data("BreastCancer")
library(caTools)
## Warning: package 'caTools' was built under R version 4.4.3
set.seed(110)
Jika membiarkan missing valuenya missing valuenya:
split=sample.split(BreastCancer, SplitRatio = 0.2)
training_set=subset(BreastCancer,split==TRUE)
test_set=subset(BreastCancer,split==FALSE)
# Cek jumlah baris (observasi)
nrow(BreastCancer) # Total data
## [1] 699
dim(training_set) #dimensi data training
## [1] 128 11
dim(test_set) #dimensi data tes
## [1] 571 11
Jika ada penhapusan Missing Value:
# Hapus baris dengan missing value agar pembagian data tidak error
bc <- na.omit(BreastCancer)
# Cek jumlah baris (observasi)
nrow(bc) # Total data
## [1] 683
# Split data (80% training, 20% testing)
split <- sample.split(bc$Class, SplitRatio = 0.8)
training <- subset(bc, split == TRUE)
testing <- subset(bc, split == FALSE)
# Cek jumlah data training dan testing
dim(training) #dimensi data training
## [1] 546 11
dim(testing) #dimensi data tes
## [1] 137 11
belum ditemukan jawaban yang sesuai dengan pilhan opsi e ujian