4101422169_Buram UTS Data Mining

Soal No 6 - Deteksi Missing Value

# Load data Titanic dan ubah jadi data.frame
data1 <- data.frame(Titanic)

# Cek jumlah missing value di setiap kolom
colSums(is.na(data1))

##    Class      Sex      Age Survived     Freq 
##        0        0        0        0        0

Jadi tidak ada missing value di semua variabel

Soal No 7 - Menghitung outlier

# Ambil kolom Freq
freq <- data1$Freq

Q1 <- quantile(freq, 0.25)     
Q3 <- quantile(freq, 0.75)     
IQR <- Q3 - Q1                     
lower_bound <- Q1 - 1.5 * IQR      
upper_bound <- Q3 + 1.5 * IQR      
outliers <- freq[freq < lower_bound | freq > upper_bound]


# Hitung jumlah outlier
length(outliers)

## [1] 3

Jadi jumlah outliernya adalah 3

Soal No 8 - Mendeteksi duplikat

# Menghitung jumlah baris duplikat pada data1
sum(duplicated(data1))

## [1] 0

Berdasarkan output, jumlah duplikat adalah 0, jadi tidk ada duplikat

Soal No 9 - Hitunglah rata-rata, median dan standar deviasi

# Data nilai ujian siswa
nilai <- c(70, 75, 80, 85, 85, 90, 95, 100, 60, 75, 77, 85, 90, 98, 68, 92, 85, 66, 75, 80, 72, 84, 50, 69, 76, 80, 90, 95, 88, 77)

# Hitung rata-rata
mean(nilai)

## [1] 80.4

# Hitung median
median(nilai)

## [1] 80

# Hitung standar deviasi
sd(nilai)

## [1] 11.48792

jadi rata-rata, median, dan std secara beruturt adalah 80.4, 80, dan 11.48

Soal No 10 - Dimensi data testing dan data training

# Load library dan data
library(mlbench)

## Warning: package 'mlbench' was built under R version 4.4.3

data("BreastCancer")
library(caTools)

## Warning: package 'caTools' was built under R version 4.4.3

set.seed(110)

Jika membiarkan missing valuenya missing valuenya:

split=sample.split(BreastCancer, SplitRatio = 0.2)
training_set=subset(BreastCancer,split==TRUE)
test_set=subset(BreastCancer,split==FALSE) 

# Cek jumlah baris (observasi)
nrow(BreastCancer)  # Total data

## [1] 699

dim(training_set) #dimensi data training

## [1] 128  11

dim(test_set) #dimensi data tes

## [1] 571  11

Jika ada penhapusan Missing Value:

# Hapus baris dengan missing value agar pembagian data tidak error
bc <- na.omit(BreastCancer)

# Cek jumlah baris (observasi)
nrow(bc)  # Total data

## [1] 683

# Split data (80% training, 20% testing)
split <- sample.split(bc$Class, SplitRatio = 0.8)
training <- subset(bc, split == TRUE)
testing <- subset(bc, split == FALSE)

# Cek jumlah data training dan testing
dim(training) #dimensi data training

## [1] 546  11

dim(testing) #dimensi data tes

## [1] 137  11

belum ditemukan jawaban yang sesuai dengan pilhan opsi e ujian