# Membaca dataset Iris
iris <- datasets::iris
# Melihat dimensi dataset
dim(iris)
## [1] 150 5
# Melihat struktur dataset
str(iris)
## 'data.frame': 150 obs. of 5 variables:
## $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
## $ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
## $ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
## $ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
## $ Species : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...
# Melihat summary dataset
summary(iris)
## Sepal.Length Sepal.Width Petal.Length Petal.Width
## Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100
## 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300
## Median :5.800 Median :3.000 Median :4.350 Median :1.300
## Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
## 3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
## Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
## Species
## setosa :50
## versicolor:50
## virginica :50
##
##
##
# Melihat sebaran data menggunakan boxplot
boxplot(iris[,1:4], main="Iris Data Boxplot")
# Melakukan klasifikasi menggunakan K-Nearest Neighbors (KNN)
library(class)
trainIndex <- sample(1:nrow(iris), 100)
train <- iris[trainIndex,1:4]
test <- iris[-trainIndex,1:4]
train_labels <- iris[trainIndex,5]
test_labels <- iris[-trainIndex,5]
k <- 5
predicted_species <- knn(train, test, train_labels, k)
table(predicted_species, test_labels)
## test_labels
## predicted_species setosa versicolor virginica
## setosa 19 0 0
## versicolor 0 13 0
## virginica 0 1 17
Dalam contoh ini, kita menggunakan dataset Iris dari package datasets di R. Pertama, kita melihat dimensi dan struktur dataset menggunakan fungsi dim() dan str(). Kemudian, kita melihat summary dataset menggunakan fungsi summary(). Selanjutnya, kita melihat sebaran data menggunakan boxplot dengan fungsi boxplot(). Terakhir, kita melakukan klasifikasi menggunakan K-Nearest Neighbors (KNN) dengan fungsi knn(). Kita memilih 100 sampel secara acak sebagai data pelatihan dan menggunakan sampel yang tersisa sebagai data uji. Kita menggunakan k=5 sebagai parameter untuk KNN. Hasil klasifikasi ditampilkan menggunakan fungsi table().