Dataset Iris dengan ISLR R

# Membaca dataset Iris
iris <- datasets::iris

# Melihat dimensi dataset
dim(iris)

## [1] 150   5

# Melihat struktur dataset
str(iris)

## 'data.frame':    150 obs. of  5 variables:
##  $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
##  $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
##  $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
##  $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
##  $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...

# Melihat summary dataset
summary(iris)

##   Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
##  Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
##  1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
##  Median :5.800   Median :3.000   Median :4.350   Median :1.300  
##  Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
##  3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
##  Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
##        Species  
##  setosa    :50  
##  versicolor:50  
##  virginica :50  
##                 
##                 
##

# Melihat sebaran data menggunakan boxplot
boxplot(iris[,1:4], main="Iris Data Boxplot")

# Melakukan klasifikasi menggunakan K-Nearest Neighbors (KNN)
library(class)
trainIndex <- sample(1:nrow(iris), 100)
train <- iris[trainIndex,1:4]
test <- iris[-trainIndex,1:4]
train_labels <- iris[trainIndex,5]
test_labels <- iris[-trainIndex,5]
k <- 5
predicted_species <- knn(train, test, train_labels, k)
table(predicted_species, test_labels)

##                  test_labels
## predicted_species setosa versicolor virginica
##        setosa         19          0         0
##        versicolor      0         13         0
##        virginica       0          1        17

Dalam contoh ini, kita menggunakan dataset Iris dari package datasets di R. Pertama, kita melihat dimensi dan struktur dataset menggunakan fungsi dim() dan str(). Kemudian, kita melihat summary dataset menggunakan fungsi summary(). Selanjutnya, kita melihat sebaran data menggunakan boxplot dengan fungsi boxplot(). Terakhir, kita melakukan klasifikasi menggunakan K-Nearest Neighbors (KNN) dengan fungsi knn(). Kita memilih 100 sampel secara acak sebagai data pelatihan dan menggunakan sampel yang tersisa sebagai data uji. Kita menggunakan k=5 sebagai parameter untuk KNN. Hasil klasifikasi ditampilkan menggunakan fungsi table().

Dataset Iris dengan ISLR R

Sania Nabila Salsabila (nim : 220605110047) Jurusan Teknik Informatika UIN MALANG

2023-03-04