Nama : Muhammad Hafidlul Qolbi

NIM : 220605110063

Kelas : A

Mata Kuliah : Linear Algebra

Dosen Pengampuh : Prof. Dr. Suhartono, M.Kom

Jurusan : Teknik Informatika

Lembaga : Universitas Islam Negeri Maulana Malik Ibrahim Malang

===========================================================================================

Dalam ilmu data, terdapat tiga sub-bidang utama dari model statistik, yaitu pembelajaran terpantau (supervised learning), pembelajaran tak terpantau (unsupervised learning), dan pembelajaran penguatan (reinforcement learning). Pada bab ini, kita akan fokus pada pembelajaran tak terpantau, terutama dalam hal pengelompokan (clustering). Model pembelajaran tak terpantau merupakan metode statistik deskriptif, berbeda dengan pembelajaran terpantau yang merupakan metode statistik inferensial untuk memprediksi hasil atau parameter berdasarkan kumpulan data. Salah satu bidang utama dalam pembelajaran tak terpantau adalah pengelompokan. Metode pengelompokan bertujuan untuk menggabungkan observasi dalam kumpulan data berdasarkan “kemiripan” mereka. Pengukuran “kemiripan” ini didefinisikan sebagai “hasil perkalian titik” dari vektor-vektor dalam ruang vektor.

df <- USArrests
head(df)
##            Murder Assault UrbanPop Rape
## Alabama      13.2     236       58 21.2
## Alaska       10.0     263       48 44.5
## Arizona       8.1     294       80 31.0
## Arkansas      8.8     190       50 19.5
## California    9.0     276       91 40.6
## Colorado      7.9     204       78 38.7
df <- na.omit(df)
df <- scale(df)
d <- dist(df, method = "euclidean")
hc <- hclust(d)

Kita dapat melihat bagaimana metode ini mengelompokkan data bersama-sama dengan menggunakan “dendrogram”. Terdapat beberapa cara untuk mengetahui berapa banyak kelompok (kluster) yang ada dalam kumpulan data. Dari “dendrogram” ini, kita dapat mengetahui bahwa pada dasarnya terdapat empat kelompok dalam kumpulan data tersebut. Oleh karena itu, kita menggabungkan keempat kelompok tersebut bersama-sama.

sub_grp <- cutree(hc, k = 4)

Kemudian kita menggunakan paket factoextra [26] untuk memplot kelompok-kelompok tersebut.

library(factoextra)
## Warning: package 'factoextra' was built under R version 4.2.3
## Loading required package: ggplot2
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
fviz_cluster(list(data = df, cluster = sub_grp))

Sumber Referensi: Ruriko Yoshida - Linear Algebra and its Application with R