| Pengenalan contoh dari data sains |
Nama Mahasiswa: Nabil Ulwan Muhammad Caesar
NIM: ‘220605110127’
Kelas: B
Matkul: Linear Algebra
Dosen Pengampu: Prof. Dr. Suhartono, M.Kom
Jurusan: Teknik Informatika
Lembaga: Universitas Islam Negeri Maulana Malik Ibrahim Malang
Dalam ilmu data, kita memiliki tiga sub-area dasar dari model statistik: pembelajaran berawasan, pembelajaran tak berawasan, dan pembelajaran penguatan. Pada bab ini, kita akan fokus pada pembelajaran tak berawasan, terutama pengelompokan (clustering). Model pembelajaran tak berawasan adalah metode statistik deskriptif, berbeda dengan pembelajaran berawasan yang merupakan metode statistik inferensial untuk memprediksi hasil atau parameter berdasarkan kumpulan data. Salah satu area utama dalam pembelajaran tak berawasan adalah pengelompokan. Metode pengelompokan bertujuan untuk mengelompokkan observasi dalam kumpulan data berdasarkan “kesamaan” mereka. Pengukuran “kesamaan” ini didefinisikan sebagai “dot product” dari vektor-vektor dalam ruang vektor. Pada bagian ini, kita akan menggunakan kumpulan data kejahatan dari Amerika Serikat, yaitu kumpulan data “USArrests” dari R. Data ini berisi informasi tentang penangkapan yang dilakukan di Amerika Serikat: rata-rata penangkapan per 100.000 penduduk untuk kasus serangan, pembunuhan, pemerkosaan, dan persentase populasi yang tinggal di daerah perkotaan di masing-masing dari 50 negara bagian pada tahun 1973. Di sini, kita akan menggunakan fungsi hclust() dari R untuk melihat pengelompokan, yaitu pengelompokan berdasarkan kesamaan antara setiap observasi. Pertama, kita mengunggah data “USArrests” dari R.
df <- USArrests
Mengassign dataset USArrests ke variabel df. Dataset ini menyediakan data tentang tingkat kejahatan dan faktor-faktor sosial di setiap negara bagian di Amerika Serikat.
head(df)
## Murder Assault UrbanPop Rape
## Alabama 13.2 236 58 21.2
## Alaska 10.0 263 48 44.5
## Arizona 8.1 294 80 31.0
## Arkansas 8.8 190 50 19.5
## California 9.0 276 91 40.6
## Colorado 7.9 204 78 38.7
## Murder Assault UrbanPop Rape
##Alabama 1.24256408 0.7828393 -0.5209066 -0.003416473
##Alaska 0.50786248 1.1068225 -1.2117642 2.484202941
##Arizona 0.07163341 1.4788032 0.9989801 1.042878388
##Arkansas 0.23234938 0.2308680 -1.0735927 -0.184916602
##California 0.27826823 1.2628144 1.7589234 2.067820292
##Colorado 0.02571456 0.3988593 0.8608085 1.864967207
Menampilkan beberapa baris pertama dari dataset df, termasuk variabel-variabel Murder, Assault, UrbanPop, dan Rape.
df <- na.omit(df)
Menghapus baris yang mengandung missing values (NA) dari dataset df.
df <- scale(df)
Melakukan penskalaan standar pada dataset df. Penskalaan standar dilakukan untuk mengubah setiap variabel menjadi memiliki mean 0 dan standar deviasi 1, sehingga memudahkan analisis selanjutnya.
d <- dist(df, method = "euclidean")
Menghitung jarak antara setiap pasang observasi dalam dataset df menggunakan metode euclidean. Hasilnya akan disimpan dalam variabel d.
hc <- hclust(d)
Melakukan hierarchical clustering pada jarak yang dihitung sebelumnya (d). Hierarchical clustering adalah metode pengelompokan data yang menghasilkan dendrogram yang menunjukkan hubungan antara observasi dalam kelompok-kelompok yang saling terhubung.
sub_grp <- cutree(hc, k = 4)
Memotong dendrogram menjadi 4 kelompok berdasarkan metode cutree. Setiap observasi akan diberi label kelompok sesuai dengan pemotongan yang dilakukan. Hasilnya akan disimpan dalam variabel sub_grp.
library(factoextra)
## Warning: package 'factoextra' was built under R version 4.2.3
## Loading required package: ggplot2
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
Memuat paket “factoextra” yang digunakan untuk visualisasi kelompok-kelompok (clustering).
fviz_cluster(list(data = df, cluster = sub_grp))
Menghasilkan visualisasi kelompok-kelompok (clustering) menggunakan
fungsi fviz_cluster dari paket factoextra. Visualisasi ini memberikan
gambaran yang lebih jelas tentang pembagian kelompok berdasarkan
analisis clustering yang telah dilakukan sebelumnya pada dataset df.
Pengelompokan (clustering) dalam data “USArrests” menggunakan metode pengelompokan hierarkis. Setiap kelompok memiliki warna yang unik. Sumbu x mewakili komponen utama pertama (first principal component) dan sumbu y mewakili komponen utama kedua (second principal component) yang dihitung menggunakan analisis komponen utama (PCA).
Sumber Referensi: Ruriko Yoshida - Linear Algebra and its Application with R