Nama : Muhamad Maulana Akbar
NIM : 220605110091
Dosen Pembimbing : Prof. Dr. Suhartono, M.Kom
Lembaga : Universitas Islam Negeri Maulana Malik Ibrahim Malang
Jurusan : Teknik Informatika
Fakultas : Sains dan Teknologi
Dalam ilmu data kita pada dasarnya memiliki tiga sub-bidang model statistik: pembelajaran terawasi, pembelajaran tidak terawasi, dan pembelajaran penguatan. Dalam bab ini kita fokus pada pembelajaran tanpa pengawasan, khususnya pengelompokan. ing. Mengklasifikasikan metode untuk mengelompokkan pengamatan dalam data yang diatur bersama oleh kemiripannya”. Pengukuran kemiripan ini” adalah produk nedasa titik” dari vektor dalam ruang vektor. Di bagian ini kami mempertimbangkan kumpulan data kejahatan dari Amerika Serikat, kumpulan data Arrests” dari R. Data ini berisi informasi tentang penangkapan yang dilakukan di Amerika Serikat: penangkapan rata-rata per 100.000 penduduk untuk penyerangan, pembunuhan, pemerkosaan, dan persentase populasi yang tinggal di daerah perkotaan di setiap 50 negara bagian pada tahun 1973. Di sini kami menerapkan fungsi cluster () dari R untuk melihat pengelompokan, yaitu, grup berdasarkan kesamaan antara setiap pengamatan. Pertama, kami mengunggah data” dari R:
df <-USArrests
Anda dapat melihat pengamatan pertama dengan menggunakan fungsi head():
head(df)
## Murder Assault UrbanPop Rape
## Alabama 13.2 236 58 21.2
## Alaska 10.0 263 48 44.5
## Arizona 8.1 294 80 31.0
## Arkansas 8.8 190 50 19.5
## California 9.0 276 91 40.6
## Colorado 7.9 204 78 38.7
Kemudian kita membersihkan data dengan menghapus nilai yang hilang menggunakan thena.omit() fungsi:
df <-na.omit(df)
Kemudian kita menggunakan fungsi scale() untuk“setiap pengukuran.The alasan mengapa kami menerapkan fungsi ini adalah bahwa beberapa pengukuran jauh lebih besar dari yang lain. Misalnya, satu siswa mengambil tes ACT dan SAT. SAT memiliki skor maksimum 1600 dan AC memiliki skor maksimum 36. Jika siswa ini ingin mengetahui tes yang dia kalahkan dengan lebih baik, Anda tidak bisa hanya membandingkan skor ini. Jika kita menghitung seberapa jauh skor siswa untuk SAT atau ACT adalah dari rata-rata, maka kita dapat membandingkan skor siswa pada ACT dan SAT.Thescale()fungsi menghitungmenunjukkanjauhpengamatanmenempatkandari rata-rata.
df <-scale(df)
Kemudian kita menggunakan“jarak sebagai ukuran seberapa jauh jaraknya dua pengamatan berasal dari satu sama lain. Di sini”distance adalah akar kuadrat dari perkalian dalam dua vektor di R4 untuk” data. Kami menyimpan jarak antara setiap pasangan pengamatan dalam data“dengan50 50 matriks menggunakan fungsi thedist():
d <-dist(df,method="euclidean")
Sekarang kami siap menerapkanclust() functionforclusteringusinga metode “:
hc <-hclust(d)
Kita bisa melihat bagaimana metode ini mengelompokkan data bersama-sama dengan“. Selalu ada beberapa cara untuk melihat berapa banyak grup (cluster) yang ada di dalam data mengatur. Di sini dari dendrogram”kami tahu pada dasarnya ada empat kelompok di dataset. Jadi, kami membuat empat grup bersama:
sub_grp <-cutree(hc,k=4)
Then weusethe factoextra package[26] toplottheclusters.
library(factoextra)
## Loading required package: ggplot2
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
Sekarang kita plot hasilnya. Kami menggunakan fungsi fviz cluster() :
fviz_cluster(list(data =df,cluster=sub_grp))