title: “vektor space” author:“Nama = Intan Nurhidayah|| Nim = 220605110039 || Mata Kuliah = Linear Algebra || Dosen Pengampu = Prof.Dr.SUHARTONO,M.Kom || Teknik Informatika || Universitas Islam Negeri Malang”
alam ilmu data pada dasarnya memiliki tiga sub-bidang model statistik: pembelajaran yang diawasi, pembelajaran yang tidak diawasi, dan pembelajaran penguatan. Di dalam bab kami fokus pada pembelajaran tanpa pengawasan, terutama pengelompokan. Model pembelajaran tanpa pengawasan adalah metode statistik deskriptif tidak seperti yang diawasi. pembelajaran sub-area dalam ilmu data yang berfokus pada pengelompokan data tanpa adanya label atau target sebelumnya. Metode yang umum digunakan adalah pengelompokan atau clustering, di mana observasi dalam kumpulan data dikelompokkan berdasarkan kesamaan mereka. Dalam pengelompokan, pengukuran kesamaan sering kali menggunakan representasi vektor dalam ruang vektor. Sebagai contoh, dalam analisis pengelompokan data kejahatan “USArrests” dari Amerika Serikat, kita dapat menggunakan fungsi hclust() dari R untuk melihat pengelompokan berdasarkan kesamaan antara setiap observasi.
Di sini kita akan mengelompokkan berdasarkan kesamaan antara setiap pengamatan. Pertama, kita mengunggah data “USArrests” dari R:
df <- USArrests
Untuk mengamati 6 observasi pertama, gunakan fungsi head():
head(df)
## Murder Assault UrbanPop Rape
## Alabama 13.2 236 58 21.2
## Alaska 10.0 263 48 44.5
## Arizona 8.1 294 80 31.0
## Arkansas 8.8 190 50 19.5
## California 9.0 276 91 40.6
## Colorado 7.9 204 78 38.7
jika ingin membersihkan data maka ketik fungsi na.omit() :
df <- na.omit(df)
Kemudian kita menggunakan fungsi scale() untuk “memstandarkan” setiap pengukuran. Terapkan fungsi ini adalah karena beberapa pengukuran jauh lebih besar daripada yang lain. Misalnya, satu siswa mengikuti tes ACT dan SAT. SAT punya skor maksimal 1600 dan ACT memiliki skor maksimal 36. Jika siswa ini ingin mengetahui tes yang dia lakukan lebih baik, Anda tidak bisa hanya membandingkan skor ini. Jika kita menghitung seberapa jauh skor siswa untuk SAT atau ACT adalah dari rata-rata, maka kita dapat membandingkan nilai siswa pada ACT dan DUDUK. Fungsi scale() menghitung seberapa jauh lokasi setiap pengamatan rata-rata.
df <- scale(df)
Kemudian gunakan “Euclidean” sebagai ukuran seberapa jauh jaraknya dua pengamatan berasal dari satu sama lain. Di sini jarak “Euclidean” adalah a akar kuadrat dari hasil kali dalam dua vektor di R 4 untuk “USArrests” data (kita akan membahas hasil kali dalam di Bab 5). Kami menyimpan jarak antara setiap pasangan pengamatan dalam data “USArrests” dengan 50 × 50 matriks menggunakan fungsi dist():
d <- dist(df, method = "euclidean")
hc <- hclust(d)
Untuk melihat bagaimana metode ini mengelompokkan data bersama-sama dengan “dendrogram”. Ada beberapa cara untuk melihat berapa banyak kelompok (cluster) yang ada dalam kumpulan data. Di sini, dari “dendrogram” kita tahu bahwa pada dasarnya ada empat kelompok dalam kumpulan data. Dengan demikian, kita membuat keempat kelompok tersebut menjadi satu:
sub_grp <- cutree(hc, k = 4)
gunakan library factoextra lalu gunakan fungsi fvis_cluster() untuk menampilkan nya :
library (factoextra)
## Loading required package: ggplot2
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
fviz_cluster(list(data = df, cluster = sub_grp))