Overview

Ujian Tulis Berbasis Komputer (UTBK) merupakan ujian masuk Perguruan Tinggi Negeri yang diadakan oleh Lembaga Tes masuk Perguruan Tinggi (LTMPT) Kementrian Riset, Teknologi dan Pendidikan Tinggi (Ristekdikti). UTBK dapat diikuti oleh siswa lulusan tahun yang sama dengan pelaksanaan UTBK hingga 2 tahun setelah kelulusan pendidikan SMA/MA/SMK dan sederajat. Nilai yang didapatkan dari UTBK kemudian digunakan untuk mengikuti Seleksi Bersama Masuk Perguruan Tinggi Negeri (SBMPTN).

Analisis clustering menjadi hal yang sangat penting dalam melakukan efisiensi waktu belajar calon peserta UTBK. Salah satu contohnya yaitu calon peserta UTBK Saintek dapat meningkatkan kemampuan kuantitatif dengan mempelajari mata ujian seperti Matematika IPA atau Fisika (Analisis keterkaitan nilai UTBK dapat dilihat disini). Oleh karena itu penulis mencoba membuat clustering peserta UTBK 2019 berdasarkan skor yang mereka peroleh. Clustering akan dibagi menajdi dau kelompok yaitu clustering skor Saintek dan clustering skor Soshum

Library and Setup

library(readxl) #Untuk membaca data excel
library(tidyverse) #Untuk data pre-processing
library(GGally) #Untuk cek korelasi prediktor
library(factoextra) #Untuk visualisasi hasil clustering

Data Pre-Processing

Data Saintek

# Memanggil data saintek
saintekdata <- read_excel("UTBK2019.xlsx", sheet = "Saintek")

# Inspeksi data
glimpse(saintekdata)

## Rows: 86,569
## Columns: 20
## $ index                 <dbl> 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13,...
## $ id_first_major        <dbl> 3321065, 3211015, 3721093, 3321096, 5211104, ...
## $ first_major           <chr> "SEKOLAH ILMU DAN TEKNO. HAYATI - PROG. SAINS...
## $ capacity_first_major  <dbl> 64, 72, 68, 120, 30, 125, 40, 100, 50, 72, 12...
## $ id_first_university   <dbl> 332, 321, 372, 332, 521, 611, 341, 353, 711, ...
## $ first_university      <chr> "INSTITUT TEKNOLOGI BANDUNG", "UNIVERSITAS IN...
## $ id_second_major       <dbl> 3331187, 3611066, 3551302, 3551194, 5211085, ...
## $ second_major          <chr> "PSIKOLOGI", "KEDOKTERAN", "TEKNOLOGI PANGAN"...
## $ capacity_second_major <dbl> 80, 79, 50, 90, 64, 50, 41, 40, 50, 125, 125,...
## $ id_second_university  <dbl> 333, 361, 355, 355, 521, 333, 341, 353, 711, ...
## $ second_university     <chr> "UNIVERSITAS PADJADJARAN", "UNIVERSITAS GADJA...
## $ id_user               <dbl> 4, 14, 19, 23, 28, 29, 33, 37, 39, 43, 45, 46...
## $ score_bio             <dbl> 400, 816, 562, 700, 461, 516, 675, 641, 440, ...
## $ score_fis             <dbl> 400, 666, 839, 669, 619, 503, 584, 567, 410, ...
## $ score_kim             <dbl> 400, 651, 624, 692, 441, 410, 578, 600, 554, ...
## $ score_kmb             <dbl> 400, 678, 700, 679, 593, 717, 670, 627, 645, ...
## $ score_kpu             <dbl> 400, 685, 781, 692, 563, 614, 647, 553, 587, ...
## $ score_kua             <dbl> 400, 706, 464, 813, 500, 641, 706, 597, 502, ...
## $ score_mat             <dbl> 400, 695, 551, 507, 666, 479, 478, 529, 649, ...
## $ score_ppu             <dbl> 400, 562, 668, 573, 370, 512, 590, 691, 447, ...

Berikut spesifikasi setiap kolom yang terdapat pada dataset :

index, merupakan nomor urut baris yang dimulai dari 0 sampai (n-1) baris.

id_first_major, merupakan kode program studi pilihan pertama peserta.

first_major, merupakan nama program studi pilihan pertama peserta.

capacity_first_major, merupakan daya tampung program studi pilihan pertama peserta yang dapat diterima.

id_first_university, merupakan kode Perguruan Tinggi Negeri pilihan pertama peserta.

first_university, merupakan nama Perguruan Tinggi Negeri pilihan pertama peserta.

id_second_major, merupakan kode program studi pilihan kedua peserta.

second_major, merupakan nama program studi pilihan kedua peserta.

capacity_second_major, merupakan daya tampung program studi pilihan kedua peserta yang dapat diterima.

id_second_university, merupakan kode Perguruan Tinggi Negeri pilihan kedua peserta.

second_university, merupakan nama Perguruan Tinggi Negeri pilihan kedua peserta.

id_user, merupakan nomor urut peserta (digabung dengan peserta soshum)

score_bio, merupakan nilai mata ujian Biologi user.

score_fis, merupakan nilai mata ujian Fisika user.

score_kim, merupakan nilai mata ujian Kimia user.

score_kmb, merupakan nilai mata ujian Kemampuan Memahami Bacaan & Menulis user.

score_kpu, merupakan nilai mata ujian Kemampuan Penalaran Umum user.

score_kua, merupakan nilai mata ujian Kemampuan Kuantitatif user.

score_mat, merupakan nilai mata ujian Matematika Saintek user.

score_ppu, merupakan nilai mata ujian Pengetahuan & Pemahaman Umum user.

pass_university, merupakan keputusan apakah dinyatakan berhasil atau gagal dari SBMPTN.

# Cek missing value
anyNA(saintekdata)

## [1] FALSE

Dataset tidak memiliki missing value di setiap selnya, sehingga tidak perlu dilakukan pembersihan data.

Dari semua kolom yang terdapat pada dataframe, yang akan digunakan sebagai data pembuatan model terdapat pada kolom berbagai macam skor mata ujian UTBK saja, sehingga kolom lain yang tidak diperlukan dapat dibuang.

#Subsetting kolom
saintekdata <- saintekdata %>% 
  select(c(score_bio , score_fis , score_kim , score_mat , score_kmb , score_kpu , score_kua , score_ppu))

# Cek kesesuaian kolom
head(saintekdata)

Data Soshum

# Memanggil data soshum
soshumdata <- read_excel("UTBK2019.xlsx", sheet = "Soshum")

# Inspeksi data
glimpse(soshumdata)

## Rows: 61,198
## Columns: 21
## $ index                 <dbl> 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13,...
## $ id_first_major        <dbl> 3322014, 3212057, 3722057, 3212081, 3812106, ...
## $ first_major           <chr> "FAKULTAS SENIRUPA DAN DESAIN (FSRD)", "ILMU ...
## $ capacity_first_major  <dbl> 14, 16, 20, 16, 48, 26, 20, 16, 16, 45, 16, 1...
## $ id_first_university   <dbl> 332, 321, 372, 321, 381, 142, 323, 362, 322, ...
## $ first_university      <chr> "INSTITUT TEKNOLOGI BANDUNG", "UNIVERSITAS IN...
## $ id_second_major       <dbl> 3532154, 3322022, 1912042, 3212301, 3852034, ...
## $ second_major          <chr> "DESAIN KOMUNIKASI VISUAL", "SEKOLAH BISNIS D...
## $ capacity_second_major <dbl> 25, 14, 18, 16, 40, 26, 16, 25, 32, 45, 30, 4...
## $ id_second_university  <dbl> 353, 332, 191, 321, 385, 142, 322, 353, 336, ...
## $ second_university     <chr> "UNIVERSITAS SEBELAS MARET", "INSTITUT TEKNOL...
## $ id_user               <dbl> 26, 35, 44, 55, 171, 173, 184, 213, 215, 234,...
## $ score_eko             <dbl> 778, 579, 600, 559, 838, 424, 686, 503, 580, ...
## $ score_geo             <dbl> 486, 631, 481, 563, 734, 381, 663, 583, 485, ...
## $ score_kmb             <dbl> 679, 710, 314, 646, 654, 526, 763, 529, 517, ...
## $ score_kpu             <dbl> 594, 700, 432, 638, 613, 452, 556, 563, 544, ...
## $ score_kua             <dbl> 643, 810, 522, 591, 690, 503, 558, 513, 608, ...
## $ score_mat             <dbl> 686, 656, 494, 538, 315, 561, 537, 422, 467, ...
## $ score_ppu             <dbl> 559, 638, 461, 585, 628, 637, 597, 601, 454, ...
## $ score_sej             <dbl> 392, 535, 467, 647, 660, 488, 612, 499, 469, ...
## $ score_sos             <dbl> 676, 686, 574, 589, 674, 435, 569, 485, 501, ...