Pendahuluan

Di masa sekarang ini, industri smartphone tumbuh begitu pesat. Bahkan hampir setiap bulan ada saja produsen smartphone yang menyuguhkan produk barunya kepada para masyarakat dengan fitur terbaik yang dimilikinya. Di satu sisi, hal tersebut tentu akan mempermudah masyarakat dalam mendapatkan beragam pilihan smartphone. Namun di sisi lain, cara tersebut justru membingungkan masyarakat dalam memilih smartphone ideal masa kini.

Fitur memiliki pengaruh yang positif dan signifikan terhadap keputusan pembelian smartphone. Apabila perusahaan menambahkan berbagai macam fitur, maka akan mendorong konsumen untuk membeli [1], Selain itu pemerintah juga sudah mulai melirik pentingnya pemanfaatan fitur dari smartphone. Tuntutan fitur pada smartphone tidak lagi hanya sekadar alat komunikasi tapi lebih dari itu. Misalnya saja fitur kamera pada smartphone dapat dimanfaatkan untuk mendokumentasikan suatu objek untuk beragam kepentingan selain sebagai eksistensinya di jagat media sosial, foto juga dibutuhkan untuk melengkapi sebuah informasi dan bahkan mungkin dipakai untuk memperkenalkan karakter produk dagangan daring [2], Dan masih banyak fitur lain dari smartphone yang dapat menjadikan smartphone memiliki value.

Berdasarkan uraian tersebut maka diperlukan sebuah metode yang dapat merangkum informasi dari setiap fitur yang ada dalam smartphone agar masyarakat/konsumen dapat menentukan smartphone yang terbaik.

Principal Component Analysis (PCA) adalah salah satu analisis multivariat yang menjelaskan struktur varians-kovarians dari suatu set variabel melalui kombinasi linear dan digunakan untuk menyederhanakan variabel awal [3]. PCA mampu mereduksi variabel dengan tetap mempertahankan informasi didalamnya, sehingga mempermudah interpretasi dari data yang dimiliki.

Selain menggunakan PCA, akan digunakan juga analisis biplot, Analisis biplot adalah salah satu metode analisis multivariat yang digunakan untuk pemetaan pada matriks data n x p yang akan menghasilkan plot dari n buah objek penelitian dan p buah variabel dalam bentuk grafik dua dimensi [4]. Analisis biplot memberikan infomasi mengenai kedekatan antar objek penelitian, variansi variabel, korelasi antar variabel penelitian, dan nilai variabel pada objek penelitian [5]. Dengan menggunakan metode Principal Components Analysis Biplot dapat menyajikan peta dari smartphone sebagai objek sehingga bisa dilakukan pengelompokan smartphone tesebut berdasarkan kemiripan karakteristiknya.

> Maksud dan Tujuan

Maksud dari penelitian ini adalah menerapkan model Principal Component Analysis Biplot untuk melakukan pengelompokan. Sedangkan tujuan dari penelitian ini adalah untuk membuat rekomendasi-rekomendasi berdasarkan kelompok yang telah terbentuk, dimana dalam satu kelompok akan memiliki spesifikasi yang hampir sama sehingga customer dapat memiliki alternatif jenis smartphone lain yang memiliki spesifikasi yang hampir sama dengan yang diinginkan.

> Benefit

Dapat memberikan pilihan alternatif bagi konsumen yang sedang mencari smartphone dengan kriteria yang sama.
Menyediakan referensi bagi penjual smartphone mengenai smart phone yang memiliki kesamaan.

Data Wrangling dan Eksplorasi Data

1. Import Library

# Import library untuk data wrangling
library(tidyverse) 
library(dplyr)
library(mvnTest) # Tests for multivariate normality

2. Read Data

Data pada penelitian ini merupakan data Sekunder, yang berisikan informasi dari Smartphone dengan harga antara 1jt hingga 2jt di E-Commerce Tokopedia berdasarkan pada Nilai dan Review Pengguna Pada Website kimovil.com.

Kimovil adalah website yang menyediakan informasi terkait spesifikasi smartphone yang memberikan dengan detail informasi terkait teknologi dari handphone tersebut. selain itu Kimovil juga memberikan rating yang disebut “Ki-Rating” yang diambil dari perbandingan 200 variable pada komponen smartphone yang ada didalam database kimovil.

Dataset yang digunakan dapat diakses melalui link berikut: https://www.kaggle.com/datasets/linxzy/smartphone-price-compared-by-kimovil-review

data_sp <- read.csv("Smartphone(1jt-2jt).csv", sep = ";")

str(data_sp)

## 'data.frame':    24 obs. of  12 variables:
##  $ Name        : chr  "Alcatel 1S" "Alcatel 1SE" "Zenfone 4 Max" "Infinix Hot 10 Play" ...
##  $ Brand       : chr  "Alcatel" "Alcatel" "Asus" "Infinix" ...
##  $ Price       : chr  "1.599.000" "1.599.000" "1.699.000" "1.259.000" ...
##  $ Processor   : chr  "Mediatek" "Unisoc" "Snapdragon" "Mediatek" ...
##  $ RAM         : int  3 4 3 2 2 2 3 2 4 2 ...
##  $ Memory      : int  32 64 32 32 16 32 32 32 64 32 ...
##  $ Screen      : num  4.1 3.6 4.1 4.3 3.7 3.9 6.4 3.9 7 5.8 ...
##  $ Performance : num  5.7 5.4 4.5 5.7 4.3 5.4 5.9 5.4 6.7 5.8 ...
##  $ Camera      : num  4.8 4.9 3.7 4.6 3.5 4.5 4.7 4.5 6.8 3.4 ...
##  $ Connectivity: num  5.5 5.4 5.7 6.7 3.5 4.5 5.9 4.5 7 5.6 ...
##  $ Battery     : num  5.9 5.7 7.7 8.8 4.4 6.8 6.9 6.8 8.9 8.1 ...
##  $ Link        : chr  "https://www.tokopedia.com/mygadgetholic/alcatel-1s-5028y-smartphone-3-32gb-garansi-resmi-green" "https://www.tokopedia.com/mygadgetholic/alcatel-1se-5030u-smartphone-4-64gb-garansi-resmi-green" "https://www.tokopedia.com/mygadgetholic/asus-zenfone-4-max-zc554kl-smartphone-ram-3gb-rom-32gb-gold" "https://www.tokopedia.com/mygadgetholic/infinix-hot-10-play-x688c-smartphone-2gb-32gb-garansi-resmi-morandi-green" ...

Definisi Variabel:

Name: Nama series dari Smartphone.
Brand: Nama Brand/Perusahan pembuat Smartphone.
Price: Harga Smartphone yang tertera di E-Commerce Tokopedia.
Processor: Jenis processor yang digunakan dalam Smartphone.
RAM: Besar RAM yang digunakan dalam Smartphone
Memory: Besar penyimpanan dalam Smartphone(GB)
Screen: Score/rating untuk design & screen (Ki-rating oleh Kimovil.com)
Performance: Score/rating untuk hardware & performance (Ki-rating oleh Kimovil.com)
Camera: Score/rating untuk kamera (Ki-rating oleh Kimovil.com)
Connectivity: Score/rating untuk koneksi (Ki-rating oleh Kimovil.com)
Battery: Score/rating untuk batre (Ki-rating oleh Kimovil.com)
Link: Link halaman tempat pembelian Smartphone

3. Data Wrangling

Principal component analysis (PCA) adalah prosedur statistik yang menggunakan transformasi ortogonal untuk mengubah seperangkat pengamatan dari variabel yang mungkin berkorelasi (entitas yang masing-masing mengambil berbagai nilai numerik) menjadi seperangkat nilai variabel tidak linear yang disebut komponen utama (PC).

Oleh karena itu pada penelitian ini akan dipilih hanya variabel yang bertipe numeric saja, selain itu variabel Price tidak akan dimasukan karena pada analisis ini hanya ingin melihat hasil pengelompokan berdasarkan kualitas Smartphone.

> Pilih faktor-faktor yang digunakan

data_spes <- data_sp[, 5:11]

head(data_spes)

4. Eksplorasi Data

Ekplorasi data dilakukan agar kita menjadi lebih paham dengan gambaran awal dari data yang akan digunakan.

> Cek Missing Value

data_spes %>% 
  is.na() %>% 
  colSums()

##          RAM       Memory       Screen  Performance       Camera Connectivity 
##            0            0            0            0            0            0 
##      Battery 
##            0

Insight :

Tidak terdapat missing value, sehingga dapat dilanjutkan ke proses analisis.

> Melihat gambaran umum data melalui ringkasan/summary

summary(data_spes)

##       RAM           Memory          Screen       Performance        Camera     
##  Min.   :2.00   Min.   :16.00   Min.   :3.200   Min.   :4.300   Min.   :3.400  
##  1st Qu.:2.00   1st Qu.:32.00   1st Qu.:3.600   1st Qu.:5.375   1st Qu.:4.475  
##  Median :3.00   Median :32.00   Median :4.100   Median :5.700   Median :4.700  
##  Mean   :2.75   Mean   :38.67   Mean   :4.737   Mean   :5.604   Mean   :4.800  
##  3rd Qu.:3.00   3rd Qu.:40.00   3rd Qu.:5.925   3rd Qu.:5.900   3rd Qu.:5.025  
##  Max.   :4.00   Max.   :64.00   Max.   :7.000   Max.   :6.700   Max.   :7.100  
##   Connectivity      Battery     
##  Min.   :3.500   Min.   :4.400  
##  1st Qu.:5.075   1st Qu.:5.900  
##  Median :5.500   Median :7.750  
##  Mean   :5.542   Mean   :7.154  
##  3rd Qu.:5.900   3rd Qu.:8.100  
##  Max.   :7.600   Max.   :8.900

Insight :

Terdapat perbedaan yang cukup jauh antara RAM dan Memory dengan variabel lainnya, hal ini dikarena untuk kedua variabel tersebut memiliki satuan yang berbeda dengan variabel lain lain. Dimana satuan nya menggunakan Gigabyte (GB).
Untuk variabel Screen, Performance, Camera, Connectivity dan Battery memiliki perbedaan range data yang tidak terlalu jauh dan memiliki satuan yang sama, hal itu disebabkan karena satuan variabel-variabel tersebut adalah Score yang dimana penilaian diambil pada website kimovil.com.

> Cek nilai Outlier menggunakan jarak mahalanobis

Outlier adalah pengamatan yang sangat menyimpang dari pengamatan lain sehingga, menimbulkan kecurigaan yang dihasilkan oleh mekanisme yang berbeda [6]. Oleh karena itu adanya outlier dapat berpengaruh terhadap hasil analisis menjadi bias dan tidak akurat.

Terdapat dua jenis outlier, yang pertama adalah univariat outlier yaitu data pengamatan yang mempunyai pola yang berbeda jauh dalam satu variabel, yang kedua adalah multivariat outlier yaitu data pengamatan yang mempunyai pola yang berbeda jauh dalam dua atau lebih variabel [7].

Berdasarkan data pada penelitian ini outlier yang dimaksud adalah multivariat outlier karena terdapat banyak variabel yang digunakan.

Jarak mahalanobis digunakan untuk mendeteksi outlier secara multivariat menggunakan estimasi struktur kovarians untuk memperoleh estimasi jarak keterpencilan [7]. Persamaan yang digunakan untuk perhitungan Jarak Mahalanobis yaitu sebagai berikut:

\[ MD_i = [(x_{ij}-\overline{x}_j)' S^{-1} (x_{ij}-\overline{x}_j)]^{1/2}, i=1,2,...n, 𝑗=1,2,…,𝑝. \]

Dengan:

\(x_{ij}\): objek penelitian ke-i dari variabel ke-j
\(\overline{x}_j\): rata-rata variabel ke-j
\(S\): matriks varians kovarians
n: banyak objek penelitian
p: banyaknya variabel penelitian

Suatu objek penelitian dikatakan outlier jika \(MD_i> \chi^2_{p-1;\alpha}\), dimana p adalah banyaknya variabel penelitian.

Di dalam R untuk menghitung jarak mahalanobis dapat menggunakan fungsi yang bernama mahalanobis().

mahalanobis <- mahalanobis(data_spes, colMeans(data_spes), cov(data_spes))
cutoff <- qchisq(p = 0.95 , df = ncol(data_spes))
out <- mahalanobis > cutoff
cekOut <- ifelse(out, "Outlier", "Non-Outlier")
Tabel_Outlier <- data.frame(mahalanobis, cutoff, cekOut)
colnames(Tabel_Outlier) <- c("Mahalanobis Distance", "Cut Off", "Keterangan")
Tabel_Outlier

Insight :

Dari tabel nilai Mahalanobis Distance diatas dapat disimpulkan bahwa tidak terdapat outlier pada data. Sehingga tidak terdapat permasalahan outlier pada data tersebut.

> Workflow Analisis PCA Biplot

Analisis Principal Components Analysis

Analisis komponen utama (principal components analysis) ialah metode analisis multivariat yang bertujuan untuk mereduksi dimensi dari sebuah dataset yang mengandung banyak variabel yang saling berhubungan dengan tetap mempertahankan sebanyak mungkin keragaman yang ada pada dataset tersebut. Hal tersebut diperoleh dengan cara mentransformasi variabel-variabel tersebut menjadi set variabel baru yang dinamakan Principal Components (PC) dimana antara PC satu dengan lainnya tidak saling berkorelasi dan sifatnya berurut dimana PC pertama mempertahankan sebagian besar keragaman dari variabel-variabel asli. Principal Components dapat dibentuk melalui dua cara, yakni melalui Eigen Value Decomposition (EVD) atau Singular Value Decomposition (SVD) [8].

Membentuk Principal Components menggunakan metode Eigen Value Decomposition membutuhkan asumsi bahwa data memiliki distribusi normal multivariat. Jika asumsi tersebut tidak dipenuhi maka penggunaan Eigen Value Decomposition dalam membentuk Principal Components dinilai kurang cocok [9]. Oleh karena itu apabila asumsi bahwa data memiliki distribusi normal multivariat tidak terpenuhi akan lebih baik menggunakan Singular Value Decomposition.

1. Cek Normalitas Multivariate

Uji Normalitas Multivariat menggunakan metode Henze-Zirkler Test dilakukan terhadap data awal, untuk diketahui apakah data memiliki distribusi multivariat normal atau tidak.

HZ.test(data_spes, qqplot = FALSE)

##             Henze-Zirkler test for Multivariate Normality 
## 
##   data : data_spes 
## 
##   HZ              : 1.0405 
##   p-value         : 0.000531712 
## 
##   Result  : Data are not multivariate normal (sig.level = 0.05)

Insight :

Dari hasil perhitungan diatas dapat diketahui, Nilai p-value = 0.000531712 < sig.level = 0.05, maka data tidak berdistribusi normal multivariat. Karena hasil uji menunjukan bahwa data tidak berdistribusi normal multivariat, maka dalam membentuk Principal Components akan digunakan metode Singular Value Decomposition.

2. Principal Components Analysis dengan Singular Value Decomposition

Dekomposisi nilai singular (Singular Value Decomposition) ditemukan oleh Eckart dan Young (1936) dimana Singular Value Decomposition merupakan metode faktorisasi pada suatu matriks kompleks. Singular Value Decomposition akan menghasilkan tiga buah matriks baru yang berasal dari suatu matriks persegi panjang 𝑿 berukuran nxp. Ketiga matriks tersebut ialah matriks 𝑼, yakni matriks yang kolomnya merupakan vektor eigen dari matriks 𝑿𝑿’. Matriks 𝑳, yakni matriks diagonal yang berisi akar dari nilai eigen matriks 𝑿’𝑿. Lalu matriks 𝑨, yakni matriks yang kolomnya merupakan vektor eigen dari matriks 𝑿’𝑿 dimana vektor eigen ini yang akan digunakan untuk membentuk Principal Components [10].

> Koreksi Data Terhadap Rata-rata

Karena data tidak berdistribusi normal, maka sebelum melakukan analisis PCA data perlu dikoreksi/scaling terhadap rata-ratanya.

X <- scale(data_spes, scale=FALSE)

X # Matrix yang sudah dikoreksi terhadap rata-rata

##         RAM     Memory  Screen Performance Camera Connectivity    Battery
##  [1,]  0.25  -6.666667 -0.6375  0.09583333    0.0  -0.04166667 -1.2541667
##  [2,]  1.25  25.333333 -1.1375 -0.20416667    0.1  -0.14166667 -1.4541667
##  [3,]  0.25  -6.666667 -0.6375 -1.10416667   -1.1   0.15833333  0.5458333
##  [4,] -0.75  -6.666667 -0.4375  0.09583333   -0.2   1.15833333  1.6458333
##  [5,] -0.75 -22.666667 -1.0375 -1.30416667   -1.3  -2.04166667 -2.7541667
##  [6,] -0.75  -6.666667 -0.8375 -0.20416667   -0.3  -1.04166667 -0.3541667
##  [7,]  0.25  -6.666667  1.6625  0.29583333   -0.1   0.35833333 -0.2541667
##  [8,] -0.75  -6.666667 -0.8375 -0.20416667   -0.3  -1.04166667 -0.3541667
##  [9,]  1.25  25.333333  2.2625  1.09583333    2.0   1.45833333  1.7458333
## [10,] -0.75  -6.666667  1.0625  0.19583333   -1.4   0.05833333  0.9458333
## [11,] -0.75  -6.666667  1.5625  0.19583333   -0.4  -0.44166667  0.7458333
## [12,]  0.25  -6.666667  0.3625  0.29583333   -0.1  -0.24166667  0.9458333
## [13,]  1.25  25.333333 -1.1375 -0.20416667    0.2  -0.34166667  0.7458333
## [14,] -0.75  -6.666667 -1.1375 -0.40416667    0.0  -0.54166667 -1.3541667
## [15,]  0.25  -6.666667 -1.1375 -0.30416667    0.3  -0.74166667 -0.9541667
## [16,]  0.25  -6.666667 -1.5375 -0.20416667    0.3   0.15833333  0.7458333
## [17,] -0.75 -22.666667 -0.7375 -0.90416667   -0.5   0.35833333 -1.6541667
## [18,]  1.25  25.333333  1.9625  0.59583333    0.7   0.25833333 -2.3541667
## [19,]  0.25  25.333333 -1.1375  0.69583333    0.0  -0.34166667  1.0458333
## [20,] -0.75  -6.666667 -1.1375  0.09583333   -0.3  -0.04166667  0.7458333
## [21,] -0.75  -6.666667  0.8625 -0.50416667   -1.0  -1.54166667 -1.2541667
## [22,] -0.75  -6.666667  1.7625  0.69583333    1.2   2.05833333  1.7458333
## [23,]  0.25  -6.666667 -0.2375  0.19583333   -0.1   0.55833333  0.6458333
## [24,]  1.25  25.333333  2.2625  0.99583333    2.3   1.95833333  1.7458333
## attr(,"scaled:center")
##          RAM       Memory       Screen  Performance       Camera Connectivity 
##     2.750000    38.666667     4.737500     5.604167     4.800000     5.541667 
##      Battery 
##     7.154167

> Matrix Decomposition

Misalkan data berupa matriks \(𝑿_{(𝑛𝑥𝑝)}\) dimana n merupakan banyak objek dan p merupakan banyak variabel. Maka dekomposisi dari nilai singular 𝑿 dapat dinyatakan sebagai berikut:

\[ 𝑿_{(𝑛𝑥𝑝)}=𝑼_{(𝑛𝑥𝑟)}𝑳_{(𝑟𝑥𝑟)}𝑨′_{(𝑟𝑥𝑝)} \] Dimana r ≤ min(n,p) dengan r = rank(𝑿).

Di dalam R untuk menguraikan matriks 𝑿 kedalam matrix baru 𝑼, 𝑳, dan 𝑨 dapat menggnakan fungsi yang bernama svd().

y <- svd(X) 
U <- y$u 
L <- diag(y$d) 
A <- y$v

Dimana:

𝑼: matriks yang nilai masing-masing kolomnya merupakan vektor eigen 𝑿𝑿′
𝑳: matriks diagonal dengan nilai pada diagonalnya ialah akar dari nilai eigen 𝑿′𝑿
𝑨: matriks yang nilai masing-masing kolomnya merupakan vektor eigen 𝑿′𝑿

Dari persamaan sebelumnya \(𝑿=𝑼𝑳𝑨'\) kita dapat uraikan kembali menjadi persamaan berikut:

\[ 𝑿=𝑼𝑳^\alpha𝑳^{1-\alpha}𝑨′=𝑮𝑯′ \]

Dimana \(𝑮=𝑼𝑳^\alpha\) dan \(𝑯′=𝑳^{𝟏−\alpha}𝑨′\). Sedangkan untuk besarnya α ialah 0 ≤ α ≤ 1.

Penentuan nilai α berguna untuk memvisualisasikan analisis biplot kelak berupa persebaran titik-titik dari objek dan panjang vektor dari variabel-variabel data. α = 1 akan memfokuskan plot pada persebaran titik-titik objek, sedangkan α = 0 akan memfokuskan plot pada panjang vektor dari variabel-variabel data. Maka ketika akan meninjau kedua hal tersebut perlu memilih nilai α = 0.5 yang mana nilai tersebut akan menghasilkan biplot simetris [5].

> Analisis Biplot

Apabila metode yang digunakan adalah Principal Components Analysis dengan Singular Value Decomposition (SVD), maka matriks 𝑮 akan bertindak sebagai titik koordinat dari objek data dan matriks 𝑯 akan bertindak sebagai titik koordinat dari variabel-variabel data dengan jumlah dimensi berdasarkan proporsi keragamannya [8].

alpha <- 0.5
G <- U%*%L^alpha 
Ht <- L^(1-alpha)%*%t(A) 
H <- t(Ht)

Dimana α = 0.5, dipilih karena akan dibentuk Biplot yang Simetris.

> Identifikasi Persentase Keragaman Data

Informasi data yang disajikan dalam Principal Components Analysis (PCA) Biplot ditentukan berdasarkan nilai dari kumulatif varians (\(\tau_d\)) dengan d merupakan jumlah dimensi dari PCA Biplot. Semakin nilai \(\tau_d\) tersebut mendekati satu atau lebih dari 0.7 maka informasi yang dihasilkan oleh PCA Biplot sudah baik berdasarkan data yang sebenarnya [8].

Jika matriks 𝑿 mempunyai jumlah rank dua atau lebih, maka nilai eigen yang diambil sebanyak d dengan d ≤ r sehingga persentase keragaman yang bisa diterangkan bisa dicari dengan rumus berikut:

\[ \tau_d = \frac{\sum_{k=1}^{d}\lambda_k}{\sum_{k=1}^{r}\lambda_k} \] Dengan \(\lambda_k\) merupakan nilai eigen ke-k dari matriks 𝑿′𝑿 dengan 𝑘 = 1,2,…,𝑟 dan 𝑑 = 1,2,..,𝑟.

Lambda <- (y$d)^2
PV1 <- Lambda[1]/sum(Lambda) 
PV2 <- Lambda[2]/sum(Lambda) 
PV3 <- Lambda[3]/sum(Lambda) 
PV4 <- Lambda[4]/sum(Lambda) 
PV5 <- Lambda[5]/sum(Lambda) 
PV6 <- Lambda[6]/sum(Lambda) 
PV7 <- Lambda[7]/sum(Lambda) 
Variance <- c(PV1,PV2,PV3,PV4,PV5,PV6,PV7) 

PC1 <- PV1 
PC2 <- PC1+PV2 
PC3 <- PC2+PV3 
PC4 <- PC3+PV4 
PC5 <- PC4+PV5 
PC6 <- PC5+PV6 
PC7 <- PC6+PV7 
Cumulative_Variance <- c(PC1,PC2,PC3,PC4,PC5,PC6,PC7)

Tabel_PCA <- rbind(Variance, Cumulative_Variance)
colnames(Tabel_PCA) <- c("PC1","PC2","PC3","PC4","PC5","PC6","PC7")
Tabel_PCA

##                           PC1        PC2       PC3         PC4          PC5
## Variance            0.9797881 0.01140637 0.0049761 0.002162937 0.0007918884
## Cumulative_Variance 0.9797881 0.99119442 0.9961705 0.998333462 0.9991253502
##                              PC6          PC7
## Variance            0.0006238696 0.0002507802
## Cumulative_Variance 0.9997492198 1.0000000000

Insight :

Didapatkan hasil PC1 yang sangat tinggi dimana nilainya adalah 97.98%, maka untuk melanjutkan kepada analisis Biplot pada penelitian ini cukup digunakan 2 PC saja yaitu PC1 dan PC2 dimana sudah merangkum 99.12% informasi dari data.

3. Principal Components Analysis Biplot

> Titik Koordinat Smartphone dan Kualitas Smartphone

Berdasarkan hasil identifikasi keragaman data sebelumnya, maka akan dibentuk peta berdimensi dua dengan matriks 𝑮 dan matriks 𝑯 yang telah diperoleh sebelumnya dengan jumlah kolomnya masing-masing sebanyak 2 buah dan nilai α = 0.5 untuk menghasilkan Biplot Simetris, diperoleh matriks \(𝑮^{(2)}\) sebagai berikut:

G12 <- G[,c(1,2)]
G12

##             [,1]        [,2]
##  [1,]  0.7715799  0.27939535
##  [2,] -2.9178850  1.00400978
##  [3,]  0.7744242  0.04267400
##  [4,]  0.7665543 -0.58077372
##  [5,]  2.6387656  0.95549915
##  [6,]  0.7791948  0.32620712
##  [7,]  0.7619042 -0.43662058
##  [8,]  0.7791948  0.32620712
##  [9,] -2.9500587 -0.86000815
## [10,]  0.7716832 -0.42405969
## [11,]  0.7679727 -0.47882325
## [12,]  0.7638753 -0.36356546
## [13,] -2.9232208  0.54318110
## [14,]  0.7805258  0.50913514
## [15,]  0.7737432  0.42497880
## [16,]  0.7681237 -0.03119138
## [17,]  2.6249635  0.16248637
## [18,] -2.9295038  0.44978911
## [19,] -2.9207859  0.41776676
## [20,]  0.7739999 -0.04838649
## [21,]  0.7818312  0.37932824
## [22,]  0.7508745 -1.32661986
## [23,]  0.7644997 -0.31008340
## [24,] -2.9522563 -0.96052608

dan \(𝑯^{(2)}\) sebagai berikut:

H12 <- H[,c(1,2)]
H12

##            [,1]        [,2]
## [1,] -0.3587657  0.04652736
## [2,] -8.6356581  0.13937133
## [3,] -0.1986197 -1.48808750
## [4,] -0.2028260 -0.64060811
## [5,] -0.3082164 -0.71694638
## [6,] -0.1850389 -1.32363950
## [7,] -0.1845860 -1.78161161

Matriks \(𝑮^{(2)}\) bertindak sebagai titik-titik koordinat dari 24 buah Smartphone dengan harga antara 1jt hingga 2jt, sedangkan matriks \(𝑯^{(2)}\) bertindak sebagai titik-titik koordinat dari 7 variabel Kualitas Smartphone.

> Plot Smartphone dan Kualitas Smartphone

Setelah mendapatkan titik koordinat dari 24 buah Smartphone dan 7 variabel, maka akan diperoleh hasil PCA Biplot berdimensi dua menggunakan komponen utama ke-1 dan komponen utama ke-2 dimana titik objek merepresentasikan posisi relatif 24 Smartphone yang diwakili dalam bentuk angka dan garis vektor merepresentasikan 7 variabel Kualitas Smartphone.

biplot(G12,H12,cex=0.6,xlab="PC 1", ylab="PC 2", main = "PC1 VS PC2")
abline(h=0) 
abline(v=0)

4. Identifikasi Hasil Principal Components Analysis Biplot

Pengelompokan dalam Principal Components Analysis (PCA) Biplot didasari oleh jumlah sumbu utama yang digunakan dalam PCA. Jika sumbu utama yang digunakan sebanyak m buah maka objek dapat diklasifikasikan menjadi sebanyak \(2^m\) kelompok. Berdasarkan uraian tersebut, maka Smart Phone akan dikelompokan menjadi \(2^2\) atau 4 kelompok [9].

> Hasil pengelompokan

Penentuan kelompok didasarkan pada dikuadran mana koordinat Smartphone tersebut. Dimana kelompok 1 memiliki nilai PC1 > 0 dan PC2 > 0, kelompok 2 memiliki nilai PC1 > 0 dan PC2 < 0, kelompok 3 memiliki nilai PC1 < 0 dan PC2 > 0, dan kelompok 4 memiliki nilai PC1 < 0 dan PC2 < 0. Berikut adalah hasil pengelompoknya:

Group <- as.data.frame(G12)
Group[,3] <- ifelse((Group[,1] > 0 & Group[,2] > 0), 1,
              ifelse((Group[,1] > 0 & Group[,2] < 0), 2,
              ifelse((Group[,1] < 0 & Group[,2] > 0), 3,
              ifelse((Group[,1] < 0 & Group[,2] < 0), 4,
                     0))))
colnames(Group) <- c("PC1", "PC2", "Kelompok")
Group

> Hasil pengelompokan Smartphone

Dari data hasil pengelompokan sebelumnya, kemudian akan digabungkan kedalam data awal (data_sp) untuk mengetahui Nama series Smartphone dan kelompoknya.

data_result <- data_sp %>% 
  mutate(Kelompok = Group$Kelompok) %>% 
  arrange(Kelompok)

data_result %>% 
  select(Name, Kelompok) %>% 
  arrange(Kelompok)

Insight :

Berdasarkan hasil pengelompokan sebelumnya dapat diketahui anggota masing-masing kelompok adalah sebagai berikut:

Kelompok 1 : Alcatel 1S, Zenfone 4 Max, Nokia C3, Oppo A11, Oppo A11K, Samsung Galaxy A10s, Samsung Galaxy A11, Samsung Galaxy J7 dan Vivo Y91C.
Kelompok 2 : Infinix Hot 10 Play, Oppo A15, Realme C20, Realme C11, Realme C21, Samsung Galaxy M11, Vivo Y12S, Redmi 9A dan Redmi 9C.
Kelompok 3 : Alcatel 1SE, Samsung Galaxy A02s, Sharp Aquos V SH-C02 dan Vivo Y20.
Kelompok 4 : Poco M3 dan Redmi 9T.

> Karakteristik dari masing-masing kelompok

Pada bagian ini dilakukan profiling dari masing-masing kelompok menggunakan rata-ratanya. Untuk menambah insight akan dimasukan juga variabel price.

data_result %>% 
  select(-c(Name, Brand, Processor, Link)) %>% 
  mutate(Price = as.numeric(gsub(x = Price,
                                 pattern = "\\.",
                                 replacement = ""))
         ) %>% 
  group_by(Kelompok) %>% 
  summarise_all(mean)

Insight :

Berdasarkan hasil diatas dapat diketahui bahwa karakteristik dari masing-masing kelompok adalah sebagai berikut:

Kelompok 1 : Memiliki nilai rata-rata terendah dari setiap aspek yang ada, dengan harga rata-rata yang masih relatif murah jika dibandingkan dengan kelompok lainya.
Kelompok 2 : Memiliki nilai rata-rata Screen, Memory, Performance dan Camera yang cukup baik, dengan harga rata-rata paling murah.
Kelompok 3 : Memiliki nilai rata-rata RAM, Connectivity dan Battery yang cukup baik.
Kelompok 4 : Memiliki nilai rata-rata tertinggi dari setiap aspek yang ada, dengan harga rata-rata paling mahal.

Kesimpulan

Berdasarkan hasil pembahasan diatas, maka dapat diambil kesimpulan bahwa data Smart Phone tidak berdistribusi normal multivariat sehingga Principal Components Analysis dilakukan menggunakan metode Singular Value Decomposition. Dari hasil identifikasi variansi/keragaman data, diperoleh bahwa dengan jumlah dimensi sebanyak 2 buah (2 PC) sudah cukup dapat menjelaskan 99.12% informasi dari keseluruhan data. Dari hasil PCA Biplot, data smart phone dapat dikelompokan menjadi 4 kelompok dengan rincian sebagai berikut:

Kelompok 1, dengan anggota kelompoknya yaitu Alcatel 1S, Zenfone 4 Max, Nokia C3, Oppo A11, Oppo A11K, Samsung Galaxy A10s, Samsung Galaxy A11, Samsung Galaxy J7 dan Vivo Y91C memiliki karakteristik nilai rata-rata terendah dari setiap aspek yang ada, dengan harga rata-rata yang masih relatif murah jika dibandingkan dengan kelompok lainya.
Kelompok 2, dengan anggotanya yaitu Infinix Hot 10 Play, Oppo A15, Realme C20, Realme C11, Realme C21, Samsung Galaxy M11, Vivo Y12S, Redmi 9A dan Redmi 9C memiliki karakteristik nilai rata-rata Screen, Memory, Performance dan Camera yang cukup baik, dengan harga rata-rata paling murah.
Kelompok 3, dengan anggotanya yaitu Alcatel 1SE, Samsung Galaxy A02s, Sharp Aquos V SH-C02 dan Vivo Y20 memiliki karakteristik nilai rata-rata RAM, Connectivity dan Battery yang cukup baik.
Kelompok 4, dengan anggotanya yaitu Poco M3 dan Redmi 9T memiliki karakteristik nilai rata-rata tertinggi dari setiap aspek yang ada, dengan harga rata-rata paling mahal.

> Rekomendasi Smartphone dengan kualitas terbaik

Pada bagian ini akan diberikan rekomendasi dari peneliti, jika customer ingin mendapatkan smart phone dengan performa terbaik dari setiap aspek maka sebaiknya customer membeli smart phone yang ada dalam kelompok 4.

data_result %>% 
  filter(Kelompok == 4) %>% 
  select(-c(Kelompok)) %>% 
  arrange(Price)

> Rekomendasi Smartphone dengan harga terjangkau namun kualitas yang bagus

Rekomendasi lain jika customer ingin membeli smart phone yang cukup bagus digunakan namun dengan harga yang terjangkau peneliti akan menyarankan untuk membeli smart phone yang ada dalam kelompok 2.

data_result %>% 
  filter(Kelompok == 2) %>% 
  select(-c(Kelompok)) %>% 
  arrange(Price)

Referensi

[1] Hamidah, Siti, and Desi Anita. “Analisis persepsi citra merek, desain, fitur dan pengaruhnya terhadap keputusan pembelian produk handphone samsung berbasis android (studi kasus STIE Pelita Indonesia).” Jurnal Ekonomi 21.04, 2013.
[2] Irwanto, Irwanto, and Gan Gan Giantika. “Penyuluhan Penggunaan Kamera HP untuk Kebutuhan Kalangan Wanita RW 13 Babelan Bekasi.” Jurnal Abdi Masyarakat Indonesia 2.3: 833-842, 2022.
[3] Johnson, Wichern. Applied Multivariate Statistical Analysis: Sixth Edition. New Jersey: Prentice Hall Internasional, 2007.
[4] Gabriel, Karl Ruben. “The biplot graphic display of matrices with application to principal component analysis.” Biometrika 58.3: 453-467, 1971.
[5] Mattjik A. A, Sumertajaya I. M, Sidik Peubah Ganda. Bogor: IPB Press, 2011.
[6] Hawkins, Douglas M. Identification of outliers. Vol. 11. London: Chapman and Hall, 1980.
[7] Filzmoser, P., & Gregorich, M. Multivariate Outlier Detection in Applied Data Analysis: Global, Local, Compositional and Cellwise Outliers. Mathematical Geosciences, 52(8), 1049–1066. https://doi.org/10.1007/s11004-020-09861-6, 2020.
[8] Jolliffe IT. Principal Component Analysis. Second Edition. New York: Springer-Verlag New York, Inc, 2002.
[9] Ginanjar, Irlandia; dkk. “A Measure for Objects Clustering in Principal Component Analysis Biplot: A Case Study in Inter-city Buses Maintenance Cost Data.”, 2017
[10] Eckart, Carl, and Gale Young. “The approximation of one matrix by another of lower rank.” Psychometrika 1.3: 211-218, 1936.

REKOMENDASI ALTERNATIF PEMILIHAN SMARTPHONE BERDASARKAN FITUR YANG DISEDIAKAN

MENGGUNAKAN PRINCIPAL COMPONENTS ANALYSIS BIPLOT

Anugrah Hidayat

October 12, 2022

Pendahuluan

> Maksud dan Tujuan

> Benefit

Data Wrangling dan Eksplorasi Data

1. Import Library

2. Read Data

3. Data Wrangling

> Pilih faktor-faktor yang digunakan

4. Eksplorasi Data

> Cek Missing Value

> Melihat gambaran umum data melalui ringkasan/summary

> Cek nilai Outlier menggunakan jarak mahalanobis

> Workflow Analisis PCA Biplot

Analisis Principal Components Analysis

1. Cek Normalitas Multivariate

2. Principal Components Analysis dengan Singular Value Decomposition

> Koreksi Data Terhadap Rata-rata

> Matrix Decomposition

> Analisis Biplot

> Identifikasi Persentase Keragaman Data

3. Principal Components Analysis Biplot

> Titik Koordinat Smartphone dan Kualitas Smartphone

> Plot Smartphone dan Kualitas Smartphone

4. Identifikasi Hasil Principal Components Analysis Biplot

> Hasil pengelompokan

> Hasil pengelompokan Smartphone

> Karakteristik dari masing-masing kelompok

Kesimpulan

> Rekomendasi Smartphone dengan kualitas terbaik

> Rekomendasi Smartphone dengan harga terjangkau namun kualitas yang bagus

Referensi