Di masa sekarang ini, industri smartphone tumbuh begitu pesat. Bahkan hampir setiap bulan ada saja produsen smartphone yang menyuguhkan produk barunya kepada para masyarakat dengan fitur terbaik yang dimilikinya. Di satu sisi, hal tersebut tentu akan mempermudah masyarakat dalam mendapatkan beragam pilihan smartphone. Namun di sisi lain, cara tersebut justru membingungkan masyarakat dalam memilih smartphone ideal masa kini.
Fitur memiliki pengaruh yang positif dan signifikan terhadap keputusan pembelian smartphone. Apabila perusahaan menambahkan berbagai macam fitur, maka akan mendorong konsumen untuk membeli [1], Selain itu pemerintah juga sudah mulai melirik pentingnya pemanfaatan fitur dari smartphone. Tuntutan fitur pada smartphone tidak lagi hanya sekadar alat komunikasi tapi lebih dari itu. Misalnya saja fitur kamera pada smartphone dapat dimanfaatkan untuk mendokumentasikan suatu objek untuk beragam kepentingan selain sebagai eksistensinya di jagat media sosial, foto juga dibutuhkan untuk melengkapi sebuah informasi dan bahkan mungkin dipakai untuk memperkenalkan karakter produk dagangan daring [2], Dan masih banyak fitur lain dari smartphone yang dapat menjadikan smartphone memiliki value.
Berdasarkan uraian tersebut maka diperlukan sebuah metode yang dapat merangkum informasi dari setiap fitur yang ada dalam smartphone agar masyarakat/konsumen dapat menentukan smartphone yang terbaik.
Principal Component Analysis (PCA) adalah salah satu analisis multivariat yang menjelaskan struktur varians-kovarians dari suatu set variabel melalui kombinasi linear dan digunakan untuk menyederhanakan variabel awal [3]. PCA mampu mereduksi variabel dengan tetap mempertahankan informasi didalamnya, sehingga mempermudah interpretasi dari data yang dimiliki.
Selain menggunakan PCA, akan digunakan juga analisis biplot, Analisis biplot adalah salah satu metode analisis multivariat yang digunakan untuk pemetaan pada matriks data n x p yang akan menghasilkan plot dari n buah objek penelitian dan p buah variabel dalam bentuk grafik dua dimensi [4]. Analisis biplot memberikan infomasi mengenai kedekatan antar objek penelitian, variansi variabel, korelasi antar variabel penelitian, dan nilai variabel pada objek penelitian [5]. Dengan menggunakan metode Principal Components Analysis Biplot dapat menyajikan peta dari smartphone sebagai objek sehingga bisa dilakukan pengelompokan smartphone tesebut berdasarkan kemiripan karakteristiknya.
Maksud dari penelitian ini adalah menerapkan model Principal Component Analysis Biplot untuk melakukan pengelompokan. Sedangkan tujuan dari penelitian ini adalah untuk membuat rekomendasi-rekomendasi berdasarkan kelompok yang telah terbentuk, dimana dalam satu kelompok akan memiliki spesifikasi yang hampir sama sehingga customer dapat memiliki alternatif jenis smartphone lain yang memiliki spesifikasi yang hampir sama dengan yang diinginkan.
Dapat memberikan pilihan alternatif bagi konsumen yang sedang mencari smartphone dengan kriteria yang sama.
Menyediakan referensi bagi penjual smartphone mengenai smart phone yang memiliki kesamaan.
# Import library untuk data wrangling
library(tidyverse)
library(dplyr)
library(mvnTest) # Tests for multivariate normality
Data pada penelitian ini merupakan data Sekunder, yang berisikan informasi dari Smartphone dengan harga antara 1jt hingga 2jt di E-Commerce Tokopedia berdasarkan pada Nilai dan Review Pengguna Pada Website kimovil.com.
Kimovil adalah website yang menyediakan informasi terkait spesifikasi smartphone yang memberikan dengan detail informasi terkait teknologi dari handphone tersebut. selain itu Kimovil juga memberikan rating yang disebut โKi-Ratingโ yang diambil dari perbandingan 200 variable pada komponen smartphone yang ada didalam database kimovil.
Dataset yang digunakan dapat diakses melalui link berikut: https://www.kaggle.com/datasets/linxzy/smartphone-price-compared-by-kimovil-review
data_sp <- read.csv("Smartphone(1jt-2jt).csv", sep = ";")
str(data_sp)
## 'data.frame': 24 obs. of 12 variables:
## $ Name : chr "Alcatel 1S" "Alcatel 1SE" "Zenfone 4 Max" "Infinix Hot 10 Play" ...
## $ Brand : chr "Alcatel" "Alcatel" "Asus" "Infinix" ...
## $ Price : chr "1.599.000" "1.599.000" "1.699.000" "1.259.000" ...
## $ Processor : chr "Mediatek" "Unisoc" "Snapdragon" "Mediatek" ...
## $ RAM : int 3 4 3 2 2 2 3 2 4 2 ...
## $ Memory : int 32 64 32 32 16 32 32 32 64 32 ...
## $ Screen : num 4.1 3.6 4.1 4.3 3.7 3.9 6.4 3.9 7 5.8 ...
## $ Performance : num 5.7 5.4 4.5 5.7 4.3 5.4 5.9 5.4 6.7 5.8 ...
## $ Camera : num 4.8 4.9 3.7 4.6 3.5 4.5 4.7 4.5 6.8 3.4 ...
## $ Connectivity: num 5.5 5.4 5.7 6.7 3.5 4.5 5.9 4.5 7 5.6 ...
## $ Battery : num 5.9 5.7 7.7 8.8 4.4 6.8 6.9 6.8 8.9 8.1 ...
## $ Link : chr "https://www.tokopedia.com/mygadgetholic/alcatel-1s-5028y-smartphone-3-32gb-garansi-resmi-green" "https://www.tokopedia.com/mygadgetholic/alcatel-1se-5030u-smartphone-4-64gb-garansi-resmi-green" "https://www.tokopedia.com/mygadgetholic/asus-zenfone-4-max-zc554kl-smartphone-ram-3gb-rom-32gb-gold" "https://www.tokopedia.com/mygadgetholic/infinix-hot-10-play-x688c-smartphone-2gb-32gb-garansi-resmi-morandi-green" ...
Definisi Variabel:
Name
: Nama series dari Smartphone.Brand
: Nama Brand/Perusahan pembuat Smartphone.Price
: Harga Smartphone yang tertera di E-Commerce
Tokopedia.Processor
: Jenis processor yang digunakan dalam
Smartphone.RAM
: Besar RAM yang digunakan dalam SmartphoneMemory
: Besar penyimpanan dalam Smartphone(GB)Screen
: Score/rating untuk design & screen
(Ki-rating oleh Kimovil.com)Performance
: Score/rating untuk hardware &
performance (Ki-rating oleh Kimovil.com)Camera
: Score/rating untuk kamera (Ki-rating oleh
Kimovil.com)Connectivity
: Score/rating untuk koneksi (Ki-rating
oleh Kimovil.com)Battery
: Score/rating untuk batre (Ki-rating oleh
Kimovil.com)Link
: Link halaman tempat pembelian SmartphonePrincipal component analysis (PCA) adalah prosedur statistik yang menggunakan transformasi ortogonal untuk mengubah seperangkat pengamatan dari variabel yang mungkin berkorelasi (entitas yang masing-masing mengambil berbagai nilai numerik) menjadi seperangkat nilai variabel tidak linear yang disebut komponen utama (PC).
Oleh karena itu pada penelitian ini akan dipilih hanya variabel yang
bertipe numeric saja, selain itu variabel Price
tidak akan
dimasukan karena pada analisis ini hanya ingin melihat hasil
pengelompokan berdasarkan kualitas Smartphone.
data_spes <- data_sp[, 5:11]
head(data_spes)
Ekplorasi data dilakukan agar kita menjadi lebih paham dengan gambaran awal dari data yang akan digunakan.
data_spes %>%
is.na() %>%
colSums()
## RAM Memory Screen Performance Camera Connectivity
## 0 0 0 0 0 0
## Battery
## 0
Insight :
Tidak terdapat missing value, sehingga dapat dilanjutkan ke proses analisis.
summary(data_spes)
## RAM Memory Screen Performance Camera
## Min. :2.00 Min. :16.00 Min. :3.200 Min. :4.300 Min. :3.400
## 1st Qu.:2.00 1st Qu.:32.00 1st Qu.:3.600 1st Qu.:5.375 1st Qu.:4.475
## Median :3.00 Median :32.00 Median :4.100 Median :5.700 Median :4.700
## Mean :2.75 Mean :38.67 Mean :4.737 Mean :5.604 Mean :4.800
## 3rd Qu.:3.00 3rd Qu.:40.00 3rd Qu.:5.925 3rd Qu.:5.900 3rd Qu.:5.025
## Max. :4.00 Max. :64.00 Max. :7.000 Max. :6.700 Max. :7.100
## Connectivity Battery
## Min. :3.500 Min. :4.400
## 1st Qu.:5.075 1st Qu.:5.900
## Median :5.500 Median :7.750
## Mean :5.542 Mean :7.154
## 3rd Qu.:5.900 3rd Qu.:8.100
## Max. :7.600 Max. :8.900
Insight :
Terdapat perbedaan yang cukup jauh antara RAM dan Memory dengan variabel lainnya, hal ini dikarena untuk kedua variabel tersebut memiliki satuan yang berbeda dengan variabel lain lain. Dimana satuan nya menggunakan Gigabyte (GB).
Untuk variabel Screen, Performance, Camera, Connectivity dan Battery memiliki perbedaan range data yang tidak terlalu jauh dan memiliki satuan yang sama, hal itu disebabkan karena satuan variabel-variabel tersebut adalah Score yang dimana penilaian diambil pada website kimovil.com.
Outlier adalah pengamatan yang sangat menyimpang dari pengamatan lain sehingga, menimbulkan kecurigaan yang dihasilkan oleh mekanisme yang berbeda [6]. Oleh karena itu adanya outlier dapat berpengaruh terhadap hasil analisis menjadi bias dan tidak akurat.
Terdapat dua jenis outlier, yang pertama adalah univariat outlier yaitu data pengamatan yang mempunyai pola yang berbeda jauh dalam satu variabel, yang kedua adalah multivariat outlier yaitu data pengamatan yang mempunyai pola yang berbeda jauh dalam dua atau lebih variabel [7].
Berdasarkan data pada penelitian ini outlier yang dimaksud adalah multivariat outlier karena terdapat banyak variabel yang digunakan.
Jarak mahalanobis digunakan untuk mendeteksi outlier secara multivariat menggunakan estimasi struktur kovarians untuk memperoleh estimasi jarak keterpencilan [7]. Persamaan yang digunakan untuk perhitungan Jarak Mahalanobis yaitu sebagai berikut:
\[ MD_i = [(x_{ij}-\overline{x}_j)' S^{-1} (x_{ij}-\overline{x}_j)]^{1/2}, i=1,2,...n, ๐=1,2,โฆ,๐. \]
Dengan:
\(x_{ij}\): objek penelitian ke-i dari variabel ke-j
\(\overline{x}_j\): rata-rata variabel ke-j
\(S\): matriks varians kovarians
n: banyak objek penelitian
p: banyaknya variabel penelitian
Suatu objek penelitian dikatakan outlier jika \(MD_i> \chi^2_{p-1;\alpha}\), dimana p adalah banyaknya variabel penelitian.
Di dalam R untuk menghitung jarak mahalanobis dapat menggunakan
fungsi yang bernama mahalanobis()
.
mahalanobis <- mahalanobis(data_spes, colMeans(data_spes), cov(data_spes))
cutoff <- qchisq(p = 0.95 , df = ncol(data_spes))
out <- mahalanobis > cutoff
cekOut <- ifelse(out, "Outlier", "Non-Outlier")
Tabel_Outlier <- data.frame(mahalanobis, cutoff, cekOut)
colnames(Tabel_Outlier) <- c("Mahalanobis Distance", "Cut Off", "Keterangan")
Tabel_Outlier
Insight :
Dari tabel nilai Mahalanobis Distance diatas dapat disimpulkan bahwa tidak terdapat outlier pada data. Sehingga tidak terdapat permasalahan outlier pada data tersebut.
Analisis komponen utama (principal components analysis) ialah metode analisis multivariat yang bertujuan untuk mereduksi dimensi dari sebuah dataset yang mengandung banyak variabel yang saling berhubungan dengan tetap mempertahankan sebanyak mungkin keragaman yang ada pada dataset tersebut. Hal tersebut diperoleh dengan cara mentransformasi variabel-variabel tersebut menjadi set variabel baru yang dinamakan Principal Components (PC) dimana antara PC satu dengan lainnya tidak saling berkorelasi dan sifatnya berurut dimana PC pertama mempertahankan sebagian besar keragaman dari variabel-variabel asli. Principal Components dapat dibentuk melalui dua cara, yakni melalui Eigen Value Decomposition (EVD) atau Singular Value Decomposition (SVD) [8].
Membentuk Principal Components menggunakan metode Eigen Value Decomposition membutuhkan asumsi bahwa data memiliki distribusi normal multivariat. Jika asumsi tersebut tidak dipenuhi maka penggunaan Eigen Value Decomposition dalam membentuk Principal Components dinilai kurang cocok [9]. Oleh karena itu apabila asumsi bahwa data memiliki distribusi normal multivariat tidak terpenuhi akan lebih baik menggunakan Singular Value Decomposition.
Uji Normalitas Multivariat menggunakan metode Henze-Zirkler Test dilakukan terhadap data awal, untuk diketahui apakah data memiliki distribusi multivariat normal atau tidak.
HZ.test(data_spes, qqplot = FALSE)
## Henze-Zirkler test for Multivariate Normality
##
## data : data_spes
##
## HZ : 1.0405
## p-value : 0.000531712
##
## Result : Data are not multivariate normal (sig.level = 0.05)
Insight :
Dari hasil perhitungan diatas dapat diketahui, Nilai p-value = 0.000531712 < sig.level = 0.05, maka data tidak berdistribusi normal multivariat. Karena hasil uji menunjukan bahwa data tidak berdistribusi normal multivariat, maka dalam membentuk Principal Components akan digunakan metode Singular Value Decomposition.
Dekomposisi nilai singular (Singular Value Decomposition) ditemukan oleh Eckart dan Young (1936) dimana Singular Value Decomposition merupakan metode faktorisasi pada suatu matriks kompleks. Singular Value Decomposition akan menghasilkan tiga buah matriks baru yang berasal dari suatu matriks persegi panjang ๐ฟ berukuran nxp. Ketiga matriks tersebut ialah matriks ๐ผ, yakni matriks yang kolomnya merupakan vektor eigen dari matriks ๐ฟ๐ฟโ. Matriks ๐ณ, yakni matriks diagonal yang berisi akar dari nilai eigen matriks ๐ฟโ๐ฟ. Lalu matriks ๐จ, yakni matriks yang kolomnya merupakan vektor eigen dari matriks ๐ฟโ๐ฟ dimana vektor eigen ini yang akan digunakan untuk membentuk Principal Components [10].
Karena data tidak berdistribusi normal, maka sebelum melakukan analisis PCA data perlu dikoreksi/scaling terhadap rata-ratanya.
X <- scale(data_spes, scale=FALSE)
X # Matrix yang sudah dikoreksi terhadap rata-rata
## RAM Memory Screen Performance Camera Connectivity Battery
## [1,] 0.25 -6.666667 -0.6375 0.09583333 0.0 -0.04166667 -1.2541667
## [2,] 1.25 25.333333 -1.1375 -0.20416667 0.1 -0.14166667 -1.4541667
## [3,] 0.25 -6.666667 -0.6375 -1.10416667 -1.1 0.15833333 0.5458333
## [4,] -0.75 -6.666667 -0.4375 0.09583333 -0.2 1.15833333 1.6458333
## [5,] -0.75 -22.666667 -1.0375 -1.30416667 -1.3 -2.04166667 -2.7541667
## [6,] -0.75 -6.666667 -0.8375 -0.20416667 -0.3 -1.04166667 -0.3541667
## [7,] 0.25 -6.666667 1.6625 0.29583333 -0.1 0.35833333 -0.2541667
## [8,] -0.75 -6.666667 -0.8375 -0.20416667 -0.3 -1.04166667 -0.3541667
## [9,] 1.25 25.333333 2.2625 1.09583333 2.0 1.45833333 1.7458333
## [10,] -0.75 -6.666667 1.0625 0.19583333 -1.4 0.05833333 0.9458333
## [11,] -0.75 -6.666667 1.5625 0.19583333 -0.4 -0.44166667 0.7458333
## [12,] 0.25 -6.666667 0.3625 0.29583333 -0.1 -0.24166667 0.9458333
## [13,] 1.25 25.333333 -1.1375 -0.20416667 0.2 -0.34166667 0.7458333
## [14,] -0.75 -6.666667 -1.1375 -0.40416667 0.0 -0.54166667 -1.3541667
## [15,] 0.25 -6.666667 -1.1375 -0.30416667 0.3 -0.74166667 -0.9541667
## [16,] 0.25 -6.666667 -1.5375 -0.20416667 0.3 0.15833333 0.7458333
## [17,] -0.75 -22.666667 -0.7375 -0.90416667 -0.5 0.35833333 -1.6541667
## [18,] 1.25 25.333333 1.9625 0.59583333 0.7 0.25833333 -2.3541667
## [19,] 0.25 25.333333 -1.1375 0.69583333 0.0 -0.34166667 1.0458333
## [20,] -0.75 -6.666667 -1.1375 0.09583333 -0.3 -0.04166667 0.7458333
## [21,] -0.75 -6.666667 0.8625 -0.50416667 -1.0 -1.54166667 -1.2541667
## [22,] -0.75 -6.666667 1.7625 0.69583333 1.2 2.05833333 1.7458333
## [23,] 0.25 -6.666667 -0.2375 0.19583333 -0.1 0.55833333 0.6458333
## [24,] 1.25 25.333333 2.2625 0.99583333 2.3 1.95833333 1.7458333
## attr(,"scaled:center")
## RAM Memory Screen Performance Camera Connectivity
## 2.750000 38.666667 4.737500 5.604167 4.800000 5.541667
## Battery
## 7.154167
Misalkan data berupa matriks \(๐ฟ_{(๐๐ฅ๐)}\) dimana n merupakan banyak objek dan p merupakan banyak variabel. Maka dekomposisi dari nilai singular ๐ฟ dapat dinyatakan sebagai berikut:
\[ ๐ฟ_{(๐๐ฅ๐)}=๐ผ_{(๐๐ฅ๐)}๐ณ_{(๐๐ฅ๐)}๐จโฒ_{(๐๐ฅ๐)} \] Dimana r โค min(n,p) dengan r = rank(๐ฟ).
Di dalam R untuk menguraikan matriks ๐ฟ kedalam matrix baru ๐ผ, ๐ณ, dan
๐จ dapat menggnakan fungsi yang bernama svd()
.
y <- svd(X)
U <- y$u
L <- diag(y$d)
A <- y$v
Dimana:
๐ผ: matriks yang nilai masing-masing kolomnya merupakan vektor eigen ๐ฟ๐ฟโฒ
๐ณ: matriks diagonal dengan nilai pada diagonalnya ialah akar dari nilai eigen ๐ฟโฒ๐ฟ
๐จ: matriks yang nilai masing-masing kolomnya merupakan vektor eigen ๐ฟโฒ๐ฟ
Dari persamaan sebelumnya \(๐ฟ=๐ผ๐ณ๐จ'\) kita dapat uraikan kembali menjadi persamaan berikut:
\[ ๐ฟ=๐ผ๐ณ^\alpha๐ณ^{1-\alpha}๐จโฒ=๐ฎ๐ฏโฒ \]
Dimana \(๐ฎ=๐ผ๐ณ^\alpha\) dan \(๐ฏโฒ=๐ณ^{๐โ\alpha}๐จโฒ\). Sedangkan untuk besarnya ฮฑ ialah 0 โค ฮฑ โค 1.
Penentuan nilai ฮฑ berguna untuk memvisualisasikan analisis biplot kelak berupa persebaran titik-titik dari objek dan panjang vektor dari variabel-variabel data. ฮฑ = 1 akan memfokuskan plot pada persebaran titik-titik objek, sedangkan ฮฑ = 0 akan memfokuskan plot pada panjang vektor dari variabel-variabel data. Maka ketika akan meninjau kedua hal tersebut perlu memilih nilai ฮฑ = 0.5 yang mana nilai tersebut akan menghasilkan biplot simetris [5].
Apabila metode yang digunakan adalah Principal Components Analysis dengan Singular Value Decomposition (SVD), maka matriks ๐ฎ akan bertindak sebagai titik koordinat dari objek data dan matriks ๐ฏ akan bertindak sebagai titik koordinat dari variabel-variabel data dengan jumlah dimensi berdasarkan proporsi keragamannya [8].
alpha <- 0.5
G <- U%*%L^alpha
Ht <- L^(1-alpha)%*%t(A)
H <- t(Ht)
Dimana ฮฑ = 0.5, dipilih karena akan dibentuk Biplot yang Simetris.
Informasi data yang disajikan dalam Principal Components Analysis (PCA) Biplot ditentukan berdasarkan nilai dari kumulatif varians (\(\tau_d\)) dengan d merupakan jumlah dimensi dari PCA Biplot. Semakin nilai \(\tau_d\) tersebut mendekati satu atau lebih dari 0.7 maka informasi yang dihasilkan oleh PCA Biplot sudah baik berdasarkan data yang sebenarnya [8].
Jika matriks ๐ฟ mempunyai jumlah rank dua atau lebih, maka nilai eigen yang diambil sebanyak d dengan d โค r sehingga persentase keragaman yang bisa diterangkan bisa dicari dengan rumus berikut:
\[ \tau_d = \frac{\sum_{k=1}^{d}\lambda_k}{\sum_{k=1}^{r}\lambda_k} \] Dengan \(\lambda_k\) merupakan nilai eigen ke-k dari matriks ๐ฟโฒ๐ฟ dengan ๐ = 1,2,โฆ,๐ dan ๐ = 1,2,..,๐.
Lambda <- (y$d)^2
PV1 <- Lambda[1]/sum(Lambda)
PV2 <- Lambda[2]/sum(Lambda)
PV3 <- Lambda[3]/sum(Lambda)
PV4 <- Lambda[4]/sum(Lambda)
PV5 <- Lambda[5]/sum(Lambda)
PV6 <- Lambda[6]/sum(Lambda)
PV7 <- Lambda[7]/sum(Lambda)
Variance <- c(PV1,PV2,PV3,PV4,PV5,PV6,PV7)
PC1 <- PV1
PC2 <- PC1+PV2
PC3 <- PC2+PV3
PC4 <- PC3+PV4
PC5 <- PC4+PV5
PC6 <- PC5+PV6
PC7 <- PC6+PV7
Cumulative_Variance <- c(PC1,PC2,PC3,PC4,PC5,PC6,PC7)
Tabel_PCA <- rbind(Variance, Cumulative_Variance)
colnames(Tabel_PCA) <- c("PC1","PC2","PC3","PC4","PC5","PC6","PC7")
Tabel_PCA
## PC1 PC2 PC3 PC4 PC5
## Variance 0.9797881 0.01140637 0.0049761 0.002162937 0.0007918884
## Cumulative_Variance 0.9797881 0.99119442 0.9961705 0.998333462 0.9991253502
## PC6 PC7
## Variance 0.0006238696 0.0002507802
## Cumulative_Variance 0.9997492198 1.0000000000
Insight :
Didapatkan hasil PC1 yang sangat tinggi dimana nilainya adalah 97.98%, maka untuk melanjutkan kepada analisis Biplot pada penelitian ini cukup digunakan 2 PC saja yaitu PC1 dan PC2 dimana sudah merangkum 99.12% informasi dari data.
Berdasarkan hasil identifikasi keragaman data sebelumnya, maka akan dibentuk peta berdimensi dua dengan matriks ๐ฎ dan matriks ๐ฏ yang telah diperoleh sebelumnya dengan jumlah kolomnya masing-masing sebanyak 2 buah dan nilai ฮฑ = 0.5 untuk menghasilkan Biplot Simetris, diperoleh matriks \(๐ฎ^{(2)}\) sebagai berikut:
G12 <- G[,c(1,2)]
G12
## [,1] [,2]
## [1,] 0.7715799 0.27939535
## [2,] -2.9178850 1.00400978
## [3,] 0.7744242 0.04267400
## [4,] 0.7665543 -0.58077372
## [5,] 2.6387656 0.95549915
## [6,] 0.7791948 0.32620712
## [7,] 0.7619042 -0.43662058
## [8,] 0.7791948 0.32620712
## [9,] -2.9500587 -0.86000815
## [10,] 0.7716832 -0.42405969
## [11,] 0.7679727 -0.47882325
## [12,] 0.7638753 -0.36356546
## [13,] -2.9232208 0.54318110
## [14,] 0.7805258 0.50913514
## [15,] 0.7737432 0.42497880
## [16,] 0.7681237 -0.03119138
## [17,] 2.6249635 0.16248637
## [18,] -2.9295038 0.44978911
## [19,] -2.9207859 0.41776676
## [20,] 0.7739999 -0.04838649
## [21,] 0.7818312 0.37932824
## [22,] 0.7508745 -1.32661986
## [23,] 0.7644997 -0.31008340
## [24,] -2.9522563 -0.96052608
dan \(๐ฏ^{(2)}\) sebagai berikut:
H12 <- H[,c(1,2)]
H12
## [,1] [,2]
## [1,] -0.3587657 0.04652736
## [2,] -8.6356581 0.13937133
## [3,] -0.1986197 -1.48808750
## [4,] -0.2028260 -0.64060811
## [5,] -0.3082164 -0.71694638
## [6,] -0.1850389 -1.32363950
## [7,] -0.1845860 -1.78161161
Matriks \(๐ฎ^{(2)}\) bertindak sebagai titik-titik koordinat dari 24 buah Smartphone dengan harga antara 1jt hingga 2jt, sedangkan matriks \(๐ฏ^{(2)}\) bertindak sebagai titik-titik koordinat dari 7 variabel Kualitas Smartphone.
Setelah mendapatkan titik koordinat dari 24 buah Smartphone dan 7 variabel, maka akan diperoleh hasil PCA Biplot berdimensi dua menggunakan komponen utama ke-1 dan komponen utama ke-2 dimana titik objek merepresentasikan posisi relatif 24 Smartphone yang diwakili dalam bentuk angka dan garis vektor merepresentasikan 7 variabel Kualitas Smartphone.
biplot(G12,H12,cex=0.6,xlab="PC 1", ylab="PC 2", main = "PC1 VS PC2")
abline(h=0)
abline(v=0)
Pengelompokan dalam Principal Components Analysis (PCA) Biplot didasari oleh jumlah sumbu utama yang digunakan dalam PCA. Jika sumbu utama yang digunakan sebanyak m buah maka objek dapat diklasifikasikan menjadi sebanyak \(2^m\) kelompok. Berdasarkan uraian tersebut, maka Smart Phone akan dikelompokan menjadi \(2^2\) atau 4 kelompok [9].
Penentuan kelompok didasarkan pada dikuadran mana koordinat Smartphone tersebut. Dimana kelompok 1 memiliki nilai PC1 > 0 dan PC2 > 0, kelompok 2 memiliki nilai PC1 > 0 dan PC2 < 0, kelompok 3 memiliki nilai PC1 < 0 dan PC2 > 0, dan kelompok 4 memiliki nilai PC1 < 0 dan PC2 < 0. Berikut adalah hasil pengelompoknya:
Group <- as.data.frame(G12)
Group[,3] <- ifelse((Group[,1] > 0 & Group[,2] > 0), 1,
ifelse((Group[,1] > 0 & Group[,2] < 0), 2,
ifelse((Group[,1] < 0 & Group[,2] > 0), 3,
ifelse((Group[,1] < 0 & Group[,2] < 0), 4,
0))))
colnames(Group) <- c("PC1", "PC2", "Kelompok")
Group
Dari data hasil pengelompokan sebelumnya, kemudian akan digabungkan
kedalam data awal (data_sp
) untuk mengetahui Nama series
Smartphone dan kelompoknya.
data_result <- data_sp %>%
mutate(Kelompok = Group$Kelompok) %>%
arrange(Kelompok)
data_result %>%
select(Name, Kelompok) %>%
arrange(Kelompok)
Insight :
Berdasarkan hasil pengelompokan sebelumnya dapat diketahui anggota masing-masing kelompok adalah sebagai berikut:
Kelompok 1 : Alcatel 1S, Zenfone 4 Max, Nokia C3, Oppo A11, Oppo A11K, Samsung Galaxy A10s, Samsung Galaxy A11, Samsung Galaxy J7 dan Vivo Y91C.
Kelompok 2 : Infinix Hot 10 Play, Oppo A15, Realme C20, Realme C11, Realme C21, Samsung Galaxy M11, Vivo Y12S, Redmi 9A dan Redmi 9C.
Kelompok 3 : Alcatel 1SE, Samsung Galaxy A02s, Sharp Aquos V SH-C02 dan Vivo Y20.
Kelompok 4 : Poco M3 dan Redmi 9T.
Pada bagian ini dilakukan profiling dari masing-masing kelompok menggunakan rata-ratanya. Untuk menambah insight akan dimasukan juga variabel price.
data_result %>%
select(-c(Name, Brand, Processor, Link)) %>%
mutate(Price = as.numeric(gsub(x = Price,
pattern = "\\.",
replacement = ""))
) %>%
group_by(Kelompok) %>%
summarise_all(mean)
Insight :
Berdasarkan hasil diatas dapat diketahui bahwa karakteristik dari masing-masing kelompok adalah sebagai berikut:
Kelompok 1 : Memiliki nilai rata-rata terendah dari setiap aspek yang ada, dengan harga rata-rata yang masih relatif murah jika dibandingkan dengan kelompok lainya.
Kelompok 2 : Memiliki nilai rata-rata Screen, Memory, Performance dan Camera yang cukup baik, dengan harga rata-rata paling murah.
Kelompok 3 : Memiliki nilai rata-rata RAM, Connectivity dan Battery yang cukup baik.
Kelompok 4 : Memiliki nilai rata-rata tertinggi dari setiap aspek yang ada, dengan harga rata-rata paling mahal.
Berdasarkan hasil pembahasan diatas, maka dapat diambil kesimpulan bahwa data Smart Phone tidak berdistribusi normal multivariat sehingga Principal Components Analysis dilakukan menggunakan metode Singular Value Decomposition. Dari hasil identifikasi variansi/keragaman data, diperoleh bahwa dengan jumlah dimensi sebanyak 2 buah (2 PC) sudah cukup dapat menjelaskan 99.12% informasi dari keseluruhan data. Dari hasil PCA Biplot, data smart phone dapat dikelompokan menjadi 4 kelompok dengan rincian sebagai berikut:
Kelompok 1, dengan anggota kelompoknya yaitu Alcatel 1S, Zenfone 4 Max, Nokia C3, Oppo A11, Oppo A11K, Samsung Galaxy A10s, Samsung Galaxy A11, Samsung Galaxy J7 dan Vivo Y91C memiliki karakteristik nilai rata-rata terendah dari setiap aspek yang ada, dengan harga rata-rata yang masih relatif murah jika dibandingkan dengan kelompok lainya.
Kelompok 2, dengan anggotanya yaitu Infinix Hot 10 Play, Oppo A15, Realme C20, Realme C11, Realme C21, Samsung Galaxy M11, Vivo Y12S, Redmi 9A dan Redmi 9C memiliki karakteristik nilai rata-rata Screen, Memory, Performance dan Camera yang cukup baik, dengan harga rata-rata paling murah.
Kelompok 3, dengan anggotanya yaitu Alcatel 1SE, Samsung Galaxy A02s, Sharp Aquos V SH-C02 dan Vivo Y20 memiliki karakteristik nilai rata-rata RAM, Connectivity dan Battery yang cukup baik.
Kelompok 4, dengan anggotanya yaitu Poco M3 dan Redmi 9T memiliki karakteristik nilai rata-rata tertinggi dari setiap aspek yang ada, dengan harga rata-rata paling mahal.
Pada bagian ini akan diberikan rekomendasi dari peneliti, jika customer ingin mendapatkan smart phone dengan performa terbaik dari setiap aspek maka sebaiknya customer membeli smart phone yang ada dalam kelompok 4.
data_result %>%
filter(Kelompok == 4) %>%
select(-c(Kelompok)) %>%
arrange(Price)
Rekomendasi lain jika customer ingin membeli smart phone yang cukup bagus digunakan namun dengan harga yang terjangkau peneliti akan menyarankan untuk membeli smart phone yang ada dalam kelompok 2.
data_result %>%
filter(Kelompok == 2) %>%
select(-c(Kelompok)) %>%
arrange(Price)