1 Analisis Korespondensi/Correspondence Analysis (CA)

Analisis korespondensi merupakan teknik statistik multivariat eksploratif, analisis ini dirancang untuk menganalisis hubugan asosiasi antara dua variabel kategorik dalam bentuk tabel kontingensi. Analisis korespondensi juga sering disebut PCA untuk data kategorik, metode ini mentransformasi tabel angka yang kompleks menjadi visual yang mudah dipahami.

Tujuan analisis korespondensi (CA):

  1. Menjelaskan Hubungan Melalui Visualisasi Biplot/Peta Persepsi: Titik amatan yang berdekatan menandakan kemiripan profil (asosiasi) yang cukup kuat, dan sebaliknya.
  2. Reduksi Dimensi: Menyederhanakan struktur data yang kompleks dari dimensi yng besar menjadi lebih kecil namun tidak kehilangan bnyk informasi.
  3. Mendeteksi Pola Asosiasi: Mengidentifikasi kategori mana dari variabel pertama yang memiliki kecenderungan atau hubungn erat denga kategori pada varibel kedua.
  4. Mempelajari Profil Baris & Kolom: Membandingkan kemiripan antarkategori dalam satu variabel.

Analisis korespondensi hanya dapat dilakukan jika data berupa non-negatif (frekuensi/cacahan) dan harus ada hubungan ketergantungan antar variabel. Dalam analisis ini akan digunakan data bangkitan untuk melakukan CA.

1.1 Analisis Korespondensi Preferensi E-Commerce

1.1.1 Penentuan Kasus & Pembangkitan Data

Kasus hubungan dalam analisis ini adalah hubungan antara Status Pekerjaan (Baris) dengan Metode Pembayaran (Kolom) yang sering digunakan.

1.1.1.1 Membangkitkan Data

library(FactoMineR)
library(factoextra)
## Loading required package: ggplot2
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
library(gplots)
## 
## Attaching package: 'gplots'
## The following object is masked from 'package:stats':
## 
##     lowess
# 1. Membangkitkan Data (Contingency Table)
data_survei = matrix(c(
  50, 10, 5,   # Mahasiswa: Suka E-Wallet
  15, 40, 10,  # Karyawan: Suka Transfer Bank
  10, 10, 35,  # Ibu Rumah Tangga: Suka COD
  20, 20, 20   # Freelancer: Seimbang
), nrow = 4, byrow = TRUE) # byrow=TRUE artinya data diisi baris per baris

# Memberi nama Baris (Pekerjaan) dan Kolom (Metode Bayar)
rownames(data_survei) = c("Mahasiswa", "Karyawan", "IRT", "Freelancer")
colnames(data_survei) = c("E-Wallet", "Transfer_Bank", "COD")

# Mengubah menjadi objek tabel agar bisa dianalisis CA
dt = as.table(data_survei)
dt
##            E-Wallet Transfer_Bank COD
## Mahasiswa        50            10   5
## Karyawan         15            40  10
## IRT              10            10  35
## Freelancer       20            20  20

1.2 Syarat Chi-Square

Menguji ketergantungan antarvariabel apakah terpenuhi, jika independen maka analisis tidak dapat dilanjutkan.

# Menjalankan Uji Chi-Square
hasil_chisq = chisq.test(dt)
hasil_chisq
## 
##  Pearson's Chi-squared test
## 
## data:  dt
## X-squared = 99.099, df = 6, p-value < 2.2e-16

Diperoleh P-value 0.05 artinya tolak H0 dan dapat dikatakan terdapat hubungan yang signifikan antara Status Pekerjaan dengan Metode Pembayaran yang dipilih. Maka analisis dapat dilnjutkan.

1.3 Analisis Korespondensi (CA)

# Menjalankan Analisis Korespondensi
res.ca = CA(dt, graph = FALSE)

# Melihat ringkasan Eigenvalues (Inersia)
summary(res.ca)
## 
## Call:
## CA(X = dt, graph = FALSE) 
## 
## The chi square of independence between the two variables is equal to 99.09904 (p-value =  3.868045e-19 ).
## 
## Eigenvalues
##                        Dim.1   Dim.2
## Variance               0.249   0.156
## % of var.             61.552  38.448
## Cumulative % of var.  61.552 100.000
## 
## Rows
##                 Iner*1000     Dim.1     ctr    cos2     Dim.2     ctr    cos2  
## Mahasiswa     |   164.277 |  -0.747  59.411   0.900 |   0.248  10.522   0.100 |
## Karyawan      |   100.801 |   0.079   0.666   0.016 |  -0.611  63.751   0.984 |
## IRT           |   135.558 |   0.652  38.381   0.705 |   0.422  25.721   0.295 |
## Freelancer    |     3.849 |   0.125   1.542   0.998 |   0.006   0.006   0.002 |
## 
## Columns
##                 Iner*1000     Dim.1     ctr    cos2     Dim.2     ctr    cos2  
## E-Wallet      |   142.855 |  -0.572  50.979   0.888 |   0.203  10.246   0.112 |
## Transfer_Bank |   106.453 |   0.118   1.836   0.043 |  -0.559  65.511   0.957 |
## COD           |   155.178 |   0.641  47.185   0.757 |   0.363  24.244   0.243 |
# Visualisasi Scree Plot (Kontribusi Dimensi)
fviz_eig(res.ca, addlabels = TRUE, ylim = c(0, 80))
## Warning in geom_bar(stat = "identity", fill = barfill, color = barcolor, :
## Ignoring empty aesthetic: `width`.

Scree plot menampilkan persentasi informasi (inersia) yang dapat dijelaskan oleh setiap dimensi. Dimensi 1 dan 2 biasanya sudah cukup untuk merepresentasikan sebagian besar variasi data.

1.4 Visualisasi

Visualisasi Biplot digunakan untuk melihat kedekatan antarkategori secara visual dalam ruang 2 dimensi.

# Membuat Biplot yang rapi
fviz_ca_biplot(res.ca, 
               repel = TRUE,
               title = "Peta Persepsi: Pekerjaan vs Metode Bayar",
               col.row = "#2E9FDF",  # Warna Biru untuk Pekerjaan
               col.col = "#FC4E07")  # Warna Merah untuk Metode Bayar

Hasil dan kesimpulan dari grafik Biplot adalah sebagai berikut

  1. Mahasiswa & E-Wallet: Titik Mahasiswa dan E-Wallet berada sangat berdekatan (biasanya di kuadran yang sama). Ini menunjukkan bahwa mahasiswa memiliki asosiasi kuat atau kecenderungan lebih besar menggunakan E-Wallet dibanding kelompok lain.
  2. Karyawan & Transfer Bank: Titik Karyawan cenderung mendekat ke arah Transfer Bank, menandakan preferensi metode bayar via bank.
  3. IRT & COD: Titik IRT (Ibu Rumah Tangga) sangat dekat dengan COD, menunjukkan preferensi pada pembayaran tunai di tempat.
  4. Freelancer: Posisi Freelancer cenderung berada di tengah (dekat pusat 0,0), yang berarti profil pembayarannya merupakan rata-rata atau tidak condong ke satu metode tertentu secara ekstrem.

Artinya Status Pekerjaan memengaruhi preferensi Metode Pembayaran secara signifikan. Segmentasi ini dapat digunakan untuk strategi target pasar yang lebih efektiif.