1 Pendahuluan

Analisis Multivariate adalah suatu pendekatan statistik yang digunakan untuk menganalisis data yang melibatkan lebih dari satu variabel secara simultan. Teknik ini penting karena banyak fenomena di dunia nyata melibatkan interaksi antara berbagai variabel, dan analisis multivariate memungkinkan kita untuk memahami hubungan kompleks antara variabel-variabel tersebut.

Secara umum teknik-teknik multivariate dapat digunakan dengan tujuan:

  1. Reduksi data dan penyederhanaan struktur (data reduction or structural simplification).

  2. Pemilahan dan pengelompokan (sorting and grouping).

  3. Pengamatan mengenai ketergantungan diantara variabel (investigating of dependence among variables).

  4. Peramalan (prediction).

  5. Pembentukan dan pengujian hipotesis (hypothesis construction and testing).

2 Teknik Multivariate

2.1 Analisis Komponen Utama

Analisis Komponen Utama (Principle Component Analysis/PCA) adalah teknik statistik multivariate yang digunakan untuk mengurangi dimensi data sambil mempertahankan sebanyak mungkin variabilitas atau informasi asli. Tujuan utama PCA adalah:

  1. Reduksi Dimensi: Mengurangi jumlah variabel dalam dataset dengan cara menciptakan variabel baru yang disebut komponen utama.

  2. Penyederhanaan Data: Membantu dalam visualisasi dan pemahaman data dengan menyederhanakan data multivariate menjadi beberapa komponen yang lebih mudah diinterpretasikan.

  3. Identifikasi Pola: Mengidentifikasi pola dan hubungan dalam data yang mungkin tidak terlihat pada variabel asli.

Banyak Data yang Digunakan

  • Variabel: PCA dapat diterapkan pada dataset yang memiliki beberapa variabel (fitur). Biasanya, variabel-variabel ini adalah variabel numerik.

  • Observasi: Jumlah observasi harus cukup besar untuk mendapatkan hasil yang valid dan stabil. PCA efektif pada dataset dengan banyak variabel dan observasi.

Contoh: Jika dimiliki dataset dengan 10 variabel dan 200 observasi, PCA akan mengidentifikasi komponen utama yang merupakan kombinasi linier dari variabel-variabel tersebut.

Asumsi dalam PCA

Beberapa asumsi yang perlu dipenuhi untuk menerapkan PCA:

  1. Linearitas: Hubungan antara variabel-variabel dalam data dianggap linier.

  2. Normalitas: Data diharapkan berdistribusi normal (meskipun PCA dapat digunakan pada data non-normal dengan beberapa penyesuaian).

  3. Skala Variabel: Variabel harus diukur pada skala yang sama atau dinormalisasi sebelum analisis untuk menghindari variabel dengan skala yang lebih besar mendominasi hasil PCA.

Rumus yang Digunakan

PCA melibatkan transformasi data ke dalam basis baru yang disebut komponen utama.

Langkah-langkah utama dalam PCA termasuk:

  1. Penghitungan Matriks Kovarians: \[ \mathbf{S} = \frac{1}{n-1} \sum_{i=1}^{n} (\mathbf{x}_i - \mathbf{\bar{x}})(\mathbf{x}_i - \mathbf{\bar{x}})^T \] dimana \(\mathbf{x}_i\) adalah vektor data observasi ke-\(i\), dan \(\mathbf{\bar{x}}\) adalah rata-rata vektor data.

  2. Menentukan Nilai Eigen dan Vektor Eigen:

    Matriks kovarians digunakan untuk menghitung nilai eigen (\(\lambda\)) dan vektor eigen (\(\mathbf{v}\)). Nilai eigen menggambarkan variabilitas yang dijelaskan oleh setiap komponen utama. \[ \mathbf{S} \mathbf{v} = \lambda \mathbf{v} \]

  3. Transformasi Data:

    Data asli diproyeksikan ke dalam ruang komponen utama dengan mengalikan data dengan vektor eigen yang telah dinormalisasi. \[ \mathbf{Z} = \mathbf{X} \mathbf{V} \] dimana \(\mathbf{Z}\) adalah data yang ditransformasikan, \(\mathbf{X}\) adalah data asli, dan \(\mathbf{V}\) adalah matriks vektor eigen.

2.2 Analisis Faktor

Analisis Faktor adalah teknik statistik yang digunakan untuk mengidentifikasi struktur mendasar di dalam data multivariate dengan mengelompokkan variabel-variabel yang saling berkorelasi ke dalam beberapa faktor (komponen) yang mendasarinya. Tujuan utama analisis faktor adalah:

  1. Reduksi Dimensi: Mengurangi jumlah variabel dengan menggabungkan variabel-variabel yang berkorelasi tinggi menjadi faktor-faktor yang lebih sedikit.

  2. Identifikasi Struktur Data: Mengidentifikasi pola/struktur dalam data yang mungkin tidak terlihat dengan menggunakan variabel asli.

  3. Penyederhanaan Model: Mengurangi kompleksitas model analisis dengan menggantikan banyak variabel dengan faktor-faktor yang lebih sederhana.

Banyak Data yang Digunakan

  • Variabel: Analisis faktor diterapkan pada dataset yang memiliki beberapa variabel. Variabel-variabel ini biasanya merupakan variabel numerik.

  • Observasi: Jumlah observasi harus cukup besar untuk mendapatkan hasil yang stabil dan dapat diandalkan. Analisis faktor umumnya digunakan pada dataset dengan banyak variabel dan observasi.

Contoh: Jika dimiliki dataset dengan 15 variabel dan 200 observasi, analisis faktor dapat digunakan untuk mengidentifikasi sejumlah faktor yang mendasari variabel-variabel tersebut.

Asumsi dalam Analisis Faktor

Beberapa asumsi dan pertimbangan dalam analisis faktor adalah:

  1. Linearitas: Asumsi bahwa hubungan antara variabel adalah linier.

  2. Korelasi: Variabel-variabel harus saling berkorelasi secara signifikan untuk dapat digabungkan dalam faktor.

  3. Normalitas: Data diharapkan memiliki distribusi normal, meskipun beberapa teknik faktor dapat digunakan pada data non-normal dengan penyesuaian.

  4. Kesesuaian Model: Penggunaan ukuran kesesuaian seperti KMO (Kaiser-Meyer-Olkin) dan uji Bartlett untuk memastikan bahwa data sesuai untuk analisis faktor.

Rumus yang Digunakan

Analisis faktor melibatkan beberapa langkah, termasuk penghitungan matriks korelasi, ekstraksi faktor, dan rotasi faktor. Berikut adalah langkah-langkah utama:

  1. Penghitungan Matriks Korelasi: \[ \mathbf{R} = \frac{1}{n-1} \sum_{i=1}^{n} (\mathbf{x}_i - \mathbf{\bar{x}})(\mathbf{x}_i - \mathbf{\bar{x}})^T \] dimana \(\mathbf{x}_i\) adalah vektor data observasi ke-\(i\), dan \(\mathbf{\bar{x}}\) adalah rata-rata vektor data.

  2. Ekstraksi Faktor: Menggunakan metode seperti analisis komponen utama atau analisis faktor eksploratori untuk mengekstrak faktor dari matriks korelasi.

  3. Rotasi Faktor: Menggunakan rotasi varimax atau metode lainnya untuk mempermudah interpretasi faktor. Fungsi rotasi: \[ \mathbf{F}_\text{rotated} = \mathbf{F} \mathbf{T} \] dimana \(\mathbf{F}\) adalah matriks faktor asli, dan \(\mathbf{T}\) adalah matriks rotasi.

2.3 Analisis Diskriminan

Analisis Diskriminan (Discriminant Analysis) adalah teknik multivariate yang bertujuan untuk:

  1. Mengklasifikasikan objek atau observasi ke dalam beberapa kelompok yang berbeda berdasarkan variabel prediktor kontinu.

  2. Mencari kombinasi linear dari variabel prediktor yang dapat memisahkan kelompok dengan seoptimal mungkin.

  3. Mengidentifikasi variabel mana yang paling signifikan dalam membedakan kelompok.

Banyak Data yang Digunakan

Analisis Diskriminan memerlukan dua jenis variabel:

  • Variabel respon yang bersifat kategorik (dua atau lebih kategori), seperti jenis kelas atau kategori objek yang akan diprediksi.

  • Variabel prediktor yang bersifat kontinu (misalnya, variabel numerik seperti panjang, lebar, berat, dll.).

Biasanya digunakan dalam konteks klasifikasi dengan beberapa kelompok dan melibatkan dataset yang memiliki lebih dari 30 sampel (untuk menghindari overfitting). Sebaiknya jumlah sampel dalam setiap kelompok cukup besar untuk mendapatkan hasil yang representatif.

Asumsi dalam Analisis Diskriminan

Ada beberapa asumsi yang harus dipenuhi agar analisis diskriminan memberikan hasil yang valid:

  1. Normalitas Multivariate: Variabel prediktor sebaiknya berdistribusi normal dalam setiap kelompok.

  2. Homogenitas Varian-Kovarian: Matriks kovarian dari variabel prediktor antar kelompok diharapkan sama atau setidaknya tidak terlalu berbeda jauh.

  3. Independensi Observasi: Setiap observasi bersifat independen satu sama lain.

Jika asumsi ini tidak terpenuhi, maka hasil analisis diskriminan bisa menjadi tidak valid atau kurang akurat.

Rumus Analisis Diskriminan

Tujuan dari analisis diskriminan adalah mencari kombinasi linear dari variabel prediktor yang memaksimalkan perbedaan antar kelompok.

\[ Z = b_1 X_1 + b_2 X_2 + \dots + b_p X_p \]

dimana:

  • \(Z\) adalah skor diskriminan (kombinasi linear),

  • \(b_1, b_2, \dots, b_p\) adalah koefisien diskriminan yang dihitung,

  • \(X_1, X_2, \dots, X_p\) adalah variabel prediktor yang kontinu.

Koefisien-koefisien diskriminan dipilih agar kelompok berbeda memiliki rata-rata yang berbeda secara signifikan pada skor diskriminan \(Z\).

2.4 MANOVA

MANOVA (Multivariate Analysis of Variance) adalah teknik statistik multivariate yang digunakan untuk menguji perbedaan antara dua atau lebih kelompok pada beberapa variabel dependen secara simultan. Tujuan utamanya adalah:

  1. Mengidentifikasi Perbedaan Grup: Menilai apakah ada perbedaan signifikan antara kelompok pada beberapa variabel dependen secara bersamaan.

  2. Kontrol Koefisien: Mengontrol efek dari variabel dependen lain yang dapat mempengaruhi hasil.

  3. Evaluasi Efek Variabel Independen: Mengidentifikasi variabel independen yang mempengaruhi variabel dependen dalam konteks multivariate.

Banyak Data yang Digunakan

  • Variabel Dependen: MANOVA melibatkan dua atau lebih variabel dependen yang diukur pada setiap unit analisis. Variabel ini bertipe numerik kontinu.

  • Variabel Independen: Biasanya adalah variabel kategori (faktor) yang digunakan untuk membagi data menjadi kelompok-kelompok untuk dianalisis.

  • Observasi: Data harus memiliki jumlah observasi yang cukup besar untuk mendapatkan hasil yang valid, dengan rasio yang memadai antara jumlah observasi dan jumlah variabel dependen.

Contoh: Jika dimiliki 3 variabel dependen dan 2 variabel independen, maka data harus mencakup beberapa kelompok dengan jumlah observasi yang memadai di setiap kelompok.

Asumsi dalam MANOVA

Beberapa asumsi yang harus dipenuhi untuk menerapkan MANOVA:

  1. Normalitas: Variabel dependen dalam setiap kelompok diharapkan berdistribusi normal.

  2. Homogenitas Kovarians: Matrik kovarians variabel dependen harus sama di setiap kelompok.

  3. Independensi: Observasi diharapkan independen satu sama lain.

  4. Linearitas: Hubungan antara variabel dependen dalam setiap kelompok harus linier.

Rumus yang Digunakan

MANOVA menguji hipotesis bahwa rata-rata variabel dependen tidak berbeda antar kelompok yang didefinisikan oleh variabel independen. Rumus utama melibatkan matriks kovarians dan mean dari variabel dependen.

  1. Matriks Kovarians dan Mean: \[ \mathbf{H} = \sum_{k=1}^{K} n_k (\mathbf{\bar{Y}}_k - \mathbf{\bar{Y}})^T (\mathbf{\bar{Y}}_k - \mathbf{\bar{Y}}) \] di mana \(\mathbf{\bar{Y}}_k\) adalah rata-rata variabel dependen untuk kelompok \(k\), \(\mathbf{\bar{Y}}\) adalah rata-rata keseluruhan, dan \(n_k\) adalah ukuran sampel untuk kelompok \(k\).

    \[ \mathbf{E} = \sum_{k=1}^{K} \sum_{i=1}^{n_k} (\mathbf{Y}_{ik} - \mathbf{\bar{Y}}_k)^T (\mathbf{Y}_{ik} - \mathbf{\bar{Y}}_k) \] di mana \(\mathbf{Y}_{ik}\) adalah nilai variabel dependen untuk observasi \(i\) dalam kelompok \(k\).

  2. Statistik Uji MANOVA: Uji statistik seperti Wilks’ Lambda, Pillai’s Trace, Hotelling-Lawley Trace, dan Roy’s Largest Root digunakan untuk menguji hipotesis nol.

2.5 Analisis Cluster

Analisis Klaster adalah teknik multivariate yang digunakan untuk mengelompokkan objek atau unit analisis ke dalam kelompok (klaster) yang memiliki kesamaan tinggi di dalam kelompok dan perbedaan tinggi antar kelompok. Tujuan utamanya adalah:

  1. Identifikasi Pola: Menemukan pola atau struktur dalam data yang tidak jelas sebelumnya.

  2. Segmentasi Data: Membagi data menjadi subkelompok yang homogen untuk analisis lebih lanjut atau aplikasi praktis.

  3. Pengelompokkan: Menciptakan kelompok data yang serupa berdasarkan atribut tertentu untuk mempermudah pemahaman dan analisis.

Banyak Data yang Digunakan

  • Data: Analisis klaster dapat diterapkan pada data yang terdiri dari beberapa variabel. Data ini bisa berupa data numerik, kategori, atau campuran.

  • Observasi: Jumlah observasi harus cukup besar agar hasil klaster yang diperoleh stabil dan representatif. Biasanya, semakin banyak data, semakin baik hasil klaster yang dapat dihasilkan.

Contoh: Jika dimiliki dataset dengan 100 observasi dan 5 variabel, analisis klaster akan mengelompokkan 100 observasi ke dalam beberapa klaster berdasarkan kemiripan nilai pada 5 variabel tersebut.

Asumsi dalam Analisis Klaster

Beberapa asumsi dan pertimbangan dalam analisis klaster:

  1. Homogenitas dalam Klaster: Asumsi bahwa objek dalam klaster yang sama memiliki kemiripan yang tinggi.

  2. Heterogenitas Antar Klaster: Asumsi bahwa objek di klaster yang berbeda memiliki perbedaan yang signifikan.

  3. Skala Pengukuran: Variabel harus diukur pada skala yang sama atau dinormalisasi untuk mencegah variabel dengan skala lebih besar mendominasi proses klasterisasi.

Rumus yang Digunakan Analisis klaster melibatkan berbagai algoritma, dua yang paling umum adalah K-Means dan Hierarchical Clustering.

  1. K-Means Clustering: Tujuan utama adalah meminimalkan variansi total dalam klaster. Fungsi objektif untuk K-Means adalah: \[ J = \sum_{i=1}^k \sum_{x \in C_i} \| x - \mu_i \|^2 \] dimana:

    • \(k\) adalah jumlah klaster,
    • \(C_i\) adalah klaster ke-\(i\),
    • \(x\) adalah data point,
    • \(\mu_i\) adalah pusat klaster ke-\(i\),
    • \(\| \cdot \|\) adalah norma Euclidean.
  2. Hierarchical Clustering: Algoritma ini membangun hierarki klaster dengan menggabungkan atau membagi klaster secara iteratif. Metode penggabungan atau pemisahan klaster termasuk metode single-linkage, complete-linkage, dan average-linkage.

    • Single-linkage: \[ D(i, j) = \min_{x \in C_i, y \in C_j} \| x - y \| \]
    • Complete-linkage: \[ D(i, j) = \max_{x \in C_i, y \in C_j} \| x - y \| \]
    • Average-linkage: \[ D(i, j) = \frac{1}{|C_i||C_j|} \sum_{x \in C_i} \sum_{y \in C_j} \| x - y \| \]

2.6 Analisis Korespondensi

Analisis Korespondensi (Correspondence Analysis) adalah teknik multivariate yang digunakan untuk memvisualisasikan hubungan antara dua variabel kategorikal dalam tabel kontingensi.

Tujuannya adalah:

  1. Visualisasi: Menyediakan representasi grafis dari hubungan antara baris dan kolom dalam tabel kontingensi.

  2. Reduksi Dimensi: Mengubah data yang berstruktur tinggi (misalnya tabel kontingensi besar) menjadi representasi dua atau lebih dimensi yang mudah diinterpretasi.

  3. Mengidentifikasi Pola: Mencari pola asosiasi dan korespondensi antara kategori-kategori dari variabel-variabel dalam tabel.

Banyak Data yang Digunakan

  • Data yang Digunakan: Analisis korespondensi biasanya diterapkan pada tabel kontingensi yang besar, dimana terdapat dua variabel kategorikal yang membentuk tabel baris dan kolom.

  • Ukuran Tabel: Tabel kontingensi bisa bervariasi dalam ukuran, namun semakin besar tabel, semakin baik analisis ini dalam mengungkap pola.

Asumsi dalam Analisis Korespondensi

Meskipun analisis korespondensi tidak memiliki asumsi seketat beberapa teknik multivariate lain, beberapa hal perlu diperhatikan:

  1. Independensi Data: Data dalam tabel kontingensi dianggap bersifat independen.

  2. Distribusi Multinomial: Tabel kontingensi harus berbasis pada frekuensi, dan hasil analisis didasarkan pada probabilitas kategori.

  3. Pada tabel kontingensi, sebaiknya tidak ada sel dengan frekuensi yang sangat rendah (terutama nol) agar hasil analisis dapat diinterpretasikan dengan baik.

Rumus yang Digunakan

Analisis korespondensi mirip dengan PCA, namun diterapkan pada data kategorikal. Tabel kontingensi \(N\) dengan ukuran \(I \times J\) diuraikan menjadi dua set faktor yang dapat divisualisasikan.

Langkah-langkah perhitungannya adalah sebagai berikut:

  1. Matriks Proporsi:

    Tabel kontingensi diubah menjadi matriks proporsi \(P\) dengan membagi setiap elemen tabel dengan total keseluruhan elemen: \[ P = \frac{N}{n} \] dimana \(n\) adalah total frekuensi di tabel.

  2. Peringkat Marginal:

    Peringkat marginal \(r\) dan \(c\) dihitung untuk baris dan kolom sebagai: \[ r_i = \frac{n_i}{n}, \quad c_j = \frac{n_j}{n} \] dimana \(n_i\) dan \(n_j\) adalah total frekuensi baris dan kolom.

  3. Skor Faktor:

    Setelah menghitung skor-skor dari baris dan kolom, dapat diidentifikasi dimensi yang menggambarkan hubungan antara baris dan kolom.

2.7 Analisis Biplot

Biplot adalah teknik multivariate yang digunakan untuk memvisualisasikan data matriks dua dimensi yang melibatkan variabel dan observasi pada ruang vektor yang sama.

Tujuan utamanya adalah:

  1. Visualisasi: Menyediakan representasi grafis dari hubungan antara observasi dan variabel dalam dataset.

  2. Reduksi Dimensi: Menyederhanakan representasi data multivariate ke dalam dua dimensi (atau lebih) tanpa kehilangan terlalu banyak informasi.

  3. Interpretasi Hubungan: Mengidentifikasi hubungan antara variabel-variabel dan observasi-observasi dalam ruang yang terkompresi.

Biplot biasanya digunakan dengan dataset yang mengandung

  • Jumlah observasi bisa besar atau kecil, namun idealnya biplot efektif ketika observasi berada di atas 10 sampel.

  • Variabel yang digunakan adalah variabel kontinu, biasanya lebih dari dua, yang akan direduksi menjadi dua atau lebih dimensi utama.

Asumsi dalam Analisis Biplot

Tidak ada asumsi ketat dalam penggunaan biplot seperti pada analisis diskriminan atau regresi, namun biplot sering didasarkan pada hasil analisis Principal Component Analysis (PCA) atau Correspondence Analysis (CA), yang melibatkan asumsi seperti:

  1. Skalabilitas Linier: Data numerik harus memiliki hubungan linier untuk mendapatkan visualisasi yang benar.

  2. Normalitas: PCA, yang mendasari biplot, mengasumsikan variabel memiliki distribusi normal, namun ini tidak selalu diperlukan.

Rumus yang digunakan

Biplot biasanya didasarkan pada dekomposisi matriks data menjadi matriks skor dan matriks loadings, khususnya ketika menggunakan PCA sebagai dasarnya.

Matriks data \(X\) dengan ukuran \(n \times p\) (dimana \(n\) adalah observasi dan \(p\) adalah variabel) dapat dinyatakan sebagai:

\[ X = A \Lambda B' \]

dimana:

  • \(A\) adalah matriks skor (representasi observasi),

  • \(\Lambda\) adalah matriks diagonal dengan nilai eigen,

  • \(B\) adalah matriks beban (loadings) (representasi variabel).

Dengan menggunakan dua komponen utama, data dapat direpresentasikan secara grafis dalam dua dimensi.

2.8 Multidimensional Scalling

Multidimensional Scalling (MDS) merupakan salah satu teknik multivariate yang dapat digunakan untuk menentukan posisi suatu obyek relatif terhadap obyek lainnya berdasarkan penilaian kemiripannya. MDS disebut juga Perceptual Map. MDS berhubungan dengan pembuatan map untuk menggambarkan posisi sebuah obyek dengan obyek lain berdasarkan kemiripan obyek-obyek tersebut.

Berdasarkan skala pengukuran dari data kemiripan, MDS dibedakan atas:

  1. MDS berskala metrik, bila skala pengukuran datanya interval atau rasio.

  2. MDS berskala nonmetrik, bila skala pengukuran datanya nominal atau ordinal.

MDS digunakan untuk mengetahui hubungan interdepensi atau saling ketergantungan antarvariabel/data. Hubungan ini tidak diketahui melalui reduksi ataupun pengelompokkan variabel, melainkan dengan membandingkan variabel yang ada pada tiap obyek yang bersangkutan dengan menggunkan perceptual map. Konsep dasar MDS adalah pemetaan.

Output yang diperoleh berupa perceptual map yang terbagi menjadi beberapa dimensi. Minimal terbentuk dua dimensi ruang yang dapat dijadikan bahan analisis. Menganalisis tiap dimensi dengan melihat posisi kedekatan antar obyek yang menunjukkan kemiripan antar obyek tersebut. Dari kedekatan antar obyek dapat dikembangkan beberapa alternatif lain, seperti apakah antar obyek tersebut dapat saling bersaing atau tidak.

Nilai STREES digunakan untuk melihat apakah hasil output mendekati keadaan yang sebenarnya atau tidak. Semakin mendekati nol, maka output yang dihasilkan semakin mirip dengan keadaan yang sebenarnya.

Memetakan data pengamatan multivariate terhadap suatu obyek adalah menempatkan nilai koordinat pada ruang berdimensi ganda. Apabila dimiliki data pengamatan variabel ganda pada beberapa obyek, dapat ditentukan jarak antar obyeknya. Jarak antar obyek bisa terlihat ketika titik-titik obyek dipetakan dalam suatu gambar yang posisinya sesuai dengan koordinatnya. Namun, apabila data yang dimiliki adalah data persepsi yang tidak dapat dipetakan begitu saja, maka dalam analisis MDS digunakan RSQ (Squared Correlation) untuk mengetahui kedekatan antara data dengan map. Hal ini bertujuan untuk mengetahui bagaimana data jarak antar obyek tersebut terpetakan dalam perceptual map. RSQ (Squared Correlation) adalah proporsi keragaman dari data yang berbentuk skala (perbedaan) pada partisi (baris, matriks, atau seluruh data) yang dihitung untuk mengetahui jarak hubungan data. Nilai RSQ semakin mendekati 1 berarti data semakin terpetakan dengan sempurna.

2.9 Korelasi Kanonik

Korelasi Kanonik (Canonical Correlation Analysis/CCA) adalah teknik multivariate yang bertujuan untuk menemukan hubungan antara dua set variabel. Tujuannya adalah:

  1. Mengidentifikasi Hubungan: Menganalisis dan mengukur kekuatan hubungan linier antara dua set variabel.

  2. Reduksi Dimensi: Menemukan kombinasi linier dari masing-masing set variabel yang memiliki korelasi maksimum dengan kombinasi linier dari set variabel lainnya.

  3. Multivariate Dependence: Mempelajari hubungan ketergantungan multivariate antara dua kelompok variabel.

Banyak Data yang Digunakan

  • Set Variabel: CCA memerlukan dua set variabel dengan ukuran observasi yang sama. Setiap set dapat terdiri dari beberapa variabel (biasanya lebih dari dua variabel dalam setiap set).

  • Observasi: Jumlah observasi harus lebih besar dari jumlah variabel di setiap set agar perhitungan CCA valid.

Contoh, jika memiliki dua set variabel:

  • Set pertama (\(X_1, X_2, \dots, X_p\)) dengan \(p\) variabel,

  • Set kedua (\(Y_1, Y_2, \dots, Y_q\)) dengan \(q\) variabel, maka jumlah observasi \(n\) harus lebih besar dari \(p\) dan \(q\).

Asumsi dalam Korelasi Kanonik

Beberapa asumsi yang perlu diperhatikan:

  1. Hubungan Linier: Korelasi kanonik mengasumsikan adanya hubungan linier antara dua set variabel.

  2. Multivariate Normal: Variabel di dalam setiap set sebaiknya berdistribusi normal multivariate.

  3. Kesamaan Ukuran Sampel: Kedua set variabel harus memiliki jumlah observasi yang sama.

  4. Tidak Ada Multikolinearitas: Setiap variabel dalam set sebaiknya tidak memiliki multikolinearitas yang tinggi.

Rumus yang Digunakan

CCA bertujuan untuk memaksimalkan korelasi antara kombinasi linier dari variabel di set pertama

\(U = a_1 X_1 + a_2 X_2 + \dots + a_p X_p\) dan kombinasi linier dari variabel di set kedua \(V = b_1 Y_1 + b_2 Y_2 + \dots + b_q Y_q\).

Tujuan utamanya adalah untuk menemukan vektor-koefisien \(a_1, a_2, \dots, a_p\) dan \(b_1, b_2, \dots, b_q\) sehingga korelasi antara \(U\) dan \(V\) maksimum. Secara matematis dapat dituliskan sebagai berikut: \[ \rho = \max Corr(U, V) = \max Corr(a'X, b'Y) \] dimana \(\rho\) adalah korelasi kanonik antara kombinasi linier \(U\) dan \(V\), dan \(a\) serta \(b\) adalah koefisien kanonik.

2.10 Analisis Konjoin

Analisis Konjoin (Conjoint Analysis) adalah teknik multivariate yang digunakan untuk memahami bagaimana konsumen membuat keputusan dengan mengevaluasi berbagai atribut produk atau layanan. Tujuan utamanya adalah:

  1. Mengukur Preferensi Konsumen: Mengidentifikasi atribut-atribut yang paling memengaruhi pilihan/preferensi konsumen.

  2. Simulasi Pasar: Membantu perancangan produk/layanan baru dengan kombinasi atribut yang paling disukai konsumen.

  3. Penetapan Harga: Menentukan trade-off yang dilakukan konsumen antara harga dan atribut lainnya.

Banyak Data yang Digunakan

  • Atribut dan Level: Data yang digunakan biasanya terdiri dari beberapa atribut produk atau layanan. Setiap atribut memiliki beberapa level yang berbeda. Misalnya, untuk produk smartphone, atribut bisa berupa: harga, ukuran layar, kapasitas baterai, dan masing-masing atribut memiliki level yang berbeda (misalnya, harga $500, $700, $1000).

  • Responden: Data respon berasal dari pilihan preferensi yang dibuat oleh konsumen terhadap kombinasi berbagai atribut.

Misalnya, jika ada 3 atribut dan masing-masing atribut memiliki 3 level, maka terdapat \(3 \times 3 \times 3 = 27\) kombinasi produk yang mungkin.

Asumsi dalam Analisis Konjoin

Beberapa asumsi yang perlu diperhatikan:

  1. Preferensi Dapat Dipecah: Asumsi dasar analisis konjoin adalah bahwa preferensi konsumen dapat dipecah ke dalam bagian-bagian yang terpisah, dimana setiap bagian adalah nilai utilitas untuk masing-masing atribut.

  2. Independensi Atribut: Atribut yang diuji dianggap independen satu sama lain dalam pengaruhnya terhadap preferensi konsumen.

  3. Linearitas Utilitas: Hubungan antara level atribut dan preferensi dianggap linear.

Rumus yang Digunakan

Analisis konjoin bertujuan untuk mengestimasi utilitas partworth (bagian dari utilitas total yang diasosiasikan dengan level atribut tertentu) yang diberikan oleh responden terhadap berbagai kombinasi atribut.

Model utilitas dapat dirumuskan sebagai berikut: \[ U = \sum_{i=1}^{n} \sum_{j=1}^{m_i} \beta_{ij} X_{ij} \] dimana:

  • \(U\) adalah utilitas total dari sebuah produk,

  • \(\beta_{ij}\) adalah koefisien partworth untuk atribut ke-\(i\) pada level ke-\(j\),

  • \(X_{ij}\) adalah nilai atribut ke-\(i\) pada level ke-\(j\),

  • \(n\) adalah jumlah atribut, dan \(m_i\) adalah jumlah level pada atribut ke-\(i\).

3 Referensi

Hair, J. F., Anderson, R. E., Tatham, R. L., & Black, W. C. (1993). Multivariate Data Analysis (3rd ed.). Macmillan Publishing.

Johnson, R. A., & Wichern, D. W. (2007). Applied Multivariate Statistical Analysis (6th ed.). Pearson Prentice Hall.