Case Method 2 SIM

Analisis Korelasi Kanonik Antara Kematian Usia Dewasa dan AHH dengan Konsumsi Alkohol dan HIV

Analisis Korelasi Kanonik

Analisis korelasi kanonik merupakan teknik statistik multivariat yang bertujuan untuk mengetahui hubungan antara dua set data. Korelasi kanonik berfokus pada hubungan ketergantungan antara dua set data dan memodelkan dua set data tersebut seperti model regresi: set data Y sebagai fungsi dari set data Y. Korelasi kanonik berfokus pada hubungan antara dua data set tanpa menyatakan kumpulan data tersebut sebagai variabel independen atau dependen. Pada korelasi kanonik ini, akan dicari dua jenis korelasi, yaitu korelasi antara dua set data dan korelasi antara variabel yang ada pada set data.

Package yang Digunakan

Sebelum melakukan analisis, diaplikasikan beberapa package yang dibutuhkan pada analisis korelasi kanonik ini.

library(readxl)
library(dplyr)
library(CCA)
library(data.table)
library(DT)

Impor Data

Dalam analisis ini akan digunakan empat variabel yang ada dalam dataset ā€œGlobal Environmentā€. Data yang digunakan akan dibatasi, hanya pada tahun 2015. Variabel yang digunakan pada analisis ini adalah,

  1. Alcohol_consumption: Merepresentasikan konsumsi alkohol yang dicatat dalam liter alkohol murni per kapita dengan usia 15+ tahun.

  2. Incidents_HIV: Insiden HIV per 1000 penduduk berusia 15-49 tahun.

  3. Adult_mortality: Mewakili kematian orang dewasa per 1000 populasi.

  4. Life_expectancy: Harapan hidup rata-rata kedua jenis kelamin pada tahun 2015.

# Memuat data
data <- read_excel("D:/KULIAH/Semester 4/SIM/data case method.xlsx")

# Memfilter data berdasarkan tahun 2015 dan kolom yang digunakan
data.2015 <- data %>%  
  filter(Year == 2015) %>% 
  dplyr::select(Country, Life_expectancy, Adult_mortality, Alcohol_consumption, Incidents_HIV)

# Menampilkan data yang telah terpilih
datatable(data.2015, options = list(pageLength = 10),
          rownames = FALSE,
          colnames = c("Negara", "Angka Harapan Hidup", "Kematian  Usia Dewasa", "Konsumsi Alkohol", "HIV"),
          class = 'display')

Karena pada analisis korelasi kanonik diperlukan dua set data, maka dibentuk dua set data dari data di atas.

  • Set data X = Konsumsi Alkohol, Insiden HIV

  • Set data Y = Kematian Usia Dewasa, Angka Harapan Hidup

syntax yang digunakan,

#Membagi menjadi dua set data
X <- data.2015[,c("Alcohol_consumption", "Incidents_HIV")]
Y <- data.2015[,c("Adult_mortality", "Life_expectancy")]

Analisis Data

Analisis korelasi kanonik dapat dilakukan dengan fungsi cancor untuk membangun model.

#Analisis korelasi kanonik menggunakan fungsi cancor
model <- cancor(X,Y)

# Menampilkan hasil model
print(model)
## $cor
## [1] 0.6888520 0.6179992
## 
## $xcoef
##                            [,1]         [,2]
## Alcohol_consumption 0.002573119  0.019860278
## Incidents_HIV       0.045741961 -0.006747403
## 
## $ycoef
##                        [,1]       [,2]
## Adult_mortality 0.002188046 0.00148990
## Life_expectancy 0.018466357 0.02415195
## 
## $xcenter
## Alcohol_consumption       Incidents_HIV 
##           4.7289944           0.6097765 
## 
## $ycenter
## Adult_mortality Life_expectancy 
##       163.66757        71.46369

Output dari model di atas berisi koefisien dan parameter dari analisis korelasi kanonik.

Dimensi

Dari output model di atas didapatkan dua dimensi korelasi kanonik. Dimensi ini menandakan hubungan antara dua set variabel yang telah didefinisikan sebelumnya. Oleh karena itu, dari set data X dan Y, terdapat dua nilai korelasi yang menggambarkan hubungan antara set data X dan Y. Dimensi korelasi kanonik dari output di atas yaitu,

# Menunjukkan dimensi dari korelasi kanonik
model$cor
## [1] 0.6888520 0.6179992

Berikut ini bar plot yang menunjukkan perbandingan dimensi dari korelasi kanonik.

# Plot perbandingan dimensi korelasi kanonik
barplot(model$cor, xlab = "Dimension", ylab = "Canonical correlation", 
        ylim = c(0,1))

Dilihat dari plot di atas, perbedaan dari dimensi yang didapatkan dari analisis korelasi kanonik tidak berbeda secara signifikan. Kedua set data (X dan Y) memiliki korelasi yang cenderung kuat dan termasuk dalam korelasi positif.

Plot Korelasi Kanonik

Penggunaan plot korelasi kanonik dapat membantu dalam memahami bagaimana kedua set data berkorelasi. Akan digunakan package ā€œCCAā€ yang memiliki fungsi untuk membuat plot hasil analisis korelasi kanonik.

# Membentuk korelasi kanonik menggunakan package CCA 
model2 <- cc(X,Y)

# Plot hubungan dimensi 1 dan 2
plt.cc(model2, var.label = TRUE)

Plot di bagian kanan menunjukkan persebaran data individual dalam analisis ini. Sedangkan plot di bagian kiri menunjukkan kedudukan setiap variabel pada set X dan dan Y dalam dimensi 1 dan 2.

Dimensi 1 ditunjukkan pada sumbu-x, yang berarti variabel yang memiliki nilai tinggi pada dimensi 1 akan menjauhi sumbu-y dan variabel yang memiliki nilai rendah pada dimensi 1 akan mendekat di sumbu-y.

Dimensi 2 ditunjukkan pada sumbu-y sehingga variabel yang memiliki nilai kontribusi yang rendah pada dimensi 2 akan mendekati sumbu-x pada grafik dan jika memiliki nilai kontribusi yang tinggi akan berperilaku sebaliknya.

Grafik di atas dapat direpresentasikan dengan,

# Korelasi antara variabel asli pada set X dengan skor kanonikal dimensi 1
model2$scores$corr.X.xscores
##                          [,1]       [,2]
## Alcohol_consumption 0.1459310  0.9892948
## Incidents_HIV       0.9917112 -0.1284872
# Korelasi antara variabel asli pada set Y dengan skor kanonikal dimensi 1
model2$scores$corr.Y.xscores
##                       [,1]       [,2]
## Adult_mortality  0.5472254 -0.3753680
## Life_expectancy -0.3877092  0.5108197
# Korelasi antara variabel asli pada set X dengan skor kanonikal dimensi 2
model2$scores$corr.X.yscores
##                          [,1]        [,2]
## Alcohol_consumption 0.1005249  0.61138340
## Incidents_HIV       0.6831422 -0.07940496
# Korelasi antara variabel asli pada set Y dengan skor kanonikal dimensi 2
model2$scores$corr.Y.yscores
##                       [,1]       [,2]
## Adult_mortality  0.7944020 -0.6073924
## Life_expectancy -0.5628338  0.8265701

Interpretasi

  • Variabel Kematian Usia Dewasa dan Angka Harapan Hidup

    Dari analisis kedua variabel, yaitu Kematian Usia Dewasa dan Angka Harapan Hidup, terlihat bahwa kontribusi absolut mereka terhadap nilai korelasi kanonik dimensi 1 mendekati 0,5. Ini menunjukkan adanya korelasi negatif antara kedua variabel tersebut. Artinya, peningkatan dalam Kematian Usia Dewasa akan berdampak pada penurunan Angka Harapan Hidup di suatu negara. Pola yang sama juga berlaku pada dimensi kedua.

  • Variabel Konsumsi Alkohol dan Insiden HIV

    Ketika konsumsi alkohol memiliki kontribusi yang tinggi pada suatu dimensi, insiden HIV cenderung memiliki kontribusi yang rendah, dan sebaliknya. Ini menunjukkan bahwa kedua variabel ini mungkin memiliki hubungan invers atau kedua variabel mewakili aspek yang berbeda atau saling melengkapi.

Referensi

K, Joos. (2021). Canonical Correlation Analysis: A Comprehensive Overview of Canonical Correlation Analysis with a Full Walkthrough of an Example in Both R and Phyton. Diakses pada 26 Mei 2024, dariĀ https://towardsdatascience.com/canonical-correlation-analysis-b1a38847219d.