Pendahuluan

Latar Belakang

Diabetes mellitus adalah penyakit kronis yang jumlah penderitanya terus meningkat di seluruh dunia, sehingga menjadi salah satu masalah kesehatan yang perlu perhatian serius. Penyakit ini, khususnya diabetes tipe 2, erat kaitannya dengan beberapa faktor risiko seperti obesitas, tekanan darah tinggi, kadar kolesterol yang tidak normal, dan riwayat keluarga. Mengingat gaya hidup modern yang turut mempercepat peningkatan kasus diabetes, sangat penting untuk memahami faktor-faktor ini agar penyebab utama diabetes dapat diidentifikasi dan dicegah secara efektif.

Pendekatan analisis faktor membantu merangkum berbagai variabel risiko menjadi komponen utama yang lebih mudah dipahami. Dengan metode ini, penelitian dapat menemukan faktor-faktor kunci yang paling berperan dalam meningkatkan risiko diabetes, sehingga dapat memberikan panduan yang lebih jelas bagi tenaga kesehatan dan pembuat kebijakan dalam merancang program pencegahan yang tepat sasaran. Hasil dari analisis ini diharapkan mampu menurunkan angka kejadian diabetes dan membantu meningkatkan kualitas hidup masyarakat yang lebih luas.

Tujuan

Tujuan dari penelitian ini adalah:

Mengurangi jumlah variabel menjadi komponen utama untuk mempermudah interpretasi risiko diabetes.
Mengungkap kelompok variabel terkait dan faktor signifikan yang mempengaruhi risiko diabetes.
Menjelaskan interaksi antara faktor seperti BMI, gula darah, tekanan darah, aktivitas fisik, dan kolesterol.
Memberikan informasi untuk membantu tenaga kesehatan dan pembuat kebijakan dalam merancang strategi pencegahan diabetes yang efektif.

Tinjauan Pustaka

Analisis Faktor

Analisis faktor adalah teknik statistik yang digunakan untuk mengidentifikasi struktur yang mendasari variabel-variabel yang diamati dan mengurangi dimensi data dengan mengelompokkan variabel yang saling terkait ke dalam faktor-faktor yang lebih sedikit. Salah satu metode yang umum digunakan adalah Principal Component Analysis (PCA), yang menemukan kombinasi linier dari variabel asli untuk menjelaskan varians maksimum dalam data. Dengan PCA, peneliti dapat menyederhanakan data, memudahkan interpretasi, dan mengungkap pola yang mendasari, sehingga menjadi alat yang berharga dalam penelitian untuk memahami hubungan antar variabel yang kompleks.

Principal Component Analysis

Principal Component Analysis (PCA) adalah metode statistik yang digunakan untuk mereduksi dimensi data tanpa kehilangan informasi signifikan, dengan cara mengubah variabel asli menjadi serangkaian variabel baru yang tidak berkorelasi, yang disebut komponen utama (Principal Components). Teknik ini pertama kali diperkenalkan oleh Karl Pearson pada tahun 1901 dan sejak itu menjadi metode yang populer dalam berbagai bidang penelitian, seperti ilmu data, biologi, psikologi, dan ilmu sosial. Tujuan utama PCA adalah untuk menyederhanakan struktur data dengan mengidentifikasi komponen utama yang memiliki variansi terbesar, sehingga memudahkan analisis data dengan mengurangi jumlah variabel yang perlu dianalisis secara langsung.

Langkah-langkah PCA

Membentuk Matriks Data Standar: Data yang terdiri dari \(n\) pengamatan dan \(p\) variabel disusun dalam matriks \(X\) berukuran \(n \times p\). Matriks ini kemudian distandarisasi menjadi matriks \(Z\) dengan rata-rata 0 dan standar deviasi 1 untuk setiap variabel, menggunakan rumus: \[ Z_{ij} = \frac{X_{ij} - \bar{X}_{j}}{s_{j}} \] di mana \(\bar{X}_{j}\) adalah rata-rata variabel ke-\(j\) dan \(s_{j}\) adalah standar deviasi variabel ke-\(j\).
Menghitung Matriks Kovarian atau Korelasi: Setelah distandarisasi, matriks kovarian \(C\) berukuran \(p \times p\) dihitung dengan rumus: \[ C = \frac{1}{n - 1} Z^{T}Z \]
Menghitung Eigenvektor dan Eigenvalue: Eigenvektor dan eigenvalue dari matriks kovarian \(C\) dihitung untuk mengetahui arah dan besar variansi dari setiap komponen utama, dengan persamaan: \[ Cv_{i} = \lambda_{i}v_{i} \] di mana \(\lambda_{i}\) menunjukkan variansi yang dijelaskan oleh komponen utama ke-\(i\).
Mendefinisikan Komponen Utama: Komponen utama diperoleh dengan mengalikan data awal dengan matriks eigenvektor \(V\): \[ Y = ZV \] Komponen utama pertama (PC1) menjelaskan variansi terbesar, diikuti oleh komponen utama kedua (PC2), dan seterusnya.
Memilih Jumlah Komponen Utama: Jumlah komponen utama ditentukan berdasarkan nilai eigenvalue atau variansi kumulatif yang dijelaskan, umumnya dengan memilih komponen yang menjelaskan lebih dari 80% atau 90% dari total variansi.

Data

> data <- diabetes_data[, c("Age", "BMI", "FastingBloodSugar", "HbA1c", "PhysicalActivity", "CholesterolLDL", "Diagnosis")]
Error: object 'diabetes_data' not found
> 
> head(data)
                                                                            
1 function (..., list = character(), package = NULL, lib.loc = NULL,        
2     verbose = getOption("verbose"), envir = .GlobalEnv, overwrite = TRUE) 
3 {                                                                         
4     fileExt <- function(x) {                                              
5         db <- grepl("\\\\.[^.]+\\\\.(gz|bz2|xz)$", x)                     
6         ans <- sub(".*\\\\.", "", x)

Variabel

Analisis ini menggunakan 7 variabel yang dapat mengevaluasi faktor-faktor utama yang berkontribusi terhadap risiko diabetes menggunakan analisis komponen utama pada variabel X.

Keterangan :

Age= Usia dalam tahun, yang dapat memengaruhi risiko diabetes

BMI= Indeks massa tubuh, yang menunjukkan tingkat obesitas seseorang

FastingBloodSugar= Kadar gula darah setelah berpuasa, sering digunakan untuk mendeteksi pradiabetes atau diabetes

HbA1c= Rata-rata kadar gula darah selama tiga bulan terakhir, diukur dalam persentase

PhysicalActivity= Skor atau tingkat aktivitas fisik harian, bisa diukur dalam frekuensi atau durasi dalam satuan waktu

CholesterolLDL= Kadar kolesterol LDL dalam darah, yang berhubungan dengan sindrom metabolik

Diagnosis= Menunjukkan apakah seseorang memiliki diabetes atau tidak

Source Code

Library

library(knitr) library(rmarkdown) library(prettydoc) library(corrplot) library(REdaS) #KMO dan Bartlett`s Test library(psych) #Analisis faktor

Input Data

Menginput data dengan Import pada kolom Environment pada R

> data <- diabetes_data[, c("Age", "BMI", "FastingBloodSugar", "HbA1c", "PhysicalActivity", "CholesterolLDL", "Diagnosis")]

Eksplorasi dan Visualisasi Data

Hasil perhitungan statistika deskripstif dengan fungsi summary akan menghasilkan rata-rata, median, minimum-maksimum, kuartil 1 dan 3 pada variabe

> summary(data)
> 
> r = cor(data) 
> corrplot(r, method= "number", type = "lower")

Uji KMO

Mencari nilai KMO dan MSA, jika MSA < 0,5 maka variabel tersebut tidak dapat dianalisis lebih lanjut

> KMOS(data)
>

Data tanpa variabel dengan MSA <0.5

> data1 <- diabetes_data[, c("Age", "CholesterolLDL", "Diagnosis")]
> 
> data1 <- data.frame(scale(data1[,1:3]))
> 
> head(data1)

Uji Bartlett

Mencari korelasi antar variabel menggunakan fungsi uji bartlett

> bartlett.test(data1)

Scree Plot

Membuat scree plot dengan mencari korelasi dan nilai eigen nya. #### Menentukan Korelasi

> data1_cor <- cor(data1) 
> data1_cor

Menentukan Nilai Eigen

> eig_values <- eigen(data1_cor)
> eig_values

Visualisasi

> summary(PCA_data)
> 
> screeplot <- plot(eig_values$values, type = 'o', xlab = 'Komponen Utama ke-', ylab = 'Varians (Nilai Eigen)', main = 'Scree Plot', pch = 16, col = 'pink', lwd = 1)

PCA

> PCA_data <- diabetes_data[, c("Age", "CholesterolLDL", "Diagnosis")]
> 
> pr.out <- prcomp(x = PCA_data,center = TRUE, scale. = TRUE) 
> pr.out
> 
> summary(pr.out)

Hasil dan Pembahasan

Eksplorasi dan Visualisasi Data

Error in object[[i]]: object of type 'closure' is not subsettable

Pada output ditampilkan nilai terkecil hingga terbesar, nilai median, rata-rata, kuartil 1, dan kuartil 3.

Error in cor(data): supply both 'x' and 'y' or a matrix-like 'x'
Error in corrplot(r, method = "number", type = "lower"): could not find function "corrplot"

Antar variabel satu sama lain tidak berkorelasi.

Uji KMO

Error in KMOS(data): could not find function "KMOS"

Hasil Statistik KMO~Criterion sebesar 0.42 < 0.5 maka analisis faktor tidak dapat dilanjut atau dapat mengurangi variabel.

Data tanpa variabel dengan MSA <0.5

Error: object 'diabetes_data' not found
Error: object 'data1' not found
Error: object 'data1' not found

Mengambil 3 variabel yang memiliki nilai MSA > 0.5 yaitu Age, CholesterolLDL, dan Diagnosis untuk analisis lanjut

Uji Bartlett

Error: object 'data1' not found

Hipotesis : \[ H_0: R = I \quad \text{(Tidak terdapat korelasi yang signifikan antar variabel)} \] \[ H_1: R \neq I \quad \text{(Terdapat korelasi yang signifikan antar variabel)} \]

Keputusan

Berdasarkan output di atas, nilai-\(p < \alpha\) (0.01), maka tolak \(H_0\).

Kesimpulan

Dengan taraf nyata 1%, maka disimpulkan terdapat korelasi yang signifikan antar variabel, sehingga dapat dilanjutkan dengan analisis faktor.

Scree Plot

Menentukan Korelasi

Error: object 'data1' not found
Error: object 'data1_cor' not found

Menentukan Nilai Eigen

Error: object 'data1_cor' not found
Error: object 'eig_values' not found

Visualisasi

Error: object 'PCA_data' not found
Error: object 'eig_values' not found

Dari scree plot ini, dapat dilihat bahwa hanya komponen pertama yang memiliki nilai eigen sedikit di atas 1, sehingga komponen pertama adalah yang paling signifikan untuk dianalisis lebih lanjut.

PCA

Error: object 'diabetes_data' not found
Error: object 'PCA_data' not found
Error: object 'pr.out' not found
Error: object 'pr.out' not found

Hasil analisis PCA menunjukkan bahwa ketiga komponen utama (PC1, PC2, dan PC3) bersama-sama menjelaskan 100% variansi dalam data, dengan masing-masing komponen menjelaskan sekitar 33% variansi. PC1 memiliki kontribusi terbesar dari variabel Age dan Diagnosis, PC2 terutama dipengaruhi oleh CholesterolLDL, sementara PC3 juga melibatkan Age dan Diagnosis dalam arah yang berbeda dari PC1. Maka, ketiga komponen ini efektif dalam merangkum variasi dari variabel asli.

Penutup

Kesimpulan

Terdapat 4 variabel dengan nilai MSA < 0.5 yaitu PhysicalActivity, BMI, FastingBloodSugar, HbAc1. 3 variabel yang digunakan yaitu Age, CholesterolLDL, dan Diagnosis
Hasil ini menunjukkan bahwa faktor usia, kadar kolesterol LDL, dan kondisi diabetes memiliki hubungan yang signifikan dan dapat dijadikan sebagai indikator utama dalam memahami risiko diabetes.

Saran

Fokus pada pemantauan faktor-faktor utama seperti usia, kadar kolesterol LDL, dan hasil diagnosis diabetes sangat penting dalam program pencegahan dan pengendalian diabetes. Pemeriksaan kolesterol secara rutin, menjaga berat badan ideal, serta meningkatkan aktivitas fisik, terutama bagi kelompok usia yang lebih rentan, dapat membantu mengurangi risiko diabetes.

Daftar Pustaka

Mangkunegoro, S. (2023, November 10). Penerapan Analisis Faktor pada Data Indikator Kualitas Tidur dan Gaya Hidup. Retrieved from rpubs: https://rpubs.com/satrio0126/1111592

Jolliffe, I. T. (2002). Principal Component Analysis (2nd ed.). Springer

Johnson, R. A., & Wichern, D. W. (2007). Applied Multivariate Statistical Analysis (6th ed.). Pearson Prentice Hall.