Pendahuluan
Latar Belakang
Diabetes mellitus adalah penyakit kronis yang jumlah penderitanya terus meningkat di seluruh dunia, sehingga menjadi salah satu masalah kesehatan yang perlu perhatian serius. Penyakit ini, khususnya diabetes tipe 2, erat kaitannya dengan beberapa faktor risiko seperti obesitas, tekanan darah tinggi, kadar kolesterol yang tidak normal, dan riwayat keluarga. Mengingat gaya hidup modern yang turut mempercepat peningkatan kasus diabetes, sangat penting untuk memahami faktor-faktor ini agar penyebab utama diabetes dapat diidentifikasi dan dicegah secara efektif.
Pendekatan analisis faktor membantu merangkum berbagai variabel risiko menjadi komponen utama yang lebih mudah dipahami. Dengan metode ini, penelitian dapat menemukan faktor-faktor kunci yang paling berperan dalam meningkatkan risiko diabetes, sehingga dapat memberikan panduan yang lebih jelas bagi tenaga kesehatan dan pembuat kebijakan dalam merancang program pencegahan yang tepat sasaran. Hasil dari analisis ini diharapkan mampu menurunkan angka kejadian diabetes dan membantu meningkatkan kualitas hidup masyarakat yang lebih luas.
Tujuan
Tujuan dari penelitian ini adalah:
Mengurangi jumlah variabel menjadi komponen utama untuk mempermudah interpretasi risiko diabetes.
Mengungkap kelompok variabel terkait dan faktor signifikan yang mempengaruhi risiko diabetes.
Menjelaskan interaksi antara faktor seperti BMI, gula darah, tekanan darah, aktivitas fisik, dan kolesterol.
Memberikan informasi untuk membantu tenaga kesehatan dan pembuat kebijakan dalam merancang strategi pencegahan diabetes yang efektif.
Tinjauan Pustaka
Analisis Faktor
Analisis faktor adalah teknik statistik yang digunakan untuk mengidentifikasi struktur yang mendasari variabel-variabel yang diamati dan mengurangi dimensi data dengan mengelompokkan variabel yang saling terkait ke dalam faktor-faktor yang lebih sedikit. Salah satu metode yang umum digunakan adalah Principal Component Analysis (PCA), yang menemukan kombinasi linier dari variabel asli untuk menjelaskan varians maksimum dalam data. Dengan PCA, peneliti dapat menyederhanakan data, memudahkan interpretasi, dan mengungkap pola yang mendasari, sehingga menjadi alat yang berharga dalam penelitian untuk memahami hubungan antar variabel yang kompleks.
Principal Component Analysis
Principal Component Analysis (PCA) adalah metode statistik yang digunakan untuk mereduksi dimensi data tanpa kehilangan informasi signifikan, dengan cara mengubah variabel asli menjadi serangkaian variabel baru yang tidak berkorelasi, yang disebut komponen utama (Principal Components). Teknik ini pertama kali diperkenalkan oleh Karl Pearson pada tahun 1901 dan sejak itu menjadi metode yang populer dalam berbagai bidang penelitian, seperti ilmu data, biologi, psikologi, dan ilmu sosial. Tujuan utama PCA adalah untuk menyederhanakan struktur data dengan mengidentifikasi komponen utama yang memiliki variansi terbesar, sehingga memudahkan analisis data dengan mengurangi jumlah variabel yang perlu dianalisis secara langsung.
Langkah-langkah PCA
Membentuk Matriks Data Standar: Data yang terdiri dari \(n\) pengamatan dan \(p\) variabel disusun dalam matriks \(X\) berukuran \(n \times p\). Matriks ini kemudian distandarisasi menjadi matriks \(Z\) dengan rata-rata 0 dan standar deviasi 1 untuk setiap variabel, menggunakan rumus: \[ Z_{ij} = \frac{X_{ij} - \bar{X}_{j}}{s_{j}} \] di mana \(\bar{X}_{j}\) adalah rata-rata variabel ke-\(j\) dan \(s_{j}\) adalah standar deviasi variabel ke-\(j\).
Menghitung Matriks Kovarian atau Korelasi: Setelah distandarisasi, matriks kovarian \(C\) berukuran \(p \times p\) dihitung dengan rumus: \[ C = \frac{1}{n - 1} Z^{T}Z \]
Menghitung Eigenvektor dan Eigenvalue: Eigenvektor dan eigenvalue dari matriks kovarian \(C\) dihitung untuk mengetahui arah dan besar variansi dari setiap komponen utama, dengan persamaan: \[ Cv_{i} = \lambda_{i}v_{i} \] di mana \(\lambda_{i}\) menunjukkan variansi yang dijelaskan oleh komponen utama ke-\(i\).
Mendefinisikan Komponen Utama: Komponen utama diperoleh dengan mengalikan data awal dengan matriks eigenvektor \(V\): \[ Y = ZV \] Komponen utama pertama (PC1) menjelaskan variansi terbesar, diikuti oleh komponen utama kedua (PC2), dan seterusnya.
Memilih Jumlah Komponen Utama: Jumlah komponen utama ditentukan berdasarkan nilai eigenvalue atau variansi kumulatif yang dijelaskan, umumnya dengan memilih komponen yang menjelaskan lebih dari 80% atau 90% dari total variansi.
Data
> data <- diabetes_data[, c("Age", "BMI", "FastingBloodSugar", "HbA1c", "PhysicalActivity", "CholesterolLDL", "Diagnosis")]
Error: object 'diabetes_data' not found
>
> head(data)
1 function (..., list = character(), package = NULL, lib.loc = NULL,
2 verbose = getOption("verbose"), envir = .GlobalEnv, overwrite = TRUE)
3 {
4 fileExt <- function(x) {
5 db <- grepl("\\\\.[^.]+\\\\.(gz|bz2|xz)$", x)
6 ans <- sub(".*\\\\.", "", x) Variabel
Analisis ini menggunakan 7 variabel yang dapat mengevaluasi faktor-faktor utama yang berkontribusi terhadap risiko diabetes menggunakan analisis komponen utama pada variabel X.
Keterangan :
Age= Usia dalam tahun, yang dapat memengaruhi risiko diabetes
BMI= Indeks massa tubuh, yang menunjukkan tingkat obesitas seseorang
FastingBloodSugar= Kadar gula darah setelah berpuasa, sering digunakan untuk mendeteksi pradiabetes atau diabetes
HbA1c= Rata-rata kadar gula darah selama tiga bulan terakhir, diukur dalam persentase
PhysicalActivity= Skor atau tingkat aktivitas fisik harian, bisa diukur dalam frekuensi atau durasi dalam satuan waktu
CholesterolLDL= Kadar kolesterol LDL dalam darah, yang berhubungan dengan sindrom metabolik
Diagnosis= Menunjukkan apakah seseorang memiliki diabetes atau tidak
Source Code
Library
library(knitr) library(rmarkdown) library(prettydoc) library(corrplot) library(REdaS) #KMO dan Bartlett`s Test library(psych) #Analisis faktor
Input Data
Menginput data dengan Import pada kolom Environment pada R
> data <- diabetes_data[, c("Age", "BMI", "FastingBloodSugar", "HbA1c", "PhysicalActivity", "CholesterolLDL", "Diagnosis")]Eksplorasi dan Visualisasi Data
Hasil perhitungan statistika deskripstif dengan fungsi summary akan menghasilkan rata-rata, median, minimum-maksimum, kuartil 1 dan 3 pada variabe
Uji KMO
Mencari nilai KMO dan MSA, jika MSA < 0,5 maka variabel tersebut tidak dapat dianalisis lebih lanjut
Data tanpa variabel dengan MSA <0.5
Scree Plot
Membuat scree plot dengan mencari korelasi dan nilai eigen nya. #### Menentukan Korelasi
Hasil dan Pembahasan
Eksplorasi dan Visualisasi Data
Error in object[[i]]: object of type 'closure' is not subsettable
Pada output ditampilkan nilai terkecil hingga terbesar, nilai median, rata-rata, kuartil 1, dan kuartil 3.
Error in cor(data): supply both 'x' and 'y' or a matrix-like 'x'
Error in corrplot(r, method = "number", type = "lower"): could not find function "corrplot"
Antar variabel satu sama lain tidak berkorelasi.
Uji KMO
Error in KMOS(data): could not find function "KMOS"
Hasil Statistik KMO~Criterion sebesar 0.42 < 0.5 maka analisis faktor tidak dapat dilanjut atau dapat mengurangi variabel.
Data tanpa variabel dengan MSA <0.5
Error: object 'diabetes_data' not found
Error: object 'data1' not found
Error: object 'data1' not found
Mengambil 3 variabel yang memiliki nilai MSA > 0.5 yaitu Age, CholesterolLDL, dan Diagnosis untuk analisis lanjut
Uji Bartlett
Error: object 'data1' not found
Hipotesis : \[ H_0: R = I \quad \text{(Tidak terdapat korelasi yang signifikan antar variabel)} \] \[ H_1: R \neq I \quad \text{(Terdapat korelasi yang signifikan antar variabel)} \]
Keputusan
Berdasarkan output di atas, nilai-\(p < \alpha\) (0.01), maka tolak \(H_0\).
Kesimpulan
Dengan taraf nyata 1%, maka disimpulkan terdapat korelasi yang signifikan antar variabel, sehingga dapat dilanjutkan dengan analisis faktor.
Scree Plot
Menentukan Korelasi
Error: object 'data1' not found
Error: object 'data1_cor' not found
Menentukan Nilai Eigen
Error: object 'data1_cor' not found
Error: object 'eig_values' not found
Visualisasi
Error: object 'PCA_data' not found
Error: object 'eig_values' not found
Dari scree plot ini, dapat dilihat bahwa hanya komponen pertama yang memiliki nilai eigen sedikit di atas 1, sehingga komponen pertama adalah yang paling signifikan untuk dianalisis lebih lanjut.
PCA
Error: object 'diabetes_data' not found
Error: object 'PCA_data' not found
Error: object 'pr.out' not found
Error: object 'pr.out' not found
Hasil analisis PCA menunjukkan bahwa ketiga komponen utama (PC1, PC2, dan PC3) bersama-sama menjelaskan 100% variansi dalam data, dengan masing-masing komponen menjelaskan sekitar 33% variansi. PC1 memiliki kontribusi terbesar dari variabel Age dan Diagnosis, PC2 terutama dipengaruhi oleh CholesterolLDL, sementara PC3 juga melibatkan Age dan Diagnosis dalam arah yang berbeda dari PC1. Maka, ketiga komponen ini efektif dalam merangkum variasi dari variabel asli.
Penutup
Kesimpulan
Terdapat 4 variabel dengan nilai MSA < 0.5 yaitu PhysicalActivity, BMI, FastingBloodSugar, HbAc1. 3 variabel yang digunakan yaitu Age, CholesterolLDL, dan Diagnosis
Hasil ini menunjukkan bahwa faktor usia, kadar kolesterol LDL, dan kondisi diabetes memiliki hubungan yang signifikan dan dapat dijadikan sebagai indikator utama dalam memahami risiko diabetes.
Saran
Fokus pada pemantauan faktor-faktor utama seperti usia, kadar kolesterol LDL, dan hasil diagnosis diabetes sangat penting dalam program pencegahan dan pengendalian diabetes. Pemeriksaan kolesterol secara rutin, menjaga berat badan ideal, serta meningkatkan aktivitas fisik, terutama bagi kelompok usia yang lebih rentan, dapat membantu mengurangi risiko diabetes.
Daftar Pustaka
Mangkunegoro, S. (2023, November 10). Penerapan Analisis Faktor pada Data Indikator Kualitas Tidur dan Gaya Hidup. Retrieved from rpubs: https://rpubs.com/satrio0126/1111592
Jolliffe, I. T. (2002). Principal Component Analysis (2nd ed.). Springer
Johnson, R. A., & Wichern, D. W. (2007). Applied Multivariate Statistical Analysis (6th ed.). Pearson Prentice Hall.