PENDAHULUAN
Latar Belakang
Penyakit diabetes adalah salah satu masalah kesehatan global yang signifikan. Menurut Organisasi Kesehatan Dunia (WHO), jumlah penderita diabetes terus meningkat secara global dan diabetes mellitus tipe 2 merupakan jenis yang paling umum di seluruh dunia. Diabetes mellitus tipe 2 berkaitan erat dengan faktor-faktor risiko tertentu, seperti kadar glukosa darah tinggi, resistensi insulin, indeks massa tubuh (BMI) yang tinggi, dan faktor usia.
Pemahaman lebih mendalam tentang bagaimana variabel-variabel ini berkontribusi terhadap risiko penyakit diabetes sangat penting dalam upaya pencegahan, diagnosis, dan manajemen penyakit. Selama beberapa dekade terakhir, analisis multivariat telah menjadi pendekatan yang efektif dalam mengidentifikasi hubungan kompleks antara variabel-variabel tersebut.
Dalam konteks ini, penelitian ini bertujuan untuk melakukan analisis multivariat terhadap pengaruh variabel Glukosa, Insulin, BMI, dan Usia terhadap penyakit diabetes. Penggunaan Uji T^2 Hotelling dalam penelitian ini akan memungkinkan kita untuk menguji secara komprehensif apakah kombinasi dari variabel-variabel ini secara bersama-sama berperan dalam mempengaruhi keberadaan penyakit diabetes.
Penelitian ini diharapkan dapat memberikan pemahaman yang lebih baik tentang pengaruh variabel Glukosa, Insulin, BMI, dan Usia terhadap penyakit diabetes, yang pada gilirannya dapat membantu dalam pengembangan strategi pencegahan dan manajemen yang lebih efektif untuk penyakit ini.`
Tinjauan Pustaka
Uji Normalitas Mardia
Mardia Test adalah uji statistik yang digunakan untuk menguji asumsi kenormalan dalam data multivariat. Uji ini dinamai dari nama ilmuwan statistik Sir Radha Kant Mardia. Mardia Test bertujuan untuk menentukan apakah data multivariat yang diamati dapat dianggap berasal dari distribusi multivariat normal. Selain itu, penolakan terhadap normalitas menggunakan uji Mardia menandai adanya kehadiran outlier (pencilan) multivariat. Oleh karena itu, uji ini dapat bermanfaat ganda yaitu untuk mengecek normalitas multivariat sekaligus mengecek kehadiran pencilan (Sutrisno dan Wulandari, 2018).
Uji Normalitas Mardia memiliki hipotesis sebagai berikut:
H0: Data berasal dari distribusi normal multivariat
H1: Data tidak berasal dari distribusi normal multivariat
Dengan rumus skewness: \[ b_{M, 1}=\frac{1}{n^2} \sum_{i=1}^n \sum_{j=1}^n\left\{\left(x_i-\bar{x}\right)^{\prime} S_d^{-1}\left(x_j-\bar{x}\right)\right\}^3 \]
dan rumus kurtosis: \[ b_{M, 2}=\frac{1}{n} \sum_{i=1}^n\left\{\left(x_i-\bar{x}\right)^{\prime} S_d^{-1}\left(x_i-\bar{x}\right)\right\}^2 . \]
Dimana:
• jika x adalah sampel acak dari distribusi normal Np (μ,∑) maka \[ z_{M, 1}=\frac{n}{6} b_{M, 1} \] berdistribusi X^2 secara asimtotik dengan derajat bebas: \[ f=p(p+1)(p+2) / 6 \]
• jika x adalah sampel acak dari distribusi normal N (0,1) maka \[ Z_{M, 2}=\sqrt{\frac{n}{8 p(p+2)}}\left(b_{M, 2}-p(p+1)\right) \] berdistribusi asimtotik N (0,1).
Uji Normalitas Henze Zirkler
Uji Henze-Zirkler adalah metode statistik yang digunakan untuk menguji apakah distribusi data yang diamati sesuai dengan distribusi normal multivariat atau tidak. Ini adalah salah satu uji normalitas multivariat yang berguna dalam mengevaluasi asumsi kenormalan dalam analisis statistik. Uji ini cocok untuk digunakan ketika terdapat data yang mungkin tidak memenuhi asumsi kenormalan dan ingin diuji normalitasnya tanpa harus mengasumsikan distribusi tertentu.
Uji Normalitas Henze Zirkler memiliki hipotesis sebagai berikut:
H0: Data berasal dari distribusi normal multivariat
H1: Data tidak berasal dari distribusi normal multivariat
Dimana statistik uji-nya: \[ H Z=\frac{1}{n^2} \sum_{i=1}^n \sum_{j=1}^n e^{-\frac{\beta^2}{2} D_{i j}}-2\left(1+\beta^2\right)^{-\frac{p}{2}} \frac{1}{n} \sum_{i=1}^n e^{-\frac{\beta^2}{2\left(1+\beta^2\right)} D_i}+\left(1+1 \beta^2\right)^{-\frac{p}{2}} \]
dengan: \[ \begin{aligned} \beta & =\frac{1}{\sqrt{2}}\left(\frac{n(2 p+1)}{4}\right)^{\frac{1}{p+4}} \\ D_{i j} & =\left(x_i-x_j\right)^T S^{-1}\left(x_i-x_j\right) \\ D_i & =\left(x_i-\bar{x}\right)^T S^{-1}\left(x_i-\bar{x}\right) \\ p & =\text { Jumlah variabel } \\ S^{-1} & =\text { Matriks Varians Kovarians } \end{aligned} \]
Uji Homogenitas BoxM
Menurut Rencher (2002), uji Homogenitas Box’s M merupakan perluasan dari uji Bartlett. Uji Box-M adalah uji statistik yang digunakan untuk menguji asumsi homogenitas kovariansi (homoskedastisitas) dalam analisis statistik. Asumsi homogenitas kovariansi menyiratkan bahwa variasi antara kelompok-kelompok yang dibandingkan dalam analisis statistik adalah sama atau seragam.
Uji Homogenitas BoxM memiliki hipotesis sebagai berikut:
H0: Terdapat homogenitas matriks kovarians antar kelompok
H1: Tidak terdapat homogenitas matriks kovarians antar kelompok
Dimana statistik uji-nya: \[ M=(n-k) \log |S|-\sum_{i=1}^k\left(n_i-1\right) \log \left|S_i\right| \]
dengan:
S = matriks kovarian
Uji T^2 Hotelling
Uji T^2 Hotelling adalah uji statistik yang digunakan dalam analisis multivariat untuk menguji perbedaan yang signifikan antara dua atau lebih kelompok dalam berbagai variabel dependen yang terkait. Menurut Nurhapilan dan Darwis (2023), T^2 Hotelling dilakukan untuk mendeteksi perubahan rata-rata proses menggunakan vektor rata-rata sampel dan matriks kovariansi. Uji ini dinamai dari ilmuwan statistik T.W. Hotelling, yang mengembangkan metodenya pada tahun 1930-an. Pada uji ini, pengujian vektor rata rata dilakukan secara serentak pada semua variabel. Dengan kata lain, Uji T^2-Hotelling adalah Uji-T namun pada kasus multivariabel.
Hipotesis bagi Uji T^2 Hotelling adalah sebagai berikut:
H0: Tidak terdapat perbedaan yang signifikan dalam vektor rata-rata antar kelompok
H1: Terdapat perbedaan yang signifikan dalam vektor rata-rata antar kelompok
Dimana fungsi Peluang Distribusi T^2-Hotelling didefinisikan berikut ini:
- 1 Populasi \[ T^2=n\left(\overline{\mathbf{X}}-\mu_0\right)^{\prime} \mathbf{S}^{-1}\left(\overline{\mathbf{X}}-\mu_0\right) \]
dengan:
Xbar = vector rata-rata sampel
S = Matriks varians kovarians sampel
n = banyaknya sampel
Sehingga sebaran T^2 Hotelling dapat diaproksimasi dengan formulasi sebagai berikut: \[ T^2 \sim \frac{(n-1) p}{(n-p)} F_{p, n-p} \] dengan:
n = banyaknya sampel
p = banyaknya variabel
- 2 Populasi
\[ T^2=\left[\overline{\mathbf{X}}_1-\overline{\mathbf{X}}_2-\left(\mu_1-\mu_2\right)\right]^{\prime}\left[\left(\frac{1}{n_1}+\frac{1}{n_2}\right) \mathbf{S}_{\text {pooled }}\right]^{-1}\left[\overline{\mathbf{X}}_1-\overline{\mathbf{X}}_2-\left(\mu_1-\mu_2\right)\right] \] dengan: \[ \mathbf{S}_{\text {pooled }}=\frac{n_1-1}{n_1+n_2-2} \mathbf{S}_1+\frac{n_2-1}{n_1+n_2-2} \mathbf{S}_2 \] Sehingga sebaran T^2 Hotelling dapat diaproksimasi dengan formulasi sebagai berikut: \[ T^2 \sim \frac{\left(n_1+n_2-2\right) p}{\left(n_1+n_2-p-1\right)} F_{p, n_1+n_2-p-1} \]
Tujuan Penelitian
Tujuan dari penelitian berjudul “Analisis T^2 Hotelling Pengaruh Glukosa, Insulin, Indeks Massa Tubuh, dan Usia Terhadap Penyakit Diabetes” adalah sebagai berikut:
- Menganalisis Pengaruh Variabel Independen:
Tujuan utama penelitian ini adalah untuk menganalisis dampak variabel independen, yaitu Glukosa, Insulin, Indeks Massa Tubuh (BMI), dan Usia, terhadap keberadaan penyakit diabetes. Dalam konteks analisis multivariat, akan dievaluasi apakah kombinasi variabel-variabel ini secara bersama-sama berperan dalam mempengaruhi risiko dan perkembangan diabetes.
- Mengidentifikasi Pola dan Hubungan:
Penelitian ini bertujuan untuk mengidentifikasi pola hubungan antara variabel independen dan variabel dependen, yaitu keberadaan penyakit diabetes. Akan dicaritau apakah ada asosiasi yang signifikan antara variabel Glukosa, Insulin, BMI, dan Usia dengan diagnosis diabetes.
Data
Dataset yang digunakan bertipe data kuantitatif dari website kaggle sebanyak 60 data mengenai Permasalahan Diabetes. Data tersebut memiliki variabel Glucose (Glukosa), Insuline (Insulin), BMI (Body Mass Index/Indeks Massa Tubuh), Age (Usia), dan Outcome (Hasil). Dalam analisis ini, empat variabel pertama digunakan sebagai variabel prediktor yang independen, sementara variabel kelima, yakni Outcome, menjadi variabel yang akan diprediksi atau variabel respon yang dependen.
SOURCE CODE
Library yang Dibutuhkan
Import Data
> #Input Data
> data_diabetes = read_excel("D:/Kuliah/Semester 5/Analisis Multivariat/Praktikum/UTP/diabetes.xlsx")
> data_diabetes
# A tibble: 60 × 5
Glucose Insulin BMI Age Outcome
<dbl> <dbl> <dbl> <dbl> <dbl>
1 165 255 47.9 26 1
2 100 110 46.8 31 1
3 81 48 46.7 42 1
4 81 57 46.3 32 1
5 154 140 46.1 27 1
6 119 170 45.3 26 1
7 117 53 45.2 24 1
8 95 105 44.6 22 1
9 114 285 44.2 27 1
10 94 115 43.5 21 1
# ℹ 50 more rows
>
> #Split Data
> split <- split(data_diabetes[,-5], data_diabetes$`Outcome`)
> negatif<-split[['1']]
> negatif
# A tibble: 30 × 4
Glucose Insulin BMI Age
<dbl> <dbl> <dbl> <dbl>
1 165 255 47.9 26
2 100 110 46.8 31
3 81 48 46.7 42
4 81 57 46.3 32
5 154 140 46.1 27
6 119 170 45.3 26
7 117 53 45.2 24
8 95 105 44.6 22
9 114 285 44.2 27
10 94 115 43.5 21
# ℹ 20 more rows
> positif<-split[['2']]
> positif
# A tibble: 30 × 4
Glucose Insulin BMI Age
<dbl> <dbl> <dbl> <dbl>
1 122 220 49.7 31
2 134 370 46.2 46
3 144 180 46.1 46
4 118 230 45.8 31
5 119 220 45.6 29
6 102 120 45.5 23
7 174 120 44.5 24
8 128 182 43.3 31
9 137 168 43.1 33
10 151 210 42.9 36
# ℹ 20 more rowsPlot
Uji Asumsi
Uji Normalitas Mardia
> norm.test = mvn(data = data_diabetes, subset = "Outcome", mvnTest = "mardia", multivariatePlot="qq")> norm.test$multivariateNormality
$`1`
Test Statistic p value Result
1 Mardia Skewness 29.7191752150575 0.074533613792581 YES
2 Mardia Kurtosis 0.0043698220580809 0.996513397542718 YES
3 MVN <NA> <NA> YES
$`2`
Test Statistic p value Result
1 Mardia Skewness 12.3984230052036 0.901680348701506 YES
2 Mardia Kurtosis -1.00052752522285 0.317055283878468 YES
3 MVN <NA> <NA> YESUji Normalitas Henze Zirkler
Uji T^2 Hotelling
> mod1<-hotelling.test(.~`Outcome`, data = data_diabetes)
> mod1
Test stat: 27.313
Numerator df: 4
Denominator df: 55
P-value: 0.0002414
>
> G<-c(rep(1,30),rep(2,30))
> G
[1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2
[39] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
> mod2<-TwoSamplesHT2(data = data_diabetes[,c(-5)],group = G,
+ alpha = 0.05, Homogenity = TRUE)
> summary(mod2)
Two Independent Samples Hotelling T Square Test
Hotelling T Sqaure Statistic = 27.31287
F value = 6.475 , df1 = 4 , df2 = 55 , p-value: 0.000241
Descriptive Statistics (The First Group)
Glucose Insulin BMI Age
Means 112.33333 134.96667 42.570000 27.666667
Sd 23.72883 75.02987 2.636893 5.755557
Descriptive Statistics (The Second Group)
Glucose Insulin BMI Age
Means 139.96667 192.93333 41.476667 33.600000
Sd 28.67834 76.03853 3.314304 8.830199
Detection important variable(s)
Lower Upper Important Variables?
Glucose -49.876481 -5.3901857 *TRUE*
Insulin -121.801917 5.8685833 FALSE
BMI -1.437579 3.6242453 FALSE
Age -12.231977 0.3653104 FALSE
>
> with(data_diabetes,
+ HotellingsT2Test(cbind(`Glucose`,`Insulin`,`BMI`,`Age`)~`Outcome`))
Hotelling's two sample T2-test
data: cbind(Glucose, Insulin, BMI, Age) by Outcome
T.2 = 6.475, df1 = 4, df2 = 55, p-value = 0.0002414
alternative hypothesis: true location difference is not equal to c(0,0,0,0)HASIL DAN PEMBAHASAN
Statistika Deskriptif
> summary(data_diabetes[,-5])
Glucose Insulin BMI Age
Min. : 79.0 Min. : 36.0 Min. :37.10 Min. :21.00
1st Qu.:101.5 1st Qu.:108.8 1st Qu.:39.48 1st Qu.:24.00
Median :121.0 Median :146.5 Median :41.65 Median :28.50
Mean :126.2 Mean :163.9 Mean :42.02 Mean :30.63
3rd Qu.:146.5 3rd Qu.:220.0 3rd Qu.:44.27 3rd Qu.:36.50
Max. :198.0 Max. :370.0 Max. :49.70 Max. :48.00 Hasil Uji
Uji Normalitas Mardia
H0: Data berasal dari distribusi normal multivariat.
H1: Data tidak berasal dari distribusi normal multivariat.
Statistik Uji:
- Berdasarkan Mardia Skewness
P-Value Negatif Diabetes = 0.0745
P-Value Positif Diabetes = 0.9017
- Berdasarkan Mardia Kurtosis
P-Value Negatif Diabetes = 0.9965
P-Value Positif Diabetes = 0.3171
Keputusan:
- Berdasarkan Mardia Kurtosis
P-Value Negatif Diabetes > \(\alpha=0.05\) maka terima H0
P-Value Positif Diabetes > \(\alpha=0.05\) maka terima H0
- Berdasarkan Mardia Skewness
P-Value Negatif Diabetes > \(\alpha=0.05\) maka terima H0
P-Value Positif Diabetes > \(\alpha=0.05\) maka terima H0
Kesimpulan:
Data berasal dari distribusi multivariat normal.
Uji Normalitas Henze Zirkler
H0: Data berasal dari distribusi normal multivariat.
H1: Data tidak berasal dari distribusi normal multivariat.
Statistik Uji:
P-Value Negatif Diabetes = 0.1169
P-Value Positif Diabetes = 0.6171
Keputusan:
P-Value Negatif Diabetes > \(\alpha=0.05\) maka terima H0
P-Value Positif Diabetes > \(\alpha=0.05\) maka terima H0
Kesimpulan:
Data berasal dari distribusi normal multivariat.
Uji Homogenitas BoxM
H0: Terdapat homogenitas matriks kovarians antara kelompok indikasi positif dan indikasi negatif terkena penyakit diabetes.
H1: Tidak terdapat homogenitas matriks kovarians antara kelompok indikasi positif dan indikasi negatif terkena penyakit diabetes.
Statistik Uji:
P-Value = 0.111
Keputusan:
P-Value > \(\alpha=0.05\) maka terima H0
Kesimpulan:
Terdapat homogenitas matriks kovarians antara kelompok indikasi positif dan indikasi negatif terkena penyakit diabetes.
Uji T^2 Hotelling
H0: Tidak terdapat perbedaan yang signifikan dalam vektor rata-rata antara kelompok indikasi positif dan indikasi negatif terkena penyakit diabetes.
H1: Terdapat perbedaan yang signifikan dalam vektor rata-rata antara kelompok indikasi positif dan indikasi negatif terkena penyakit diabetes.
Statistik Uji:
P-Value = 0.000241
Keputusan:
P-Value < \(\alpha=0.05\) maka tolak H0
Kesimpulan:
Terdapat perbedaan yang signifikan dalam vektor rata-rata antara kelompok indikasi positif dan indikasi negatif terkena penyakit diabetes.
PENUTUP
Kesimpulan
Berdasarkan hasil Uji T^2 Hotelling yang telah dilakukan, dapat disimpulkan bahwa setidaknya satu dari variabel Glukosa, Insulin, Indeks Massa Tubuh, atau Usia memiliki dampak yang signifikan dalam membedakan antara kelompok indikasi positif dan indikasi negatif terkena penyakit diabetes.
Saran
Saran yang dapat diberikan bagi penelitian selanjutnya yang menggunakan topik serupa adalah sebagai berikut:
- Perluas Sampel dan Data:
Sampel penelitian yang cukup besar dan mencakup berbagai kelompok usia, jenis kelamin, dan latar belakang etnis akan membantu dalam menggeneralisasi hasil penelitian ke populasi yang lebih luas.
- Analisis Variabel Lain:
Selain variabel yang sudah ditelaah (Glukosa, Insulin, BMI, dan Usia), dapat dipertimbangkan juga faktor-faktor lain yang dapat berperan dalam risiko diabetes, seperti riwayat keluarga, pola makan, tingkat aktivitas fisik, dan faktor-faktor lingkungan.
Daftar Pustaka
Sutrisno, S., & Wulandari, D. (2018). Multivariate analysis of variance (MANOVA) untuk memperkaya hasil penelitian pendidikan. AKSIOMA: Jurnal Matematika Dan Pendidikan Matematika, 9(1), 37-53.
Rencher, A. C. (2002). Methods of Multivariate Analysis. Kanada: John Wiley and Sons, Inc.
Nurhapilah, H., & Darwis, S. (2023, January). Multivariate Statistical Process Control untuk Mendeteksi Kerusakan Bearing. In Bandung Conference Series: Statistics (Vol. 3, No. 1, pp. 90-99).